RIDCHA DATA est à la recherche d’un Data Engineering GCP – Confirmé pour accompagner son client acteur majeur dans le secteur industrie.
1- Contexte
Le projet X souhaite répondre à cette problématique en industrialisant le process Machine Learning sur la base des données de mesures issues du système de supervision. Les flux de données nécessitent la mise en place de traitement successifs pour formater les données afin d’exploiter le modèle de prédiction issu du Machine Learning.
2- Descriptif du poste
Services
• Assurer les activités de développement et la maintenance des traitements de données nécessaires au projet X.
Architecture fonctionnelle du projet :
En amont de l’infrastructure Machine Learning du projet, les données brutes sont captées pour les outils standard du DATALAKE du client en transit par différentes ZONES :
– Zone 1
– Zone 2
– Zone 3
• Les données en zone 1 vont alimenter la zone 2 qui sera la source pour la zone 3 dans laquelle les traitements de machine learning avec les pipelines d’entraînement et d’inférence seront présentes.
• Les utilisateurs finaux accèdent aux données résultats par l’outil SPOTFIRE via des reports spécifiques développés par les métiers.
• Les systèmes des ZONES sont hébergés sur le cloud GCP.
• Les données sont stockées sur des bases BigQuery. Les traitements sont développés python ou scala, et ordonnancés par GCP cloud composer via l’outil standard interne : DATALAKE LOADER.
Une expertise est attendue sur les tâches suivantes :
• Analyse de besoins et de données
• Conception technique et développement des traitements (parser XML spécifique)
• La livraison des features, leurs intégrations et déploiements
• Les tests automatisés
• Optimisation de performance et de consommation de ressource cloud
• Participation à la résolution de problèmes (suivi de jobs, analyse de logs, analyse de cas de données)
• Apport d’expertise aux différentes cérémonies Scrum de l’équipe
3- Livrables
– Document de conception technique et code (structuration des données, règles de gestion des traitements de données, chaine d’intégration, ordonnancement des traitements),
– Mise en place des chaînes de traitement des données selon les préconisations du client,
4- Savoir faire
Le consultant devra avoir :
• Maitrise de Python, SQL, Scala
• Pratique confirmée de Cloud GCP: BigQuery, CloudStorage, CloudComposer / Airflow, DataFlow, Dataproc, GitLabEE
• L’expérience de modélisation de données, et de stratégie de tests.
• Une connaissance de Terraform est un plus.
• Projet en méthode Agile
• Anglais (Documentation écrite + Partage avec des équipes internationales)