RIDCHA DATA est à la recherche d’un Data Engineering GCP – Confirmé pour accompagner son client acteur majeur dans le secteur industrie.
1- Description de la prestation
Le projet X a pour objectif d’optimiser la politique prix de l’après-vente sur le référentiel des pièces.
L’objectif est d’accompagner sur la création d’un flux de données par connecteur qui alimentera différend modèles de machine learning et différentes API. Grosse expertise GCP / SQL
Responsabilités principales :
• Participation aux phases de framing, MVP et release des produits, services et APIs orientés data ;
• Codage et implémentation des chaines de traitements des données scalables et performantes en batch et temps-réel ;
• Compétence dans l’architecture de projet Data (modèles de bases de données).
• Forte appétence à la structuration de besoins métier en bases de données techniques
• Garantie des best practices en développement Java/Scala/Spark et/ou Python ;
• Fourniture d’expertise sur les solutions NOSQL de stockage de données ;
• Génération des rapports sur la qualité des données via les outils tels quels Zeppelin et Jupyter pendant les phases d’exploration et d’analyse ;
• Contribution à la valeur métier des produits orientés Data s’appuyant sur le Datalake on-premise ou sur les environnements cloud, en mettant en place des chaînes bout en bout de traitement de la data, de l’ingestion à l’exposition d’APIs et à la visualisation des données et des solutions ML/DS ;
• En charge de la qualité des données transformées dans le Datalake, du bon fonctionnement des chaînes de traitement et de l’optimisation de l’utilisation des ressources des clusters on-premise et cloud ;
• Contribution au référencement des données ingérées et transformées dans le Datalake ;
• Connaissance et application de la méthodologie Agile : Kanban ;
• En capacité de proposer des standards d’architecture et de développement ;
• Monitorer et déboguer les fonctions et chaines de traitements batch et temps-réel.
2- Livrables
• Liste des fonctionnalités GCP à utiliser
• Méthode d’implémentation de pipeline data
• Implémentation de connecteurs
• Documentation (architecture, fonctionnelle, technique)
• Méthodologie de développement (type pip8 ou autre)
Lors de la Release 2, le data engineer sera chargé de la mise en place es pipelines correspondants.
3- Savoir-faire
• Technologies: Spark, Scala, Python, Java, Airflow, SQL, Google Cloud Platform (BigQuery, Cloud Storage, PubSub, Beam, Dataflow, Cloud ML, TensorFlow, Kubernetes), Git, Docker, JSON, Bash, Spotfire.
• Expertise en développement Spark, Scala, Python et requêtage SQL sur des gros volumes de données ;
• Appétence pour la data : validation, transformation, analyse, valorisation ;
• Expertise de développement et orchestration de chaines ETL complexes via Airflow ou équivalent ;
• Maîtrise d’administration et configuration de systèmes ;
• Pratique de la méthodologie agile ;
• Utilisation préalable des services cloud (préférablement GCP) ;
• Maîtrise de l’anglais technique écrit et oral ;