DATA ENGINEER (PROJECT PRODUCT & PROCESS, FINANCE)

1. Objet de la prestation :

Les métiers de la Qualité réalisent des analyses et études sur différentes données pour améliorer la qualité des véhicules vendus.
L’équipe « Supplier Quality Platform » met en oeuvre une plateforme data et API permettant de :
• préparer des données dans le datalake du Client (enrichissements de données, catégorisation des données, indexations), à partir de sources de données mises à disposition par d’autres entités, pour des besoins de la Qualité et Satisfaction Client ;
• mettre à disposition ces données via des APIs pour les applications Qualité-Incidentologie exploitant ces données
Le datalake, aujourd’hui hébergé en interne, est en cours de migration vers le cloud (GCP).
Les données sont stockées aujourd’hui sur Hive, demain sur Big Query. Demain, une Web app permettra de partager des dashboard qualité consommant ces quantités de données qualité phénoménales.

L’équipe est constituée actuellement d’une équipe en France : un Product Leader, un Business Analyst, d’1 dev BI et d’un centre de développement Java en off shore. Les interactions avec des équipes connexes sont nombreuses.

La prestation consiste à assurer des activités de Data engineering. (Voir livrables plus bas)

Architecture fonctionnelle du projet :
Les données brutes sont stockées dans des Raw zones du datalake du Client (alimentations réalisées par d’autres équipes).
Les données sont préparées dans la Gold zone Supplier Quality Platform qui s’alimente de données des raw zones.
Des API métiers (indicateurs calculés, données sous-jacentes) exposeront les informations.

Une expertise est attendue sur les tâches suivantes :

• En phase de conception :
o Conception de chaînes d’ingestion de données
o Conception de chaînes de préparation de données
o Conception de produit de données
o Participation à la sélection des services / solutions à utiliser en fonction des usages
o Participation à l’élaboration de boîte à outils data (dont potentiellement du ML de base)
o Analyse de données pour concevoir les scénarios de traitements

• En phase de réalisation :
o Mise en œuvre de chaînes d’ingestion de données
o Mise en œuvre de chaînes de préparation de données
o Mise en œuvre de produits de données
o Exposition de produits de données
o Paramétrage de bases NOSQL
o Mise en œuvre en mode distribué des traitements
o Ordonnancement des traitements
o Tests et débogage des traitement distribués et algorithmes
o Identification et catalogage des éléments réutilisables
o Contribution et avis sur les problèmes de traitements data, y compris de performance
o Documentation

• En phase d’intégration, déploiement et vie opérationnelle :
o Optimisation de performance et de consommation de ressource cloud
o Participation à la résolution de problèmes (suivi de jobs, analyse de logs, analyse de cas de données,…)

2. Livrables :
– Document de Modélisation et structuration des données.
– Document de définition des règles de gestion
– Synthèses, tableaux de bord d’analyse des données, reportings
– Mise en place des chaînes de traitement de la data, de l’ingestion à l’exposition, sur la Plateforme GCP selon les préconisations du Client
– Mise en place des dashboards de monitoring de disponibilité et des rapports d’usage et de performance.

3. Savoir faire / domaines d’expertise du Prestataire :

La société est consultée compte tenu de sa capacité à proposer des prestations compétentes dans le Data engineering.

Le prestataire devra avoir :
• Les connaissances techniques requises :
o Maitrise de Spark, Scala, Python
o Pratique confirmée de Cloud GCP : BigQuery, CloudStorage, CloudComposer / Airflow, Dataproc, DataFlow.
o La connaissance de Hive, HDFS, Oozie est un plus.
o Pratique confirmée d’ Elastic Search
o GitLabEE
• L’expérience de modélisation de données, et de stratégie de tests.
• Projet en méthode Agile
• Anglais (documentation écrite)