1- Descriptif du poste
Dans le cadre du lancement d’un programme Data, la Direction Informatique Qualité recherche un Data Engineer LookML pour accompagner cette transformation.
Ce programme s’articule autour de la notion de Data Product : 6 Data Products sont à mettre en place sur le périmètre de la Qualité.
Un Data Product correspond à l’identification et la gestion de données sur un périmètre fonctionnel ainsi qu’à leur exposition pour différentes utilisations. Les données du domaine fonctionnel d’un DP sont exploitées dans Big Query – GCP et sont ensuite exposées via différentes solutions techniques (BQ, Looker, Elastic, Evénement temps réel….).
En particulier, ce projet a pour ambition de mettre en place pour les différents métiers de la Qualité du Self Service BI. La solution retenue est Looker de Google Cloud.
L’objectif est ainsi de réaliser les ingestions, transformations de données dans les différents data product pour qu’ils soient exhaustifs sur leur périmètre fonctionnel.
Des problématiques d’alimentations en temps réel peuvent être aussi nécessaires à un data product.
Les données brutes sont stockées dans des Raw zones du datalake du client (alimentations réalisées par d’autres équipes).
Les données sont préparées dans des Gold zones qui s’alimentent de données des raw zones.
2- Savoir-faire
- Maitrise de Python
- Pratique confirmée de Cloud GCP : BigQuery, Airflow, Dataproc, DataFlow.
- La connaissance de Looker (ou équivalent) est un plus.
- GitLabEE
- L’expérience de modélisation de données, et de stratégie de tests.
- Projet en méthode Agile
- Anglais (Documentation écrite)
3- Livrables
En phase de conception
- Conception de chaînes d’ingestion de données
- Conception de chaînes de préparation de données
- Conception de produit de données
- Participation à la selection des services / solutions à utiliser en fonction des usages
- Analyse de données pour concevoir les scénarios de traitements
En phase de réalisation
- Mise en œuvre de chaînes d’ingestion de données
- Mise en œuvre de chaînes de préparation de données
- Mise en œuvre de produits de données
- Exposition de produits de données
- Mise en oeuvre en mode distribué des traitements
- Ordonnancement des traitements
- Tests et débogage des traitement distribués et algorithmes
- Identification et catalogage des éléments réutilisables
- Contribution et avis sur les problèmes de traitements data, y compris de performance
- Documentation
En phase d’intégration, déploiement et vie opérationnelle
- Optimisation de performance et de consommation de ressource cloud
- Participation à la résolution de problèmes (suivi de jobs, analyse de logs, analyse de cas de données,…)