Selon une étude de l'université de Cornell, 33 % des erreurs dans les pipelines de data sont dues à des types de data incorrects. Si vous ne savez pas comment construire un pipeline de data, même des problèmes mineurs peuvent entraîner la rupture de vos pipelines.
Ce guide détaille les 6 composants essentiels de la construction d'un pipeline de data, de l'ingestion de la source à la surveillance, afin que vous puissiez concevoir des systèmes évolutifs et fiables.
Comment construire un pipeline de data
Cette section se concentre sur les 6 étapes de la construction d'un pipeline de data, sur la base de ses composants de base correspondants.

1. Identifier et organiser vos sources de data
Pour travailler avec des data, il faut d'abord savoir d'où elles viennent.
Tout système ou logiciel qui génère ou collecte des data pour votre organisation est une source de data. Assurez-vous de connaître toutes vos sources, qu'il s'agisse de plate-formes internes de travail et de communication ou de logiciels destinés aux clients.
Voici quelques catégories et exemples courants de sources de data :
Les sources de data peuvent généralement être divisées en trois types en fonction de leur origine :
- Données analytiques : informations sur le comportement des utilisateurs ou du marché.
- Données tierces : data utiles provenant de l'extérieur de votre entreprise.
- Data transactionnelles : data individuelles sur les ventes, les paiements ou les produits.
La plupart des entreprises disposent de centaines, voire de milliers, de sources de data. Un pipeline de data flexible et robuste n'est possible que si ces sources sont correctement gérées et collectées.
Vous trouverez ci-dessous des instructions que vous pouvez mettre en œuvre pour disposer d'un inventaire de data propre et détaillé :
2. Collecte de vos données
Après avoir dressé l'inventaire de vos sources de data, l'étape suivante consiste à extraire les data de ces sources pour les intégrer à votre pipeline de data. Ce processus est appelé collecte de data ou ingestion de data.
Le processus d'ingestion gère également la manière dont les sources de data sont combinées et préparées pour le traitement.
En fonction de votre plate-forme, vous pouvez construire un pipeline qui prend en charge les pipelines de lot et en continu, voire les deux, si vos besoins analytiques et commerciaux l'exigent. Voici quelques exemples pour vous aider à comprendre les différences :
- Ingestion par lots : un stockage en ligne qui travaille chaque nuit pour traiter toutes les commandes des dernières 24 heures. Il établit ensuite des rapports sur les ventes et les stocks pour le jour ouvrable suivant.
- Ingestion en continu : une application de covoiturage transmet en temps réel les data GPS du client et du conducteur afin de calculer l'heure d'arrivée estimée.
Examinons les autres étapes à suivre pour une bonne ingestion des data :
3. Traitement de vos data
Une fois que les data sont dans votre pipeline, vous devez les traiter et les transformer pour les rendre plus utiles aux analystes. Cette étape, appelée intégration des data, permet de s'assurer que les data sont complètes, exactes et prêtes à être utilisées.
Il existe deux approches principales pour l'intégration des data : l’extraction, la transformation et le chargement (ETL) et l’extraction, le chargement et la transformation (ELT).
Le choix entre ETL et ELT détermine l'architecture de votre pipeline de data (nous y reviendrons dans une section ultérieure).
Le choix entre ETL et ELT n'est pas la seule étape de l'intégration des data. Après avoir choisi votre architecture, vous devez encore valider, nettoyer, normaliser et transformer vos data.
Vous trouverez ci-dessous plus de détails sur ces points.
4. Choix d'une destination
Une destination est un emplacement centralisé qui stocke toutes les data traitées. Cela affecte tout, de la compatibilité aux coûts et à la récupération des données. Le choix d'une destination est donc un élément particulièrement important du processus de mise en place d'un pipeline.
Bien qu'il soit difficile de choisir une destination spécifique pour les data, la première décision à prendre est de savoir s'il faut utiliser un data warehouse, data lake ou un data lakehouse.
Gardez à l'esprit qu'il n'est pas nécessaire de choisir entre ces trois options. Si vous pensez que les data qui passent par votre pipeline sont plus complexes qu'un seul de ces types de destination, vous pouvez diviser vos data en plusieurs flux. Chaque flux se dirige vers le type de destination que vous souhaitez.
Les data peuvent également être transmises directement à une API, ce qui peut s'avérer utile dans certains cas, comme la détection des fraudes, les notifications push ou la personnalisation en direct. Cependant, il est presque toujours préférable de stocker les data dans une destination persistante avant de les envoyer ailleurs.
5. Processus
Le flux de travail définit l'ordre d'exécution des tâches et la manière dont elles dépendent les unes des autres.
Voici un exemple de flux de travail pour un ELT :

Les flux de travail englobent souvent des dépendances à la fois techniques et commerciales.
- Dépendance technique : un processus ou une tâche technique qui doit être effectué avant que l'étape suivante du pipeline ne puisse commencer, comme la vérification des data avant de les modifier.
- Dépendance commerciale : dépendance induite par des règles ou des processus commerciaux, comme la vérification des data de vente avec les dossiers financiers avant de rédiger des rapports.
Les développeurs peuvent faire correspondre ces dépendances techniques ou commerciales en mettant en place des flux de travail correspondants.
6. Contrôler et tester votre pipeline
Les pipelines de data étant des systèmes complexes composés de multiples éléments, ils doivent être surveillés pour garantir des performances optimales et une correction rapide des erreurs.
Voici quelques-uns des éléments indispensables à une surveillance efficace :
- Contrôles de santé du système : surveiller les problèmes de performance tels que l'encombrement du réseau, les sources hors ligne ou les requêtes lentes.
- Contrôles de la qualité des data : détection des anomalies dans les data, telles que les valeurs manquantes, les modifications de schéma ou les enregistrements en double.
- Alertes et connexions : notifier les équipes d'ingénieurs de tout problème en temps réel tout en sauvegardant les journaux pour le dépannage.
Grâce aux mesures de protection mises en place, les équipes d'ingénieurs peuvent résoudre les problèmes dès qu'ils surviennent. Une bonne surveillance permet non seulement d'éviter la propagation des erreurs, mais aussi de garantir la précision et la fiabilité des analyses et des décisions commerciales de votre organisation.
Architecture du data pipeline
L'architecture de votre pipeline de data détermine la manière dont les processus mentionnés dans la section précédente interagissent les uns avec les autres. Comme nous l'avons vu, l'un des facteurs les plus importants qui influencent l'architecture de votre pipeline de data est le choix entre l'ETL et l'ELT.
Voici un aperçu des différences :
ETL
Si vous choisissez l'ETL, vos data seront transformées avant d'être chargées dans le stockage.
Voici une illustration qui permet de mieux comprendre la structure d'un pipeline ETL :

Les points forts de l'ETL incluent :
- Analyse plus rapide : comme les data sont transformées et structurées avant d'être chargées, les requêtes de data sont traitées plus efficacement, ce qui permet une analyse plus rapide.
- Conformité : les organisations peuvent se conformer aux réglementations en matière de confidentialité en masquant et en cryptant les data avant qu'elles ne soient chargées dans le système de stockage.
- Environnements sur le cloud et locaux : l'ETL peut être mis en œuvre dans des pipelines de data qui s'appuient sur des systèmes sur le cloud ou locaux.
Bien qu'il présente des avantages, la plupart des entreprises se détournent de l'ETL.
La mise à l'échelle est difficile avec l'ETL à mesure que les sources de data augmentent, il est donc difficile de le recommander aux personnes disposant de gros volumes de data.
Il est idéal pour les petits ensembles de data nécessitant des transformations complexes ou des analyses approfondies.
ELT
Comme vous l'avez deviné, le processus ELT implique que les data soient chargées avant d'être transformées.
Voici un diagramme qui illustre mieux la différence entre ELT et ETL :
.png)
La plupart des entreprises préfèrent l'ELT pour les raisons suivantes :
- Automatisation : l'ELT permet aux équipes de normaliser les modèles de data, ce qui favorise l'automatisation et l'externalisation.
- Chargement plus rapide : ce cadre charge les data avant la transformation, ce qui permet un accès immédiat à l'information.
- Format de data flexible : l'ETL prend en charge les data structurées et non structurées, et peut donc ingérer des data dans n'importe quel format.
- Haute disponibilité des data : si vous utilisez des outils qui ne nécessitent pas de data structurées, ils peuvent instantanément collecter et agir sur les data du data lake.
- Mise en œuvre facile : l'ELT peut fonctionner avec des services sur le cloud ou des ressources de warehouse existants, ce qui facilite la mise en œuvre et permet d'économiser de l'argent.
- Évolutivité : comme la plupart des pipelines ELT sont basés sur le cloud, les entreprises peuvent facilement faire évoluer leurs systèmes de gestion des data à l'aide de solutions logicielles.
L'ELT présente l'inconvénient d'être plus lent dans l'analyse de grands volumes de data, car les transformations sont appliquées après le chargement des data.
Cependant, les solutions ETL entièrement gérées et riches en fonctionnalités, telles que Fivetran, permettent d'accélérer les transformations et l'ensemble du processus de pipeline en les automatisant complètement.
Considérations techniques pour l'architecture du pipeline de data
Cette section aborde les cinq facteurs essentiels qui influencent vos pipelines de data.
Automatisation
L'écriture manuelle de scripts peut consommer beaucoup de ressources de l'entreprise et d'efforts d'ingénierie. Les pipelines automatisés éliminent ce fardeau en déplaçant continuellement les data de la source à la destination selon un calendrier déterminé.
Les pipelines automatisés gèrent les flux de travail par nature. Voici un aperçu de la façon dont ils s'appliquent aux autres grandes étapes de la création d'un pipeline de data :
- Extraction et chargement : extraire les data des sources et les charger dans l'entrepôt sans intervention manuelle.
- Transformations : application de règles pour nettoyer, enrichir et normaliser les data afin qu'elles soient immédiatement utilisables pour l'analyse.
- Surveillance et alertes : signalez instantanément les erreurs ou les anomalies afin que les ingénieurs puissent agir avant qu'elles n'affectent les analyses en aval.
Grâce à l'automatisation, les équipes peuvent se concentrer sur l'amélioration des pipelines de data au lieu de se contenter de les entretenir. Cela permet à votre organisation d'économiser sur les coûts liés aux talents d'ingénierie et contribue à l'évolution de votre entreprise en favorisant la croissance.
Performance
Un pipeline de data ne remplit pas son rôle s'il interfère avec les processus opérationnels de base ou si les data qu'il présente sont trop périmées pour être utiles.
Les organisations utilisent des technologies telles que change data capture (CDC) pour s'assurer que les data pertinentes sont fournies à temps, améliorant ainsi les performances. Il existe plusieurs techniques qui permettent d'améliorer les performances, telles que :
- Parallélisation et distribution : exécution de tâches en parallèle sur plusieurs nœuds pour traiter des volumes de data plus importants.
- Mise en mémoire tampon et cloisonnement : isolement des opérations sensibles ou gourmandes en ressources afin d'éviter les points de blocage.
- Évolutivité : conception d'une architecture capable de s'adapter à l'augmentation de la demande de data.
Veillez à ce que les pipelines que vous mettez en place soient suffisamment rapides et réactifs pour être un outil précieux plutôt qu'une corvée en matière de maintenance.
Fiabilité
Un pipeline de data peu fiable entrave l'analyse et augmente les coûts de l'entreprise. Plusieurs problèmes sont à l'origine de ce manque de fiabilité :
Un pipeline de data automatisé et entièrement géré comme Fivetran élimine ces problèmes en automatisant les synchronisations de data, en s'adaptant aux changements de schémas et en garantissant des pipelines fiables et nécessitant peu de maintenance.
Évolutivité
Les pipelines de data évolutifs sont essentiels à la croissance des entreprises. Au fur et à mesure que votre entreprise se développe, vous voulez des pipelines capables de gérer davantage de sources de data, des volumes de data plus importants et des exigences de performance complexes.
Attendre des ingénieurs qu'ils construisent et maintiennent constamment des connecteurs pour chaque nouvelle source de data prend du temps et est une source de frustration. Les informations arrivent aussi plus lentement. Pour les entreprises en pleine croissance, il est préférable de concevoir un système qui contrôle de manière programmatique votre pipeline de data.
Sécurité
La sécurité et la conformité sont essentielles au stockage des data sensibles des clients et des entreprises. Les organisations doivent se conformer aux normes réglementaires pour s'assurer qu'aucune information personnelle n'est stockée ou exposée dans leurs pipelines de data.
De nombreuses organisations utilisent l'ETL à cette fin, ce qui leur permet de crypter les data avant de les stocker. Toutefois, un pipeline ELT avec isolation des processus et fonctionnalités de sécurité robustes, telles que le cryptage des data en transit et au repos et le blocage ou le hachage des data sensibles avant le stockage, peut garantir la conformité tout en offrant des performances supérieures.
Acheter au lieu de construire
La conception, l'élaboration et la mise en œuvre d'un pipeline de data est un processus complexe, laborieux et coûteux. Les ingénieurs doivent élaborer le code source de chaque composant, puis concevoir des relations entre eux sans erreurs. En outre, une simple modification peut nécessiter la reconstruction de l'ensemble du pipeline.
C'est pourquoi la plupart des organisations choisissent d'acheter plutôt que de construire.
[CTA_MODULE]


