Comment construire un pipeline de data : un guide pas à pas

Un pipeline de data traduit les données brutes en informations fiables. Ce guide détaille chaque étape de la mise en place d'un système fiable et sécurisé.
September 12, 2025

Selon une étude de l'université de Cornell, 33 % des erreurs dans les pipelines de data sont dues à des types de data incorrects. Si vous ne savez pas comment construire un pipeline de data, même des problèmes mineurs peuvent entraîner la rupture de vos pipelines.

Ce guide détaille les 6 composants essentiels de la construction d'un pipeline de data, de l'ingestion de la source à la surveillance, afin que vous puissiez concevoir des systèmes évolutifs et fiables.

Besoin d'une remise à niveau pour rafraîchir les bases ? Consulter d'abord notre explication Qu'est-ce qu'un pipeline de data avant de vous lancer dans la construction.

Comment construire un pipeline de data

Cette section se concentre sur les 6 étapes de la construction d'un pipeline de data, sur la base de ses composants de base correspondants.

Flux de travail stylisé d'un pipeline de data avec sources, collecte, traitement et destinations.

1. Identifier et organiser vos sources de data

Pour travailler avec des data, il faut d'abord savoir d'où elles viennent.

Tout système ou logiciel qui génère ou collecte des data pour votre organisation est une source de data. Assurez-vous de connaître toutes vos sources, qu'il s'agisse de plate-formes internes de travail et de communication ou de logiciels destinés aux clients.

Voici quelques catégories et exemples courants de sources de data :

Catégorie

Sources de data communes

Outils internes

Messages Slack, tickets Jira, enregistrements CRM Salesforce, data marketing HubSpot

Applications destinées aux clients

Transactions Shopify, journaux de paiement Stripe, tickets de support Zendesk

Systèmes opérationnels

Data de capteurs IoT provenant d'équipements d'usine, data GPS provenant de camions de livraison

Bases de données

MySQL pour les dossiers des clients, MongoDB pour les catalogues de produits

Services sur le cloud

Fichiers journaux AWS S3, rapports Google Analytics, data warehouse Snowflake

Les sources de data peuvent généralement être divisées en trois types en fonction de leur origine :

  • Données analytiques : informations sur le comportement des utilisateurs ou du marché.
  • Données tierces : data utiles provenant de l'extérieur de votre entreprise.
  • Data transactionnelles : data individuelles sur les ventes, les paiements ou les produits.

La plupart des entreprises disposent de centaines, voire de milliers, de sources de data. Un pipeline de data flexible et robuste n'est possible que si ces sources sont correctement gérées et collectées.

Vous trouverez ci-dessous des instructions que vous pouvez mettre en œuvre pour disposer d'un inventaire de data propre et détaillé :

Étape

Détails

Exemples/outils

Sources d'inventaire

Dresser la liste de tous les outils, plates-formes et systèmes générant des data. Suivre les propriétaires, les types de data et la fréquence de mise à jour.

Slack, Shopify, Salesforce, MySQL

Classer les data

Regrouper les sources par type : analytique, transactionnelle ou tiers.

Google Analytics → Analytique ; Stripe → Transactionnel ; API sociaux → Tiers

Cartographier les flux de data

Visualiser comment les data circulent entre les systèmes et où elles sont stockées.

Shopify → Snowflake → Looker

Évaluer la qualité

Vérifier les API, les options d'exportation, la fréquence des mises à jour et l'intégrité des data.

Clés API pour Stripe ; vérifications de l'horodatage pour MySQL

Construire un catalogue

Centraliser la documentation pour référence facile et la collaboration.

Airtable, Notion, Alation, Amundsen

2. Collecte de vos données

Après avoir dressé l'inventaire de vos sources de data, l'étape suivante consiste à extraire les data de ces sources pour les intégrer à votre pipeline de data. Ce processus est appelé collecte de data ou ingestion de data.

Le processus d'ingestion gère également la manière dont les sources de data sont combinées et préparées pour le traitement.

En fonction de votre plate-forme, vous pouvez construire un pipeline qui prend en charge les pipelines de lot et en continu, voire les deux, si vos besoins analytiques et commerciaux l'exigent. Voici quelques exemples pour vous aider à comprendre les différences :

  • Ingestion par lots : un stockage en ligne qui travaille chaque nuit pour traiter toutes les commandes des dernières 24 heures. Il établit ensuite des rapports sur les ventes et les stocks pour le jour ouvrable suivant.
  • Ingestion en continu : une application de covoiturage transmet en temps réel les data GPS du client et du conducteur afin de calculer l'heure d'arrivée estimée.

Examinons les autres étapes à suivre pour une bonne ingestion des data :

Étape

Détails

Exemples / Outils

Sélectionner la méthode d'ingestion

Choisir entre le traitement par lots, le traitement en continu ou une approche hybride en fonction des besoins en termes de latence et de volume.

Lot → tâches ETL de nuit ; continu → Kafka, Kinesis

Configuration des connecteurs

Configurer des connecteurs ou des API pour extraire des data de chaque source identifiée.

Fivetran, scripts personnalisés

Définir les règles d'ingestion

Spécifier les schémas, les règles de validation et la logique de déduplication pour s'assurer que des data propres et fiables entrent dans le pipeline.

Appliquer les schémas JSON, filtrer les lignes invalides, normaliser les fuseaux horaires

Appliquer de légères transformations

Normaliser ou enrichir les data lors de l'ingestion pour faciliter le traitement en aval.

Convertir les devises, masquer les PII et ajouter des metadata à la source

Chargement vers la zone de transit

Stocker les data ingérées dans une couche brute ou une zone de transit avant un traitement plus approfondi.

Compartiments AWS S3, stockage cloud Google, data lake Azure

Surveiller et enregistrer

Permet l'enregistrement en temps réel et les alertes en cas d'échecs ou de retards d'ingestion.

Datadog, Grafana, journaux Airflow, CloudWatch

3. Traitement de vos data

Une fois que les data sont dans votre pipeline, vous devez les traiter et les transformer pour les rendre plus utiles aux analystes. Cette étape, appelée intégration des data, permet de s'assurer que les data sont complètes, exactes et prêtes à être utilisées.

Il existe deux approches principales pour l'intégration des data : l’extraction, la transformation et le chargement (ETL) et l’extraction, le chargement et la transformation (ELT).

Le choix entre ETL et ELT détermine l'architecture de votre pipeline de data (nous y reviendrons dans une section ultérieure).

Le choix entre ETL et ELT n'est pas la seule étape de l'intégration des data. Après avoir choisi votre architecture, vous devez encore valider, nettoyer, normaliser et transformer vos data.

Vous trouverez ci-dessous plus de détails sur ces points.

Étape

Détails

Exemples / Outils

Valider

Vérifier l'absence, l'invalidité ou la non-concordance des types de data.

De grandes attentes, tests dbt

Nettoyer et dédupliquer

Supprimer les doublons et les erreurs évidentes.

SQL, Pandas, Spark

Standardiser

Assurer la cohérence des formats (fuseaux horaires, devises, noms de colonnes).

dbt, scripts Python

Traiter les data sensibles

Masquer, crypter ou tokeniser les informations personnelles identifiables (PII).

Anonymisation SHA-256, coffre, util dbt

Transformation

Restructurer les data sous une forme utilisable pour l'analyse ou le stockage.

dbt, transformations SQL, PySpark

4. Choix d'une destination

Une destination est un emplacement centralisé qui stocke toutes les data traitées. Cela affecte tout, de la compatibilité aux coûts et à la récupération des données. Le choix d'une destination est donc un élément particulièrement important du processus de mise en place d'un pipeline.

Bien qu'il soit difficile de choisir une destination spécifique pour les data, la première décision à prendre est de savoir s'il faut utiliser un data warehouse, data lake ou un data lakehouse.

Type

Spécialisation

Cas d'utilisation courants

Data warehouse

Optimisé pour les data structurées et propres et les requêtes rapides basées sur SQL.

Tableaux de bord d'informatique décisionnelle, rapports financiers, analyse des ventes et analyse des tendances historiques.

Data lake

Stocke des data brutes, non structurées ou semi-structurées à grande échelle pour un traitement flexible.

Stockage des journaux, des data IoT, des data de parcours de navigation, des sauvegardes brutes, des ensembles de data d'entraînement de modèles ML.

Data lakehouse

Combine la performance du warehouse avec la flexibilité du lake, en prenant en charge les requêtes structurées et le stockage des data brutes.

Analyse en temps réel, modélisation prédictive, combinaison d'ensembles de data brutes et organisées en un seul endroit.

Gardez à l'esprit qu'il n'est pas nécessaire de choisir entre ces trois options. Si vous pensez que les data qui passent par votre pipeline sont plus complexes qu'un seul de ces types de destination, vous pouvez diviser vos data en plusieurs flux. Chaque flux se dirige vers le type de destination que vous souhaitez.

Les data peuvent également être transmises directement à une API, ce qui peut s'avérer utile dans certains cas, comme la détection des fraudes, les notifications push ou la personnalisation en direct. Cependant, il est presque toujours préférable de stocker les data dans une destination persistante avant de les envoyer ailleurs.

5. Processus

Le flux de travail définit l'ordre d'exécution des tâches et la manière dont elles dépendent les unes des autres.

Voici un exemple de flux de travail pour un ELT :

Représentation du flux de travail de l'ELT

Les flux de travail englobent souvent des dépendances à la fois techniques et commerciales.

  • Dépendance technique : un processus ou une tâche technique qui doit être effectué avant que l'étape suivante du pipeline ne puisse commencer, comme la vérification des data avant de les modifier.
  • Dépendance commerciale : dépendance induite par des règles ou des processus commerciaux, comme la vérification des data de vente avec les dossiers financiers avant de rédiger des rapports.

Les développeurs peuvent faire correspondre ces dépendances techniques ou commerciales en mettant en place des flux de travail correspondants.

6. Contrôler et tester votre pipeline

Les pipelines de data étant des systèmes complexes composés de multiples éléments, ils doivent être surveillés pour garantir des performances optimales et une correction rapide des erreurs.

Voici quelques-uns des éléments indispensables à une surveillance efficace :

  • Contrôles de santé du système : surveiller les problèmes de performance tels que l'encombrement du réseau, les sources hors ligne ou les requêtes lentes.
  • Contrôles de la qualité des data : détection des anomalies dans les data, telles que les valeurs manquantes, les modifications de schéma ou les enregistrements en double.
  • Alertes et connexions : notifier les équipes d'ingénieurs de tout problème en temps réel tout en sauvegardant les journaux pour le dépannage.

Grâce aux mesures de protection mises en place, les équipes d'ingénieurs peuvent résoudre les problèmes dès qu'ils surviennent. Une bonne surveillance permet non seulement d'éviter la propagation des erreurs, mais aussi de garantir la précision et la fiabilité des analyses et des décisions commerciales de votre organisation.

Vous vous demandez comment gérer les coûts associés aux pipelines de data ?

Lisez notre guide : Comment choisir le pipeline de data le plus rentable pour votre entreprise ?

Architecture du data pipeline

L'architecture de votre pipeline de data détermine la manière dont les processus mentionnés dans la section précédente interagissent les uns avec les autres. Comme nous l'avons vu, l'un des facteurs les plus importants qui influencent l'architecture de votre pipeline de data est le choix entre l'ETL et l'ELT.

Voici un aperçu des différences :

Aspect

Extraction, transformation, chargement

(ETL)

Extraction, chargement et transformation (ELT)

Meilleur pour

Transformations complexes ou lorsque la puissance de traitement des systèmes source/cible est limitée.

Les grands ensembles de data pour lesquels les warehouses sur le cloud peuvent gérer des transformations lourdes.

Vitesse

Plus lente. Les data sont traitées avant d'être stockées

L'ingestion est plus rapide ; la transformation peut être différée.

Outillage

Informatica, Talend, Pentaho et scripts personnalisés.

dbt, Snowflake, BigQuery SQL.

Cas d’utilisation

Les industries réglementées exigent des data propres et validées avant le stockage.

Les organisations axées sur l'analyse ont besoin de transformations flexibles et évolutives.

ETL

Si vous choisissez l'ETL, vos data seront transformées avant d'être chargées dans le stockage.

Voici une illustration qui permet de mieux comprendre la structure d'un pipeline ETL :

Structure du pipeline ETL

Les points forts de l'ETL incluent :

  • Analyse plus rapide : comme les data sont transformées et structurées avant d'être chargées, les requêtes de data sont traitées plus efficacement, ce qui permet une analyse plus rapide.
  • Conformité : les organisations peuvent se conformer aux réglementations en matière de confidentialité en masquant et en cryptant les data avant qu'elles ne soient chargées dans le système de stockage.
  • Environnements sur le cloud et locaux : l'ETL peut être mis en œuvre dans des pipelines de data qui s'appuient sur des systèmes sur le cloud ou locaux.

Bien qu'il présente des avantages, la plupart des entreprises se détournent de l'ETL.

La mise à l'échelle est difficile avec l'ETL à mesure que les sources de data augmentent, il est donc difficile de le recommander aux personnes disposant de gros volumes de data.

Il est idéal pour les petits ensembles de data nécessitant des transformations complexes ou des analyses approfondies.

ELT

Comme vous l'avez deviné, le processus ELT implique que les data soient chargées avant d'être transformées.

Voici un diagramme qui illustre mieux la différence entre ELT et ETL :

Flux de travail du pipeline de data ELT

La plupart des entreprises préfèrent l'ELT pour les raisons suivantes :

  • Automatisation : l'ELT permet aux équipes de normaliser les modèles de data, ce qui favorise l'automatisation et l'externalisation.
  • Chargement plus rapide : ce cadre charge les data avant la transformation, ce qui permet un accès immédiat à l'information.
  • Format de data flexible : l'ETL prend en charge les data structurées et non structurées, et peut donc ingérer des data dans n'importe quel format.
  • Haute disponibilité des data : si vous utilisez des outils qui ne nécessitent pas de data structurées, ils peuvent instantanément collecter et agir sur les data du data lake.
  • Mise en œuvre facile : l'ELT peut fonctionner avec des services sur le cloud ou des ressources de warehouse existants, ce qui facilite la mise en œuvre et permet d'économiser de l'argent.
  • Évolutivité : comme la plupart des pipelines ELT sont basés sur le cloud, les entreprises peuvent facilement faire évoluer leurs systèmes de gestion des data à l'aide de solutions logicielles.

L'ELT présente l'inconvénient d'être plus lent dans l'analyse de grands volumes de data, car les transformations sont appliquées après le chargement des data.

Cependant, les solutions ETL entièrement gérées et riches en fonctionnalités, telles que Fivetran, permettent d'accélérer les transformations et l'ensemble du processus de pipeline en les automatisant complètement.

ETL vs ELT : Guide de décision

Votre destination est-elle un warehouse sur le cloud moderne (par exemple, Snowflake, BigQuery, Redshift) ?

  • Oui → Passer à la question 2
  • Non → Utiliser l'ETL

Vous avez besoin d'une grande évolutivité pour des charges de data brutes importantes ?

  • Oui → Utiliser l'ELT
  • Non → Passer à la question 3

Avez-vous besoin de fournir des data propres et normalisées à d'autres systèmes avant de les stocker ?

  • Oui → Utiliser l'ETL
  • Non → Passer à la question 4

Votre équipe effectuera-t-elle la plupart des transformations avec SQL à l'intérieur du warehouse ?

  • Oui → Utiliser l'ELT
  • Non → Passer à la question 5

Les règles de conformité ou de sécurité exigent-elles des transformations avant le chargement ?

  • Oui → Utiliser l'ETL
  • Non → Utiliser l'ELT

Considérations techniques pour l'architecture du pipeline de data

Cette section aborde les cinq facteurs essentiels qui influencent vos pipelines de data.

Automatisation

L'écriture manuelle de scripts peut consommer beaucoup de ressources de l'entreprise et d'efforts d'ingénierie. Les pipelines automatisés éliminent ce fardeau en déplaçant continuellement les data de la source à la destination selon un calendrier déterminé.

Les pipelines automatisés gèrent les flux de travail par nature. Voici un aperçu de la façon dont ils s'appliquent aux autres grandes étapes de la création d'un pipeline de data :

  • Extraction et chargement : extraire les data des sources et les charger dans l'entrepôt sans intervention manuelle.
  • Transformations : application de règles pour nettoyer, enrichir et normaliser les data afin qu'elles soient immédiatement utilisables pour l'analyse.
  • Surveillance et alertes : signalez instantanément les erreurs ou les anomalies afin que les ingénieurs puissent agir avant qu'elles n'affectent les analyses en aval.

Grâce à l'automatisation, les équipes peuvent se concentrer sur l'amélioration des pipelines de data au lieu de se contenter de les entretenir. Cela permet à votre organisation d'économiser sur les coûts liés aux talents d'ingénierie et contribue à l'évolution de votre entreprise en favorisant la croissance.

Performance

Un pipeline de data ne remplit pas son rôle s'il interfère avec les processus opérationnels de base ou si les data qu'il présente sont trop périmées pour être utiles.

Les organisations utilisent des technologies telles que change data capture (CDC) pour s'assurer que les data pertinentes sont fournies à temps, améliorant ainsi les performances. Il existe plusieurs techniques qui permettent d'améliorer les performances, telles que :

  • Parallélisation et distribution : exécution de tâches en parallèle sur plusieurs nœuds pour traiter des volumes de data plus importants.
  • Mise en mémoire tampon et cloisonnement : isolement des opérations sensibles ou gourmandes en ressources afin d'éviter les points de blocage.
  • Évolutivité : conception d'une architecture capable de s'adapter à l'augmentation de la demande de data.

Veillez à ce que les pipelines que vous mettez en place soient suffisamment rapides et réactifs pour être un outil précieux plutôt qu'une corvée en matière de maintenance.

Fiabilité

Un pipeline de data peu fiable entrave l'analyse et augmente les coûts de l'entreprise. Plusieurs problèmes sont à l'origine de ce manque de fiabilité :

Problème

Cause / Exemple

Impact

Échecs de synchronisation

Les étapes du pipeline ne sont pas synchronisées

Retard ou échec de la mise à jour des data

Modifications de schéma

Colonnes ou tables supprimées ou modifiées

Les travaux ETL s'interrompent ou renvoient des erreurs

Bugs

Erreurs de code dans les scripts ou les transformations

Data incorrectes ou incomplètes

Défaillances matérielles

Crash du serveur ou problèmes de disque

Temps d'arrêt des pipelines ou perte de data

Pannes de réseau

Perturbations de la connectivité

Échec des requêtes ou chargements incomplets

Fuites de mémoire

Mauvaise gestion des ressources

Ralentissement des performances ou plantages

Absence d'idempotence

Pas d'utilisation de clés primaires

Doublons ou enregistrements erronés

Un pipeline de data automatisé et entièrement géré comme Fivetran élimine ces problèmes en automatisant les synchronisations de data, en s'adaptant aux changements de schémas et en garantissant des pipelines fiables et nécessitant peu de maintenance.

Évolutivité

Les pipelines de data évolutifs sont essentiels à la croissance des entreprises. Au fur et à mesure que votre entreprise se développe, vous voulez des pipelines capables de gérer davantage de sources de data, des volumes de data plus importants et des exigences de performance complexes.

Attendre des ingénieurs qu'ils construisent et maintiennent constamment des connecteurs pour chaque nouvelle source de data prend du temps et est une source de frustration. Les informations arrivent aussi plus lentement. Pour les entreprises en pleine croissance, il est préférable de concevoir un système qui contrôle de manière programmatique votre pipeline de data.

Sécurité

La sécurité et la conformité sont essentielles au stockage des data sensibles des clients et des entreprises. Les organisations doivent se conformer aux normes réglementaires pour s'assurer qu'aucune information personnelle n'est stockée ou exposée dans leurs pipelines de data.

De nombreuses organisations utilisent l'ETL à cette fin, ce qui leur permet de crypter les data avant de les stocker. Toutefois, un pipeline ELT avec isolation des processus et fonctionnalités de sécurité robustes, telles que le cryptage des data en transit et au repos et le blocage ou le hachage des data sensibles avant le stockage, peut garantir la conformité tout en offrant des performances supérieures.

Acheter au lieu de construire

La conception, l'élaboration et la mise en œuvre d'un pipeline de data est un processus complexe, laborieux et coûteux. Les ingénieurs doivent élaborer le code source de chaque composant, puis concevoir des relations entre eux sans erreurs. En outre, une simple modification peut nécessiter la reconstruction de l'ensemble du pipeline.

C'est pourquoi la plupart des organisations choisissent d'acheter plutôt que de construire.

[CTA_MODULE]

Data insights
Data insights

Comment construire un pipeline de data : un guide pas à pas

Comment construire un pipeline de data : un guide pas à pas

September 12, 2025
September 12, 2025
Comment construire un pipeline de data : un guide pas à pas
SUJETS
No items found.
PARTAGER
Un pipeline de data traduit les données brutes en informations fiables. Ce guide détaille chaque étape de la mise en place d'un système fiable et sécurisé.

Selon une étude de l'université de Cornell, 33 % des erreurs dans les pipelines de data sont dues à des types de data incorrects. Si vous ne savez pas comment construire un pipeline de data, même des problèmes mineurs peuvent entraîner la rupture de vos pipelines.

Ce guide détaille les 6 composants essentiels de la construction d'un pipeline de data, de l'ingestion de la source à la surveillance, afin que vous puissiez concevoir des systèmes évolutifs et fiables.

Besoin d'une remise à niveau pour rafraîchir les bases ? Consulter d'abord notre explication Qu'est-ce qu'un pipeline de data avant de vous lancer dans la construction.

Comment construire un pipeline de data

Cette section se concentre sur les 6 étapes de la construction d'un pipeline de data, sur la base de ses composants de base correspondants.

Flux de travail stylisé d'un pipeline de data avec sources, collecte, traitement et destinations.

1. Identifier et organiser vos sources de data

Pour travailler avec des data, il faut d'abord savoir d'où elles viennent.

Tout système ou logiciel qui génère ou collecte des data pour votre organisation est une source de data. Assurez-vous de connaître toutes vos sources, qu'il s'agisse de plate-formes internes de travail et de communication ou de logiciels destinés aux clients.

Voici quelques catégories et exemples courants de sources de data :

Catégorie

Sources de data communes

Outils internes

Messages Slack, tickets Jira, enregistrements CRM Salesforce, data marketing HubSpot

Applications destinées aux clients

Transactions Shopify, journaux de paiement Stripe, tickets de support Zendesk

Systèmes opérationnels

Data de capteurs IoT provenant d'équipements d'usine, data GPS provenant de camions de livraison

Bases de données

MySQL pour les dossiers des clients, MongoDB pour les catalogues de produits

Services sur le cloud

Fichiers journaux AWS S3, rapports Google Analytics, data warehouse Snowflake

Les sources de data peuvent généralement être divisées en trois types en fonction de leur origine :

  • Données analytiques : informations sur le comportement des utilisateurs ou du marché.
  • Données tierces : data utiles provenant de l'extérieur de votre entreprise.
  • Data transactionnelles : data individuelles sur les ventes, les paiements ou les produits.

La plupart des entreprises disposent de centaines, voire de milliers, de sources de data. Un pipeline de data flexible et robuste n'est possible que si ces sources sont correctement gérées et collectées.

Vous trouverez ci-dessous des instructions que vous pouvez mettre en œuvre pour disposer d'un inventaire de data propre et détaillé :

Étape

Détails

Exemples/outils

Sources d'inventaire

Dresser la liste de tous les outils, plates-formes et systèmes générant des data. Suivre les propriétaires, les types de data et la fréquence de mise à jour.

Slack, Shopify, Salesforce, MySQL

Classer les data

Regrouper les sources par type : analytique, transactionnelle ou tiers.

Google Analytics → Analytique ; Stripe → Transactionnel ; API sociaux → Tiers

Cartographier les flux de data

Visualiser comment les data circulent entre les systèmes et où elles sont stockées.

Shopify → Snowflake → Looker

Évaluer la qualité

Vérifier les API, les options d'exportation, la fréquence des mises à jour et l'intégrité des data.

Clés API pour Stripe ; vérifications de l'horodatage pour MySQL

Construire un catalogue

Centraliser la documentation pour référence facile et la collaboration.

Airtable, Notion, Alation, Amundsen

2. Collecte de vos données

Après avoir dressé l'inventaire de vos sources de data, l'étape suivante consiste à extraire les data de ces sources pour les intégrer à votre pipeline de data. Ce processus est appelé collecte de data ou ingestion de data.

Le processus d'ingestion gère également la manière dont les sources de data sont combinées et préparées pour le traitement.

En fonction de votre plate-forme, vous pouvez construire un pipeline qui prend en charge les pipelines de lot et en continu, voire les deux, si vos besoins analytiques et commerciaux l'exigent. Voici quelques exemples pour vous aider à comprendre les différences :

  • Ingestion par lots : un stockage en ligne qui travaille chaque nuit pour traiter toutes les commandes des dernières 24 heures. Il établit ensuite des rapports sur les ventes et les stocks pour le jour ouvrable suivant.
  • Ingestion en continu : une application de covoiturage transmet en temps réel les data GPS du client et du conducteur afin de calculer l'heure d'arrivée estimée.

Examinons les autres étapes à suivre pour une bonne ingestion des data :

Étape

Détails

Exemples / Outils

Sélectionner la méthode d'ingestion

Choisir entre le traitement par lots, le traitement en continu ou une approche hybride en fonction des besoins en termes de latence et de volume.

Lot → tâches ETL de nuit ; continu → Kafka, Kinesis

Configuration des connecteurs

Configurer des connecteurs ou des API pour extraire des data de chaque source identifiée.

Fivetran, scripts personnalisés

Définir les règles d'ingestion

Spécifier les schémas, les règles de validation et la logique de déduplication pour s'assurer que des data propres et fiables entrent dans le pipeline.

Appliquer les schémas JSON, filtrer les lignes invalides, normaliser les fuseaux horaires

Appliquer de légères transformations

Normaliser ou enrichir les data lors de l'ingestion pour faciliter le traitement en aval.

Convertir les devises, masquer les PII et ajouter des metadata à la source

Chargement vers la zone de transit

Stocker les data ingérées dans une couche brute ou une zone de transit avant un traitement plus approfondi.

Compartiments AWS S3, stockage cloud Google, data lake Azure

Surveiller et enregistrer

Permet l'enregistrement en temps réel et les alertes en cas d'échecs ou de retards d'ingestion.

Datadog, Grafana, journaux Airflow, CloudWatch

3. Traitement de vos data

Une fois que les data sont dans votre pipeline, vous devez les traiter et les transformer pour les rendre plus utiles aux analystes. Cette étape, appelée intégration des data, permet de s'assurer que les data sont complètes, exactes et prêtes à être utilisées.

Il existe deux approches principales pour l'intégration des data : l’extraction, la transformation et le chargement (ETL) et l’extraction, le chargement et la transformation (ELT).

Le choix entre ETL et ELT détermine l'architecture de votre pipeline de data (nous y reviendrons dans une section ultérieure).

Le choix entre ETL et ELT n'est pas la seule étape de l'intégration des data. Après avoir choisi votre architecture, vous devez encore valider, nettoyer, normaliser et transformer vos data.

Vous trouverez ci-dessous plus de détails sur ces points.

Étape

Détails

Exemples / Outils

Valider

Vérifier l'absence, l'invalidité ou la non-concordance des types de data.

De grandes attentes, tests dbt

Nettoyer et dédupliquer

Supprimer les doublons et les erreurs évidentes.

SQL, Pandas, Spark

Standardiser

Assurer la cohérence des formats (fuseaux horaires, devises, noms de colonnes).

dbt, scripts Python

Traiter les data sensibles

Masquer, crypter ou tokeniser les informations personnelles identifiables (PII).

Anonymisation SHA-256, coffre, util dbt

Transformation

Restructurer les data sous une forme utilisable pour l'analyse ou le stockage.

dbt, transformations SQL, PySpark

4. Choix d'une destination

Une destination est un emplacement centralisé qui stocke toutes les data traitées. Cela affecte tout, de la compatibilité aux coûts et à la récupération des données. Le choix d'une destination est donc un élément particulièrement important du processus de mise en place d'un pipeline.

Bien qu'il soit difficile de choisir une destination spécifique pour les data, la première décision à prendre est de savoir s'il faut utiliser un data warehouse, data lake ou un data lakehouse.

Type

Spécialisation

Cas d'utilisation courants

Data warehouse

Optimisé pour les data structurées et propres et les requêtes rapides basées sur SQL.

Tableaux de bord d'informatique décisionnelle, rapports financiers, analyse des ventes et analyse des tendances historiques.

Data lake

Stocke des data brutes, non structurées ou semi-structurées à grande échelle pour un traitement flexible.

Stockage des journaux, des data IoT, des data de parcours de navigation, des sauvegardes brutes, des ensembles de data d'entraînement de modèles ML.

Data lakehouse

Combine la performance du warehouse avec la flexibilité du lake, en prenant en charge les requêtes structurées et le stockage des data brutes.

Analyse en temps réel, modélisation prédictive, combinaison d'ensembles de data brutes et organisées en un seul endroit.

Gardez à l'esprit qu'il n'est pas nécessaire de choisir entre ces trois options. Si vous pensez que les data qui passent par votre pipeline sont plus complexes qu'un seul de ces types de destination, vous pouvez diviser vos data en plusieurs flux. Chaque flux se dirige vers le type de destination que vous souhaitez.

Les data peuvent également être transmises directement à une API, ce qui peut s'avérer utile dans certains cas, comme la détection des fraudes, les notifications push ou la personnalisation en direct. Cependant, il est presque toujours préférable de stocker les data dans une destination persistante avant de les envoyer ailleurs.

5. Processus

Le flux de travail définit l'ordre d'exécution des tâches et la manière dont elles dépendent les unes des autres.

Voici un exemple de flux de travail pour un ELT :

Représentation du flux de travail de l'ELT

Les flux de travail englobent souvent des dépendances à la fois techniques et commerciales.

  • Dépendance technique : un processus ou une tâche technique qui doit être effectué avant que l'étape suivante du pipeline ne puisse commencer, comme la vérification des data avant de les modifier.
  • Dépendance commerciale : dépendance induite par des règles ou des processus commerciaux, comme la vérification des data de vente avec les dossiers financiers avant de rédiger des rapports.

Les développeurs peuvent faire correspondre ces dépendances techniques ou commerciales en mettant en place des flux de travail correspondants.

6. Contrôler et tester votre pipeline

Les pipelines de data étant des systèmes complexes composés de multiples éléments, ils doivent être surveillés pour garantir des performances optimales et une correction rapide des erreurs.

Voici quelques-uns des éléments indispensables à une surveillance efficace :

  • Contrôles de santé du système : surveiller les problèmes de performance tels que l'encombrement du réseau, les sources hors ligne ou les requêtes lentes.
  • Contrôles de la qualité des data : détection des anomalies dans les data, telles que les valeurs manquantes, les modifications de schéma ou les enregistrements en double.
  • Alertes et connexions : notifier les équipes d'ingénieurs de tout problème en temps réel tout en sauvegardant les journaux pour le dépannage.

Grâce aux mesures de protection mises en place, les équipes d'ingénieurs peuvent résoudre les problèmes dès qu'ils surviennent. Une bonne surveillance permet non seulement d'éviter la propagation des erreurs, mais aussi de garantir la précision et la fiabilité des analyses et des décisions commerciales de votre organisation.

Vous vous demandez comment gérer les coûts associés aux pipelines de data ?

Lisez notre guide : Comment choisir le pipeline de data le plus rentable pour votre entreprise ?

Architecture du data pipeline

L'architecture de votre pipeline de data détermine la manière dont les processus mentionnés dans la section précédente interagissent les uns avec les autres. Comme nous l'avons vu, l'un des facteurs les plus importants qui influencent l'architecture de votre pipeline de data est le choix entre l'ETL et l'ELT.

Voici un aperçu des différences :

Aspect

Extraction, transformation, chargement

(ETL)

Extraction, chargement et transformation (ELT)

Meilleur pour

Transformations complexes ou lorsque la puissance de traitement des systèmes source/cible est limitée.

Les grands ensembles de data pour lesquels les warehouses sur le cloud peuvent gérer des transformations lourdes.

Vitesse

Plus lente. Les data sont traitées avant d'être stockées

L'ingestion est plus rapide ; la transformation peut être différée.

Outillage

Informatica, Talend, Pentaho et scripts personnalisés.

dbt, Snowflake, BigQuery SQL.

Cas d’utilisation

Les industries réglementées exigent des data propres et validées avant le stockage.

Les organisations axées sur l'analyse ont besoin de transformations flexibles et évolutives.

ETL

Si vous choisissez l'ETL, vos data seront transformées avant d'être chargées dans le stockage.

Voici une illustration qui permet de mieux comprendre la structure d'un pipeline ETL :

Structure du pipeline ETL

Les points forts de l'ETL incluent :

  • Analyse plus rapide : comme les data sont transformées et structurées avant d'être chargées, les requêtes de data sont traitées plus efficacement, ce qui permet une analyse plus rapide.
  • Conformité : les organisations peuvent se conformer aux réglementations en matière de confidentialité en masquant et en cryptant les data avant qu'elles ne soient chargées dans le système de stockage.
  • Environnements sur le cloud et locaux : l'ETL peut être mis en œuvre dans des pipelines de data qui s'appuient sur des systèmes sur le cloud ou locaux.

Bien qu'il présente des avantages, la plupart des entreprises se détournent de l'ETL.

La mise à l'échelle est difficile avec l'ETL à mesure que les sources de data augmentent, il est donc difficile de le recommander aux personnes disposant de gros volumes de data.

Il est idéal pour les petits ensembles de data nécessitant des transformations complexes ou des analyses approfondies.

ELT

Comme vous l'avez deviné, le processus ELT implique que les data soient chargées avant d'être transformées.

Voici un diagramme qui illustre mieux la différence entre ELT et ETL :

Flux de travail du pipeline de data ELT

La plupart des entreprises préfèrent l'ELT pour les raisons suivantes :

  • Automatisation : l'ELT permet aux équipes de normaliser les modèles de data, ce qui favorise l'automatisation et l'externalisation.
  • Chargement plus rapide : ce cadre charge les data avant la transformation, ce qui permet un accès immédiat à l'information.
  • Format de data flexible : l'ETL prend en charge les data structurées et non structurées, et peut donc ingérer des data dans n'importe quel format.
  • Haute disponibilité des data : si vous utilisez des outils qui ne nécessitent pas de data structurées, ils peuvent instantanément collecter et agir sur les data du data lake.
  • Mise en œuvre facile : l'ELT peut fonctionner avec des services sur le cloud ou des ressources de warehouse existants, ce qui facilite la mise en œuvre et permet d'économiser de l'argent.
  • Évolutivité : comme la plupart des pipelines ELT sont basés sur le cloud, les entreprises peuvent facilement faire évoluer leurs systèmes de gestion des data à l'aide de solutions logicielles.

L'ELT présente l'inconvénient d'être plus lent dans l'analyse de grands volumes de data, car les transformations sont appliquées après le chargement des data.

Cependant, les solutions ETL entièrement gérées et riches en fonctionnalités, telles que Fivetran, permettent d'accélérer les transformations et l'ensemble du processus de pipeline en les automatisant complètement.

ETL vs ELT : Guide de décision

Votre destination est-elle un warehouse sur le cloud moderne (par exemple, Snowflake, BigQuery, Redshift) ?

  • Oui → Passer à la question 2
  • Non → Utiliser l'ETL

Vous avez besoin d'une grande évolutivité pour des charges de data brutes importantes ?

  • Oui → Utiliser l'ELT
  • Non → Passer à la question 3

Avez-vous besoin de fournir des data propres et normalisées à d'autres systèmes avant de les stocker ?

  • Oui → Utiliser l'ETL
  • Non → Passer à la question 4

Votre équipe effectuera-t-elle la plupart des transformations avec SQL à l'intérieur du warehouse ?

  • Oui → Utiliser l'ELT
  • Non → Passer à la question 5

Les règles de conformité ou de sécurité exigent-elles des transformations avant le chargement ?

  • Oui → Utiliser l'ETL
  • Non → Utiliser l'ELT

Considérations techniques pour l'architecture du pipeline de data

Cette section aborde les cinq facteurs essentiels qui influencent vos pipelines de data.

Automatisation

L'écriture manuelle de scripts peut consommer beaucoup de ressources de l'entreprise et d'efforts d'ingénierie. Les pipelines automatisés éliminent ce fardeau en déplaçant continuellement les data de la source à la destination selon un calendrier déterminé.

Les pipelines automatisés gèrent les flux de travail par nature. Voici un aperçu de la façon dont ils s'appliquent aux autres grandes étapes de la création d'un pipeline de data :

  • Extraction et chargement : extraire les data des sources et les charger dans l'entrepôt sans intervention manuelle.
  • Transformations : application de règles pour nettoyer, enrichir et normaliser les data afin qu'elles soient immédiatement utilisables pour l'analyse.
  • Surveillance et alertes : signalez instantanément les erreurs ou les anomalies afin que les ingénieurs puissent agir avant qu'elles n'affectent les analyses en aval.

Grâce à l'automatisation, les équipes peuvent se concentrer sur l'amélioration des pipelines de data au lieu de se contenter de les entretenir. Cela permet à votre organisation d'économiser sur les coûts liés aux talents d'ingénierie et contribue à l'évolution de votre entreprise en favorisant la croissance.

Performance

Un pipeline de data ne remplit pas son rôle s'il interfère avec les processus opérationnels de base ou si les data qu'il présente sont trop périmées pour être utiles.

Les organisations utilisent des technologies telles que change data capture (CDC) pour s'assurer que les data pertinentes sont fournies à temps, améliorant ainsi les performances. Il existe plusieurs techniques qui permettent d'améliorer les performances, telles que :

  • Parallélisation et distribution : exécution de tâches en parallèle sur plusieurs nœuds pour traiter des volumes de data plus importants.
  • Mise en mémoire tampon et cloisonnement : isolement des opérations sensibles ou gourmandes en ressources afin d'éviter les points de blocage.
  • Évolutivité : conception d'une architecture capable de s'adapter à l'augmentation de la demande de data.

Veillez à ce que les pipelines que vous mettez en place soient suffisamment rapides et réactifs pour être un outil précieux plutôt qu'une corvée en matière de maintenance.

Fiabilité

Un pipeline de data peu fiable entrave l'analyse et augmente les coûts de l'entreprise. Plusieurs problèmes sont à l'origine de ce manque de fiabilité :

Problème

Cause / Exemple

Impact

Échecs de synchronisation

Les étapes du pipeline ne sont pas synchronisées

Retard ou échec de la mise à jour des data

Modifications de schéma

Colonnes ou tables supprimées ou modifiées

Les travaux ETL s'interrompent ou renvoient des erreurs

Bugs

Erreurs de code dans les scripts ou les transformations

Data incorrectes ou incomplètes

Défaillances matérielles

Crash du serveur ou problèmes de disque

Temps d'arrêt des pipelines ou perte de data

Pannes de réseau

Perturbations de la connectivité

Échec des requêtes ou chargements incomplets

Fuites de mémoire

Mauvaise gestion des ressources

Ralentissement des performances ou plantages

Absence d'idempotence

Pas d'utilisation de clés primaires

Doublons ou enregistrements erronés

Un pipeline de data automatisé et entièrement géré comme Fivetran élimine ces problèmes en automatisant les synchronisations de data, en s'adaptant aux changements de schémas et en garantissant des pipelines fiables et nécessitant peu de maintenance.

Évolutivité

Les pipelines de data évolutifs sont essentiels à la croissance des entreprises. Au fur et à mesure que votre entreprise se développe, vous voulez des pipelines capables de gérer davantage de sources de data, des volumes de data plus importants et des exigences de performance complexes.

Attendre des ingénieurs qu'ils construisent et maintiennent constamment des connecteurs pour chaque nouvelle source de data prend du temps et est une source de frustration. Les informations arrivent aussi plus lentement. Pour les entreprises en pleine croissance, il est préférable de concevoir un système qui contrôle de manière programmatique votre pipeline de data.

Sécurité

La sécurité et la conformité sont essentielles au stockage des data sensibles des clients et des entreprises. Les organisations doivent se conformer aux normes réglementaires pour s'assurer qu'aucune information personnelle n'est stockée ou exposée dans leurs pipelines de data.

De nombreuses organisations utilisent l'ETL à cette fin, ce qui leur permet de crypter les data avant de les stocker. Toutefois, un pipeline ELT avec isolation des processus et fonctionnalités de sécurité robustes, telles que le cryptage des data en transit et au repos et le blocage ou le hachage des data sensibles avant le stockage, peut garantir la conformité tout en offrant des performances supérieures.

Acheter au lieu de construire

La conception, l'élaboration et la mise en œuvre d'un pipeline de data est un processus complexe, laborieux et coûteux. Les ingénieurs doivent élaborer le code source de chaque composant, puis concevoir des relations entre eux sans erreurs. En outre, une simple modification peut nécessiter la reconstruction de l'ensemble du pipeline.

C'est pourquoi la plupart des organisations choisissent d'acheter plutôt que de construire.

[CTA_MODULE]

Commencez aujourd’hui vos 14 jours d’essai gratuit de Fivetran !
Commencer dès maintenant
Topics
Share

Articles associés

Commencer gratuitement

Rejoignez les milliers d’entreprises qui utilisent Fivetran pour centraliser et transformer leur data.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.