Qu’est-ce qu’un pipeline de data d’ETL?
Qu’est-ce qu’un pipeline de data d’ETL?
Les entreprises ont besoin d’une méthode fiable pour recueillir des data depuis plusieurs sources, standardiser et nettoyer des datasets et les charger dans un stockage de data. Une méthode standard consiste à utiliser le pipeline de data d’ETL (extraction, transformation, chargement).
L’ETL est une méthode d’intégration des data qui permet aux entreprises d’unifier les data et de les mettre à disposition en vue de leur analyse. L’ETL est tellement ancré dans le domaine de l’intégration des data que ce terme est souvent utilisé de manière interchangeable avec « pipeline de data ». Toutefois, ces deux termes sont bien différents.
L’ETL est également comparable à un autre cadre d’intégration des data nommé ELT (extraction, chargement, transformation). Chaque méthode présente ses avantages et ses inconvénients.
Dans cet article, nous allons approfondir les composants d’un pipeline de data d’ETL, expliquer en quoi il diffère d’un pipeline de data, et le comparer à la méthode ELT.
[CTA_MODULE]
Qu’est-ce qu’un pipeline d’ETL?
Un pipeline d’ETL souligne les processus impliqués par l’extraction de data issues de diverses sources, leur transformation puis leur chargement dans une destination.
Avec la méthode d’intégration des data d’ETL, les analystes ont accès à un référentiel central de data nettoyées et formatées. Ils peuvent utiliser ces data pour l’analyse et la veille économique.
Le processus d’ETL comporte trois niveaux :
Extraction
Au niveau de l’extraction, des data issues de plusieurs sources sont recueillies et chargées dans une zone de transit ou une destination intermédiaire. Les sources de data courantes incluent :
- Applications SaaS
- Plateformes de CRM
- Outils commerciaux et de marketing
- Flux d’événements
- Databases SQL ou NoSQL
Les data provenant de ces sources peuvent être synchronisées, de manière synchrone ou asynchrone, selon les besoins d’analyse des data. Par exemple, les data issues d’un outil de CRM peuvent être mises à jour deux fois par semaine, tandis que les data des applications de clients peuvent être recueillies tous les jours.
Les développeurs peuvent créer des API manuelles pour chaque source, mais cela n’est pas toujours faisable pour les entreprises avec d’innombrables sources. Elles peuvent utiliser à la place des solutions comme Fivetran pour mettre en œuvre des connecteurs intégrés à associer facilement à toutes leurs sources.
Transformation
Les data brutes de chaque source doivent être nettoyées, structurées et formatées pour être utilisées dans des modèles data en vue de leur analyse. Ce processus est nommé transformation des data.
La transformation implique :
- Normalisation
- Nettoyage
- Restructuration
- Déduplication
- Validation des data
Selon le cas d’utilisation, elle peut aussi inclure le récapitulatif, le tri, le classement et l’indexation. Au lieu de coder manuellement des transformations pour chaque dataset, les développeurs et les équipes data peuvent utiliser des transformations intégrées pour accélérer ce processus.
Chargement
Le processus de chargement déplace les data transformées vers une destination centralisée, comme une database, un datawarehouse, un data lake ou un datawarehouse cloud. Les data peuvent également être envoyées directement vers des outils de veille économique afin d’accélérer les analyses.
Cas d’utilisation du pipeline d’ETL
Les outils d’ETL sont généralement utilisés pour :
- Centralisation et standardisation des data : les pipelines d’ETL peuvent consolider des data de nombreuses sources dans une database centrale, comme un datawarehouse cible, où les analystes peuvent accéder à des data nettoyées et les utiliser en vue de leur analyse.
- Migration de data : les pipelines de data d’ETL peuvent aider les entreprises à passer d’anciens système de stockage à des systèmes modernes afin de réaliser des analyses plus complètes et plus rapides.
- Analyse en profondeur : il est possible de faire entrer un dataset structuré dans des outils d’analyse pour obtenir des informations rapidement, sans perdre de données contextuelles. Le contexte est essentiel pour l’analyse, car il indique comment certains résultats ou conclusions ont été obtenus, et aide les analystes à résoudre les erreurs.
Défis du pipeline d’ETL
Si l’ETL présente des avantages pour certains cas d’utilisation analytiques, les entreprises et les équipes data rencontrent des difficultés dans trois domaines clés.
Évolutivité
L’architecture du pipeline d’ETL repose sur des serveurs pour le traitement des data. Avec l’augmentation du volume et de la variété des data, la configuration doit également être mise à l’échelle. Cela implique un investissement important, en particulier si cela nécessite du matériel dans les locaux, et cela prend du temps.
Ce système peut fonctionner pour le traitement par lots. Mais il devient impossible de faire évoluer un pipeline d’ETL lorsque les besoins de data en temps réel augmentent.
Augmentation des besoins de main d’œuvre
Les ingénieurs doivent créer un nouveau pipeline pour chaque source de data, ce qui vient s’ajouter à leur charge de travail pour la gestion des pipelines existants. La création et l’application de transformations font apparaître un nouveau défi.
Des ingénieurs qualifiés ayant reçu une formation spéciale peuvent être nécessaires pour gérer le système, car les pipelines d’ETL sont conçus pour des cas d’utilisation spécifiques.
Pour les entreprises, ces facteurs coûtent des milliers de dollars en travailleurs supplémentaires, en heures supplémentaires et en locaux nécessaires pour accueillir ces employés.
Fiabilité des processus
Les pipelines d’ETL doivent être reconstruits lors de modifications du schéma de data en amont ou des besoins de data en aval. Le premier scénario nécessite des ingénieurs pour modifier ou reconstruire tout le code de transformation en aval, tandis que le second leur impose de créer de nouvelles transformations.
Les modifications des pipelines sont très fréquentes, car la logique commerciale évolue constamment. Cela vient s’ajouter à la charge de travail des développeurs et des ingénieurs, qui augmente constamment, entraînant de nouvelles dépenses et potentiellement des retards dans le recueil des data.
Pipeline d’ETL vs. pipeline de data
De nombreux utilisateurs confondent les termes « pipeline d’ETL » et « pipeline de data ». Toutefois, ces deux termes sont utilisés pour différentes solutions d’intégration des data.
Avant de nous intéresser aux différences, nous devons comprendre ce qu’est un pipeline de data.
Pipeline de data
Un pipeline de data est un ensemble de processus qui déplacent des data entre le système source et le référentiel cible. C’est un terme générique pour décrire les mesures prises pour recueillir et charger des data.
Un pipeline d’ETL est un type de pipeline de data. Il désigne une manière spécifique de recueillir, transformer et charger les data dans des systèmes de destination.
Un pipeline de data comporte six composants clés :
- Source : tout système depuis lequel des data sont recueillies.
- Destination : référentiel central où sont stockées les data consolidées en vue de leur analyse.
- Flux de data : définit comment les data transiteront d’un système à un autre.
- Traitement : là où intervient l’intégration des data. Les data brutes sont transformées en informations consommables. Les développeurs et les gestionnaires déterminent les paramètres de ces transformations.
- Surveillance : les pipelines de data reposent sur des processus complexes pour être terminés consécutivement sans problème. C’est irréaliste car les erreurs sont inévitables. La surveillance consiste à contrôler constamment le pipeline afin de voir s’il fonctionne comme prévu.
- Processus : détermine l’ordre des différentes étapes dans le pipeline.
Les équipes data peuvent modifier ces composants pour créer des pipelines de data adaptés aux exigences de veille économique.
Types de pipelines de data
Il existe quatre grandes catégories de pipelines de data :
- Lot : un pipeline par lots fonctionne à intervalles prédéterminés, et charge un grand volume de data. Par exemple, un pipeline qui recueille des data une fois par mois depuis un outil de CRM est un pipeline de traitement par lots.
- Temps réel : les pipelines en streaming ou en temps réel synchronisent les data à chaque fois que la source est mise à jour.
- Sur le cloud : ces pipelines sont hébergés sur le cloud par un prestataire tiers, ce qui permet de réduire les dépenses dans les infrastructures. Certaines plates-formes sur le cloud proposent des fonctionnalités avancées permettant de simplifier l’ensemble de la gestion de vos data.
- Open-source : un logiciel de database open-source est généralement gratuit, et offre un accès complet pour utiliser et modifier le code source. L’utilisation de ces outils prend du temps et nécessite un grand savoir-faire.
Un pipeline de data peut avoir les caractéristiques de plusieurs des types mentionnés ci-dessus. De nombreuses organisations utilisent des pipelines hybrides pour réaliser différentes fonctions.
Différences entre un pipeline d’ETL et un pipeline de data
Un pipeline d’ETL et un pipeline de data présentent trois grandes différences.
Les pipelines de data ne doivent pas nécessairement inclure de transformations
Un pipeline d’ETL doit inclure la transformation, alors que ce n’est pas nécessaire pour un pipeline de data générique.
Les pipelines d’ETL se terminent après le chargement
Les pipelines d’ETL sont terminés une fois les data chargées dans le référentiel cible. Tout autre pipeline de data pourrait utiliser le chargement dans le cadre du pipeline qui déclenche une action supplémentaire. Un pipeline d’ELT en est un bon exemple.
Les pipelines d’ETL déplacent les data par lots
La majorité des pipelines d’ETL sont des pipelines de traitement par lots. Les data sont synchronisées à partir de sources, par lots et selon un programme prédéterminé. Il est possible de configurer un pipeline de data pour recueillir des data par lots ou en temps réel.
Pipeline d’ETL vs. pipeline d’ELT
L’ETL est souvent comparé à l’ELT, une méthode plus récente d’intégration des data. Avant d’analyser quelle méthode est la meilleure, nous devons comprendre le cadre de l’ELT.
ELT
L’ELT est une méthode d’intégration des data qui recueille les data depuis une source et les charge dans une destination avant leur éventuelle transformation par des analystes.
Pour faire simple, cette méthode inverse les deux derniers processus de l’ETL. Elle dissocie les processus de chargement et de transformation, accélère la synchronisation des data et protège un pipeline d’ETL contre les deux principales menaces auxquelles il est confronté : les modifications apportées aux schémas en amont et aux modèles data en aval.
Un pipeline de data d’ELT permet aux analystes et aux ingénieurs data de contrôler entièrement la manière dont leurs data source sont modifiées. Ils peuvent créer et appliquer des transformations afin de créer des modèles data spécifiques sans interrompre le processus d’extraction.
Les pipelines d’ELT sont personnalisables et utilisés pour des analyses avancées, des diffusions d’événements et de data en temps réel, l’apprentissage machine et l’intelligence artificielle.
L’utilisation d’une plateforme d’ELT entièrement gérée comme Fivetran est moins coûteuse, plus facile à mettre en œuvre et fournit des informations plus rapidement qu’en créant et en entretenant manuellement des pipelines d’ETL.
Pourquoi l’ELT représente l’avenir
L’ELT est l’architecture d’intégration de data idéale pour les besoins des entreprises modernes.
Les entreprises passent à l’ELT entièrement géré pour cinq raisons majeures :
L’ELT est plus simple
L’ELT simplifie l’intégration des data en remplissant les databases directement depuis la source. Cela garantit l’intégrité des data et facilite le travail des analystes, qui peuvent créer de meilleurs modèles adaptés à leurs besoins analytiques.
Il simplifie également l’ingénierie data et le développement en permettant la configuration d’un pipeline de data sans code en quelques minutes. Cela réduit la charge de travail, et permet de se concentrer sur des tâches plus critiques.
L’ELT est plus fiable
Les pipelines d’ELT évitent la reconstruction constante des pipelines, car les processus de chargement et de transformation sont indépendants. Les équipes data bénéficient d’un accès plus rapide aux data, et peuvent créer et modifier des modèles data sur la base de cas d’utilisation sans interrompre le mouvement de data depuis la source.
Si vous choisissez une solution entièrement gérée comme Fivetran, les développeurs de l’outil gèrent pour vous la maintenance et le dépannage de l’outil. La plateforme est mise à jour régulièrement pour renforcer la sécurité et la conformité et ajouter de nouvelles fonctionnalités.
L’ELT prend en charge l’automatisation
Les pipelines d’ELT traités par des fournisseurs tiers automatisent les tâches de maintenance de pipeline banales, telles que la modification des scripts d’extraction data, l’actualisation constante des schémas et la normalisation des extractions de sources de data.
L’automatisation peut également être renforcée par l’intégration avec d’autres outils de gestion des data.
L’ELT facilite la sous-traitance
Les entreprises qui utilisent l’ELT automatisé peuvent créer des modèles data standardisés pouvant faciliter la sous-traitance. L’externalisation de la gestion du pipeline de data permet de gagner du temps et d’économiser de l’argent tout en libérant les équipes data afin qu’elles se concentrent sur leurs tâches les plus importantes.
Les plates-formes comme Fivetran permettent un accès en fonction du rôle, afin que les entreprises puissent contrôler comment les sous-traitants ou les tiers interagissent avec leurs data. Une interface facile d’utilisation permet également de modifier un pipeline en quelques clics, même en l’absence d’experts spécialement formés.
L’ELT est souple et évolutif
Les pipelines d’ELT ne doivent pas nécessairement suivre des transformations spécifiques. Ils permettent aux analystes et aux experts en science des données de décider que faire des data et de mettre en œuvre leurs propres processus pour l’analyse.
Par ailleurs, les plateformes cloud sont très évolutives. Fivetran, par exemple, utilise un modèle de paiement selon lequel vous ne payez que pour ce que vous utilisez. Les entreprises peuvent accéder à des nouvelles ressources en mettant à niveau leur plan d’abonnement.
Cela élimine le besoin de coûteuses mises à niveau dans les locaux ou d’acheter d’autres systèmes pour accompagner le développement rapide d’un pipeline d’ETL.
Conclusion
Les pipelines de data d’ETL sont idéaux pour les entreprises qui gèrent un volume de data plus restreint, et qui peuvent se contenter d’informations plus lentes avec un traitement par lots. D’autres types de pipelines de data sont nécessaires pour des analyses rapides, en temps réel.
Un pipeline d’ELT entièrement géré est la solution pour les entreprises qui veulent un chargement de data en temps réel, des analyses rapides et plus d’évolutivité.
Fivetran peut aider les équipes data à configurer et gérer facilement leurs pipelines de data. Inscrivez-vous pour découvrir comment notre plateforme peut renforcer votre intégration des data.
[CTA_MODULE]
Commencer gratuitement
Rejoignez les milliers d’entreprises qui utilisent Fivetran pour centraliser et transformer leur data.