Qu’est-ce que Fivetran ?

Et comment cela fonctionne-t-il ? Fivetran expliqué en environ 1 000 mots ou 5 minutes.
April 10, 2023

Fivetran est une plateforme de circulation de données automatisée, moderne et basée sur le cloud, conçue pour offrir aux organisations la possibilité d'extraire, de charger et de transformer des données sans effort entre un large éventail de sources et de destinations.

Il s'agit à la fois du cas d'utilisation traditionnel de l'intégration des données, dans lequel les données sont transférées des applications, des bases de données et des fichiers vers un référentiel central afin de consolider une « source unique de vérité » pour l'analyse, et de la capacité générale de déplacer les données entre les bases de données, les data warehouses et les data lakes afin de faciliter les opérations commerciales.

Le transfert de données de la source à la destination nécessite un système très performant dont la conception peut s'avérer faussement complexe. Il s'agit notamment de dimensionner correctement un environnement, d'assurer la disponibilité, la récupération après pannes et la reconstruction du système en fonction de l'évolution des sources de données et des besoins de l'entreprise. De nombreux outils d'intégration de données courants fournissent des cadres pour résoudre ces tâches, mais exigent toujours un degré considérable de configuration et de travail technique de la part des utilisateurs finaux.

En outre, il n'est pas rare que les organisations utilisent des dizaines, voire des centaines d'applications, d'outils et de systèmes opérationnels différents qui produisent des données, chacune d'entre elles laissant de précieux indices numériques.

Ces défis imposent des coûts importants en termes de temps, de main-d'œuvre et d'argent aux organisations qui tentent de déplacer des données à l'aide d'une solution sur mesure et de configuration élevée. La mise en place d'une infrastructure d'exploitation des données efficace, fiable et évolutive à partir de zéro, ou même avec l'aide d'un cadre, est un exercice émaillé de frustration et de perte d'opportunités.

En revanche, une solution automatisée de circulation des données prête à l’emploi évite à une organisation de devoir créer une telle solution en interne.

Automatisation, fiabilité et évolutivité

Du point de vue de l'utilisateur final, le flux de travail idéal pour le déplacement des données ne devrait consister en guère plus que :

  1. Sélectionner des connecteurs pour les sources de données à partir d'un menu
  2. Fournir des identifiants
  3. Spécifier un calendrier
  4. Appuyer sur un bouton pour commencer l'exécution

La simplicité de ce flux de travail cache une complexité considérable. L'architecture Fivetran est strictement divisée entre l'environnement local de l'utilisateur, le cloud de Fivetran et le cloud du client. Cette division est essentielle pour garantir à la fois la sécurité et la performance. En termes de sécurité, les séparations strictes entre le front-end, le back-end et le cloud du client garantissent qu'il n'y a aucun moyen d'exposer des données sensibles par le biais du front-end. Dans un souci de performance, Fivetran, en tant qu'outil cloud natif, fait un usage intensif de la parallélisation à la demande.

Le diagramme d'architecture suivant présente l'approche standard de Fivetran basée sur le cloud pour la circulation automatisée des données :

Fivetran propose également des architectures hybrides et sur site aux entreprises dont les exigences en matière de sécurité limitent la possibilité d'utiliser des solutions SaaS basées sur le cloud.

Un flux de travail typique suit les étapes suivantes :

  1. L'utilisateur accède à l'interface Fivetran par le biais du tableau de bord Fivetran.com ou de l'API.
  2. L'utilisateur crée et configure des connecteurs.
  3. Les choix de l'utilisateur sont enregistrés dans la base de données de production Fivetran.
  4. En fonction des paramètres enregistrés dans la base de données de production, le backend Fivetran génère un certain nombre de workers selon un calendrier.
  5. Chaque worker extrait et charge des données, avec quelques traitements légers. Les workers expirent lorsqu'ils ne sont plus nécessaires.
  6. Les transformations visant à produire des modèles de données prêts pour l'analyse sont déclenchées séparément et exécutées sur la destination. Les modèles de données Fivetran sont produits grâce à notre intégration avec dbt™ pour optimiser les transformations.

Afin d'assurer le bon fonctionnement et la fiabilité du flux de travail décrit ci-dessus, Fivetran est également conçu en tenant compte d'un certain nombre de considérations qui ne sont pas faciles à saisir dans un diagramme d'architecture.

  • Les mises à jour incrémentales garantissent des mises à jour en temps voulu et une perturbation minimale des systèmes sources. Au lieu d'extraire et de charger l'intégralité de la source de données à chaque synchronisation, Fivetran détecte les nouveaux enregistrements ou les enregistrements modifiés et reproduit les modifications dans la destination. Les synchronisations complètes ne sont utilisées que pour une première synchronisation ou pour résoudre des problèmes graves d'intégrité des données, tels que des enregistrements corrompus. Le principal mécanisme permettant à Fivetran de réaliser des mises à jour incrémentales est le Change Data Capture (CDC).

  • L’idempotence est la capacité d'un connecteur de données à se remettre facilement des échecs de synchronisation. Dans le contexte du déplacement de données, l'idempotence garantit que si vous appliquez plusieurs fois les mêmes données à une destination, vous obtiendrez le même résultat. Sans idempotence, un échec de synchronisation signifie qu'un ingénieur doit rechercher quels enregistrements ont été synchronisés et lesquels ne l'ont pas été, et concevoir une procédure de récupération personnalisée pour supprimer les enregistrements en double. Avec l'idempotence, le connecteur de données peut simplement relire toutes les données qui ne sont pas arrivées à destination. Si un enregistrement est déjà présent, la relecture n'a pas d'effet ; dans le cas contraire, l'enregistrement est ajouté.

  • La gestion de la dérive des schémas implique une représentation précise des données, même lorsque les sources changent. La gestion de la dérive des schémas implique également la détection et la coercition des types de données, ce qui permet de trouver un équilibre entre la réplication précise et la préservation des données, d'une part, et le fonctionnement fiable des connecteurs de données, d'autre part. Fivetran règle principalement ce problème avec la mise à jour en direct, permettant de reproduire parfaitement les données entre la source et la destination.

  • Pour garantir la performance du pipeline et du réseau, il convient de minimiser les temps de latence et les goulets d'étranglement. Fivetran y parvient grâce à l'optimisation algorithmique, à la parallélisation, au pipelining et à la mise en mémoire tampon.

Pourquoi Fivetran est une plateforme, pas seulement un pipeline

Fivetran n’est pas qu'une solution ponctuelle qui résout le problème unique et distinct de la centralisation des données pour l'analyse. À plus long terme, les organisations doivent également envisager de démocratiser l'accès aux données et de trouver des moyens de les monétiser. Tenant compte de ces besoins, Fivetran offre des fonctions de sécurité, de gouvernance et d'extensibilité.

Les fonctions de sécurité sont indispensables pour garantir la conformité réglementaire, gérer le risque lié à la marque, protéger les opérations internes et la propriété intellectuelle, et protéger les informations sur les clients ou d'autres données essentielles à l'entreprise d'une manière éthique lorsqu'elles sont déplacées. En ce qui concerne la sécurité des plateformes, les caractéristiques courantes comprennent un déploiement flexible et des options de réseau sécurisées, des certifications de conformité à la sécurité pour les plateformes SaaS, une protection des données par cryptage de bout en bout et l'isolement des processus.

Dans le même ordre d'idées, la gouvernance des données est essentielle pour permettre aux organisations de connaître, d'accéder à, et de protéger leurs données. Les fonctions de gouvernance des données comprennent l'intégration facile avec les catalogues de données, la présentation graphique de l'évolution des modèles de données, la capture des métadonnées et d'autres outils d'audit.

Enfin, les fonctions d'extensibilité permettent à une organisation de contrôler de manière programmatique un écosystème croissant d'outils de gestion des données et d'intégrer des ressources de données dans des produits. Comme les besoins en données augmentent en taille et en complexité au fil du temps, les organisations devront être en mesure de gérer les utilisateurs à grande échelle, de s'intégrer à d'autres technologies d'exploitation des données et d'élaborer des processus et des flux de travail personnalisés qui dépendent des données.

[CTA_MODULE]

Commencer gratuitement

Rejoignez les milliers d’entreprises qui utilisent Fivetran pour centraliser et transformer leur data.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Data insights
Data insights

Qu’est-ce que Fivetran ?

Qu’est-ce que Fivetran ?

April 10, 2023
April 10, 2023
Qu’est-ce que Fivetran ?
Et comment cela fonctionne-t-il ? Fivetran expliqué en environ 1 000 mots ou 5 minutes.

Fivetran est une plateforme de circulation de données automatisée, moderne et basée sur le cloud, conçue pour offrir aux organisations la possibilité d'extraire, de charger et de transformer des données sans effort entre un large éventail de sources et de destinations.

Il s'agit à la fois du cas d'utilisation traditionnel de l'intégration des données, dans lequel les données sont transférées des applications, des bases de données et des fichiers vers un référentiel central afin de consolider une « source unique de vérité » pour l'analyse, et de la capacité générale de déplacer les données entre les bases de données, les data warehouses et les data lakes afin de faciliter les opérations commerciales.

Le transfert de données de la source à la destination nécessite un système très performant dont la conception peut s'avérer faussement complexe. Il s'agit notamment de dimensionner correctement un environnement, d'assurer la disponibilité, la récupération après pannes et la reconstruction du système en fonction de l'évolution des sources de données et des besoins de l'entreprise. De nombreux outils d'intégration de données courants fournissent des cadres pour résoudre ces tâches, mais exigent toujours un degré considérable de configuration et de travail technique de la part des utilisateurs finaux.

En outre, il n'est pas rare que les organisations utilisent des dizaines, voire des centaines d'applications, d'outils et de systèmes opérationnels différents qui produisent des données, chacune d'entre elles laissant de précieux indices numériques.

Ces défis imposent des coûts importants en termes de temps, de main-d'œuvre et d'argent aux organisations qui tentent de déplacer des données à l'aide d'une solution sur mesure et de configuration élevée. La mise en place d'une infrastructure d'exploitation des données efficace, fiable et évolutive à partir de zéro, ou même avec l'aide d'un cadre, est un exercice émaillé de frustration et de perte d'opportunités.

En revanche, une solution automatisée de circulation des données prête à l’emploi évite à une organisation de devoir créer une telle solution en interne.

Automatisation, fiabilité et évolutivité

Du point de vue de l'utilisateur final, le flux de travail idéal pour le déplacement des données ne devrait consister en guère plus que :

  1. Sélectionner des connecteurs pour les sources de données à partir d'un menu
  2. Fournir des identifiants
  3. Spécifier un calendrier
  4. Appuyer sur un bouton pour commencer l'exécution

La simplicité de ce flux de travail cache une complexité considérable. L'architecture Fivetran est strictement divisée entre l'environnement local de l'utilisateur, le cloud de Fivetran et le cloud du client. Cette division est essentielle pour garantir à la fois la sécurité et la performance. En termes de sécurité, les séparations strictes entre le front-end, le back-end et le cloud du client garantissent qu'il n'y a aucun moyen d'exposer des données sensibles par le biais du front-end. Dans un souci de performance, Fivetran, en tant qu'outil cloud natif, fait un usage intensif de la parallélisation à la demande.

Le diagramme d'architecture suivant présente l'approche standard de Fivetran basée sur le cloud pour la circulation automatisée des données :

Fivetran propose également des architectures hybrides et sur site aux entreprises dont les exigences en matière de sécurité limitent la possibilité d'utiliser des solutions SaaS basées sur le cloud.

Un flux de travail typique suit les étapes suivantes :

  1. L'utilisateur accède à l'interface Fivetran par le biais du tableau de bord Fivetran.com ou de l'API.
  2. L'utilisateur crée et configure des connecteurs.
  3. Les choix de l'utilisateur sont enregistrés dans la base de données de production Fivetran.
  4. En fonction des paramètres enregistrés dans la base de données de production, le backend Fivetran génère un certain nombre de workers selon un calendrier.
  5. Chaque worker extrait et charge des données, avec quelques traitements légers. Les workers expirent lorsqu'ils ne sont plus nécessaires.
  6. Les transformations visant à produire des modèles de données prêts pour l'analyse sont déclenchées séparément et exécutées sur la destination. Les modèles de données Fivetran sont produits grâce à notre intégration avec dbt™ pour optimiser les transformations.

Afin d'assurer le bon fonctionnement et la fiabilité du flux de travail décrit ci-dessus, Fivetran est également conçu en tenant compte d'un certain nombre de considérations qui ne sont pas faciles à saisir dans un diagramme d'architecture.

  • Les mises à jour incrémentales garantissent des mises à jour en temps voulu et une perturbation minimale des systèmes sources. Au lieu d'extraire et de charger l'intégralité de la source de données à chaque synchronisation, Fivetran détecte les nouveaux enregistrements ou les enregistrements modifiés et reproduit les modifications dans la destination. Les synchronisations complètes ne sont utilisées que pour une première synchronisation ou pour résoudre des problèmes graves d'intégrité des données, tels que des enregistrements corrompus. Le principal mécanisme permettant à Fivetran de réaliser des mises à jour incrémentales est le Change Data Capture (CDC).

  • L’idempotence est la capacité d'un connecteur de données à se remettre facilement des échecs de synchronisation. Dans le contexte du déplacement de données, l'idempotence garantit que si vous appliquez plusieurs fois les mêmes données à une destination, vous obtiendrez le même résultat. Sans idempotence, un échec de synchronisation signifie qu'un ingénieur doit rechercher quels enregistrements ont été synchronisés et lesquels ne l'ont pas été, et concevoir une procédure de récupération personnalisée pour supprimer les enregistrements en double. Avec l'idempotence, le connecteur de données peut simplement relire toutes les données qui ne sont pas arrivées à destination. Si un enregistrement est déjà présent, la relecture n'a pas d'effet ; dans le cas contraire, l'enregistrement est ajouté.

  • La gestion de la dérive des schémas implique une représentation précise des données, même lorsque les sources changent. La gestion de la dérive des schémas implique également la détection et la coercition des types de données, ce qui permet de trouver un équilibre entre la réplication précise et la préservation des données, d'une part, et le fonctionnement fiable des connecteurs de données, d'autre part. Fivetran règle principalement ce problème avec la mise à jour en direct, permettant de reproduire parfaitement les données entre la source et la destination.

  • Pour garantir la performance du pipeline et du réseau, il convient de minimiser les temps de latence et les goulets d'étranglement. Fivetran y parvient grâce à l'optimisation algorithmique, à la parallélisation, au pipelining et à la mise en mémoire tampon.

Pourquoi Fivetran est une plateforme, pas seulement un pipeline

Fivetran n’est pas qu'une solution ponctuelle qui résout le problème unique et distinct de la centralisation des données pour l'analyse. À plus long terme, les organisations doivent également envisager de démocratiser l'accès aux données et de trouver des moyens de les monétiser. Tenant compte de ces besoins, Fivetran offre des fonctions de sécurité, de gouvernance et d'extensibilité.

Les fonctions de sécurité sont indispensables pour garantir la conformité réglementaire, gérer le risque lié à la marque, protéger les opérations internes et la propriété intellectuelle, et protéger les informations sur les clients ou d'autres données essentielles à l'entreprise d'une manière éthique lorsqu'elles sont déplacées. En ce qui concerne la sécurité des plateformes, les caractéristiques courantes comprennent un déploiement flexible et des options de réseau sécurisées, des certifications de conformité à la sécurité pour les plateformes SaaS, une protection des données par cryptage de bout en bout et l'isolement des processus.

Dans le même ordre d'idées, la gouvernance des données est essentielle pour permettre aux organisations de connaître, d'accéder à, et de protéger leurs données. Les fonctions de gouvernance des données comprennent l'intégration facile avec les catalogues de données, la présentation graphique de l'évolution des modèles de données, la capture des métadonnées et d'autres outils d'audit.

Enfin, les fonctions d'extensibilité permettent à une organisation de contrôler de manière programmatique un écosystème croissant d'outils de gestion des données et d'intégrer des ressources de données dans des produits. Comme les besoins en données augmentent en taille et en complexité au fil du temps, les organisations devront être en mesure de gérer les utilisateurs à grande échelle, de s'intégrer à d'autres technologies d'exploitation des données et d'élaborer des processus et des flux de travail personnalisés qui dépendent des données.

[CTA_MODULE]

Pour en savoir plus sur l'approche Fivetran en ce qui concerne le mouvement des données, la sécurité, la gouvernance et l'extensibilité.
Télécharger maintenant

Articles associés

ETL vs. ELT: Why a post-load process wins every time
Data insights

ETL vs. ELT: Why a post-load process wins every time

Lire l’article
How the Fivetran approach to data normalization cuts compute costs
Data insights

How the Fivetran approach to data normalization cuts compute costs

Lire l’article
No items found.
How to give marketers a safe, self-serve Customer 360
Blog

How to give marketers a safe, self-serve Customer 360

Lire l’article
The small data team’s guide to conquering data
Blog

The small data team’s guide to conquering data

Lire l’article
Replacing iPaaS workflows with warehouse-centric data pipelines
Blog

Replacing iPaaS workflows with warehouse-centric data pipelines

Lire l’article

Commencer gratuitement

Rejoignez les milliers d’entreprises qui utilisent Fivetran pour centraliser et transformer leur data.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.