Aperçus de données

Migration vers un lac de données : un plan pratique

May 9, 2025

Adam Rees

Senior Solution Architect, Enterprise

SUJETS

Vous aurez besoin des décisions architecturales et du processus de migration suivants pour placer un lac de données au cœur de votre architecture.

Votre équipe peut envisager de migrer vers un lac de données pour l'une des raisons suivantes ou les deux :

Centralisation de grands volumes de données structurées et non structurées
Permettre des analyses plus avancées telles que l'IA

La réussite de la migration vers un lac de données implique plusieurs considérations clés :

Les décisions architecturales façonnent la manière dont les données sont stockées, consultées et gérées. Une architecture doit garantir l'évolutivité, la rentabilité et la compatibilité avec les besoins en données de votre organisation.
Des outils tels que Fivetran peuvent rationaliser la migration en automatisant le transfert de données depuis diverses sources vers le lac de données avec un minimum d'effort.
Les différents moteurs de requêtes fonctionnent bien pour différents cas d'utilisation et différentes piles de données. Une fois que les données arrivent dans le lac de données, le bon moteur de requête peut permettre des analyses et des informations sans perturber les flux de travail existants.

[CTA_MODULE]

Décisions architecturales clés pour votre lac de données

Lors de la création ou de la migration vers un lac de données, quatre décisions fondamentales façonnent votre architecture :

1. Stockage dans le cloud

Il s'agit souvent du choix le plus critique, car il est généralement le plus difficile à modifier ultérieurement. Vous devrez choisir entre AWS S3, Stockage Azure Data Lake, ou Stockage dans le cloud de Google. Dans de nombreux cas, la décision est simplifiée par votre empreinte cloud existante. Si votre organisation dépend déjà fortement d'AWS, par exemple, S3 est la solution idéale. Dans l'ensemble, le stockage dans le cloud est très banalisé, la plupart des options offrant des prix et des fonctionnalités similaires. Néanmoins, les différences de performances, de prix et fonctionnalités pour tous les fournisseurs méritent d'être pris en compte.

2. Format de tableau

Le format de table ouverte que vous choisissez détermine la manière dont vos données prennent en charge des fonctionnalités telles que la cohérence transactionnelle, la conformité ACID et l'évolution des schémas. Le Service de lac de données géré Fivetran prend en charge les données d'atterrissage dans les deux Formats Iceberg et Delta Lake, auprès de tous les principaux fournisseurs de stockage. Cette stratégie à double format vous permet d'interroger vos données à l'aide d'un large éventail de moteurs sans être bloqué dans un format spécifique.

3. Catalogue

Un catalogue conserve les métadonnées relatives à vos ensembles de données et est essentiel à la découverte et à la cohérence. Les options incluent Colle AWS, Catalogue Unity, BigQuery Metastore, ou celui de Fivetran Catalogue Iceberg REST (médecins).

Fivetran fournit automatiquement un catalogue Iceberg REST dédié. Vous pouvez également configurer des catalogues tiers en fonction de votre stockage et du format de votre tableau (options prises en charge). Consultez les schémas architecturaux ci-dessous pour des exemples.

4. Moteur de requêtes

Le choix d'un moteur de requête dépend des connaissances de votre équipe et des outils existants. Certains moteurs sont fournis avec des entrepôts de données cloud et peuvent également interroger des formats de table ouverts dans un lac de données de manière native. Les exemples incluent Flocon de neige, Databricks, BigQuery, Amazon Athéna, Trino, et Apache Spark.

Utiliser l'interopérabilité comme principe directeur

Ces choix sont interdépendants. Par exemple, si vous prévoyez d'effectuer une requête avec Databricks, en sélectionnant Lac Delta et Catalogue Unity prend tout son sens grâce à une intégration profonde (cf. Documentation sur Databricks Delta Table).

Commencez par les décisions qui vous inspirent le plus confiance, par exemple votre fournisseur de stockage. L'interopérabilité inhérente aux lacs de données signifie que vous devez disposer d'une flexibilité considérable pour adapter le reste de votre architecture aux besoins spécifiques de votre équipe et aux cas d'utilisation.

L'approche interopérable de Fivetran

L'architecture du lac de données de Fivetran est conçue pour interopérabilité. Nous prenons en charge les formats Iceberg et Delta et permettons l'intégration avec des catalogues tiers tels qu'AWS Glue ou le catalogue REST Iceberg de Fivetran (qui est le catalogue Polaris d'Apache sous le capot).

L'un des principaux avantages d'une architecture de lac de données est sa flexibilité : vous n'êtes pas bloqué dans un seul moteur de requêtes. Au lieu de cela, vos équipes peuvent accéder aux mêmes données à partir de différents moteurs, en fonction du cas d'utilisation.

Migration et mise en œuvre

Une fois que vous avez configuré votre lac de données, vous devez le remplir avec vos données. Il est facile de démarrer avec un service de lac de données géré Fivetran. Nous fournissons un guide de configuration, y compris des instructions spécifiques au stockage pour chaque fournisseur de cloud pris en charge. Fivetran permet d'effectuer des synchronisations historiques sur des sources SaaS et de bases de données, ainsi que de synchroniser directement depuis des entrepôts de données.

Si vous êtes déjà client de Fivetran et que vous recevez actuellement des données vers une destination différente (par exemple, Snowflake ou BigQuery), contactez votre responsable de compte. Notre équipe peut vous aider à migrer vos connecteurs existants vers votre nouvelle destination de lac de données avec un minimum de perturbations.

Options de requête pour votre pile de données existante

Une fois que vos données ont atterri dans le lac, l'étape suivante consiste à les rendre accessibles via les outils que vos équipes utilisent déjà. L'architecture de Fivetran est conçue pour prendre en charge des modèles d'intégration de requêtes flexibles et évolutifs, ce qui vous permet d'analyser vos données là où cela est le plus pertinent.

Fivetran suit une approche d'extraction, de chargement et de transformation (ELT) : les données brutes sont d'abord chargées dans votre lac de données, puis transformées en aval selon les besoins. Cette séparation offre une plus grande flexibilité pour interroger et modéliser les données après leur ingestion.

Il existe une multitude de façons d'interroger des données dans l'environnement d'un lac. Les deux sous-sections suivantes présentent certaines des approches les plus courantes.

Catalogue REST Snowflake et Iceberg

Dans notre Guide d'intégration du catalogue REST Fivetran Iceberg, nous expliquons comment configurer Snowflake pour interroger les données stockées dans votre lac via le catalogue Iceberg REST. Ce modèle vous permet de placer des données dans une couche de stockage (telle que S3 ou ADLS) au format de table Iceberg. Après avoir initialisé et enregistré les tables externes dans Snowflake, elles peuvent être automatiquement actualisées pour refléter les données les plus récentes de la couche de stockage, ce qui élimine le besoin d'actualisations manuelles ou de doublons de pipelines ETL.

Databricks et Unity Catalog

Un autre modèle de requête courant et puissant pour les lacs de données consiste à intégrer Unity Catalog et Databricks. Dans notre article de blog, »Un lac de données moderne avec Fivetran Managed Data Lake Service et Databricks Unity Catalog,» nous expliquons comment le service Managed Data Lake de Fivetran fonctionne parfaitement avec Unity Catalog pour prendre en charge cette architecture.

Lorsque vous utilisez l'intégration native de Fivetran, les schémas et les tables de votre lac sont automatiquement mis à jour, ce qui rationalise la gouvernance et le contrôle d'accès. Pour prendre en charge une architecture centralisée, votre métastore Unity Catalog se connecte à votre emplacement de stockage et agit comme une couche de métadonnées unifiée. Vous pouvez ensuite associer plusieurs espaces de travail Databricks à la même métastore, ce qui permet un accès cohérent à tous les environnements sans avoir à configurer plusieurs destinations Fivetran ou à gérer des configurations de développement distinctes.

Cette intégration offre une méthode évolutive et bien gérée pour interroger les données des lacs directement depuis Databricks, avec un minimum de frais opérationnels.

Modèles de données en cinq temps sur le lac de données

Fivetran propose des modèles de données compatibles dbt Core (anciennement appelés « packages Fivetran dbt ») pour nos connecteurs les plus populaires. Ces modèles prédéfinis produisent des tableaux clairs et prêts à être analysés qui alimentent directement vos rapports, tableaux de bord et outils de BI.

Vous pouvez tirer parti de nos modèles de données compatibles avec dbt Core dans une architecture de lac de données à l'aide d'un moteur de requête compatible tel que BigQuery, Databricks, PostgreSQL, Redshift ou Snowflake et en suivant les étapes suivantes :

Ingérez vos données sources
Commencez par configurer les connecteurs Fivetran pour les sources avec lesquelles vous souhaitez travailler et assurez-vous que tables externes sont créés dans votre moteur de requêtes. Les tableaux spécifiques requis pour chaque modèle de données sont répertoriés dans la documentation correspondante. Par exemple, si vous envisagez d'utiliser le facebook_ads__account_report modèle, le graphique de lignage montre que cela dépend des tables basic_ad_action_items, basic_ad_actions, account_history et basic_ad. Ces tables sources doivent être présentes sous forme de tables externes dans votre moteur de requêtes pour que le modèle fonctionne correctement.

Créez votre projet dbt
Une fois que vos tables externes sont disponibles, créez un projet dbt Core ciblant votre moteur de requêtes. Suivez nos informations détaillées Guide de configuration des transformations pour obtenir des instructions détaillées.
Installation des modèles de données Fivetran
À l'étape 6 de le guide de configuration DBT, vous allez installer le modèle de données Fivetran pour votre source spécifique (par exemple, Modèle de données sur les publicités Facebook) dans votre projet de dette.
Lors de la configuration du modèle source, il est important de définir correctement les variables de base de données et de schéma qui indiquent l'endroit où les tables externes ont été créées dans votre environnement de lac de données. Voici un exemple pour Publicités Facebook.

Des lacs de données simplifiés

Grâce à l'automatisation, à la flexibilité et à l'interopérabilité offertes par les outils et technologies modernes, la migration vers un lac de données n'a jamais été aussi simple. Au lieu de consacrer du temps d'ingénierie à la mise en œuvre technique, votre équipe peut s'assurer de faire les meilleurs choix en fonction de son cas d'utilisation et d'autres besoins.

Fivetran peut vous aider à en tirer le meilleur parti. Comme toutes les offres Fivetran, le service Managed Data Lake est conçu dans un souci de simplicité et de facilité d'utilisation, en automatisant l'intégration et la gestion des données dans le lac de données.

[CTA_MODULE]

Lacs de données et entrepôts de données : comparaison des coûts par GigaOM

Lire le rapport complet

Découvrez le service Fivetran Managed Data Lake par vous-même grâce à un essai gratuit.

Commencez dès maintenant

Topics

Data Lakes

Lakehouse