Dateneinblicke

Migration zu einem Data Lake: Ein praktischer Plan

May 9, 2025

Adam Rees

Senior Solution Architect, Enterprise

THEMEN

Diese architektonischen Entscheidungen und diesen Migrationsprozess benötigen Sie, um einen Data Lake zum Zentrum Ihrer Architektur zu machen.

Ihr Team könnte aus einem oder beiden der folgenden Gründe eine Migration zu einem Data Lake in Betracht ziehen:

Zentralisierung großer Mengen strukturierter und unstrukturierter Daten
Ermöglicht fortschrittlichere Analysen wie KI

Die erfolgreiche Migration zu einem Data Lake erfordert mehrere wichtige Überlegungen:

Architektonische Entscheidungen beeinflussen, wie Daten gespeichert, abgerufen und verwaltet werden. Eine Architektur sollte Skalierbarkeit, Wirtschaftlichkeit und Kompatibilität mit den Datenanforderungen Ihres Unternehmens gewährleisten.
Tools wie Fivetran können die Migration optimieren und die Übertragung von Daten aus verschiedenen Quellen in den Data Lake mit minimalem Aufwand automatisieren.
Verschiedene Abfrage-Engines eignen sich gut für verschiedene Anwendungsfälle und Datenstapel. Sobald die Daten im Data Lake landen, kann die richtige Abfrage-Engine Analysen und Erkenntnisse ermöglichen, ohne bestehende Workflows zu stören.

[CTA_MODULE]

Wichtige architektonische Entscheidungen für Ihren Data Lake

Beim Aufbau oder der Migration zu einem Data Lake prägen vier grundlegende Entscheidungen Ihre Architektur:

1. Cloud-Speicher

Dies ist oft die wichtigste Entscheidung, da es in der Regel am schwierigsten ist, sie später zu ändern. Sie müssen wählen zwischen ALS S3, Azure Data Lake-Speicher, oder Google Cloud-Speicher. In vielen Fällen wird die Entscheidung durch Ihren bestehenden Cloud-Footprint vereinfacht. Wenn Ihr Unternehmen beispielsweise bereits stark auf AWS angewiesen ist, ist S3 die perfekte Wahl. Insgesamt ist Cloud-Speicher stark standardisiert, und die meisten Optionen bieten ähnliche Preise und Funktionen. Dennoch sind die Unterschiede in Leistung, Preisgestaltung und anbieterübergreifende Funktionen sind eine Überlegung wert.

2. Format der Tabelle

Ihre Wahl des offenen Tabellenformats bestimmt, wie Ihre Daten Funktionen wie Transaktionskonsistenz, ACID-Konformität und Schemaentwicklung unterstützen. Das Von Fivetran verwalteter Data Lake-Dienst unterstützt Landedaten in beiden Formate Iceberg und Delta Lake, bei allen großen Speicheranbietern. Diese Dual-Format-Strategie bietet Ihnen die Möglichkeit, Ihre Daten mithilfe einer Vielzahl von Engines abzufragen, ohne an ein bestimmtes Format gebunden zu sein.

3. Katalog

Ein Katalog enthält Metadaten zu Ihren Datensätzen und ist für die Auffindbarkeit und Konsistenz unerlässlich. Zu den Optionen gehören AWS-Kleber, Unity-Katalog, BigQuery-Metastore, oder Fivetrans eigener Iceberg REST-Katalog (Dokumente).

Fivetran stellt automatisch einen speziellen Iceberg REST-Katalog bereit. Sie können je nach Speicher- und Tabellenformat auch Kataloge von Drittanbietern konfigurieren (unterstützte Optionen). Beispiele finden Sie in den folgenden Architekturdiagrammen.

4. Abfrage-Engine

Die Wahl einer Abfrage-Engine hängt von der Vertrautheit Ihres Teams und den vorhandenen Tools ab. Einige Engines sind im Lieferumfang von Cloud-Data Warehouses enthalten und können offene Tabellenformate in einem Data Lake auch nativ abfragen. Zu den Beispielen gehören Schneeflocke, Datenbausteine, BigQuery, Amazon Athene, Trino, und Apache Spark.

Interoperabilität als Leitprinzip verwenden

Diese Entscheidungen hängen voneinander ab. Zum Beispiel, wenn Sie eine Abfrage mit planen Datenbausteine, auswählen Delta-See und Unity-Katalog ist aufgrund der tiefen Integration sinnvoll (vgl. Databricks Delta Table-Dokumente).

Beginnen Sie mit den Entscheidungen, bei denen Sie am sichersten sind, z. B. bei Ihrem Speicheranbieter. Aufgrund der inhärenten Interoperabilität von Data Lakes sollten Sie über ein hohes Maß an Flexibilität verfügen, um den Rest Ihrer Architektur an die spezifischen Bedürfnisse Ihres Teams und Ihrer Anwendungsfälle anzupassen.

Der interoperable Ansatz von Fivetran

Die Data Lake-Architektur von Fivetran ist konzipiert für Interoperabilität. Wir unterstützen sowohl das Iceberg- als auch das Delta-Format und ermöglichen die Integration mit Katalogen von Drittanbietern wie AWS Glue oder dem Iceberg REST Catalog von Fivetran (der Polaris-Katalog von Apache unter der Haube ist).

Ein großer Vorteil einer Data Lake-Architektur ist die Flexibilität — Sie sind nicht an eine Abfrage-Engine gebunden. Stattdessen können Ihre Teams je nach Anwendungsfall von verschiedenen Engines aus auf dieselben Daten zugreifen.

Migration und Implementierung

Sobald Sie Ihren Data Lake eingerichtet haben, müssen Sie ihn mit Ihren Daten füllen. Der Einstieg in einen Fivetran Managed Data Lake Service ist unkompliziert. Wir bieten eine detaillierte Anleitung zur Einrichtung, einschließlich speicherspezifischer Anweisungen für jeden unterstützten Cloud-Anbieter. Fivetran bietet die Möglichkeit, historische Synchronisierungen auf SaaS- und Datenbankquellen durchzuführen sowie direkt aus Data Warehouses zu synchronisieren.

Wenn Sie ein bestehender Fivetran-Kunde sind und derzeit Daten an einem anderen Ziel (z. B. Snowflake oder BigQuery) erhalten, wenden Sie sich an Ihren Account Manager. Unser Team kann Ihnen helfen, Ihre vorhandenen Konnektoren mit minimaler Unterbrechung auf Ihr neues Data Lake-Ziel zu migrieren.

Abfrageoptionen für Ihren vorhandenen Datenstapel

Sobald Ihre Daten im See landen, besteht der nächste Schritt darin, sie mithilfe der Tools, die Ihre Teams bereits verwenden, zugänglich zu machen. Die Architektur von Fivetran ist so konzipiert, dass sie flexible, skalierbare Abfrageintegrationsmuster unterstützt. So können Sie Ihre Daten dort analysieren, wo es am sinnvollsten ist.

Fivetran verfolgt einen ELT-Ansatz (Extract, Load, Transform): Rohdaten werden zuerst in Ihren Data Lake geladen und dann bei Bedarf flussabwärts transformiert. Diese Trennung bietet eine größere Flexibilität bei der Abfrage und Modellierung der Daten nach der Erfassung.

Es gibt eine Vielzahl von Möglichkeiten, Daten in einer Seenumgebung abzufragen. In den folgenden beiden Unterabschnitten werden einige der gängigsten Ansätze vorgestellt.

REST-Katalog für Snowflake und Iceberg

In unserem Leitfaden zur Integration des Fivetran Iceberg REST-Katalogs, wir erklären Ihnen, wie Sie Snowflake so konfigurieren, dass in Ihrem Lake gespeicherte Daten über den Iceberg REST-Katalog abgefragt werden. Dieses Muster ermöglicht es Ihnen, Daten in einer Speicherebene (wie S3 oder ADLS) im Iceberg-Tabellenformat zu landen. Nachdem externe Tabellen in Snowflake initialisiert und registriert wurden, können sie automatisch aktualisiert werden, um die neuesten Daten auf der Speicherebene wiederzugeben, sodass keine manuellen Aktualisierungen oder doppelte ETL-Pipelines erforderlich sind.

Databricks und Unity Catalog

Ein weiteres gängiges und leistungsstarkes Abfragemuster für Data Lakes ist die Integration mit Unity Catalog und Databricks. In unserem Blogbeitrag “Ein moderner Data Lake mit Fivetran Managed Data Lake Service und Databricks Unity Catalog,“ Wir beschreiben, wie der Managed Data Lake Service von Fivetran nahtlos mit Unity Catalog zusammenarbeitet, um diese Architektur zu unterstützen.

Wenn Sie die native Integration von Fivetran verwenden, werden Schemas und Tabellen in Ihrem Lake automatisch auf dem neuesten Stand gehalten, was die Verwaltung und Zugriffskontrolle optimiert. Um eine zentralisierte Architektur zu unterstützen, stellt Ihr Unity Catalog-Metastore eine Verbindung zu Ihrem Speicherort her und fungiert als einheitliche Metadatenebene. Anschließend können Sie mehrere Databricks-Workspaces an denselben Metastore anhängen und so einen konsistenten Zugriff in allen Umgebungen ermöglichen, ohne dass Sie mehrere Fivetran-Ziele konfigurieren oder separate Entwicklungs-Setups verwalten müssen.

Diese Integration bietet einen skalierbaren, gut kontrollierten Weg zur Abfrage von Lake-Daten direkt von Databricks aus, mit minimalem Betriebsaufwand.

Fivetran-Datenmodelle auf dem Data Lake

Fivetran bietet dbt Core-kompatible Datenmodelle (früher bekannt als „Fivetran dbt-Pakete“) für unsere beliebtesten Konnektoren an. Diese vorgefertigten Modelle erzeugen saubere, analysebereite Tabellen, die direkt in Ihre Berichte, Dashboards und BI-Tools einfließen.

Sie können unsere dbt Core-kompatiblen Datenmodelle in einer Data Lake-Architektur nutzen, indem Sie eine unterstützte Abfrage-Engine wie BigQuery, Databricks, PostgreSQL, Redshift oder Snowflake und die folgenden Schritte verwenden:

Nehmen Sie Ihre Quelldaten auf
Richten Sie zunächst die Fivetran-Konnektoren für die Quellen ein, mit denen Sie arbeiten möchten, und stellen Sie sicher, dass externe Tabellen werden in Ihrer Abfrage-Engine erstellt. Die spezifischen Tabellen, die für jedes Datenmodell erforderlich sind, sind in der entsprechenden Dokumentation aufgeführt. Wenn Sie beispielsweise planen, das zu verwenden facebook_ads__account_report Modell, das Abstammungsdiagramm zeigt, dass es von den Tabellen basic_ad_action_items, basic_ad_actions, account_history und basic_ad abhängt. Diese Quelltabellen müssen als externe Tabellen in Ihrer Abfrage-Engine vorhanden sein, damit das Modell erfolgreich ausgeführt werden kann.

Erstellen Sie Ihr Debt-Projekt
Sobald Ihre externen Tabellen verfügbar sind, erstellen Sie ein dbt Core-Projekt, das auf Ihre Abfrage-Engine abzielt. Folgen Sie unseren detaillierten Anleitung zur Einrichtung von Transformationen für eine schrittweise Anleitung.
Installieren Sie die Fivetran-Datenmodelle
In Schritt 6 von die Anleitung zur Einrichtung von DBT, installieren Sie das Fivetran-Datenmodell für Ihre spezifische Quelle (z. B. Datenmodell für Facebook-Anzeigen) in Ihrem Schuldenprojekt.
Bei der Konfiguration des Quellmodells ist es wichtig, die Datenbank- und Schemavariablen, die darauf verweisen, wo die externen Tabellen in Ihrer Data Lake-Umgebung erstellt wurden, korrekt zu definieren. Hier ist ein Beispiel für Facebook-Werbung.

Data Lakes leicht gemacht

Dank der Automatisierung, Flexibilität und Interoperabilität, die moderne Tools und Technologien bieten, war die Migration zu einem Data Lake noch nie so einfach. Anstatt Entwicklungszeit mit der technischen Implementierung zu verbringen, kann Ihr Team sicherstellen, dass es auf der Grundlage seines Anwendungsfalls und anderer Anforderungen die besten Entscheidungen trifft.

Fivetran kann Ihnen helfen, den größten Teil des Weges dorthin zu erreichen. Wie alle Angebote von Fivetran ist auch der Managed Data Lake Service auf Einfachheit und Benutzerfreundlichkeit ausgelegt und automatisiert die Datenintegration und -verwaltung im Data Lake.

[CTA_MODULE]

Data Lakes vs. Data Warehouses: Ein Kostenvergleich von GigaOM

Lesen Sie den vollständigen Bericht

Erleben Sie Fivetran Managed Data Lake Service mit einer kostenlosen Testversion selbst.

Starte jetzt

Topics

Data Lakes

Lakehouse