ERFAHREN SIE MEHR

Was ist eine ETL-Datenpipeline?

April 4, 2023

THEMEN

Datenintegration hat in den letzten Jahren aufgrund der riesigen Datenmengen, die moderne Geschäftssysteme produzieren, immer mehr an Bedeutung gewonnen.

Unternehmen benötigen eine zuverlässige Methode, um Daten aus verschiedenen Quellen zu sammeln, zu standardisieren, zu bereinigen und in einen Datenspeicher zu laden. Eine Standardmethode hierfür ist eine ETL-Datenpipeline (Extrahieren, Transformieren, Laden).

ETL ist eine Datenintegrationsmethode, die es Unternehmen ermöglicht, Daten zu vereinheitlichen und für Analysen verfügbar zu machen. Da sich ETL im Bereich der Datenintegration etabliert hat, wird der Begriff oft mit „Datenpipeline“ gleichgesetzt. Aber die beiden Begriffe sind sehr unterschiedlich.

ETL ist auch mit einem anderen Datenintegrations-Framework namens ELT (Extrahieren, Laden, Transformieren) vergleichbar – jede Methode hat ihre Vor- und Nachteile.

In diesem Artikel gehen wir auf die Komponenten einer ETL-Datenpipeline ein, erklären, wie sie sich von einer Datenpipeline unterscheidet, und vergleichen sie mit der ELT-Methode.

[CTA]

Was ist eine ETL-Pipeline?

Eine ETL-Pipeline umreißt die Prozesse, die bei der Extraktion von Daten aus verschiedenen Quellen, ihrer Umwandlung und dem anschließenden Laden in ein Zielgebiet ablaufen.

Mit der ETL-Datenintegrationsmethode erhalten Analysten Zugang zu einem zentralen Repository mit bereinigten und formatierten Daten. Sie können diese Daten für Analysen und Business Intelligence nutzen.

Der ETL-Prozess besteht aus drei Phasen:

Extraktion

In der Extraktionsphase werden Daten aus mehreren Quellen gesammelt und in einen Bereitstellungsbereich oder ein Zwischenziel geladen. Gängige Datenquellen sind:

SaaS-Anwendungen
CRM-Plattformen
Verkaufs- und Marketinginstrumente
Ereignisströme
SQL- oder NoSQL-Datenbanken

Daten aus diesen Quellen können je nach den Anforderungen der Datenanalyse synchron oder asynchron synchronisiert werden. So können beispielsweise Daten aus einem CRM-Tool zweimal pro Woche aktualisiert werden, während Daten aus einer Kunden-App täglich erfasst werden können.

Entwickler können manuelle APIs für jede Quelle erstellen, aber das ist für Unternehmen mit unzähligen Quellen nicht immer machbar. Stattdessen können sie Lösungen wie Fivetran nutzen, um vorgefertigte Konnektoren zu implementieren, die eine einfache Verbindung zu all ihren Quellen ermöglichen.

Transformation

Rohdaten aus allen Quellen müssen bereinigt, strukturiert und formatiert werden, damit sie in Datenmodellen für Analysen verwendet werden können. Dieser Prozess ist die Datentransformation.

Transformation beinhaltet:

Normalisierung
Bereinigung
Umstrukturierung
Deduplizierung
Datenvalidierung

Abhängig vom Anwendungsfall kann sie auch Zusammenfassen, Sortieren, Ordnen und Indizieren umfassen. Statt dass Entwickler und Datenteams manuell Transformationen für jeden Datensatz kodieren, können sie vorgefertigte Transformationen verwenden, um diesen Prozess zu beschleunigen.

Laden

Der Ladeprozess überträgt transformierte Daten an ein zentralisiertes Ziel, wie eine Datenbank, ein Data Warehouse, einen Data Lake oder ein Cloud Data Warehouse. Die Daten können zur schnelleren Analyse auch direkt an Business-Intelligence-Tools gesendet werden.

ETL-Pipeline – Anwendungsfälle

ETL-Tools werden typischerweise verwendet für:

Zentralisierung und Standardisierung von Daten: ETL-Pipelines können Daten aus zahlreichen Quellen in einer zentralen Datenbank konsolidieren, z. B. in einem Data Warehouse, auf das Analysten zugreifen und wo sie bereinigte Daten für Analysen verwenden können.
Datenmigration: ETL-Datenpipelines können Unternehmen dabei helfen, von älteren, veralteten Speichersystemen auf moderne Systeme umzusteigen, die schnellere und umfassendere Analysen ermöglichen.
Grundlegende Analysen: Ein strukturierter Datensatz kann in Analysetools eingespeist werden, um schnell Erkenntnisse zu gewinnen, ohne dass kontextbezogene Daten verloren gehen. Der Kontext ist für die Analyse von entscheidender Bedeutung, da er zeigt, wie bestimmte Ergebnisse oder Schlussfolgerungen zustande gekommen sind, und den Analysten hilft, eventuelle Fehler zu lösen und zu beheben.

ETL-Pipeline – Herausforderungen

Während ETL für bestimmte analytische Anwendungsfälle durchaus seine Vorzüge hat, haben Unternehmen und Datenteams in drei Schlüsselbereichen Schwierigkeiten.

Skalierung

Die ETL-Pipeline-Architektur stützt sich bei der Datenverarbeitung auf Server. Wenn das Volumen und die Vielfalt der Daten zunehmen, muss auch die Einrichtung skaliert werden. Dies ist mit erheblichen Investitionen verbunden, vor allem, wenn dafür Hardware vor Ort erforderlich ist, und erfordert Zeit.

Dieses System könnte für die Stapelverarbeitung geeignet sein. Die Skalierung einer ETL-Pipeline ist jedoch nicht mehr möglich, wenn der Bedarf an Echtzeitdaten steigt.

Steigender Arbeitsbedarf

Engineers müssen für jede Datenquelle eine neue Pipeline erstellen, was zu ihrer Arbeitsbelastung durch die Verwaltung bestehender Pipelines beiträgt. Die Erstellung und Anwendung von Transformationen stellt eine weitere Herausforderung dar.

Da ETL-Pipelines für bestimmte Anwendungsfälle entwickelt werden, sind für die Verwaltung des Systems möglicherweise qualifizierte Engineers mit spezieller Ausbildung erforderlich.

Diese Faktoren kosten die Unternehmen Tausende von Dollar in Form von zusätzlichen Arbeitskräften, zusätzlichen Arbeitsstunden und den für die Unterbringung dieser Mitarbeiter erforderlichen Einrichtungen.

Arbeitsablaufsicherheit

ETL-Pipelines müssen neu erstellt werden, wenn sich das vorgelagerte Datenschema oder der nachgelagerte Datenbedarf ändert. Beim ersten Szenario müssen die Ingenieure den gesamten nachgelagerten Transformationscode ändern oder neu erstellen, während sie beim zweiten Szenario neue Transformationen erstellen müssen.

Pipeline-Änderungen sind relativ konstant, da sich die Geschäftslogik ständig weiterentwickelt. Dies erhöht die ständig wachsende Arbeitsbelastung von Entwicklern und Engineers, was zu weiteren Kosten und einer möglicherweise verzögerten Datenerfassung führt.

ETL-Pipeline vs. Datenpipeline

Viele Benutzer verwechseln die Begriffe „ETL-Pipeline“ und „Datenpipeline“. Die beiden Begriffe werden jedoch für unterschiedliche Datenintegrationslösungen verwendet.

Bevor wir uns mit den Unterschieden befassen, sollten wir verstehen, was eine Datenpipeline ist.

Datenpipeline

Eine Datenpipeline ist eine Sammlung von Prozessen, die Daten zwischen dem Quellsystem und dem Zielspeicher bewegen. Es ist ein Oberbegriff für die Schritte, die zum Sammeln und Laden von Daten verwendet werden.

Eine ETL-Pipeline ist eine Art von Datenpipeline. Sie bezieht sich auf eine bestimmte Art und Weise, in der Daten gesammelt, umgewandelt und in Zielsysteme geladen werden.

Eine Datenpipeline hat sechs Schlüsselkomponenten:

Quelle: Eine Quelle ist jedes System, von dem Daten gesammelt werden.
Ziel: Ein Ziel ist ein zentrales Repository, in dem die konsolidierten Daten für die Analyse gespeichert werden.
Datenfluss: Der Datenfluss definiert, wie die Daten von einem System zum anderen gelangen.
Bearbeitung: Die Verarbeitung ist der Ort, an dem die Datenintegration stattfindet. Rohdaten werden mithilfe von Transformationen in verbrauchbare Informationen umgewandelt. Entwickler und Manager bestimmen die Parameter dieser Transformationen.
Überwachung: Datenpipelines sind darauf angewiesen, dass komplexe Prozesse reibungslos nacheinander abgewickelt werden. Dies ist unangemessen, da Fehler unvermeidbar sind. Bei der Überwachung wird die Pipeline ständig daraufhin überprüft, ob sie wie vorgesehen funktioniert
Workflow: Der Workflow legt die Reihenfolge fest, in der die einzelnen Schritte in der Pipeline ablaufen

Datenteams können diese Komponenten modifizieren, um Datenpipelines zu erstellen, die mit den Anforderungen der Business Intelligence übereinstimmen.

Typen von Datenpipelines

Datenpipelines lassen sich grob in vier Kategorien einteilen:

Batch: Eine Batch-Pipeline wird in bestimmten Zeitabständen ausgeführt und lädt eine große Menge an Daten. Eine Pipeline, die einmal im Monat Daten von einem CRM-Tool sammelt, ist beispielsweise eine Batch-Verarbeitungspipeline.
Echtzeit: Streaming- oder Echtzeit-Pipelines synchronisieren kontinuierlich Daten, sobald die Quelle aktualisiert wird.
Cloudbasiert: Diese Pipelines werden von einem Drittanbieter in der Cloud gehostet und sind eine hervorragende Lösung, um Infrastrukturkosten zu sparen. Einige cloudbasierte Plattformen bieten erweiterte Funktionen, die Ihr gesamtes Datenmanagement optimieren können.
Open-Source: Open-Source-Datenbanksoftware ist in der Regel kostenlos und bietet vollständigen Zugang zur Nutzung und Änderung des Quellcodes. Der Einsatz dieser Instrumente erfordert ein hohes Maß an Fachwissen und Zeit.

Eine Datenpipeline kann Merkmale von mehr als einem der oben genannten Typen aufweisen. Viele Unternehmen verwenden hybride Pipelines, um verschiedene Funktionen zu ermöglichen.

Unterschiede zwischen einer ETL-Pipeline und einer Datenpipeline

Eine ETL-Datenpipeline und eine Datenpipeline weisen drei wesentliche Unterschiede auf.

Datenpipelines müssen keine Transformationen enthalten

Eine ETL-Pipeline muss eine Transformation enthalten, während eine generische Datenpipeline keine Transformationen enthalten darf.

ETL-Pipelines enden nach dem Laden

ETL-Pipelines werden abgeschlossen, nachdem die Daten in das Ziel-Repository geladen wurden. Jede andere Datenpipeline könnte das Laden als Teil der Pipeline verwenden, die weitere Aktionen auslöst. Eine ELT-Pipeline ist ein gutes Beispiel dafür.

ETL-Pipelines verschieben Daten in Stapeln

Die meisten ETL-Pipelines sind Batch-Verarbeitungspipelines. Die Daten werden nach einem vorgegebenen Zeitplan stapelweise mit den Quellen synchronisiert. Eine Datenpipeline kann so konfiguriert werden, dass sie Daten in Stapeln oder in Echtzeit erfasst.

ETL-Pipeline vs. ELT-Pipeline

ETL wird oft mit ELT, einer neueren Methode der Datenintegration, verglichen. Bevor wir uns mit der Frage beschäftigen, welche Methode besser ist, sollten wir den ELT-Rahmen verstehen.

ELT

ELT ist eine Datenintegrationsmethode, bei der Daten von einer Quelle gesammelt, auf ein Ziel geladen und dann von Analytikern bei Bedarf transformiert werden.

Im Wesentlichen kehrt es die beiden letztgenannten Prozesse des ETL um. Auf diese Weise werden die Lade- und Transformationsprozesse entkoppelt, was einen schnelleren Datenabgleich ermöglicht und die beiden größten Gefahren für eine ETL-Pipeline verhindert – Änderungen an vorgelagerten Schemata und nachgelagerten Datenmodellen.

Eine ELT-Datenpipeline gibt Analysten und Data Engineers die vollständige Kontrolle darüber, wie ihre Quelldaten geändert werden. Sie können Transformationen erstellen und anwenden, um spezifische Datenmodelle zu erstellen, ohne den Extraktionsprozess zu unterbrechen.

ELT-Pipelines sind anpassbar und werden für fortschrittliche Analysen, Echtzeitdaten und Ereignisströme, maschinelles Lernen und künstliche Intelligenz verwendet.

Die Verwendung einer vollständig verwalteten ELT-Plattform wie Fivetran ist billiger, einfacher zu implementieren und verkürzt die Zeit bis zum Erreichen von Erkenntnissen im Vergleich zum manuellen Aufbau und der Pflege von ETL-Pipelines.

Warum ELT der Weg in die Zukunft ist

‍

ELT ist die ideale Datenintegrationsarchitektur für moderne Geschäftsanforderungen.

‍

Organisationen stellen aus fünf entscheidenden Gründen auf vollständig verwaltete ELT um:

ELT ist einfacher

ELT vereinfacht die Datenintegration, indem Datenbanken direkt aus der Quelle befüllt werden. Dies gewährleistet die Datenintegrität und erleichtert den Analysten die Erstellung von Modellen, die besser auf ihre analytischen Bedürfnisse zugeschnitten sind.

Sie optimiert auch das Daten-Engineering und die Entwicklung, indem sie die Einrichtung einer Datenpipeline ohne Code in wenigen Minuten ermöglicht. Dies reduziert ihre Arbeitsbelastung und ermöglicht es ihnen, sich auf wichtigere Aufgaben zu konzentrieren.

ELT ist zuverlässiger

ELT-Pipelines machen einen ständigen Neuaufbau der Pipeline überflüssig, da die Lade- und Transformationsprozesse unabhängig voneinander ablaufen. Datenteams haben einen schnelleren Zugriff auf Daten und können Datenmodelle auf der Grundlage von geschäftlichen Anwendungsfällen erstellen und ändern, ohne die Data Movement an der Quelle zu unterbrechen.

Wenn Sie sich für eine vollständig verwaltete Lösung wie Fivetran entscheiden, werden Wartung und Fehlerbehebung von den Entwicklern des Tools übernommen und nicht von Ihnen. Die Plattform wird regelmäßig aktualisiert, um die Sicherheit und Compliance zu verbessern und weitere Funktionen hinzuzufügen.

ELT unterstützt Automatisierung

ELT-Pipelines, die von Drittanbietern verwaltet werden, automatisieren alltägliche Pipeline-Wartungsaufgaben wie die Änderung von Datenextraktionsskripten, die Aktualisierung von Schemata und die Normalisierung von Datenquellenextrakten.

Automatisierung kann auch durch die Integration mit anderen Datenmanagement-Tools erfolgen.

ELT erleichtert das Outsourcing

Unternehmen, die automatisierte ELT einsetzen, können standardisierte Datenmodelle erstellen, die das Outsourcing erleichtern. Die Auslagerung des Datenpipeline-Managements kann Zeit und Geld sparen, während sich Ihre Datenteams auf ihre Kernaufgaben konzentrieren können.

Plattformen wie Fivetran ermöglichen einen rollenbasierten Zugriff, so dass Unternehmen kontrollieren können, wie Auftragnehmer oder Dritte mit ihren Daten umgehen. Eine einfach zu bedienende Schnittstelle bedeutet auch, dass Änderungen an der Pipeline mit wenigen Klicks vorgenommen werden können, ohne dass speziell geschulte Experten benötigt werden.

ELT ist flexibel und skalierbar

ELT-Pipelines müssen sich nicht an bestimmte Transformationen halten. Stattdessen lassen sie Data Scientists und Analysten entscheiden, was mit den Daten geschehen soll, und implementieren ihre eigenen Analyseverfahren.

Darüber hinaus sind Cloud-Plattformen leicht zu skalieren. Fivetran zum Beispiel verwendet ein Bezahlmodell, bei dem Sie nur für das bezahlen, was Sie nutzen. Unternehmen können neue Ressourcen freischalten, indem sie ihren Abonnementplan aktualisieren.

Dadurch entfallen teure Upgrades vor Ort oder der Kauf anderer Systeme zur Unterstützung einer schnell wachsenden ETL-Pipeline.

Fazit

ETL-Datenpipelines sind ideal für Unternehmen, die ein kleineres Datenvolumen verarbeiten und sich auf langsamere Erkenntnisse verlassen können, die durch die Batch-Datenverarbeitung gewonnen werden. Für schnelle Analysen in Echtzeit werden andere Arten von Datenpipelines benötigt.

Eine vollständig verwaltete ELT-Pipeline ist die Lösung für Unternehmen, die Daten in Echtzeit laden, schnell analysieren und einfacher skalieren wollen.

Fivetran kann Datenteams dabei helfen, ihre Datenpipelines einfach einzurichten und zu verwalten. Melden Sie sich an und erfahren Sie, wie unsere Plattform Ihre Datenintegration verbessern kann.

[CTA_MODULE]

Get started today

Topics

etl

data pipeline