ERFAHREN SIE MEHR
ERFAHREN SIE MEHR

Was ist eine ETL-Datenpipeline?

Was ist eine ETL-Datenpipeline?

April 4, 2023
April 4, 2023
Was ist eine ETL-Datenpipeline?
Datenintegration hat in den letzten Jahren aufgrund der riesigen Datenmengen, die moderne Geschäftssysteme produzieren, immer mehr an Bedeutung gewonnen.

Unternehmen benötigen eine zuverlässige Methode, um Daten aus verschiedenen Quellen zu sammeln, zu standardisieren, zu bereinigen und in einen Datenspeicher zu laden. Eine Standardmethode hierfür ist eine ETL-Datenpipeline (Extrahieren, Transformieren, Laden).

ETL ist eine Datenintegrationsmethode, die es Unternehmen ermöglicht, Daten zu vereinheitlichen und für Analysen verfügbar zu machen. Da sich ETL im Bereich der Datenintegration etabliert hat, wird der Begriff oft mit „Datenpipeline“ gleichgesetzt. Aber die beiden Begriffe sind sehr unterschiedlich.

ETL ist auch mit einem anderen Datenintegrations-Framework namens ELT (Extrahieren, Laden, Transformieren) vergleichbar – jede Methode hat ihre Vor- und Nachteile.

In diesem Artikel gehen wir auf die Komponenten einer ETL-Datenpipeline ein, erklären, wie sie sich von einer Datenpipeline unterscheidet, und vergleichen sie mit der ELT-Methode.

[CTA]

Was ist eine ETL-Pipeline?

Eine ETL-Pipeline umreißt die Prozesse, die bei der Extraktion von Daten aus verschiedenen Quellen, ihrer Umwandlung und dem anschließenden Laden in ein Zielgebiet ablaufen.

Mit der ETL-Datenintegrationsmethode erhalten Analysten Zugang zu einem zentralen Repository mit bereinigten und formatierten Daten. Sie können diese Daten für Analysen und Business Intelligence nutzen.

etl process

Der ETL-Prozess besteht aus drei Phasen:

Extraktion

In der Extraktionsphase werden Daten aus mehreren Quellen gesammelt und in einen Bereitstellungsbereich oder ein Zwischenziel geladen. Gängige Datenquellen sind:

  • SaaS-Anwendungen
  • CRM-Plattformen
  • Verkaufs- und Marketinginstrumente
  • Ereignisströme
  • SQL- oder NoSQL-Datenbanken

Daten aus diesen Quellen können je nach den Anforderungen der Datenanalyse synchron oder asynchron synchronisiert werden. So können beispielsweise Daten aus einem CRM-Tool zweimal pro Woche aktualisiert werden, während Daten aus einer Kunden-App täglich erfasst werden können.

Entwickler können manuelle APIs für jede Quelle erstellen, aber das ist für Unternehmen mit unzähligen Quellen nicht immer machbar. Stattdessen können sie Lösungen wie Fivetran nutzen, um vorgefertigte Konnektoren zu implementieren, die eine einfache Verbindung zu all ihren Quellen ermöglichen.

Transformation

Rohdaten aus allen Quellen müssen bereinigt, strukturiert und formatiert werden, damit sie in Datenmodellen für Analysen verwendet werden können. Dieser Prozess ist die Datentransformation.

Transformation beinhaltet:

  • Normalisierung
  • Bereinigung
  • Umstrukturierung
  • Deduplizierung
  • Datenvalidierung

Abhängig vom Anwendungsfall kann sie auch Zusammenfassen, Sortieren, Ordnen und Indizieren umfassen. Statt dass Entwickler und Datenteams manuell Transformationen für jeden Datensatz kodieren, können sie vorgefertigte Transformationen verwenden, um diesen Prozess zu beschleunigen.

Laden

Der Ladeprozess überträgt transformierte Daten an ein zentralisiertes Ziel, wie eine Datenbank, ein Data Warehouse, einen Data Lake oder ein Cloud Data Warehouse. Die Daten können zur schnelleren Analyse auch direkt an Business-Intelligence-Tools gesendet werden.

ETL-Pipeline – Anwendungsfälle

ETL-Tools werden typischerweise verwendet für:

  • Zentralisierung und Standardisierung von Daten: ETL-Pipelines können Daten aus zahlreichen Quellen in einer zentralen Datenbank konsolidieren, z. B. in einem Data Warehouse, auf das Analysten zugreifen und wo sie bereinigte Daten für Analysen verwenden können.
  • Datenmigration: ETL-Datenpipelines können Unternehmen dabei helfen, von älteren, veralteten Speichersystemen auf moderne Systeme umzusteigen, die schnellere und umfassendere Analysen ermöglichen.
  • Grundlegende Analysen: Ein strukturierter Datensatz kann in Analysetools eingespeist werden, um schnell Erkenntnisse zu gewinnen, ohne dass kontextbezogene Daten verloren gehen. Der Kontext ist für die Analyse von entscheidender Bedeutung, da er zeigt, wie bestimmte Ergebnisse oder Schlussfolgerungen zustande gekommen sind, und den Analysten hilft, eventuelle Fehler zu lösen und zu beheben.

ETL-Pipeline – Herausforderungen

Während ETL für bestimmte analytische Anwendungsfälle durchaus seine Vorzüge hat, haben Unternehmen und Datenteams in drei Schlüsselbereichen Schwierigkeiten.

etl data pipeline challenges

Skalierung

Die ETL-Pipeline-Architektur stützt sich bei der Datenverarbeitung auf Server. Wenn das Volumen und die Vielfalt der Daten zunehmen, muss auch die Einrichtung skaliert werden. Dies ist mit erheblichen Investitionen verbunden, vor allem, wenn dafür Hardware vor Ort erforderlich ist, und erfordert Zeit.

Dieses System könnte für die Stapelverarbeitung geeignet sein. Die Skalierung einer ETL-Pipeline ist jedoch nicht mehr möglich, wenn der Bedarf an Echtzeitdaten steigt.

Steigender Arbeitsbedarf

Engineers müssen für jede Datenquelle eine neue Pipeline erstellen, was zu ihrer Arbeitsbelastung durch die Verwaltung bestehender Pipelines beiträgt. Die Erstellung und Anwendung von Transformationen stellt eine weitere Herausforderung dar.

Da ETL-Pipelines für bestimmte Anwendungsfälle entwickelt werden, sind für die Verwaltung des Systems möglicherweise qualifizierte Engineers mit spezieller Ausbildung erforderlich.

Diese Faktoren kosten die Unternehmen Tausende von Dollar in Form von zusätzlichen Arbeitskräften, zusätzlichen Arbeitsstunden und den für die Unterbringung dieser Mitarbeiter erforderlichen Einrichtungen.

Arbeitsablaufsicherheit

ETL-Pipelines müssen neu erstellt werden, wenn sich das vorgelagerte Datenschema oder der nachgelagerte Datenbedarf ändert. Beim ersten Szenario müssen die Ingenieure den gesamten nachgelagerten Transformationscode ändern oder neu erstellen, während sie beim zweiten Szenario neue Transformationen erstellen müssen.

Pipeline-Änderungen sind relativ konstant, da sich die Geschäftslogik ständig weiterentwickelt. Dies erhöht die ständig wachsende Arbeitsbelastung von Entwicklern und Engineers, was zu weiteren Kosten und einer möglicherweise verzögerten Datenerfassung führt.

ETL-Pipeline vs. Datenpipeline

Viele Benutzer verwechseln die Begriffe „ETL-Pipeline“ und „Datenpipeline“. Die beiden Begriffe werden jedoch für unterschiedliche Datenintegrationslösungen verwendet.

Bevor wir uns mit den Unterschieden befassen, sollten wir verstehen, was eine Datenpipeline ist.

Datenpipeline

Eine Datenpipeline ist eine Sammlung von Prozessen, die Daten zwischen dem Quellsystem und dem Zielspeicher bewegen. Es ist ein Oberbegriff für die Schritte, die zum Sammeln und Laden von Daten verwendet werden.

Eine ETL-Pipeline ist eine Art von Datenpipeline. Sie bezieht sich auf eine bestimmte Art und Weise, in der Daten gesammelt, umgewandelt und in Zielsysteme geladen werden.

data pipeline flow

Eine Datenpipeline hat sechs Schlüsselkomponenten:

  • Quelle: Eine Quelle ist jedes System, von dem Daten gesammelt werden.
  • Ziel: Ein Ziel ist ein zentrales Repository, in dem die konsolidierten Daten für die Analyse gespeichert werden.
  • Datenfluss: Der Datenfluss definiert, wie die Daten von einem System zum anderen gelangen.
  • Bearbeitung: Die Verarbeitung ist der Ort, an dem die Datenintegration stattfindet. Rohdaten werden mithilfe von Transformationen in verbrauchbare Informationen umgewandelt. Entwickler und Manager bestimmen die Parameter dieser Transformationen.
  • Überwachung: Datenpipelines sind darauf angewiesen, dass komplexe Prozesse reibungslos nacheinander abgewickelt werden. Dies ist unangemessen, da Fehler unvermeidbar sind. Bei der Überwachung wird die Pipeline ständig daraufhin überprüft, ob sie wie vorgesehen funktioniert
  • Workflow: Der Workflow legt die Reihenfolge fest, in der die einzelnen Schritte in der Pipeline ablaufen

Datenteams können diese Komponenten modifizieren, um Datenpipelines zu erstellen, die mit den Anforderungen der Business Intelligence übereinstimmen.

Typen von Datenpipelines

Datenpipelines lassen sich grob in vier Kategorien einteilen:

  • Batch: Eine Batch-Pipeline wird in bestimmten Zeitabständen ausgeführt und lädt eine große Menge an Daten. Eine Pipeline, die einmal im Monat Daten von einem CRM-Tool sammelt, ist beispielsweise eine Batch-Verarbeitungspipeline.
  • Echtzeit: Streaming- oder Echtzeit-Pipelines synchronisieren kontinuierlich Daten, sobald die Quelle aktualisiert wird.
  • Cloudbasiert: Diese Pipelines werden von einem Drittanbieter in der Cloud gehostet und sind eine hervorragende Lösung, um Infrastrukturkosten zu sparen. Einige cloudbasierte Plattformen bieten erweiterte Funktionen, die Ihr gesamtes Datenmanagement optimieren können.
  • Open-Source: Open-Source-Datenbanksoftware ist in der Regel kostenlos und bietet vollständigen Zugang zur Nutzung und Änderung des Quellcodes. Der Einsatz dieser Instrumente erfordert ein hohes Maß an Fachwissen und Zeit.

Eine Datenpipeline kann Merkmale von mehr als einem der oben genannten Typen aufweisen. Viele Unternehmen verwenden hybride Pipelines, um verschiedene Funktionen zu ermöglichen.

Unterschiede zwischen einer ETL-Pipeline und einer Datenpipeline

Eine ETL-Datenpipeline und eine Datenpipeline weisen drei wesentliche Unterschiede auf.

Datenpipelines müssen keine Transformationen enthalten

Eine ETL-Pipeline muss eine Transformation enthalten, während eine generische Datenpipeline keine Transformationen enthalten darf.

ETL-Pipelines enden nach dem Laden

ETL-Pipelines werden abgeschlossen, nachdem die Daten in das Ziel-Repository geladen wurden. Jede andere Datenpipeline könnte das Laden als Teil der Pipeline verwenden, die weitere Aktionen auslöst. Eine ELT-Pipeline ist ein gutes Beispiel dafür.

ETL-Pipelines verschieben Daten in Stapeln

Die meisten ETL-Pipelines sind Batch-Verarbeitungspipelines. Die Daten werden nach einem vorgegebenen Zeitplan stapelweise mit den Quellen synchronisiert. Eine Datenpipeline kann so konfiguriert werden, dass sie Daten in Stapeln oder in Echtzeit erfasst.

ETL-Pipeline vs. ELT-Pipeline

ETL wird oft mit ELT, einer neueren Methode der Datenintegration, verglichen. Bevor wir uns mit der Frage beschäftigen, welche Methode besser ist, sollten wir den ELT-Rahmen verstehen.

ELT

ELT ist eine Datenintegrationsmethode, bei der Daten von einer Quelle gesammelt, auf ein Ziel geladen und dann von Analytikern bei Bedarf transformiert werden.

elt pipeline

Im Wesentlichen kehrt es die beiden letztgenannten Prozesse des ETL um. Auf diese Weise werden die Lade- und Transformationsprozesse entkoppelt, was einen schnelleren Datenabgleich ermöglicht und die beiden größten Gefahren für eine ETL-Pipeline verhindert – Änderungen an vorgelagerten Schemata und nachgelagerten Datenmodellen.

Eine ELT-Datenpipeline gibt Analysten und Data Engineers die vollständige Kontrolle darüber, wie ihre Quelldaten geändert werden. Sie können Transformationen erstellen und anwenden, um spezifische Datenmodelle zu erstellen, ohne den Extraktionsprozess zu unterbrechen.

ELT-Pipelines sind anpassbar und werden für fortschrittliche Analysen, Echtzeitdaten und Ereignisströme, maschinelles Lernen und künstliche Intelligenz verwendet.

Die Verwendung einer vollständig verwalteten ELT-Plattform wie Fivetran ist billiger, einfacher zu implementieren und verkürzt die Zeit bis zum Erreichen von Erkenntnissen im Vergleich zum manuellen Aufbau und der Pflege von ETL-Pipelines.

Warum ELT der Weg in die Zukunft ist

ELT ist die ideale Datenintegrationsarchitektur für moderne Geschäftsanforderungen.

benefits of ELT

Organisationen stellen aus fünf entscheidenden Gründen auf vollständig verwaltete ELT um:

ELT ist einfacher

ELT vereinfacht die Datenintegration, indem Datenbanken direkt aus der Quelle befüllt werden. Dies gewährleistet die Datenintegrität und erleichtert den Analysten die Erstellung von Modellen, die besser auf ihre analytischen Bedürfnisse zugeschnitten sind.

Sie optimiert auch das Daten-Engineering und die Entwicklung, indem sie die Einrichtung einer Datenpipeline ohne Code in wenigen Minuten ermöglicht. Dies reduziert ihre Arbeitsbelastung und ermöglicht es ihnen, sich auf wichtigere Aufgaben zu konzentrieren.

ELT ist zuverlässiger

ELT-Pipelines machen einen ständigen Neuaufbau der Pipeline überflüssig, da die Lade- und Transformationsprozesse unabhängig voneinander ablaufen. Datenteams haben einen schnelleren Zugriff auf Daten und können Datenmodelle auf der Grundlage von geschäftlichen Anwendungsfällen erstellen und ändern, ohne die Data Movement an der Quelle zu unterbrechen.

Wenn Sie sich für eine vollständig verwaltete Lösung wie Fivetran entscheiden, werden Wartung und Fehlerbehebung von den Entwicklern des Tools übernommen und nicht von Ihnen. Die Plattform wird regelmäßig aktualisiert, um die Sicherheit und Compliance zu verbessern und weitere Funktionen hinzuzufügen.

ELT unterstützt Automatisierung

ELT-Pipelines, die von Drittanbietern verwaltet werden, automatisieren alltägliche Pipeline-Wartungsaufgaben wie die Änderung von Datenextraktionsskripten, die Aktualisierung von Schemata und die Normalisierung von Datenquellenextrakten.

Automatisierung kann auch durch die Integration mit anderen Datenmanagement-Tools erfolgen.

ELT erleichtert das Outsourcing

Unternehmen, die automatisierte ELT einsetzen, können standardisierte Datenmodelle erstellen, die das Outsourcing erleichtern. Die Auslagerung des Datenpipeline-Managements kann Zeit und Geld sparen, während sich Ihre Datenteams auf ihre Kernaufgaben konzentrieren können.

Plattformen wie Fivetran ermöglichen einen rollenbasierten Zugriff, so dass Unternehmen kontrollieren können, wie Auftragnehmer oder Dritte mit ihren Daten umgehen. Eine einfach zu bedienende Schnittstelle bedeutet auch, dass Änderungen an der Pipeline mit wenigen Klicks vorgenommen werden können, ohne dass speziell geschulte Experten benötigt werden.

ELT ist flexibel und skalierbar

ELT-Pipelines müssen sich nicht an bestimmte Transformationen halten. Stattdessen lassen sie Data Scientists und Analysten entscheiden, was mit den Daten geschehen soll, und implementieren ihre eigenen Analyseverfahren.

Darüber hinaus sind Cloud-Plattformen leicht zu skalieren. Fivetran zum Beispiel verwendet ein Bezahlmodell, bei dem Sie nur für das bezahlen, was Sie nutzen. Unternehmen können neue Ressourcen freischalten, indem sie ihren Abonnementplan aktualisieren.

Dadurch entfallen teure Upgrades vor Ort oder der Kauf anderer Systeme zur Unterstützung einer schnell wachsenden ETL-Pipeline.

Fazit

ETL-Datenpipelines sind ideal für Unternehmen, die ein kleineres Datenvolumen verarbeiten und sich auf langsamere Erkenntnisse verlassen können, die durch die Batch-Datenverarbeitung gewonnen werden. Für schnelle Analysen in Echtzeit werden andere Arten von Datenpipelines benötigt.

Eine vollständig verwaltete ELT-Pipeline ist die Lösung für Unternehmen, die Daten in Echtzeit laden, schnell analysieren und einfacher skalieren wollen.

Fivetran kann Datenteams dabei helfen, ihre Datenpipelines einfach einzurichten und zu verwalten. Melden Sie sich an und erfahren Sie, wie unsere Plattform Ihre Datenintegration verbessern kann.

[CTA_MODULE]

Sign up for a 14-day free trial with Fivetran
Get started today

Verwandte Beiträge

No items found.
8 best ELT tools for enterprises (2023 guide)
Blog

8 best ELT tools for enterprises (2023 guide)

Beitrag lesen
Data pipeline vs. ETL: How are they connected?
Blog

Data pipeline vs. ETL: How are they connected?

Beitrag lesen
Die 15 besten ETL-Tools des Jahres 2023
Blog

Die 15 besten ETL-Tools des Jahres 2023

Beitrag lesen
6 best data pipeline tools (2023 guide)
Blog

6 best data pipeline tools (2023 guide)

Beitrag lesen
Die besten Snowflake ETL-Tools
Blog

Die besten Snowflake ETL-Tools

Beitrag lesen
Die 9 besten Datenintegrations-plattformen des Jahres 2023
Blog

Die 9 besten Datenintegrations-plattformen des Jahres 2023

Beitrag lesen
Data wrangling: The ultimate guide
Blog

Data wrangling: The ultimate guide

Beitrag lesen
7 Best AWS ETL Tools of 2023
Blog

7 Best AWS ETL Tools of 2023

Beitrag lesen
8 Best data visualisation practices
Blog

8 Best data visualisation practices

Beitrag lesen
Data pipeline architecture : A complete guide
Blog

Data pipeline architecture : A complete guide

Beitrag lesen
What is data enrichment? All you need to know
Blog

What is data enrichment? All you need to know

Beitrag lesen
How to choose between a columnar database vs. row database
Blog

How to choose between a columnar database vs. row database

Beitrag lesen

Kostenlos starten

Schließen auch Sie sich den Tausenden von Unternehmen an, die ihre Daten mithilfe von Fivetran zentralisieren und transformieren.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.