Was ist Fivetran?

Wie es funktioniert: Fivetran in 1000 Wörtern oder 5 Minuten.
April 10, 2023

Fivetran ist eine moderne, cloudbasierte Plattform für Data Movement, die Unternehmen die Möglichkeit bietet, mühelos Daten unter Berücksichtigung einer breiten Palette an Quellen und Destinations zu extrahieren, zu laden und zu transformieren.

Dies umfasst sowohl Anwendungsfälle für die herkömmliche Datenintegration, bei denen Daten von Anwendungen, Datenbanken und Dateien in ein zentrales Repository verschoben werden, um sie für Analysen zu einer „Single Source of Truth“ zu konsolidieren, als auch allgemeine Funktionen für die Verschiebung von Daten zwischen Datenbänken, Data Warehouses und Data Lakes für Geschäftsprozesse.

Das Verschieben von Daten aus einer Quelle an eine Destination erfordert ein leistungsfähiges System, dessen Entwicklung überraschend komplex sein kann. Die korrekte Planung von Umfang und Skalierbarkeit einer Umgebung, die Sicherstellung der Verfügbarkeit, die Wiederherstellung nach Fehlern und die Neuerstellung des Systems als Reaktion auf geänderte Datenquellen und Geschäftsanforderungen sind einige Aspekte, die dabei bedacht werden müssen. Viele gängige Datenintegrations-Tools bieten Frameworks zur Lösung dieser Aufgaben, erfordern aber dennoch ein hohes Maß an Konfigurations- und Engineering-Aufwand von Endbenutzern.

Zudem ist es oft der Fall, dass Unternehmen Dutzende bis Hunderte verschiedene Anwendungen, Tools und Betriebssysteme verwenden, die Daten produzieren und die alle wertvolle digitale Spuren hinterlassen.

Diese Herausforderungen erfordern erhebliche Zeit-, Arbeits- und Finanzaufwendungen von Unternehmen, die Daten mit einer individuell angepassten, hochgradig konfigurierbaren Lösung verschieben möchten. Die Erstellung einer effizienten, zuverlässigen und skalierbaren Data-Operations-Infrastruktur von Grund auf oder mithilfe eines Frameworks garantiert erhebliche Frustration und verpasste Chancen.

Eine automatisierte Data-Movement-Lösung hingegen, die standardmäßig funktioniert, erspart einem Unternehmen die interne Entwicklung einer solchen Lösung.

Automatisierung, Zuverlässigkeit und Skalierung

Aus Sicht des Endbenutzers besteht der ideale Workflow für Data Movement aus lediglich diesen Schritten:

  1. Auswählen von Konnektoren für Datenquellen aus einem Menü
  2. Bereitstellen von Anmeldeinformationen
  3. Angeben eines Zeitplans
  4. Start der Ausführung auf Knopfdruck

Dieser Workflow wirkt einfach, jedoch liegt ihm erhebliche Komplexität zugrunde. Die Architektur von Fivetran ist streng zwischen der Umgebung des Benutzers, der Cloud von Fivetran und der Cloud des Kunden getrennt. Diese Trennung ist unerlässlich, um Sicherheit und Leistung sicherzustellen. In Bezug auf Sicherheit sorgt die strikte Trennung in Front-End, Back-End und die Cloud des Kunden dafür, dass keine sensiblen Daten über das Front-End preisgegeben werden. Als cloud-natives Tool nutzt Fivetran in hohem Maße On-Demand-Parallelisierung, um die Leistung zu steigern.

Das folgende Architekturdiagramm zeigt den standardmäßigen cloud-basierten Ansatz von Fivetran für automatisiertes Data Movement:

Beachten Sie, dass Fivetran für Unternehmen, deren Sicherheitsanforderungen die Nutzung cloud-basierter SaaS-Lösung einschränken, auch hybride und On-Prem-Architekturen anbietet.

Ein typischer Workflow umfasst diese Schritte:

  1. Benutzer greifen über das Dashboard oder die API von Fivetran.com auf das Front-End von Fivetran zu.
  2. Benutzer erstellen und konfigurieren Konnektoren.
  3. Die von Benutzern getroffenen Auswahlen werden in der Produktionsdatenbank von Fivetran protokolliert.
  4. Das Back-End von Fivetran erstellt anhand der in der Produktionsdatenbank gespeicherten Einstellungen eine Anzahl Worker gemäß einem Zeitplan.
  5. Jeder Worker extrahiert und lädt Daten und führt eine oberflächliche Verarbeitung durch. Worker werden beendet, wenn sie nicht mehr benötigt werden.
  6. Transformationen für die Produktion von analysebereiten Datenmodellen werden separat ausgelöst und in der Destination ausgeführt. Datenmodelle von Fivetran werden durch unsere Integration mit dbt™ erstellt und ermöglichen Transformationen.

Damit der oben beschriebene Workflow reibungslos und zuverlässig funktioniert, wurden beim Design von Fivetran einige Erwägungen beachtet, die sich nicht einfach in einem Architekturdiagramm darstellen lassen.

  • Inkrementelle Updates sorgen für zeitnahe Aktualisierungen und minimale Störungen der Quellsysteme. Statt bei jeder Synchronisierung eine ganze Datenquelle zu extrahieren und zu laden, erkennt Fivetran neue oder geänderte Datensätze und reproduziert die Änderungen in der Destination. Vollständige Synchronisierungen sind nur für die erste Synchronisierung oder zur Behebung erheblicher Datenintegritätsprobleme erforderlich, etwa bei beschädigten Datensätzen. Der primäre Mechanismus von Fivetran für inkrementelle Updates ist Change Data Capture (CDC).

  • Idempotenz ist die Fähigkeit eines Datenkonnektors zur einfachen Wiederherstellung nach einer fehlgeschlagenen Synchronisierung. Bezogen auf Data Movement sorgt Idempotenz dafür, dass das Ergebnis bei wiederholter Anwendung der gleichen Daten in einem Ziel dasselbe ist. Ohne Idempotenz müssen Techniker bei einer fehlgeschlagenen Synchronisierung nachforschen, welche Datensätze synchronisiert wurden und welche nicht, und ein individuelles Wiederherstellungsverfahren entwickeln, um doppelte Datensätze zu entfernen. Mit Idempotenz kann der Datenkonnektor einfach alle Daten erneut aufspielen, die möglicherweise nicht in der Destination angekommen sind. Wenn ein Datensatz bereits vorhanden ist, hat das erneute Aufspielen keine Auswirkungen, andernfalls wird der Datensatz hinzugefügt.

  • Die Verarbeitung von Schema Drifts umfasst die genaue Repräsentation von Daten, auch bei Änderungen der Quelle.Die Verarbeitung von Schema Drifts umfasst auch die Erkennung und Erzwingung des Datentyps, wobei eine Balance von genauer Replikation und Erhaltung der Daten und zuverlässiger Funktion des Datenkonnektors gefunden werden muss.Fivetran löst dieses Problem vornehmlich durch Live-Updates, bei denen Daten perfekt zwischen Quelle und Destination reproduziert werden.

  • Die Sicherstellung der Pipeline- und Netzwerkleistung erfordert die Minimierung von Latenzen und Leistungsengpässen. Fivetran bewältigt dies mithilfe von algorithmischer Optimierung, Parallelisierung, Pipelining und Buffering.

Fivetran ist eine Plattform, nicht nur eine Pipeline

Fivetran ist mehr als nur eine punktuelle Lösung für das einzelne, diskrete Problem der Zentralisierung von Daten für Analysen. Auf lange Sicht müssen sich Unternehmen auch mit der Demokratisierung des Datenzugriffs und der Monetarisierung von Daten befassen. Fivetran ist sich dieser Anforderungen bewusst und bietet Sicherheit, Governance und Erweiterbarkeit.

Sicherheitsfunktionen sind unerlässlich für die Einhaltung von Vorschriften, die Verwaltung von Markenrisiken und den Schutz innerer Abläufe sowie geistigen Eigentums. Sie schützen Kundeninformationen und andere geschäftskritische Daten auf ethische Weise, während sie verschoben werden. In Bezug auf die Plattformsicherheit sind Optionen für eine flexible Bereitstellung und sichere Netzwerknutzung, Sicherheitszertifikate für SaaS-Plattformen, Datenschutz mit End-to-End-Verschlüsselung und Prozessisolierung häufige Funktionen.

Data Governance ist ebenfalls unerlässlich, damit Unternehmen Ihre Daten kennen, auf sie zugreifen und sie schützen können. Funktionen für Data Governance umfassen einfache Integrationen mit Datenkatalogen, die grafische Darstellung der Datenmodellherkunft, die Metadatenerfassung und andere Auditing-Tools.

Funktionen für die Erweiterbarkeit ermöglichen es einem Unternehmen zuletzt, ein wachsendes Ökosystem an Datenverwaltungstools programmatisch zu steuern und Datenressourcen in Produkte einzubetten. Der Bedarf an Daten wird immer größer und komplexer, daher müssen Unternehmen imstande sein, Benutzer in großem Maßstab zu verwalten, Integrationen mit anderen Datenverarbeitungstechnologien vorzunehmen und benutzerdefinierte Prozesse und Workflows zu konstruieren, die auf Daten angewiesen sind.

[CTA_MODULE]

Kostenlos starten

Schließen auch Sie sich den Tausenden von Unternehmen an, die ihre Daten mithilfe von Fivetran zentralisieren und transformieren.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Data insights
Data insights

Was ist Fivetran?

Was ist Fivetran?

April 10, 2023
April 10, 2023
Was ist Fivetran?
Wie es funktioniert: Fivetran in 1000 Wörtern oder 5 Minuten.

Fivetran ist eine moderne, cloudbasierte Plattform für Data Movement, die Unternehmen die Möglichkeit bietet, mühelos Daten unter Berücksichtigung einer breiten Palette an Quellen und Destinations zu extrahieren, zu laden und zu transformieren.

Dies umfasst sowohl Anwendungsfälle für die herkömmliche Datenintegration, bei denen Daten von Anwendungen, Datenbanken und Dateien in ein zentrales Repository verschoben werden, um sie für Analysen zu einer „Single Source of Truth“ zu konsolidieren, als auch allgemeine Funktionen für die Verschiebung von Daten zwischen Datenbänken, Data Warehouses und Data Lakes für Geschäftsprozesse.

Das Verschieben von Daten aus einer Quelle an eine Destination erfordert ein leistungsfähiges System, dessen Entwicklung überraschend komplex sein kann. Die korrekte Planung von Umfang und Skalierbarkeit einer Umgebung, die Sicherstellung der Verfügbarkeit, die Wiederherstellung nach Fehlern und die Neuerstellung des Systems als Reaktion auf geänderte Datenquellen und Geschäftsanforderungen sind einige Aspekte, die dabei bedacht werden müssen. Viele gängige Datenintegrations-Tools bieten Frameworks zur Lösung dieser Aufgaben, erfordern aber dennoch ein hohes Maß an Konfigurations- und Engineering-Aufwand von Endbenutzern.

Zudem ist es oft der Fall, dass Unternehmen Dutzende bis Hunderte verschiedene Anwendungen, Tools und Betriebssysteme verwenden, die Daten produzieren und die alle wertvolle digitale Spuren hinterlassen.

Diese Herausforderungen erfordern erhebliche Zeit-, Arbeits- und Finanzaufwendungen von Unternehmen, die Daten mit einer individuell angepassten, hochgradig konfigurierbaren Lösung verschieben möchten. Die Erstellung einer effizienten, zuverlässigen und skalierbaren Data-Operations-Infrastruktur von Grund auf oder mithilfe eines Frameworks garantiert erhebliche Frustration und verpasste Chancen.

Eine automatisierte Data-Movement-Lösung hingegen, die standardmäßig funktioniert, erspart einem Unternehmen die interne Entwicklung einer solchen Lösung.

Automatisierung, Zuverlässigkeit und Skalierung

Aus Sicht des Endbenutzers besteht der ideale Workflow für Data Movement aus lediglich diesen Schritten:

  1. Auswählen von Konnektoren für Datenquellen aus einem Menü
  2. Bereitstellen von Anmeldeinformationen
  3. Angeben eines Zeitplans
  4. Start der Ausführung auf Knopfdruck

Dieser Workflow wirkt einfach, jedoch liegt ihm erhebliche Komplexität zugrunde. Die Architektur von Fivetran ist streng zwischen der Umgebung des Benutzers, der Cloud von Fivetran und der Cloud des Kunden getrennt. Diese Trennung ist unerlässlich, um Sicherheit und Leistung sicherzustellen. In Bezug auf Sicherheit sorgt die strikte Trennung in Front-End, Back-End und die Cloud des Kunden dafür, dass keine sensiblen Daten über das Front-End preisgegeben werden. Als cloud-natives Tool nutzt Fivetran in hohem Maße On-Demand-Parallelisierung, um die Leistung zu steigern.

Das folgende Architekturdiagramm zeigt den standardmäßigen cloud-basierten Ansatz von Fivetran für automatisiertes Data Movement:

Beachten Sie, dass Fivetran für Unternehmen, deren Sicherheitsanforderungen die Nutzung cloud-basierter SaaS-Lösung einschränken, auch hybride und On-Prem-Architekturen anbietet.

Ein typischer Workflow umfasst diese Schritte:

  1. Benutzer greifen über das Dashboard oder die API von Fivetran.com auf das Front-End von Fivetran zu.
  2. Benutzer erstellen und konfigurieren Konnektoren.
  3. Die von Benutzern getroffenen Auswahlen werden in der Produktionsdatenbank von Fivetran protokolliert.
  4. Das Back-End von Fivetran erstellt anhand der in der Produktionsdatenbank gespeicherten Einstellungen eine Anzahl Worker gemäß einem Zeitplan.
  5. Jeder Worker extrahiert und lädt Daten und führt eine oberflächliche Verarbeitung durch. Worker werden beendet, wenn sie nicht mehr benötigt werden.
  6. Transformationen für die Produktion von analysebereiten Datenmodellen werden separat ausgelöst und in der Destination ausgeführt. Datenmodelle von Fivetran werden durch unsere Integration mit dbt™ erstellt und ermöglichen Transformationen.

Damit der oben beschriebene Workflow reibungslos und zuverlässig funktioniert, wurden beim Design von Fivetran einige Erwägungen beachtet, die sich nicht einfach in einem Architekturdiagramm darstellen lassen.

  • Inkrementelle Updates sorgen für zeitnahe Aktualisierungen und minimale Störungen der Quellsysteme. Statt bei jeder Synchronisierung eine ganze Datenquelle zu extrahieren und zu laden, erkennt Fivetran neue oder geänderte Datensätze und reproduziert die Änderungen in der Destination. Vollständige Synchronisierungen sind nur für die erste Synchronisierung oder zur Behebung erheblicher Datenintegritätsprobleme erforderlich, etwa bei beschädigten Datensätzen. Der primäre Mechanismus von Fivetran für inkrementelle Updates ist Change Data Capture (CDC).

  • Idempotenz ist die Fähigkeit eines Datenkonnektors zur einfachen Wiederherstellung nach einer fehlgeschlagenen Synchronisierung. Bezogen auf Data Movement sorgt Idempotenz dafür, dass das Ergebnis bei wiederholter Anwendung der gleichen Daten in einem Ziel dasselbe ist. Ohne Idempotenz müssen Techniker bei einer fehlgeschlagenen Synchronisierung nachforschen, welche Datensätze synchronisiert wurden und welche nicht, und ein individuelles Wiederherstellungsverfahren entwickeln, um doppelte Datensätze zu entfernen. Mit Idempotenz kann der Datenkonnektor einfach alle Daten erneut aufspielen, die möglicherweise nicht in der Destination angekommen sind. Wenn ein Datensatz bereits vorhanden ist, hat das erneute Aufspielen keine Auswirkungen, andernfalls wird der Datensatz hinzugefügt.

  • Die Verarbeitung von Schema Drifts umfasst die genaue Repräsentation von Daten, auch bei Änderungen der Quelle.Die Verarbeitung von Schema Drifts umfasst auch die Erkennung und Erzwingung des Datentyps, wobei eine Balance von genauer Replikation und Erhaltung der Daten und zuverlässiger Funktion des Datenkonnektors gefunden werden muss.Fivetran löst dieses Problem vornehmlich durch Live-Updates, bei denen Daten perfekt zwischen Quelle und Destination reproduziert werden.

  • Die Sicherstellung der Pipeline- und Netzwerkleistung erfordert die Minimierung von Latenzen und Leistungsengpässen. Fivetran bewältigt dies mithilfe von algorithmischer Optimierung, Parallelisierung, Pipelining und Buffering.

Fivetran ist eine Plattform, nicht nur eine Pipeline

Fivetran ist mehr als nur eine punktuelle Lösung für das einzelne, diskrete Problem der Zentralisierung von Daten für Analysen. Auf lange Sicht müssen sich Unternehmen auch mit der Demokratisierung des Datenzugriffs und der Monetarisierung von Daten befassen. Fivetran ist sich dieser Anforderungen bewusst und bietet Sicherheit, Governance und Erweiterbarkeit.

Sicherheitsfunktionen sind unerlässlich für die Einhaltung von Vorschriften, die Verwaltung von Markenrisiken und den Schutz innerer Abläufe sowie geistigen Eigentums. Sie schützen Kundeninformationen und andere geschäftskritische Daten auf ethische Weise, während sie verschoben werden. In Bezug auf die Plattformsicherheit sind Optionen für eine flexible Bereitstellung und sichere Netzwerknutzung, Sicherheitszertifikate für SaaS-Plattformen, Datenschutz mit End-to-End-Verschlüsselung und Prozessisolierung häufige Funktionen.

Data Governance ist ebenfalls unerlässlich, damit Unternehmen Ihre Daten kennen, auf sie zugreifen und sie schützen können. Funktionen für Data Governance umfassen einfache Integrationen mit Datenkatalogen, die grafische Darstellung der Datenmodellherkunft, die Metadatenerfassung und andere Auditing-Tools.

Funktionen für die Erweiterbarkeit ermöglichen es einem Unternehmen zuletzt, ein wachsendes Ökosystem an Datenverwaltungstools programmatisch zu steuern und Datenressourcen in Produkte einzubetten. Der Bedarf an Daten wird immer größer und komplexer, daher müssen Unternehmen imstande sein, Benutzer in großem Maßstab zu verwalten, Integrationen mit anderen Datenverarbeitungstechnologien vorzunehmen und benutzerdefinierte Prozesse und Workflows zu konstruieren, die auf Daten angewiesen sind.

[CTA_MODULE]

Erfahren Sie mehr über den Fivetran-Ansatz für Data Movement, Sicherheit, Governance und Erweiterbarkeit.
Jetzt herunterladen

Verwandte Beiträge

ETL vs. ELT: Why a post-load process wins every time
Data insights

ETL vs. ELT: Why a post-load process wins every time

Beitrag lesen
How the Fivetran approach to data normalization cuts compute costs
Data insights

How the Fivetran approach to data normalization cuts compute costs

Beitrag lesen
No items found.
Migrating to a data lake: A practical blueprint
Blog

Migrating to a data lake: A practical blueprint

Beitrag lesen
Strengthen your data ecosystem with the Fivetran Managed Data Lake Service
Blog

Strengthen your data ecosystem with the Fivetran Managed Data Lake Service

Beitrag lesen
Why Fivetran and Census are joining forces
Blog

Why Fivetran and Census are joining forces

Beitrag lesen

Kostenlos starten

Schließen auch Sie sich den Tausenden von Unternehmen an, die ihre Daten mithilfe von Fivetran zentralisieren und transformieren.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.