Was ist Datentransformation?

Erfahren Sie, warum die Datentransformation für die Datenmodellierung und die Datenverarbeitungsfähigkeiten Ihres Unternehmens unerlässlich ist.
February 2, 2022

Unternehmen analysieren Daten, um ein besseres Verständnis ihrer Kunden zu erhalten, neue Chancen zu identifizieren und bessere Entscheidungen zu treffen. Für die Analyse von Daten müssen diese erst auf eine Weise organisiert und strukturiert werden, die von Analysten einfach interpretiert und in Dashboards, Berichten und Prognosemodellen ausgestaltet werden kann. Daten sind eine Unternehmensressource, sofern man sie zu nutzen imstande ist. Wie Erz, das tief im Stein schlummert, gewinnen auch Daten nach Abbau, Raffination und Verarbeitung an Wert und werden zu etwas Nützlichem.

In einem Unternehmensumfeld entspricht das Erz den Daten in einer Unternehmensanwendung, beispielsweise Salesforce, Google Analytics usw. Soll der Wert erschlossen werden, müssen die Daten zunächst extrahiert und in ein Repository geladen werden, aus dem Business Intelligence gewonnen werden kann.

Hier kommt ELT-Software ins Spiel: Sie extrahiert Daten aus Hunderten verschiedenen Quellsystemen, lädt sie in ein Data Warehouse oder einen Data Lake und transformiert sie in eine für die Analyse geeignete Form.

Inhalt

Kapitel 1: Was ist Datentransformation?

Kapitel 2: Datentransformationstechniken

Kapitel 3: Die Rolle von Fivetran

Was ist Datentransformation?

Die Datentransformation ist der Prozess von Revision, Computing, Trennung und Kombination roher Daten in analysebereite Datenmodelle. Datenmodelle spiegeln die Wirklichkeit wider und lassen sich einfach in Metriken, Berichte und Dashboards umwandeln, um Benutzer bei spezifischen Zielen zu unterstützen. Unternehmen sind insbesondere auf KPIs und andere Metriken angewiesen, um ihre Tätigkeiten und deren Erfolg zu quantifizieren und zu verstehen.

Die Transformation bereitet Daten für ein breites Spektrum an Anwendungsfällen vor, einschließlich:

  • Analysen – Am Anfang jeder Analyse für die Entscheidungsfindung stehen Metriken. Metriken werden manchmal anhand einer einzigen Quelle berechnet und erfordern nur ein moderates Maß an Transformation. Manchmal ist die Berechnung einer Metrik hingegen nur durch Kombination und Aggregation von Daten aus einer Vielzahl an Quellen möglich.
  • Maschinelles Lernen – Maschinelles Lernen bedeutet automatisierte Mustererkennung. Zu den Anwendungsfällen für maschinelles Lernen in Unternehmen gehören die Prognose von Umsatz und Gewinn, Prognosemodelle zur Unterstützung wichtiger Entscheidungen, Systeme für die Empfehlung von Produkten für Kunden und alle erdenklichen Automatisierungen von Geschäftsprozessen.
  • Einhaltung gesetzlicher Bestimmungen – Die Speicherung personenbezogener Informationen (Personal Identifiable Information, PII) setzt empfindliche Daten dem Risiko versehentlicher und böswilliger Datenschutzverletzungen aus. Datenschutzverletzungen sind ein Eingriff in den Datenschutz und stellen ein großes Problem für Sie und Ihre Kunden dar.

Datentransformationstechniken

Rohdaten liegen selten in einer strukturierten oder formatierten Form vor, die für die oben genannten Anwendungsfälle geeignet wäre. Hier finden Sie einige gängige Beispiele für Transformationen, die die Nutzung von Daten erleichtern.

Revision

Die Revision von Daten sorgt dafür, dass Werte korrekt und auf eine Weise geordnet sind, die ihrem geplanten Verwendungszweck entspricht. Die Datenbanknormalisierung ist eine Form der Datenrevision, bei der ein Datenmodell zu einer „normalen“ Form ohne Redundanzen oder überzählige Werte in einer Spate reduziert wird. Die Normalisierung verringert den Speicherbedarf und macht ein Datenmodell kompakter und für Analysten lesbarer. Sie ist jedoch sehr arbeitsintensiv und erfordert ein erhebliches Maß an Nachforschung, Reverse-Engineering und kritischem Denken.

Die Datenbereinigung wandelt Datenwerte zum Zweck der Formatierungskompatibilität um.

Bei der Revision/Umwandlung des Formats werden inkompatible Zeichen ersetzt, Einheiten und Datumsformate umgewandelt und weitere Änderungen an Datentypen vorgenommen.

Bei der Schlüsselumstrukturierung werden generische Identifikatoren anhand von Werten mit integrierten Bedeutungen erstellt, sodass sie tabellenübergreifend als feste, eindeutige Schlüssel verwendet werden können.

Bei der Deduplikation werden doppelt vorhandene Datensätze identifiziert und entfernt.

Bei der Datenvalidierung wird die Validität eines Datensatzes anhand der Vollständigkeit der Daten bewertet, üblicherweise durch Ausschluss unvollständiger Datensätze.

Das Entfernen nicht verwendeter und wiederholter Spalten ermöglicht Ihnen die Auswahl von Feldern, die Sie als Funktionen verwenden möchten, also als Eingabevariablen für ein Prognosemodell. Zudem wird dadurch die Leistung und allgemeine Lesbarkeit eines Modells verbessert.

Computing

Ein gängiger Anwendungsfall für das Computing neuer Datenwerte aus vorhandenen Daten ist die Berechnung von Raten, Verhältnissen, Zusammenfassungsstatistiken und anderen wichtigen Kennzahlen. Ebenso können unstrukturierte Daten, etwa aus Mediendateien, in strukturierte Daten verwandelt werden, sodass sie von Algorithmen des maschinellen Lernens interpretiert werden können.

Die Ableitung umfasst einfache spaltenübergreifende Berechnungen.

Beim Zusammenfassen werden Aggegationsfunktionen verwendet, um Zusammenfassungswerte zu erstellen.

Bei der Pivotisierung werden Zeilenwerte in Spalten verwandelt und umgekehrt.

Beim Sortieren, Ordnen und Indexieren werden Datensätze ordinal organisiert, um die Suchleistung zu verbessern

Skalierung, Standardisierung und Normalisierung vereinheitlichen Zahlen auf einen einheitlichen Maßstab, im Fall einer Z-Wert-Normalisierung etwa als Bruchteile einer Standardabweichung. So können unterschiedliche Werte miteinander verglichen werden.

Bei der Vektorisierung werden nicht-numerische Daten in Zahlenreihen umgewandelt. Diese Transformationen werden für viele Anwendungen mit maschinellem Lernen verwendet, einschließlich der Verarbeitung natürlicher Sprache (NLP) und der Bilderkennung.

Ein Beispiel für Vektorisierung ist die Umwandlung von Liedtexten in einen „Wörterbeutel“ oder eine Reihe Datensätze mit Wortzahlen.


Ein weiteres Beispiel ist die Umwandlung eines Bilds in eine Matrix aus RGB-Werten, die die Farbwerte der Pixel des Bilds darstellen.

Trennung

Bei der Trennung werden Werte in ihre Bestandteile aufgeteilt. Datenwerte werden aufgrund von Eigenheiten bei der Datenerfassung oft im gleichen Feld kombiniert, müssen für eine differenziertere Analyse aber gegebenenfalls getrennt werden.

Das Aufteilen einer einzelnen Spalte in mehrere Spalten wird oft für Felder mit getrennten Werten verwendet oder für die Umwandlung einer Spalte mit mehreren möglichen kategorischen Werten zu Platzhaltervariablen für Regressionsanalysen.

Beim Filtern werden Daten anhand bestimmter Zeilenwerte oder Spalten ausgeschlossen.

Kombination

Eine häufige und wichtige Aufgabe bei Analysen besteht darin, Datensätze aus verschiedenen Tabellen und Daten aus mehreren Quellen zu kombinieren, um ein umfassendes Bild der Aktivitäten eines Unternehmens zu erhalten.

Beim Zusammenführen werden Daten über Tabellen hinweg verknüpft.

Beim Verschmelzen, auch als Zusammenführen oder Vereinigen bezeichnet, werden Datensätze aus mehreren Tabellen kombiniert. Das Verschmelzen zweier Tabellen mithilfe einer gemeinsamen Spalte, wie im nachfolgenden Beispiel „E-Mail“, erlaubt das Zusammensetzen von Teilen der Vertriebs- und Marketingtrichter. Dies ist auch ein Beispiel für Integration und umfasst die Vereinbarkeit von Namen und Werten für gleiche Datenelemente in verschiedenen Tabellen.

Die zuvor genannten Beispiele verdeutlichen, dass nahezu immer eine weitere Verarbeitung von Rohdaten in nutzbare Datenmodelle erforderlich ist. Die Transformationen an sich sind ein Schlüsselelement des größeren Prozesses der Datenintegration, ohne den Analysen und Data Science unmöglich sind.

Die Rolle von Fivetran

Fivetran löst automatisch viele häufige Probleme, die Datenexperten bei Transformationen bewältigen müssen. Neben der Verschiebung von Daten durch die Planung von Extrakten aus Ihren Datenquellen erstellt und verwaltet Fivetran Ihrer Destination entsprechend automatisch Schemata und Datentypen. So entstehen Tabellen, die in Ihrem Data Warehouse oder Data Lake sofort abfragebereit sind.

Fivetran bietet zudem Datentransformations-Tools wie Spaltensperrung und Hashing, um sensible Daten auszuschließen oder zu anonymisieren, und eine umfassende Bibliothek an Datenmodellen, die einfach auf unsere unterstützten Datenquellen angewendet werden können.

Laden Sie sich „Der Ultimative Leitfaden zur Datentransformation“ herunter, um einen tieferen Einblick in das Thema zu erhalten.

Kostenlos starten

Schließen auch Sie sich den Tausenden von Unternehmen an, die ihre Daten mithilfe von Fivetran zentralisieren und transformieren.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Data insights
Data insights

Was ist Datentransformation?

Was ist Datentransformation?

February 2, 2022
February 2, 2022
Was ist Datentransformation?
Erfahren Sie, warum die Datentransformation für die Datenmodellierung und die Datenverarbeitungsfähigkeiten Ihres Unternehmens unerlässlich ist.

Unternehmen analysieren Daten, um ein besseres Verständnis ihrer Kunden zu erhalten, neue Chancen zu identifizieren und bessere Entscheidungen zu treffen. Für die Analyse von Daten müssen diese erst auf eine Weise organisiert und strukturiert werden, die von Analysten einfach interpretiert und in Dashboards, Berichten und Prognosemodellen ausgestaltet werden kann. Daten sind eine Unternehmensressource, sofern man sie zu nutzen imstande ist. Wie Erz, das tief im Stein schlummert, gewinnen auch Daten nach Abbau, Raffination und Verarbeitung an Wert und werden zu etwas Nützlichem.

In einem Unternehmensumfeld entspricht das Erz den Daten in einer Unternehmensanwendung, beispielsweise Salesforce, Google Analytics usw. Soll der Wert erschlossen werden, müssen die Daten zunächst extrahiert und in ein Repository geladen werden, aus dem Business Intelligence gewonnen werden kann.

Hier kommt ELT-Software ins Spiel: Sie extrahiert Daten aus Hunderten verschiedenen Quellsystemen, lädt sie in ein Data Warehouse oder einen Data Lake und transformiert sie in eine für die Analyse geeignete Form.

Inhalt

Kapitel 1: Was ist Datentransformation?

Kapitel 2: Datentransformationstechniken

Kapitel 3: Die Rolle von Fivetran

Was ist Datentransformation?

Die Datentransformation ist der Prozess von Revision, Computing, Trennung und Kombination roher Daten in analysebereite Datenmodelle. Datenmodelle spiegeln die Wirklichkeit wider und lassen sich einfach in Metriken, Berichte und Dashboards umwandeln, um Benutzer bei spezifischen Zielen zu unterstützen. Unternehmen sind insbesondere auf KPIs und andere Metriken angewiesen, um ihre Tätigkeiten und deren Erfolg zu quantifizieren und zu verstehen.

Die Transformation bereitet Daten für ein breites Spektrum an Anwendungsfällen vor, einschließlich:

  • Analysen – Am Anfang jeder Analyse für die Entscheidungsfindung stehen Metriken. Metriken werden manchmal anhand einer einzigen Quelle berechnet und erfordern nur ein moderates Maß an Transformation. Manchmal ist die Berechnung einer Metrik hingegen nur durch Kombination und Aggregation von Daten aus einer Vielzahl an Quellen möglich.
  • Maschinelles Lernen – Maschinelles Lernen bedeutet automatisierte Mustererkennung. Zu den Anwendungsfällen für maschinelles Lernen in Unternehmen gehören die Prognose von Umsatz und Gewinn, Prognosemodelle zur Unterstützung wichtiger Entscheidungen, Systeme für die Empfehlung von Produkten für Kunden und alle erdenklichen Automatisierungen von Geschäftsprozessen.
  • Einhaltung gesetzlicher Bestimmungen – Die Speicherung personenbezogener Informationen (Personal Identifiable Information, PII) setzt empfindliche Daten dem Risiko versehentlicher und böswilliger Datenschutzverletzungen aus. Datenschutzverletzungen sind ein Eingriff in den Datenschutz und stellen ein großes Problem für Sie und Ihre Kunden dar.

Datentransformationstechniken

Rohdaten liegen selten in einer strukturierten oder formatierten Form vor, die für die oben genannten Anwendungsfälle geeignet wäre. Hier finden Sie einige gängige Beispiele für Transformationen, die die Nutzung von Daten erleichtern.

Revision

Die Revision von Daten sorgt dafür, dass Werte korrekt und auf eine Weise geordnet sind, die ihrem geplanten Verwendungszweck entspricht. Die Datenbanknormalisierung ist eine Form der Datenrevision, bei der ein Datenmodell zu einer „normalen“ Form ohne Redundanzen oder überzählige Werte in einer Spate reduziert wird. Die Normalisierung verringert den Speicherbedarf und macht ein Datenmodell kompakter und für Analysten lesbarer. Sie ist jedoch sehr arbeitsintensiv und erfordert ein erhebliches Maß an Nachforschung, Reverse-Engineering und kritischem Denken.

Die Datenbereinigung wandelt Datenwerte zum Zweck der Formatierungskompatibilität um.

Bei der Revision/Umwandlung des Formats werden inkompatible Zeichen ersetzt, Einheiten und Datumsformate umgewandelt und weitere Änderungen an Datentypen vorgenommen.

Bei der Schlüsselumstrukturierung werden generische Identifikatoren anhand von Werten mit integrierten Bedeutungen erstellt, sodass sie tabellenübergreifend als feste, eindeutige Schlüssel verwendet werden können.

Bei der Deduplikation werden doppelt vorhandene Datensätze identifiziert und entfernt.

Bei der Datenvalidierung wird die Validität eines Datensatzes anhand der Vollständigkeit der Daten bewertet, üblicherweise durch Ausschluss unvollständiger Datensätze.

Das Entfernen nicht verwendeter und wiederholter Spalten ermöglicht Ihnen die Auswahl von Feldern, die Sie als Funktionen verwenden möchten, also als Eingabevariablen für ein Prognosemodell. Zudem wird dadurch die Leistung und allgemeine Lesbarkeit eines Modells verbessert.

Computing

Ein gängiger Anwendungsfall für das Computing neuer Datenwerte aus vorhandenen Daten ist die Berechnung von Raten, Verhältnissen, Zusammenfassungsstatistiken und anderen wichtigen Kennzahlen. Ebenso können unstrukturierte Daten, etwa aus Mediendateien, in strukturierte Daten verwandelt werden, sodass sie von Algorithmen des maschinellen Lernens interpretiert werden können.

Die Ableitung umfasst einfache spaltenübergreifende Berechnungen.

Beim Zusammenfassen werden Aggegationsfunktionen verwendet, um Zusammenfassungswerte zu erstellen.

Bei der Pivotisierung werden Zeilenwerte in Spalten verwandelt und umgekehrt.

Beim Sortieren, Ordnen und Indexieren werden Datensätze ordinal organisiert, um die Suchleistung zu verbessern

Skalierung, Standardisierung und Normalisierung vereinheitlichen Zahlen auf einen einheitlichen Maßstab, im Fall einer Z-Wert-Normalisierung etwa als Bruchteile einer Standardabweichung. So können unterschiedliche Werte miteinander verglichen werden.

Bei der Vektorisierung werden nicht-numerische Daten in Zahlenreihen umgewandelt. Diese Transformationen werden für viele Anwendungen mit maschinellem Lernen verwendet, einschließlich der Verarbeitung natürlicher Sprache (NLP) und der Bilderkennung.

Ein Beispiel für Vektorisierung ist die Umwandlung von Liedtexten in einen „Wörterbeutel“ oder eine Reihe Datensätze mit Wortzahlen.


Ein weiteres Beispiel ist die Umwandlung eines Bilds in eine Matrix aus RGB-Werten, die die Farbwerte der Pixel des Bilds darstellen.

Trennung

Bei der Trennung werden Werte in ihre Bestandteile aufgeteilt. Datenwerte werden aufgrund von Eigenheiten bei der Datenerfassung oft im gleichen Feld kombiniert, müssen für eine differenziertere Analyse aber gegebenenfalls getrennt werden.

Das Aufteilen einer einzelnen Spalte in mehrere Spalten wird oft für Felder mit getrennten Werten verwendet oder für die Umwandlung einer Spalte mit mehreren möglichen kategorischen Werten zu Platzhaltervariablen für Regressionsanalysen.

Beim Filtern werden Daten anhand bestimmter Zeilenwerte oder Spalten ausgeschlossen.

Kombination

Eine häufige und wichtige Aufgabe bei Analysen besteht darin, Datensätze aus verschiedenen Tabellen und Daten aus mehreren Quellen zu kombinieren, um ein umfassendes Bild der Aktivitäten eines Unternehmens zu erhalten.

Beim Zusammenführen werden Daten über Tabellen hinweg verknüpft.

Beim Verschmelzen, auch als Zusammenführen oder Vereinigen bezeichnet, werden Datensätze aus mehreren Tabellen kombiniert. Das Verschmelzen zweier Tabellen mithilfe einer gemeinsamen Spalte, wie im nachfolgenden Beispiel „E-Mail“, erlaubt das Zusammensetzen von Teilen der Vertriebs- und Marketingtrichter. Dies ist auch ein Beispiel für Integration und umfasst die Vereinbarkeit von Namen und Werten für gleiche Datenelemente in verschiedenen Tabellen.

Die zuvor genannten Beispiele verdeutlichen, dass nahezu immer eine weitere Verarbeitung von Rohdaten in nutzbare Datenmodelle erforderlich ist. Die Transformationen an sich sind ein Schlüsselelement des größeren Prozesses der Datenintegration, ohne den Analysen und Data Science unmöglich sind.

Die Rolle von Fivetran

Fivetran löst automatisch viele häufige Probleme, die Datenexperten bei Transformationen bewältigen müssen. Neben der Verschiebung von Daten durch die Planung von Extrakten aus Ihren Datenquellen erstellt und verwaltet Fivetran Ihrer Destination entsprechend automatisch Schemata und Datentypen. So entstehen Tabellen, die in Ihrem Data Warehouse oder Data Lake sofort abfragebereit sind.

Fivetran bietet zudem Datentransformations-Tools wie Spaltensperrung und Hashing, um sensible Daten auszuschließen oder zu anonymisieren, und eine umfassende Bibliothek an Datenmodellen, die einfach auf unsere unterstützten Datenquellen angewendet werden können.

Laden Sie sich „Der Ultimative Leitfaden zur Datentransformation“ herunter, um einen tieferen Einblick in das Thema zu erhalten.

Topics
No items found.
Share

Verwandte Beiträge

No items found.
No items found.
Fivetran Product Update: March 2025
Blog

Fivetran Product Update: March 2025

Beitrag lesen
Unlocking the potential of human and AI collaboration
Blog

Unlocking the potential of human and AI collaboration

Beitrag lesen
Unlocking peak performance: Data pipeline benchmarking
Blog

Unlocking peak performance: Data pipeline benchmarking

Beitrag lesen

Kostenlos starten

Schließen auch Sie sich den Tausenden von Unternehmen an, die ihre Daten mithilfe von Fivetran zentralisieren und transformieren.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.