Data Warehouses im Vergleich zu Datenbanken

Data Warehouses sind eine besondere Art von Datenbanken. Erfahren Sie, inwiefern sie sich besonders gut für Analytics eignen.
July 20, 2021

Bei der Datenverarbeitung kommt es, wie in den meisten Bereichen des Lebens, auf Geschwindigkeit an. Niemand möchte vor einem Bildschirm warten, während ein Computer für ihn über eine Antwort „nachdenkt“.

Diese einfache Tatsache hat die Hardware-Entwicklung vorangetrieben – schnellere CPUs, schnellere Netzwerke, schnellere Speicher – und motiviert auch die Software-Entwickler, die im Laufe der Jahre immer intelligentere Wege gefunden haben, Daten schneller zu den Menschen zu bringen. Beispiel: relationale Datenbanken und Data Warehouses.

In diesem Beitrag erläutern wir den Unterschied zwischen einer Datenbank und einem Data Warehouse.

Was ist eine Datenbank?

Unternehmen nutzen Datenbanken schon fast so lange, wie sie Daten elektronisch speichern. Vom Konzept her ist ein Datenbankmanagementsystem (DBMS) nur eine Möglichkeit, Daten schnell zugänglich zu machen.

Wenn wir von Datenbanken sprechen, meinen wir in der Regel relationale Datenbankmanagementsysteme (RDBMS), da relationale Datenbanken seit mehreren Jahrzehnten einen überwältigenden Marktanteil haben. Unternehmen nutzen sie, weil das Speichern und Abrufen von Daten in einem RDBMS schneller ist als andere Alternativen.

Eine Datenbank ist eine organisierte Sammlung von Daten. In relationalen Datenbanken sind die Daten in Tabellen organisiert, in denen verwandte Objekte zusammengefasst sind. Sie können sich eine Tabelle als ein Gitter mit Zeilen und Spalten vorstellen.

  • Jede Zeile ist eine Instanz des Objekts, das die Tabelle enthält – zum Beispiel ein Kundendatensatz oder Transportdaten.
  • Jede Spalte ist ein Informationsfeld – eine Kundennummer, ein Name, eine Adresse und so weiter.
  • Tabellen, Zeilen und Spalten werden durch ein Schema definiert, das eine Definition aller Komponenten der Datenbank darstellt.

Datenbanken dienen häufig als Backend von Online-Transaktionsverarbeitungsanwendungen (OLTP) oder transaktionalen Datenbanken, in denen Daten nacheinander hinzugefügt, geändert und gelöscht werden. Auf Tabellendaten wird zeilenweise zugegriffen, was bedeutet, dass die effizienteste Art, Datensätze zu speichern, die zeilenweise Speicherung ist, mit Indizes für Schlüsselfelder, um einen bestimmten Datensatz effizient abrufen zu können.

Nicht alle Systeme sind jedoch transaktionsbasiert. Manchmal möchte man Datentrends im Laufe der Zeit erkennen. Dazu brauchen Sie die Werte der einzelnen Datensätze nicht zu kennen. Sie benötigen aggregierte Informationen – wie viele Verkäufe wurden getätigt, wie viele Fahrten haben Fahrgäste unternommen. Und auch hier gilt: Sie möchten diese Informationen schnell erhalten.

Dafür gibt es ein Tool: ein Data Warehouse.

Was ist ein Data Warehouse?

Wie eine Datenbank hat ein Data Warehouse eine relationale Struktur, bei der die Daten in Tabellen, Zeilen und Spalten organisiert sind – mit einem entscheidenden Unterschied.

Während die Daten in einer Datenbank zeilenweise organisiert und gespeichert werden, werden die Daten in einem Data Warehouse spaltenweise gespeichert, um die analytische Online-Verarbeitung (OLAP) zu erleichtern. Business Intelligence besteht aus Berichten, die viele der gleichen Arten von Datensätzen zusammenfassen – zum Beispiel Einkäufe pro Monat oder Reisen nach Zielort und Kosten. Sie interessieren sich nicht für einzelne Zeilen, sondern für ganze Spalten.

Data Warehouses sind spaltenorientierte Datenbanken, die im Gegensatz zur zeilenorientierten Speicherung in Datenbanken nach Spaltenwerten organisiert, gespeichert und indiziert werden. Sie verwenden Columnstore-Indizes, die zwar komplex zu erstellen, aber einfach zu verstehen sind: Sie machen es effizient, Informationen aus allen aggregierten Zeilen einer Tabelle auf einmal für die Berichterstattung zu ziehen.

Von Punkt A nach Punkt B gelangen

Sie überlegen sich vielleicht: Wenn Sie Ihre Daten bereits in einer Datenbank haben, sollten Sie sie dann in ein Data Warehouse kopieren? Ist es nicht unklug, mehrere Kopien der gleichen Daten aufzubewahren?

Aber das ist nicht wirklich das, was Sie tun, wenn Sie ein Data Warehouse pflegen. Die Daten in einer Datenbank werden häufig aktualisiert, ein Datensatz nach dem anderen, und stellen Transaktionen und Ereignisse in der realen Welt dar. Die Daten in einem Data Warehouse werden nur batchweise aktualisiert, wenn neue Daten zur Analyse eintreffen, und repräsentieren die Systeme als Ganzes.

Wenn Sie Data Warehouses mit Datenbanken vergleichen, können Sie sich das so vorstellen: Datenbanken zeigen den aktuellen Zustand eines Systems; Data Warehouses können eine für die Datenanalyse nützliche historische Perspektive bieten.

Sie können sich die Daten in Ihren OLTP-Systemen als eine Art lebenden Organismus vorstellen. In dieser Analogie sind die Daten in Ihrem OLAP-System, in Ihrem Data Warehouse, ein Röntgenbild – ein nahezu in Echtzeit erstelltes Bild einer bestimmten Teilmenge des Organismus.

Es lohnt sich immer, das richtige Tool für die jeweilige Aufgabe zu verwenden. Wenn es darum geht, Datenanalysen auf die effizienteste Art und Weise durchzuführen, um schnell Ergebnisse zu erhalten, dann ist ein Data Warehouse das richtige Werkzeug für diese Aufgabe.

In diesem Datenökosystem gibt es auch andere Arten von Schöpfungen, darunter Data Lakes und Data Marts, sowie eine neuere Mischform, das Data Lakehouse.

Kann man eine Datenbank als Data Warehouse verwenden?

Da sowohl Datenbanken als auch Data Warehouses relationale Datenstrukturen verwenden, können Sie in Erwägung ziehen, das eine zu verwenden, wenn Sie eigentlich das andere verwenden sollten. Die meisten Datenexperten sind mit Datenbanken vertraut, bevor sie mit Data Warehouses arbeiten, und es ist immer verlockend, bei vertrauten Tools zu bleiben.

In der besten aller möglichen Welten würden Sie niemals eine Datenbank als Data Warehouse verwenden. Eine zeilenbasierte Datenbank bietet einfach nicht die Leistung, die Sie für die Datenanalyse benötigen, vor allem, wenn Sie ein großes Datenvolumen haben.

Kleine Unternehmen oder Entwickler, die Prototypen entwickeln, verwenden jedoch manchmal eine Datenbank anstelle eines Data Warehouse. Wenn Sie das getan haben, werden wir Sie nicht zwingen, Ihre Mitgliedschaft in der Association of Data Analytics Professionals aufzugeben, aber wir werden Sie ermutigen, es nicht mehr zu tun.

Da cloudbasierte moderne Data Warehouses heutzutage so günstig sind und Sie nur für die genutzten Ressourcen (Speicherplatz und Prozessorzeit, je nach gewähltem Data Warehouse) bezahlen, gibt es eigentlich keine Ausrede mehr, ein Data Warehouse nicht vom ersten Tag des Prototypings an zu nutzen. Amazon Redshift, Google BigQuery, Snowflake und Microsoft Synapse sind allesamt hervorragende Cloud Data Warehouses. Eines davon ist wahrscheinlich das richtige für Ihren Anwendungsfall, und unser Leitfaden für Unternehmens-Data Warehouses kann Ihnen helfen, die Unterschiede zu bewerten.

Unabhängig davon, für welches Cloud Data Warehouse Sie sich entscheiden, sollten Sie Fivetran verwenden, um Daten aus Ihren OLTP-Systemen – sowohl Datenbanken als auch SaaS-Anwendungen – in Ihr Cloud Data Warehouse zu replizieren. Melden Sie sich noch heute an, um Fivetran kostenlos auszuprobieren.

Kostenlos starten

Schließen auch Sie sich den Tausenden von Unternehmen an, die ihre Daten mithilfe von Fivetran zentralisieren und transformieren.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Data insights
Data insights

Data Warehouses im Vergleich zu Datenbanken

Data Warehouses im Vergleich zu Datenbanken

July 20, 2021
July 20, 2021
Data Warehouses im Vergleich zu Datenbanken
Data Warehouses sind eine besondere Art von Datenbanken. Erfahren Sie, inwiefern sie sich besonders gut für Analytics eignen.

Bei der Datenverarbeitung kommt es, wie in den meisten Bereichen des Lebens, auf Geschwindigkeit an. Niemand möchte vor einem Bildschirm warten, während ein Computer für ihn über eine Antwort „nachdenkt“.

Diese einfache Tatsache hat die Hardware-Entwicklung vorangetrieben – schnellere CPUs, schnellere Netzwerke, schnellere Speicher – und motiviert auch die Software-Entwickler, die im Laufe der Jahre immer intelligentere Wege gefunden haben, Daten schneller zu den Menschen zu bringen. Beispiel: relationale Datenbanken und Data Warehouses.

In diesem Beitrag erläutern wir den Unterschied zwischen einer Datenbank und einem Data Warehouse.

Was ist eine Datenbank?

Unternehmen nutzen Datenbanken schon fast so lange, wie sie Daten elektronisch speichern. Vom Konzept her ist ein Datenbankmanagementsystem (DBMS) nur eine Möglichkeit, Daten schnell zugänglich zu machen.

Wenn wir von Datenbanken sprechen, meinen wir in der Regel relationale Datenbankmanagementsysteme (RDBMS), da relationale Datenbanken seit mehreren Jahrzehnten einen überwältigenden Marktanteil haben. Unternehmen nutzen sie, weil das Speichern und Abrufen von Daten in einem RDBMS schneller ist als andere Alternativen.

Eine Datenbank ist eine organisierte Sammlung von Daten. In relationalen Datenbanken sind die Daten in Tabellen organisiert, in denen verwandte Objekte zusammengefasst sind. Sie können sich eine Tabelle als ein Gitter mit Zeilen und Spalten vorstellen.

  • Jede Zeile ist eine Instanz des Objekts, das die Tabelle enthält – zum Beispiel ein Kundendatensatz oder Transportdaten.
  • Jede Spalte ist ein Informationsfeld – eine Kundennummer, ein Name, eine Adresse und so weiter.
  • Tabellen, Zeilen und Spalten werden durch ein Schema definiert, das eine Definition aller Komponenten der Datenbank darstellt.

Datenbanken dienen häufig als Backend von Online-Transaktionsverarbeitungsanwendungen (OLTP) oder transaktionalen Datenbanken, in denen Daten nacheinander hinzugefügt, geändert und gelöscht werden. Auf Tabellendaten wird zeilenweise zugegriffen, was bedeutet, dass die effizienteste Art, Datensätze zu speichern, die zeilenweise Speicherung ist, mit Indizes für Schlüsselfelder, um einen bestimmten Datensatz effizient abrufen zu können.

Nicht alle Systeme sind jedoch transaktionsbasiert. Manchmal möchte man Datentrends im Laufe der Zeit erkennen. Dazu brauchen Sie die Werte der einzelnen Datensätze nicht zu kennen. Sie benötigen aggregierte Informationen – wie viele Verkäufe wurden getätigt, wie viele Fahrten haben Fahrgäste unternommen. Und auch hier gilt: Sie möchten diese Informationen schnell erhalten.

Dafür gibt es ein Tool: ein Data Warehouse.

Was ist ein Data Warehouse?

Wie eine Datenbank hat ein Data Warehouse eine relationale Struktur, bei der die Daten in Tabellen, Zeilen und Spalten organisiert sind – mit einem entscheidenden Unterschied.

Während die Daten in einer Datenbank zeilenweise organisiert und gespeichert werden, werden die Daten in einem Data Warehouse spaltenweise gespeichert, um die analytische Online-Verarbeitung (OLAP) zu erleichtern. Business Intelligence besteht aus Berichten, die viele der gleichen Arten von Datensätzen zusammenfassen – zum Beispiel Einkäufe pro Monat oder Reisen nach Zielort und Kosten. Sie interessieren sich nicht für einzelne Zeilen, sondern für ganze Spalten.

Data Warehouses sind spaltenorientierte Datenbanken, die im Gegensatz zur zeilenorientierten Speicherung in Datenbanken nach Spaltenwerten organisiert, gespeichert und indiziert werden. Sie verwenden Columnstore-Indizes, die zwar komplex zu erstellen, aber einfach zu verstehen sind: Sie machen es effizient, Informationen aus allen aggregierten Zeilen einer Tabelle auf einmal für die Berichterstattung zu ziehen.

Von Punkt A nach Punkt B gelangen

Sie überlegen sich vielleicht: Wenn Sie Ihre Daten bereits in einer Datenbank haben, sollten Sie sie dann in ein Data Warehouse kopieren? Ist es nicht unklug, mehrere Kopien der gleichen Daten aufzubewahren?

Aber das ist nicht wirklich das, was Sie tun, wenn Sie ein Data Warehouse pflegen. Die Daten in einer Datenbank werden häufig aktualisiert, ein Datensatz nach dem anderen, und stellen Transaktionen und Ereignisse in der realen Welt dar. Die Daten in einem Data Warehouse werden nur batchweise aktualisiert, wenn neue Daten zur Analyse eintreffen, und repräsentieren die Systeme als Ganzes.

Wenn Sie Data Warehouses mit Datenbanken vergleichen, können Sie sich das so vorstellen: Datenbanken zeigen den aktuellen Zustand eines Systems; Data Warehouses können eine für die Datenanalyse nützliche historische Perspektive bieten.

Sie können sich die Daten in Ihren OLTP-Systemen als eine Art lebenden Organismus vorstellen. In dieser Analogie sind die Daten in Ihrem OLAP-System, in Ihrem Data Warehouse, ein Röntgenbild – ein nahezu in Echtzeit erstelltes Bild einer bestimmten Teilmenge des Organismus.

Es lohnt sich immer, das richtige Tool für die jeweilige Aufgabe zu verwenden. Wenn es darum geht, Datenanalysen auf die effizienteste Art und Weise durchzuführen, um schnell Ergebnisse zu erhalten, dann ist ein Data Warehouse das richtige Werkzeug für diese Aufgabe.

In diesem Datenökosystem gibt es auch andere Arten von Schöpfungen, darunter Data Lakes und Data Marts, sowie eine neuere Mischform, das Data Lakehouse.

Kann man eine Datenbank als Data Warehouse verwenden?

Da sowohl Datenbanken als auch Data Warehouses relationale Datenstrukturen verwenden, können Sie in Erwägung ziehen, das eine zu verwenden, wenn Sie eigentlich das andere verwenden sollten. Die meisten Datenexperten sind mit Datenbanken vertraut, bevor sie mit Data Warehouses arbeiten, und es ist immer verlockend, bei vertrauten Tools zu bleiben.

In der besten aller möglichen Welten würden Sie niemals eine Datenbank als Data Warehouse verwenden. Eine zeilenbasierte Datenbank bietet einfach nicht die Leistung, die Sie für die Datenanalyse benötigen, vor allem, wenn Sie ein großes Datenvolumen haben.

Kleine Unternehmen oder Entwickler, die Prototypen entwickeln, verwenden jedoch manchmal eine Datenbank anstelle eines Data Warehouse. Wenn Sie das getan haben, werden wir Sie nicht zwingen, Ihre Mitgliedschaft in der Association of Data Analytics Professionals aufzugeben, aber wir werden Sie ermutigen, es nicht mehr zu tun.

Da cloudbasierte moderne Data Warehouses heutzutage so günstig sind und Sie nur für die genutzten Ressourcen (Speicherplatz und Prozessorzeit, je nach gewähltem Data Warehouse) bezahlen, gibt es eigentlich keine Ausrede mehr, ein Data Warehouse nicht vom ersten Tag des Prototypings an zu nutzen. Amazon Redshift, Google BigQuery, Snowflake und Microsoft Synapse sind allesamt hervorragende Cloud Data Warehouses. Eines davon ist wahrscheinlich das richtige für Ihren Anwendungsfall, und unser Leitfaden für Unternehmens-Data Warehouses kann Ihnen helfen, die Unterschiede zu bewerten.

Unabhängig davon, für welches Cloud Data Warehouse Sie sich entscheiden, sollten Sie Fivetran verwenden, um Daten aus Ihren OLTP-Systemen – sowohl Datenbanken als auch SaaS-Anwendungen – in Ihr Cloud Data Warehouse zu replizieren. Melden Sie sich noch heute an, um Fivetran kostenlos auszuprobieren.

Topics
No items found.
Share

Verwandte Beiträge

No items found.
No items found.
How we use machine learning to improve our product
Blog

How we use machine learning to improve our product

Beitrag lesen
SevenRooms cuts time to insights with Fivetran and Google Cloud
Blog

SevenRooms cuts time to insights with Fivetran and Google Cloud

Beitrag lesen
Unifying manufacturing data with Fivetran and Databricks
Blog

Unifying manufacturing data with Fivetran and Databricks

Beitrag lesen

Kostenlos starten

Schließen auch Sie sich den Tausenden von Unternehmen an, die ihre Daten mithilfe von Fivetran zentralisieren und transformieren.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.