Guides

Aufbau eines Data Warehouse-Designs: Typen, Architektur und Implementierungsschritte

May 16, 2023
In diesem Beitrag schauen wir uns an, wie Sie ein Data Warehouse für Ihr Unternehmen entwerfen können, und sehen, wie Fivetran Ihnen helfen kann, Daten in Ihr Data Warehouse zu laden und bis zu jeder gewünschten Detailebene aufzuschlüsseln.

Enterprises often have data dispersed across departments and teams. Disparate data doesn’t give business leaders a comprehensive and data-oriented view of how their business is growing and where it needs improvement. 

A single source of truth is critical to gain holistic insights. For example, by centralizing all data relating to supply chain management, CRM and customer success metrics in one place, an enterprise can prevent siloed thinking.

Data warehouses are data repositories that consolidate data from disparate sources for reporting and analytics. Data warehouses unify data organization and representation processes so that it’s easy to capture, share and analyze data.

In this post, we’ll look at how you can design a data warehouse for your enterprise and see how Fivetran can help you load data in your data warehouse and drill down to any level of detail you want. 

Two approaches to designing a data warehouse  

The two most widely discussed methodologies for data warehouse designing are the Inmon and Kimball approaches. 

Bill Inmon (Top-down approach)

In the top-down approach, the data warehouse is designed first and then data marts (data structure pertaining to a single business line or team in a company) are created. 

Data engineers first extract data from data sources and transfer it to the data warehouse. You can also have a staging area to store data before it’s moved into a data warehouse. 

Post this; you can extract data from the data warehouse and apply summarization techniques on extracted data and distribute this data to data marts. The benefit here is that since data marts get all their data from a central data warehouse, data remains consistent as it departs from a central place. However, this method can be time-consuming and expensive.  

The Inmon approach is useful if you need enterprise-wide data integration functionality, have a large team of data specialists and don’t have hard time constraints for data analysis. For example, an insurance company may want to adopt the Inmon method because it would give a complete view of their clients, mortality rate, claims history, etc.

Kimball (Bottom-up approach)

In the Kimball approach, data marts are created first based on business requirements and then integrated into a data warehouse. This approach is also called the dimensional data warehouse, where analytical systems can directly access data for analysis. 

The benefit of the Kimball approach is you can build data marts quickly and generate reports faster. Plus, you can slice and dice data to get any info you want and evolve your data design architecture as your business needs evolve.    

For example, you can create data marts for every department, like sales, marketing, finance, and HR. Each department can generate reports and scale up easily by adding new data marts. 

How records are organized in a data warehouse: Schemas

Databases store information in rows and columns. They’re often used to organize data into tables or spreadsheets. However, to use this data, data analysts need to model and define data in a specific way. This is where schemas come in.

A database schema is a collection of rules that define how data is organized within a database. These rules determine how data is stored and retrieved from the database. Schema also lets analysts understand how different elements (dimension tables, fact tables) are related within a database. Also, since the database structure is pre-defined, it makes it easy for analysts to extract data from any source and interpret it to make business decisions. 

There are three types of schemas.

1. Star schema

In a star schema, the core component is a single fact table. Around the fact table are dimension tables. 

Fact table stores all the primary business information, usually in numerics. And dimension tables hold all the attributes related to the data in fact tables. For example, a fact table called “Sales” can have references to attributes like the product ID, order ID, quantity, price and discount.

A star schema makes it quick and easy to query data for reporting. It is designed to support queries such as finding customers who ordered a specific item. 

2. Snowflake

A snowflake schema is useful when enterprises want to query highly complex data for advanced analytics

Similar to a star schema’s design, snowflake schema also has a fact table in the center and the fact table is surrounded by multiple dimension tables. Here, dimension tables are further related to normalize tables. 

So say, a “date” dimension table can have tables for day, week, quarter and month. These new tables can connect to the parent dimension table. This helps to handle more complex queries. For example, if a customer is interested in Product A and later wants to know about Product B via a live chat, the product dimension table will have specific info from the child dimension table. 

3. Galaxy

A galaxy schema has multiple fact tables connected and mapped to multiple dimensional tables, making them ideal for organizations with complex data structures and databases. In a galaxy schema, data redundancy is low, which allows the data quality to be more accurate. This helps in powerful analysis and reporting. 

Data warehouse design architecture 

Until recently, only one- and two-tier architectures were prevalent for data warehouses. Presently, three-tier is the most preferred architecture. 

As seen in the image above, the bottom tier includes a data repository that collects data from disparate sources. The data repository can save data from multidimensional or relational databases. However, before the data is stored, data is transformed as a part of the Extract, Transform, Load (ETL) process. 

Data transformation can include:

  • Revising data
  • Data cleansing for formatting compatibility
  • Format conversions
  • Key restructuring
  • Deduplication (finding and removing duplicate data)
  • Data validation 
  • Removing repeat and empty columns 
  • Summarization
  • Sorting, ordering and indexing 
  • Standardization

The middle tier consists of an online analytical processing (OLAP) server. OLAP works with two types of models:

  • Multidimensional online analytical processing (MOLAP): Which involves multiple databases
  • Relational online analytical processing (ROLAP): Which involves relational databases

The OLAP server is a crucial step for end-users like data analysts as it provides an abstract view of the database and acts as a mediator between the users and the database. The top tier is the user interface of front-end tools and APIs that help you get data out of the data warehouse. These could be any data mining, query, reporting and analysis tools.

Types of data warehouse designs 

Based on various business requirements, there are different ways you can design your data warehouses. 

On-prem vs. cloud

Historically, data warehouse architecture was mostly done in-house, but that comes with certain limitations:

  • It’s expensive as organizations have to purchase servers and a space to house the servers. 
  • There are additional costs to hire staff to manage servers, locations, etc. 
  • Because it’s self-hosted, scalability can be an issue. 

In contrast, in current times, cloud data warehouses are widely adopted. Fifty-four percent of respondents in a survey shared that cloud data warehousing is a key trend they’d like to follow. That’s because they come with a lot of benefits:

  • There are no hardware or server costs. 
  • The design is managed by the vendor, who in turn has experts working behind the scenes. This significantly saves hiring costs. 
  • They’re flexible and every enterprise can mold it for their different use cases. 
  • Speeds up access to data and saves time.
  • You only pay for what you use, which makes it affordable.

Traditional/batch vs. real-time

The traditional design involves loading data from sources in hourly, daily or weekly batches. Batch method was the most used method to load data, but since business users want to see insights instantly, real-time data warehousing design is becoming more prevalent. 

In der Data-Warehousing-Modell in Echtzeit, Daten werden ständig in das Data Warehouse geladen und stehen Datenanalysten zur Verfügung, um Berichte und Prognosen zu erstellen. Endbenutzer erhalten die aktuellsten Informationen und treffen schnellere Entscheidungen.

Ein Kunde möchte beispielsweise die neuesten Informationen über eine von ihm aufgegebene Online-Bestellung erhalten, oder ein Vertriebsleiter möchte Trends anhand neuer Verkaufsdaten auswerten — das ist nur möglich, wenn die Daten in Echtzeit abgerufen werden.

Zu den weiteren Vorteilen eines Data-Warehousing-Modells in Echtzeit gehören:

  • Verbessert die Datendemokratisierung, sodass jedes Teammitglied problemlos auf aktuelle und historische Daten zugreifen kann, die es benötigt, um seine Aufgaben zu erledigen und seine Bemühungen zu optimieren.
  • Schafft eine Grundlage für fortschrittliche Analysen und maschinelles Lernen, die bei der Gestaltung personalisierter Kundenerlebnisse helfen.
  • Verbessert das Tempo, mit dem sich ein Unternehmen weiterentwickelt, und kann auf Veränderungen reagieren.

Schritte beim Data Warehouse-Design

Jedes Data Warehouse-Design unterscheidet sich je nach Geschäftsparametern, Anwendungsfällen und Anforderungen. Hier ist ein allgemeiner Plan, den Sie verwenden und ändern können.

1. Erkennen Sie Geschäftsziele und Benutzerbedürfnisse

Der erste Schritt besteht darin, sicherzustellen, dass Ihr Data Warehouse mit den Geschäftsprozessen kompatibel ist, die Sie derzeit einhalten. Eine weitere wichtige Tatsache besteht darin, sich bei den Stakeholdern Ihres Unternehmens über deren Ziele bei der Nutzung des Data Warehouse zu erkundigen. Dann müssen Sie auch die technischen Anforderungen und Compliance-Standards kennen, die Sie einhalten müssen, bevor die Implementierung beginnt.

Schließlich kann die Beantwortung dieser Fragen den ersten Schritt vereinfachen:

  • Wie viele Datenquellen müssen Sie integrieren und wie hoch ist das Datenvolumen?
  • Welche aktuellen und zukünftigen Geschäftsanforderungen wird das Data Warehouse erfüllen?
  • Bei welchen Fragen hilft das Data Warehouse bei der Beantwortung oder wie löst die Data Warehouse-Architektur Geschäftsprobleme?

2. Wählen Sie ein Datenmodell

Datenmodelle helfen bei der Erstellung der Dokumentation für die Data Warehouse-Implementierung. Sie helfen Modellierern auch bei der Entscheidung, wie Daten strukturiert werden sollen, Beziehungen zwischen verschiedenen Datenpunkten herzustellen und wichtige Kennzahlen festzulegen.

Dateningenieure können zwar Unternehmensdatenmodelle erstellen, dies ist jedoch ein zeitaufwändiger Prozess. Daher ist es eine klügere Option, eine Lösung wie zu verwenden Fivetran das bietet vorgefertigte Datenmodelle. Fivetran normalisiert Daten automatisch, sodass die Modellierungstechnik einfacher und schneller wird.

3. Wählen Sie eine ELT- oder ETL-Lösung

Sie können einen ETL-Prozess (Extract, Transform, Load) oder einen ELT-Prozess (Extract, Load, Transform) für die Datenintegration wählen. Allerdings FILZ ist eine bessere und flexiblere Lösung, da sie immer rohe und frische Daten für die Analyse generiert. Hier finden Sie weitere Informationen über Unterschiede zwischen ELT und ETL Prozesse. Unsere Lösung, Fivetran, verfügt über automatisierte Datenkonnektoren, deren Einrichtung nur wenige Minuten dauert und Ihnen hilft, diese effizient zu erstellen und zu verwalten die ELT-Datenpipelines. Sobald Ihre Modelle und Lösungen festgelegt sind, können Sie auch den Umfang in Bezug auf die zu erbringenden Leistungen, die wichtigsten Personen für jede Aufgabe, ihre KPIs, das Budget und die Zeitpläne definieren.

4. Erstellen Sie Ihre Berichtsschnittstelle

Wie verwenden Sie die Ergebnisse von Datenabfragen, um Geschäftsintelligenz (BI-) Berichte? Dafür sorgen Tools zur Datenvisualisierung und Berichterstattung wie Power BI und Tableau. Entscheiden Sie für diesen Schritt, wie oft Sie Berichte erstellen möchten und wer die Stakeholder für die verschiedenen Berichtstypen sein soll, sodass Sie eine auswählen können Business Intelligence-Tool das Ihren Anforderungen entspricht.

5. Einführung und Durchführung von Assessments

Sobald alle Kernschritte implementiert sind, können Unternehmen Daten in ihre ELT/ETL-Tools aufnehmen, die Daten analysieren und Ergebnisse aus BI-Systemen validieren.

Wie Fivetran helfen kann

Fivetran bietet eine vollständig verwaltete und automatisierte Datenpipeline. Jeder SaaS-Connector verfügt über normalisierte und sofort einsatzbereite Datenschemas. Wenn sich Datenquellen ändern, passen sich diese Schemas automatisch an, sodass Sie die aktuellsten Daten erhalten.

Zweiundfünfzig Prozent der IT-Manager wünschen sich eine schnellere Analyseverarbeitung. Sobald die Daten das Data Warehouse erreicht haben, können Daten mit Fivetran schnell und einfach in analysebereite Modelle umgewandelt werden.

Mit Fivetran können Unternehmen Pipelines aus ihren Datenquellen erstellen, ohne eine einzige Codezeile schreiben zu müssen. Datenwissenschaftler und Ingenieure müssen sich dann keine Gedanken über den Bau und die Wartung von Pipelines machen und diese Zeit mit den geschäftskritischen Dingen verbringen.

Verwandte Beiträge

Kostenlos starten

Schließen auch Sie sich den Tausenden von Unternehmen an, die ihre Daten mithilfe von Fivetran zentralisieren und transformieren.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.