Wie Sie eine Datengrundlage für generative KI schaffen

Generative KI basiert auf Datenreife, bei der ein Unternehmen sowohl die Fähigkeit zur Datenintegration – also zur Bewegung und Transformation der Daten – als auch zur Kontrolle der Verwendung der Daten besitzt.
December 1, 2023

Dieser Blog-Beitrag ist eine Adaption des E-Books: „Der Leitfaden des Data Leaders für generative KI“. Laden Sie das E-Book hier herunter.

[CTA_MODULE]

Seit Ende 2022 hat die generative KI schnell ihren Wert und ihr Potenzial nachgewiesen, mit dem sie Unternehmen jeder Größenordnung hilft, schneller Innovationen zu entwickeln. Indem generative KI aus Prompts neue Medien generiert, kann sie zu einer leistungsstarken Produktivitätsstütze werden, die den Effekt aller kreativen und intellektuellen Arbeiten vervielfacht. Laut Gartner planen 55 Prozent der Unternehmen den Einsatz generativer KI und 78 Prozent der Führungskräfte sind der Meinung, dass die Vorteile der KI-Einführung die Risiken überwiegen.

Die Welt wird sich durch KI-gestützte Medizin, Bildung, wissenschaftliche Forschung, Recht und mehr verändern. Forscher an der Universität Toronto nutzen generative KI, um Proteine zu modellieren, die in der Natur nicht vorkommen. In ähnlicher Weise nutzt der Pharma-Riese Bayer jetzt generative KI, um den Prozess der Arzneimittelentdeckung zu beschleunigen. Der Bildungsanbieter Khan Academy hat einen KI-Chatbot/Tutor, Khanmigo, entwickelt, um das Lernerlebnis zu personalisieren. Die Liste der Beispiele aus allen Branchen wird immer länger.

Generative KI ist nicht nur eine allgemeine Produktivitätshilfe, die wie eine Suchmaschine Informationen zutage fördert. Mit generativer KI können Unternehmen ihre eigenen, proprietären Daten mit Basismodellen kombinieren, die vorab mit einer breiten öffentlichen Datenbasis trainiert wurde. Generative KI, die mit einer Kombination aus öffentlichen und unternehmenseigenen Daten trainiert wurde, kann zur am besten informierten Instanz eines Unternehmens werden und unzählige Chancen für Innovationen eröffnen.

Wie alle anderen Analysen ist auch die generative KI nur so gut wie ihre Daten. Damit ein Unternehmen KI in vollem Umfang nutzen kann, muss es die Kontrolle über seine firmeneigenen Daten behalten. Dies erfordert eine solide Grundlage aus Datenverarbeitungstechnologien und organisatorischen Standards, die eine verantwortungsvolle und effektive Nutzung der Daten ermöglichen.

Data Readiness für generative KI hängt von zwei Schlüsselelementen ab:

  • der Fähigkeit, Daten aus Datenbanken, Anwendungen und anderen Quellen automatisiert, zuverlässig, kosteneffizient und sicher zu übertragen und zu integrieren
  • der Kenntnis und dem Schutz der Daten sowie dem Zugriff darauf im Rahmen von Data Governance

Diese Art der Data Readiness wird immer wieder übersehen. Daran sind in der Vergangenheit vielfach Versuche gescheitert, das Potenzial von Big Data und Data Science zu nutzen. Laut einer Statistik schaffen es 87 Prozent der Data-Science-Projekte niemals bis in die Produktion, was häufig an isolierten und nicht verwalteten Daten sowie einer unterentwickelten Dateninfrastruktur liegt.

Generative KI basiert auf Datenreife

Ohne Datenreife gestalten sich das Prototyping, die Bereitstellung und das Testen von generativer KI – oder überhaupt jede Art von Analytik – extrem schwierig.

Die Datenreife umfasst sowohl technologische als auch organisatorische Elemente. Auf der technologischen Seite sind folgende Fähigkeiten entscheidend:

  1. ein zentrales, cloudbasiertes Daten-Repository, das als „Single Source of Truth“ dienen kann
  2. ein Tool, das zuverlässig und automatisch in großem Umfang Daten aus Quellen und Funktionen aufnimmt:
    • schnelle, zeitnahe Aktualisierungen
    • Zuverlässigkeit und eine schnelle Wiederherstellung nach Ausfällen
  3. ein Tool, das eine kollaborative, versionskontrollierte Modellierung und Transformation der Daten unterstützt
  4. Funktionen für die Data Governance, z. B.:
    • die Möglichkeit, sensible Daten zu sperren und zu verschlüsseln, bevor sie in einem zentralen Repository ankommen
    • Zugangskontrolle
    • die Fähigkeit, Daten zu katalogisieren
    • automatisierte Benutzerbereitstellung

Automatisierung ist eine wesentliche Voraussetzung dafür, dass Data Movement und Integration effizient, zuverlässig und skalierbar erfolgen.

Auf organisatorischer Seite benötigt Ihr Team folgende Praktiken und Strukturen:

  • eine skalierte Analyseorganisation, in der Sie neben einem Kernteam von Analysten auch über Fachexperten verfügen, die bestimmten Funktionseinheiten innerhalb Ihres Unternehmens zugewiesen sind
  • regelmäßig erscheinende Berichte sowie Stakeholder in Ihrem Unternehmen, die regelmäßig Dashboards nutzen, um Entscheidungen zu treffen
  • Product Thinking in der Analytik, mit dem Berichte, Dashboards, Modelle usw., die Ihr Team erstellt, auf die Bedürfnisse der Beteiligten zugeschnitten sind
  • angemessene Transparenz Ihrer Daten, beispielsweise durch die Katalogisierung von Datenbeständen

Ihre Datenplattform-Architektur für generative KI

Eine generative KI von Grund auf neu zu entwickeln, stellt ein gewaltiges Unterfangen dar, das potenziell Hunderte Millionen Dollar kosten und das Äquivalent von Hunderten von Jahren in Anspruch nehmen kann. Ihr Unternehmen verwendet höchstwahrscheinlich ein Basismodell bzw. Foundation Model. Das ist ein im Handel verfügbares Modell, das bereits mit riesigen Mengen öffentlicher Daten trainiert wurde.

In der Anfangsphase spiegelt diese Architektur (siehe Anhang am Ende) grundlegende Anwendungsfälle der Analytik wider und erfordert eine Datenpipeline zum Extrahieren, Laden und Transformieren von Rohdaten in Modelle, um Berichte, Dashboards und andere Datenbestände zu unterstützen.

Was danach kommt, ist einzigartig bei der generativen KI. Sie können ein handelsübliches generatives KI-Modell auf zwei Wegen mit Ihren Daten aufbessern:

  1. Konvertieren Sie Text in Aufzählungen, speichern Sie Daten in einer Vektordatenbank für generative KI zur Integration in den Langzeitspeicher, um die Ergebnisse des Ersttrainings und die spezifischen Daten Ihres Unternehmens zu verbessern.
  2. Kombinieren Sie Large Language Models mit Wissensgraphen, wodurch das semantische Verständnis explizit in das Modell einfließt und nicht nur die statistischen Wortassoziationen.

Auch wenn immer mehr Standardtools für die Verwaltung von Dateninfrastrukturen mit generativer KI verfügbar sind, benötigen Sie wahrscheinlich technische Expertise, damit alle Teile korrekt miteinander arbeiten und Sie auf der Architektur brauchbare Anwendungen entwickeln und hochwertige Ergebnisse sicherstellen können.

Das Potenzial der generativen KI kann nur dann voll ausgeschöpft werden, wenn Unternehmen die zentrale Rolle ihrer proprietären Daten erkennen. Indem sie die Kontrolle der Daten durch die Implementierung fortschrittlicher Technologien für Data Operations priorisieren und eine Kultur der verantwortungsvollen Datennutzung etablieren, können Unternehmen die wahre Macht der generativen KI freisetzen und ihre optimale Leistung und ihren ethischen Einsatz in einer sich schnell entwickelnden technologischen Landschaft sicherstellen.

[CTA_MODULE]

Anhang

Kostenlos starten

Schließen auch Sie sich den Tausenden von Unternehmen an, die ihre Daten mithilfe von Fivetran zentralisieren und transformieren.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Data insights
Data insights

Wie Sie eine Datengrundlage für generative KI schaffen

Wie Sie eine Datengrundlage für generative KI schaffen

December 1, 2023
December 1, 2023
Wie Sie eine Datengrundlage für generative KI schaffen
Generative KI basiert auf Datenreife, bei der ein Unternehmen sowohl die Fähigkeit zur Datenintegration – also zur Bewegung und Transformation der Daten – als auch zur Kontrolle der Verwendung der Daten besitzt.

Dieser Blog-Beitrag ist eine Adaption des E-Books: „Der Leitfaden des Data Leaders für generative KI“. Laden Sie das E-Book hier herunter.

[CTA_MODULE]

Seit Ende 2022 hat die generative KI schnell ihren Wert und ihr Potenzial nachgewiesen, mit dem sie Unternehmen jeder Größenordnung hilft, schneller Innovationen zu entwickeln. Indem generative KI aus Prompts neue Medien generiert, kann sie zu einer leistungsstarken Produktivitätsstütze werden, die den Effekt aller kreativen und intellektuellen Arbeiten vervielfacht. Laut Gartner planen 55 Prozent der Unternehmen den Einsatz generativer KI und 78 Prozent der Führungskräfte sind der Meinung, dass die Vorteile der KI-Einführung die Risiken überwiegen.

Die Welt wird sich durch KI-gestützte Medizin, Bildung, wissenschaftliche Forschung, Recht und mehr verändern. Forscher an der Universität Toronto nutzen generative KI, um Proteine zu modellieren, die in der Natur nicht vorkommen. In ähnlicher Weise nutzt der Pharma-Riese Bayer jetzt generative KI, um den Prozess der Arzneimittelentdeckung zu beschleunigen. Der Bildungsanbieter Khan Academy hat einen KI-Chatbot/Tutor, Khanmigo, entwickelt, um das Lernerlebnis zu personalisieren. Die Liste der Beispiele aus allen Branchen wird immer länger.

Generative KI ist nicht nur eine allgemeine Produktivitätshilfe, die wie eine Suchmaschine Informationen zutage fördert. Mit generativer KI können Unternehmen ihre eigenen, proprietären Daten mit Basismodellen kombinieren, die vorab mit einer breiten öffentlichen Datenbasis trainiert wurde. Generative KI, die mit einer Kombination aus öffentlichen und unternehmenseigenen Daten trainiert wurde, kann zur am besten informierten Instanz eines Unternehmens werden und unzählige Chancen für Innovationen eröffnen.

Wie alle anderen Analysen ist auch die generative KI nur so gut wie ihre Daten. Damit ein Unternehmen KI in vollem Umfang nutzen kann, muss es die Kontrolle über seine firmeneigenen Daten behalten. Dies erfordert eine solide Grundlage aus Datenverarbeitungstechnologien und organisatorischen Standards, die eine verantwortungsvolle und effektive Nutzung der Daten ermöglichen.

Data Readiness für generative KI hängt von zwei Schlüsselelementen ab:

  • der Fähigkeit, Daten aus Datenbanken, Anwendungen und anderen Quellen automatisiert, zuverlässig, kosteneffizient und sicher zu übertragen und zu integrieren
  • der Kenntnis und dem Schutz der Daten sowie dem Zugriff darauf im Rahmen von Data Governance

Diese Art der Data Readiness wird immer wieder übersehen. Daran sind in der Vergangenheit vielfach Versuche gescheitert, das Potenzial von Big Data und Data Science zu nutzen. Laut einer Statistik schaffen es 87 Prozent der Data-Science-Projekte niemals bis in die Produktion, was häufig an isolierten und nicht verwalteten Daten sowie einer unterentwickelten Dateninfrastruktur liegt.

Generative KI basiert auf Datenreife

Ohne Datenreife gestalten sich das Prototyping, die Bereitstellung und das Testen von generativer KI – oder überhaupt jede Art von Analytik – extrem schwierig.

Die Datenreife umfasst sowohl technologische als auch organisatorische Elemente. Auf der technologischen Seite sind folgende Fähigkeiten entscheidend:

  1. ein zentrales, cloudbasiertes Daten-Repository, das als „Single Source of Truth“ dienen kann
  2. ein Tool, das zuverlässig und automatisch in großem Umfang Daten aus Quellen und Funktionen aufnimmt:
    • schnelle, zeitnahe Aktualisierungen
    • Zuverlässigkeit und eine schnelle Wiederherstellung nach Ausfällen
  3. ein Tool, das eine kollaborative, versionskontrollierte Modellierung und Transformation der Daten unterstützt
  4. Funktionen für die Data Governance, z. B.:
    • die Möglichkeit, sensible Daten zu sperren und zu verschlüsseln, bevor sie in einem zentralen Repository ankommen
    • Zugangskontrolle
    • die Fähigkeit, Daten zu katalogisieren
    • automatisierte Benutzerbereitstellung

Automatisierung ist eine wesentliche Voraussetzung dafür, dass Data Movement und Integration effizient, zuverlässig und skalierbar erfolgen.

Auf organisatorischer Seite benötigt Ihr Team folgende Praktiken und Strukturen:

  • eine skalierte Analyseorganisation, in der Sie neben einem Kernteam von Analysten auch über Fachexperten verfügen, die bestimmten Funktionseinheiten innerhalb Ihres Unternehmens zugewiesen sind
  • regelmäßig erscheinende Berichte sowie Stakeholder in Ihrem Unternehmen, die regelmäßig Dashboards nutzen, um Entscheidungen zu treffen
  • Product Thinking in der Analytik, mit dem Berichte, Dashboards, Modelle usw., die Ihr Team erstellt, auf die Bedürfnisse der Beteiligten zugeschnitten sind
  • angemessene Transparenz Ihrer Daten, beispielsweise durch die Katalogisierung von Datenbeständen

Ihre Datenplattform-Architektur für generative KI

Eine generative KI von Grund auf neu zu entwickeln, stellt ein gewaltiges Unterfangen dar, das potenziell Hunderte Millionen Dollar kosten und das Äquivalent von Hunderten von Jahren in Anspruch nehmen kann. Ihr Unternehmen verwendet höchstwahrscheinlich ein Basismodell bzw. Foundation Model. Das ist ein im Handel verfügbares Modell, das bereits mit riesigen Mengen öffentlicher Daten trainiert wurde.

In der Anfangsphase spiegelt diese Architektur (siehe Anhang am Ende) grundlegende Anwendungsfälle der Analytik wider und erfordert eine Datenpipeline zum Extrahieren, Laden und Transformieren von Rohdaten in Modelle, um Berichte, Dashboards und andere Datenbestände zu unterstützen.

Was danach kommt, ist einzigartig bei der generativen KI. Sie können ein handelsübliches generatives KI-Modell auf zwei Wegen mit Ihren Daten aufbessern:

  1. Konvertieren Sie Text in Aufzählungen, speichern Sie Daten in einer Vektordatenbank für generative KI zur Integration in den Langzeitspeicher, um die Ergebnisse des Ersttrainings und die spezifischen Daten Ihres Unternehmens zu verbessern.
  2. Kombinieren Sie Large Language Models mit Wissensgraphen, wodurch das semantische Verständnis explizit in das Modell einfließt und nicht nur die statistischen Wortassoziationen.

Auch wenn immer mehr Standardtools für die Verwaltung von Dateninfrastrukturen mit generativer KI verfügbar sind, benötigen Sie wahrscheinlich technische Expertise, damit alle Teile korrekt miteinander arbeiten und Sie auf der Architektur brauchbare Anwendungen entwickeln und hochwertige Ergebnisse sicherstellen können.

Das Potenzial der generativen KI kann nur dann voll ausgeschöpft werden, wenn Unternehmen die zentrale Rolle ihrer proprietären Daten erkennen. Indem sie die Kontrolle der Daten durch die Implementierung fortschrittlicher Technologien für Data Operations priorisieren und eine Kultur der verantwortungsvollen Datennutzung etablieren, können Unternehmen die wahre Macht der generativen KI freisetzen und ihre optimale Leistung und ihren ethischen Einsatz in einer sich schnell entwickelnden technologischen Landschaft sicherstellen.

[CTA_MODULE]

Anhang

Sie möchten mit dem Büro unseres CTOs über Ihren GenAI-Anwendungsfall sprechen?
Kontaktieren Sie uns
Der Leitfaden des Data Leaders für generative KI
E-Book herunterladen

Verwandte Beiträge

In-warehouse machine learning and the modern data stack
Data insights

In-warehouse machine learning and the modern data stack

Beitrag lesen
When are you ready for artificial intelligence and machine learning?
Data insights

When are you ready for artificial intelligence and machine learning?

Beitrag lesen
Five ways Fivetran lays the foundation for machine learning

Five ways Fivetran lays the foundation for machine learning

Beitrag lesen
Launching DecisionsCX: Customer engagement with data and AI
Blog

Launching DecisionsCX: Customer engagement with data and AI

Beitrag lesen
Get immediate customer insights with our new data models
Blog

Get immediate customer insights with our new data models

Beitrag lesen
dbt erklärt
Blog

dbt erklärt

Beitrag lesen
Was ist eine Datenbank? Definition, Typen und Beispiele
Blog

Was ist eine Datenbank? Definition, Typen und Beispiele

Beitrag lesen
Was ist ein Data Lakehouse?
Blog

Was ist ein Data Lakehouse?

Beitrag lesen

Kostenlos starten

Schließen auch Sie sich den Tausenden von Unternehmen an, die ihre Daten mithilfe von Fivetran zentralisieren und transformieren.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.