Generative KI ist ein leistungsfähiges Werkzeug, das den menschlichen Verstand unterstützt und intellektuelle sowie kreative Arbeit aller Art beschleunigt. Die Kernfähigkeiten der generativen KI – Informationsbeschaffung, Synthese und Ideenfindung – bieten ein transformatives Potenzial für Unternehmen in jeder Branche. Laut McKinsey könnte generative KI die Weltwirtschaft in den kommenden Jahrzehnten jährlich um 6,1 bis 7,9 Billionen USD bereichern.
Wie alle Analyseverfahren ist auch die generative KI auf einen zuverlässigen, zentralen Datenzugang angewiesen. Die Zentralisierung von Daten ermöglicht die Erforschung von Daten und die Entwicklung von Datenprodukten. Sobald es bereitgestellt wurde, benötigt ein KI-Modell frische und aktuelle Daten, um sicherzustellen, dass seine Ergebnisse aktuelle Entwicklungen widerspiegeln.
Unstrukturierte Daten sind für KI besonders wichtig
Herkömmliche Analysen wie Business Intelligence, Reporting und prädiktive Modellierung werden in der Regel mit strukturierten Daten durchgeführt – mit Feldern, die in Tabellen oder Markup-Dokumenten organisiert sind. Strukturierte Daten zeichnen normalerweise Transaktionen auf, die von Anwendungen und Datenbank-Backends durchgeführt werden. Diese detaillierten digitalen Fußabdrücke bieten unschätzbare Einblicke in die Abläufe eines Unternehmens.
Der größte Teil der Daten eines Unternehmens – zwischen 80 und 90 % – ist jedoch unstrukturiert und besteht aus Text, Bildern, Code, Video, Audio und anderen digitalen Assets, die sich in Korrespondenz, Dokumentation, Wissensdatenbanken, Marketingmaterial, Code-Datenbanken, Asset-Bibliotheken und anderen Quellen befinden. Diese unstrukturierten Daten enthalten eine Fülle von Erkenntnissen, von denen viele qualitativ sind und sich nur schwer in einer Tabelle erfassen lassen.
Generative KI-Modelle wurden speziell entwickelt, um Benutzern zu helfen, große Mengen unstrukturierter Daten zu verstehen und zu nutzen. Große Sprachmodelle (Large Language Models, LLMs) werden zum Beispiel mit großen Textmengen trainiert, um semantische und kontextuelle Beziehungen zwischen Wörtern zu extrahieren. Dies ermöglicht eine Reihe von praktischen Anwendungsfällen. Im Grunde genommen sind große Sprachmodelle wie Suchmaschinen auf Steroiden und bieten eine beispiellose Fähigkeit, Informationen abzurufen, zusammenzufassen und zu iterieren. Ein Modell, das sich mit den internen Unterlagen Ihres Unternehmens auskennt, kann Fragen zu den Unternehmensrichtlinien beantworten. Ein weiteres Modell, das auf der Codebasis Ihres Entwicklungsteams trainiert wurde, kann als Kopilot fungieren und den Ingenieuren helfen, schnell Code auf Grundlage bekannter Muster zu schreiben.
Nichtsdestotrotz bleiben strukturierte Daten wichtig, da sie das Rückgrat der Berichterstattung, der Business Intelligence und der prädiktiven Modellierung (d. h. der nicht-generativen KI) bilden. Sie lassen sich auch leicht in unstrukturierte Daten umwandeln – eine Zahlentabelle beispielsweise kann leicht in eine Reihe von deklarativen, faktischen Aussagen umgewandelt werden:
„2024 lag die Konversionsrate von Unternehmenskonten bei 35 %.“
Vielleicht noch wichtiger ist, dass ein KI-Agent, der mit einem Prognosemodell verbunden ist, solche Daten an das Modell weitergeben kann, während er dessen Ergebnisse mit seiner eigenen Analyse kombiniert und einbezieht. Für die Beantwortung vieler Fragen sind sowohl quantitative als auch qualitative Daten erforderlich; einer der Grundsätze des Prompt Engineering besagt, dass mehr Kontext fast immer besser ist. Akademische Arbeiten enthalten schließlich nicht nur Tabellen mit Abbildungen, sondern auch schriftliche Analysen und sogar Quellcode. Große Sprachmodelle sind notorisch schlecht darin, rein rechnerische Fragen zu beantworten, und können von der Integration mit anderen Systemen profitieren, die auf mathematische Schlussfolgerungen spezialisiert sind.
Einige Daten sind halbstrukturiert – eine Tabelle oder ein Markup-Dokument kann beispielsweise große Textfelder enthalten. Das Paket Fivetran Unified RAG dbt, das auf unserer Arbeit an FivetranChat basiert, verarbeitet solche Daten.
Aufgrund der Bedeutung unstrukturierter Daten für KI ist der Data Lake als Zielort von zentraler Bedeutung, da er sowohl unstrukturierte als auch strukturierte Daten in großem Umfang aufnehmen kann. Teams, die KI einsetzen, müssen die grundlegende Herausforderung lösen, sowohl strukturierte als auch unstrukturierte Daten aus unterschiedlichen Quellen in Data Lakes zu integrieren.
Warum unstrukturierte Daten besonders schwierig zu integrieren sind
Strukturierte Daten, insbesondere tabellarische, relationale Daten, setzen voraus, dass die Daten standardisierter Benennungskonventionen und Formate einhalten und in der Regel ein vordefiniertes Schema enthalten, das die Beziehungen zwischen verschiedenen Konzepten sowie Metadaten mit der semantischen Bedeutung der einzelnen Elemente beschreibt. Kurz gesagt, es ist viel einfacher, Qualität und Governance in strukturierten Daten zu gewährleisten.
Im Gegensatz dazu sind unstrukturierte Daten von Natur aus nicht für die Speicherung mit standardisierter Formatierung geeignet und werden nicht automatisch mit Schemaerzwingung und Metadaten gebündelt. Unstrukturierte Daten enthalten möglicherweise ein verwirrendes Spektrum unterschiedlicher Medien in einer Vielzahl von Formaten und in äußerst großem Umfang.
Daher ist es naturgemäß schwieriger, die Qualität und die Einhaltung der Vorschriften für Daten zu gewährleisten und sie allgemein zu verwalten.
Automatisierte Datenintegration liefert die Antwort
Frische, genaue, konforme und kontrollierte Daten sind zwingend erforderlich, vor allem bei für die Öffentlichkeit sichtbaren KI-Implementierungen. Generell stellen die Menge, Geschwindigkeit und Vielfalt moderner Daten eine große Herausforderung für die Datenintegration dar.
Diese Probleme sind zwar keineswegs unmöglich zu lösen, aber sie bedeuten einen enormen Zeitaufwand für die Ingenieure. Die Lösung für die Integration strukturierter Daten, wie sie Fivetran seit langem befürwortet, ist die automatisierte Datenintegration. Unser umfangreicher Katalog mit mehr als 700 Konnektoren umfasst gängige SaaS-, ERP- und transaktionale Datenbankquellen. Insbesondere unsere Datenbankkonnektoren bieten Funktionen wie Pipeline-Konfigurationen und Zeilenfilterung, so dass Ihr Team genau steuern kann, welche Daten wie integriert werden. Ein wichtiges Element der Datenintegration ist die Datenkuratierung, die sicherstellt, dass nur die nützlichsten und relevantesten Daten verwendet werden.
Die automatisierte Datenintegration ist auch die Lösung für unstrukturierte Daten. Eine Möglichkeit, die Komplikationen beim Umgang mit einer Vielzahl von Mediendateien zu vermeiden, besteht darin, mit halbstrukturierten, textbasierten Daten zu beginnen, wie es Fivetran mit FivetranChat getan hat und wie es vom Paket "Fivetran Unified RAG dbt" unterstützt wird. Unsere Konnektoren für SharePoint und Google Drive bieten Unterstützung für tabellarische Dateiformate aller Art sowie für Dokumente wie PDFs, Google Docs, Bilder und gemischte Medien wie Google Slides.
Wenn Sie eine Integration aus einer nicht unterstützten Quelle benötigen, ermöglicht unser Konnektor-SDK Ihrem Team, einen neuen Konnektor zu erstellen, der mit der Fivetran-Kernanwendung kompatibel ist. Bei der Entwicklung über die Fivetran-Plattform profitieren Sie immer von einem Höchstmaß an Skalierbarkeit, Zuverlässigkeit und Sicherheit.
Das sind auch nicht einfach leere Behauptungen – HubSpot hat Fivetran verwendet, um zuvor unzugängliche textbasierte Personalinformationen zu integrieren und mit Hilfe generativer Analysen Einblicke in die Mitarbeiterleistung und Managementpraktiken zu erlangen. Mike Hite, CTO von Saks, erklärt: „Fivetran löst für uns ein sehr komplexes Problem ganz einfach: die Aufnahme vieler verschiedener Daten. Es ist eines der grundlegenden Elemente unserer KI-Strategie und ermöglicht es uns, neue Datensätze einzubringen und festzustellen, ob sie für uns von Nutzen sein werden.“
[CTA_MODULE]