L'IA générative est un outil puissant pour l'esprit humain, en accélérant le travail intellectuel et créatif de toutes sortes. Les capacités essentielles de l'IA générative - récupération d'informations, synthèse et idéation - offrent un potentiel de transformation pour les entreprises de tous les secteurs. Selon McKinsey, l'IA générative pourrait apporter une contribution annuelle de 6,1 à 7,9 billions de dollars à l'économie mondiale au cours des prochaines décennies.
Comme toutes les analyses, l'IA générative dépend d'un accès fiable et centralisé aux données. La centralisation des données permet l'exploration des données et le développement de produits de données. Une fois déployé, un modèle d'IA a besoin de données à jour et actualisées pour s'assurer que ses résultats reflètent les évolutions en cours.
Les données non structurées sont particulièrement importantes pour l'IA
Les analyses conventionnelles, telles que l’informatique décisionnelle, le reporting et la modélisation prédictive, sont généralement effectuées sur des données structurées, c'est-à-dire des champs organisés dans des tableaux ou des documents de balisage. Les données structurées enregistrent généralement les transactions effectuées par les applications et les backends des bases de données. Ces empreintes numériques granulaires fournissent des informations inestimables sur les activités d'une organisation.
Cependant, la plupart des données d'une organisation - entre 80 et 90 % - ne sont pas structurées et se composent de texte, d'images, de code, de vidéo, d'audio et d'autres ressources numériques que l’on trouve dans les correspondances, les documents, les bases de connaissances, les supports marketing, les bases de code, les bibliothèques de ressources et d'autres sources. Ces données non structurées contiennent une multitude d'informations, souvent qualitatives et difficiles à saisir dans un tableau.
Les modèles d'IA générative sont conçus spécifiquement pour aider les utilisateurs à comprendre et à exploiter de grands volumes de données non structurées. Les grands modèles de langage (LLM), par exemple, sont formés sur de grands volumes de texte afin d'extraire les relations sémantiques et contextuelles entre les mots. Cela permet un certain nombre de cas d'utilisation pratiques. À la base, les grands modèles de langage sont comme des moteurs de recherche survoltés, offrant une capacité inégalée de récupération, de synthèse et d'itération de l'information. Un modèle formé sur les documents internes de votre entreprise peut répondre aux questions sur les politiques de l'entreprise. Un autre modèle formé sur la base de codes de votre équipe d'ingénieurs peut agir comme un copilote, aidant les ingénieurs à écrire rapidement du code basé sur des modèles connus.
Néanmoins, les données structurées restent importantes en tant qu'épine dorsale des rapports, de l’informatique décisionnelle et de la modélisation prédictive (c'est-à-dire l'IA non générative). Elles sont également faciles à convertir en données non structurées - un tableau de chiffres, par exemple, peut facilement être transformé en une série d'énoncés déclaratifs et factuels :
« En 2024, le taux de conversion des comptes d'entreprise était de 35 % ».
Plus important encore, un agent d'IA connecté à un modèle prédictif peut transmettre ces données à ce modèle tout en combinant et en incorporant ses résultats à sa propre analyse. De nombreuses questions nécessitent des données quantitatives et qualitatives pour y répondre ; l'un des principes de l'ingénierie des invites est qu'il est presque toujours préférable d'avoir plus de contexte. Après tout, les articles universitaires ne comprennent pas seulement des tableaux de chiffres, mais aussi des analyses écrites et même le code source. Les grands modèles de langage sont notoirement mauvais pour les questions purement mathématiques et peuvent bénéficier de l'intégration avec d'autres systèmes spécialisés dans le raisonnement mathématique.
Certaines données sont semi-structurées - un tableau ou un document de balisage peut, par exemple, contenir de grands champs de texte. L’offre dbt RAG Unifiée de Fivetran, basée sur notre travail sur FivetranChat, traite de telles données.
L'importance des données non structurées pour l'IA a fait du data lake une destination primordiale, car il peut facilement accueillir des données structurées et non structurées à grande échelle. Les équipes qui déploient l'IA doivent relever le défi fondamental de l'intégration des données structurées et non structurées provenant de sources disparates dans des data lakes.
Pourquoi les données non structurées sont-elles particulièrement difficiles à intégrer ?
Les données structurées, en particulier les données tabulaires et relationnelles, obligent les données à se conformer à des règles d'affectation des noms et à des formats normalisés et sont généralement accompagnées d'un schéma prédéfini décrivant les relations entre les différents concepts ainsi que de métadonnées indiquant la signification sémantique de chaque élément. En bref, il est beaucoup plus facile d'assurer la qualité et la gouvernance des données structurées.
En revanche, les données non structurées ne se prêtent pas, par nature, au stockage avec un formatage normalisé et ne sont pas automatiquement associées à l'application de schémas et à des métadonnées. Les données non structurées peuvent englober une gamme déconcertante de supports différents, dans un large éventail de formats et à des volumes très importants.
Il est donc intrinsèquement plus difficile de garantir la qualité et la conformité réglementaire des données et plus généralement de les gérer.
L'intégration automatisée des données apporte la réponse
La disponibilité de données à jour, exactes, conformes et gouvernées n’est pas une option facultative, en particulier dans le cas des déploiements d'IA orientés vers le public. D'une manière générale, le volume, la vitesse et la variété des données modernes posent des problèmes délicats en matière d'intégration des données.
Bien que ces problèmes soient loin d'être impossibles à résoudre, ils représentent un investissement considérable en temps d'ingénierie. La solution pour intégrer des données structurées, comme Fivetran le préconise depuis longtemps, est l'intégration automatisée des données. Notre vaste catalogue de plus de 700 connecteurs englobe les bases de données sources SaaS, ERP et transactionnelles les plus courantes. Nos connecteurs de base de données, en particulier, offrent des fonctionnalités telles que les configurations dans le pipeline et le filtrage des lignes, ce qui permet à votre équipe d'exercer un contrôle granulaire sur les données qui sont intégrées et la manière dont elles le sont. Un élément majeur de l'intégration des données est la sélection des données, qui permet de s'assurer que seules les données les plus utiles et les plus pertinentes sont conservées.
L'intégration automatisée des données est également la solution pour les données non structurées. Pour éviter les complications liées au traitement d'un large éventail de fichiers multimédias, il est possible de commencer par des données textuelles semi-structurées, comme l'a fait Fivetran avec FivetranChat et comme le permet l’offre dbt RAG Unifiée de Fivetran. Nos connecteurs SharePoint et Google Drive prennent en charge les formats de fichiers tabulaires de toutes sortes, ainsi que les documents tels que les PDF, les Google Docs, les images et les supports mixtes tels que Google Slides.
Si vous avez besoin d'intégrer une source non prise en charge, notre SDK de connecteurs permettra à votre équipe de créer un nouveau connecteur compatible avec l'application principale de Fivetran. En le développant sur la plateforme Fivetran, vous pouvez toujours vous attendre à un maximum d'évolutivité, de fiabilité et de sécurité.
Ne nous croyez pas sur parole :HubSpot a utilisé Fivetran pour intégrer des informations textuelles sur les ressources humaines auparavant inaccessibles, en utilisant l'analyse générative pour obtenir des informations sur les performances des employés et les pratiques de gestion. De même, selon Mike Hite, directeur technique de Saks, « Fivetran résout très simplement un problème très complexe pour nous : l'ingestion d'un grand nombre de données différentes. C'est l'un des éléments fondamentaux de notre stratégie en matière d'IA, et cela nous permet d'introduire de nouveaux ensembles de données et de déterminer s'ils nous seront utiles ».
[CTA_MODULE]