Aperçus de données

Comment construire une base de données pour l’IA générative

December 1, 2023

Charles Wang

Lead Product Evangelist

SUJETS

Plateforme de données

L’IA générative repose sur la maturité des données, dans laquelle une organisation démontre sa maîtrise de l’intégration des données (en les déplaçant et en les transformant) ainsi que de la gestion de leur utilisation.

Ce blog est tiré du guide électronique : « Le guide du responsable des données pour l'IA générative». Téléchargez le guide électronique ici.

[CTA_MODULE]

Depuis fin 2022, l’IA générative démontre rapidement sa valeur et son potentiel pour aider les entreprises de toutes tailles à innover plus rapidement. En générant de nouveaux médias à partir d’invites, l’IA générative est appelée à devenir une puissante aide à la productivité, multipliant l’effet du travail créatif et intellectuel de toutes sortes. Selon Gartner, 55 % des organisations prévoient d’utiliser l’IA générative et 78 % des dirigeants estiment que les avantages de l’adoption de l’IA l’emportent sur les risques.

Le monde sera transformé par la médecine, l'enseignement, la recherche scientifique, le droit et bien d'autres secteurs assistés par l'IA. Des chercheurs de l'Université de Toronto utilisent l'IA générative pour modéliser des protéines qui n'existent pas dans la nature. De même, le géant pharmaceutique Bayer utilise désormais l'IA générative pour accélérer le processus de découverte de médicaments. Le prestataire de services de formation Khan Academy a mis au point un chatbot ou IA professeure, Khanmigo, pour personnaliser l'apprentissage. La liste des exemples dans tous les secteurs d'activité ne cesse de s'allonger.

L’IA générative n’est pas qu’une aide à la productivité polyvalente qui fait apparaître des informations à la manière d’un moteur de recherche. Avec l’IA générative, les organisations peuvent combiner leurs données propriétaires et uniques avec des modèles de fondation pré-formés à partir d’un large corpus de données publiques. Formée à partir d’une combinaison de données publiques et propriétaires, l’IA générative peut devenir l’entité la mieux informée au sein d’une organisation, ce qui crée d’innombrables possibilités d’innovation.

Cependant, comme pour toute analyse, la qualité de l’IA générative dépend de celle des données utilisées. Pour tirer pleinement parti de l’IA, une organisation doit maîtriser ses données propriétaires. Cela signifie qu’il est nécessaire de mettre en œuvre une base solide de technologies d’exploitation des données et de normes organisationnelles qui facilitent une utilisation responsable et efficace des données.

La préparation des données pour l’IA générative dépend de deux éléments principaux :

Capacité de déplacer et d’intégrer des données provenant de bases de données, d’applications et d’autres sources de manière automatisée, fiable, rentable et sécurisée
Connaître les données, les protéger et y accéder grâce à la gouvernance des données

Ce type de préparation des données a toujours été négligé et, par le passé, cela a fait échouer de nombreuses tentatives de tirer profit de la puissance du Big Data et de la science des données. Un indicateur suggère que 87 % des projets de science des données ne parviennent jamais au stade de la production, souvent en raison du cloisonnement et de l’absence de gouvernance des données, ainsi que du développement insuffisant de l’infrastructure de données.

L'IA générative repose sur la maturité des données

Sans maturité des données, le prototypage, le déploiement et le test de l’IA générative (ou de tout type d’analyse) deviennent extrêmement difficiles.

La maturité des données comporte à la fois des éléments technologiques et organisationnels. Sur le plan technologique, les capacités suivantes sont essentielles :

1. Un référentiel de données central, basé sur le cloud, qui peut servir de source unique de vérité

2. Un outil qui ingère de manière fiable et automatique des données provenant de sources à grande échelle et doté des fonctions suivantes :

Mises à jour rapides et opportunes
Fiabilité et capacité à se remettre rapidement d'une défaillance

3. Un outil qui prend en charge la modélisation et la transformation collaboratives des données et sous contrôle de version.

4. Des capacités de gouvernance des données telles que :

Possibilité de bloquer et de hacher les données sensibles avant qu'elles n'arrivent dans un référentiel central
Contrôle d'accès
Capacité à cataloguer les données
Provisionnement utilisateur automatique

L’automatisation est une condition préalable essentielle à l’efficacité, à la fiabilité et à l’évolutivité du déplacement et de l’intégration de données

Sur le plan organisationnel, votre équipe devra mettre en place les pratiques et structures suivantes :

Organisation d’analyse à grande échelle dans laquelle, en plus d’une équipe principale d’analystes, vous disposez également d’experts en la matière affectés à des unités fonctionnelles spécifiques au sein de votre entreprise
Rapports publiés à intervalles réguliers ; parties prenantes de votre organisation qui accèdent aux tableaux de bord et les utilisent régulièrement pour étayer leurs décisions
« Product thinking » dans le domaine de l’analyse, c.-à-d. que les rapports, les tableaux de bord, les modèles, etc. que votre équipe élabore sont adaptés aux besoins des parties prenantes
Bonne visibilité sur vos données, comme en témoigne le catalogage des ressources de données

L’architecture de votre plateforme de données pour l’IA générative

Développer une IA générative à partir de zéro est une tâche colossale, qui pourrait coûter des centaines de millions de dollars et l’équivalent de centaines d’années. Il est très probable que votre organisation utilise un modèle de fondation, c'est-à-dire un modèle disponible dans le commerce qui a déjà été formé à partir d'énormes volumes de données publiques.

Dans un premier temps, cette architecture (voir l'annexe à la fin) reflète les cas d'utilisation analytique de base, nécessitant un pipeline de données pour extraire, charger et transformer les données brutes en modèles afin de prendre en charge les rapports, les tableaux de bord et d'autres ressources de données.

Ce qui suit est propre à l’IA générative. Vous pouvez compléter un modèle d’IA générative prêt à l’emploi avec vos données de deux manières :

Convertissez du texte en énumérations, stockez-le dans une base de données vectorielle pour que l'IA générative l'intègre dans la mémoire à long terme, améliorant ainsi les résultats de la formation initiale et les données organisationnelles uniques.

Combinez de grands modèles de langage avec des Knowledge graphs (graphes de connaissances), en encodant explicitement la compréhension sémantique dans le modèle, et pas seulement des associations statistiques de mots.

Même avec l'aide d'un nombre croissant d’outils prêts à l'emploi pour gérer l'infrastructure de données avec l'IA générative, vous aurez besoin d'une certaine expertise technique pour faire fonctionner correctement les éléments les uns avec les autres, développer des applications utilisables en plus de l'architecture et garantir des résultats de haute qualité.

Le potentiel de l'IA générative ne peut être pleinement exploité que lorsque les organisations reconnaissent le rôle central de leurs données propriétaires. En donnant la priorité à la maîtrise des données par la mise en œuvre de technologies avancées d'exploitation des données et en favorisant une culture d'utilisation responsable des données, les organisations peuvent libérer le véritable pouvoir de l'IA générative, en garantissant ses performances optimales et son déploiement éthique dans un paysage technologique qui évolue rapidement.

[CTA_MODULE]