Les entreprises analysent les données pour mieux comprendre leurs clients, identifier de nouvelles opportunités et prendre de meilleures décisions. Pour analyser les données, il faut d'abord les organiser et les structurer de manière à ce qu'elles puissent être facilement interprétées par les analystes et transformées en tableaux de bord, en rapports et en modèles prédictifs. Les données sont un atout pour l'entreprise, mais seulement si vous pouvez les utiliser. Comme le minerai dans un filon souterrain, il a une valeur beaucoup plus élevée après avoir été extrait, raffiné et transformé en quelque chose d'utile.
Dans un contexte professionnel, le minerai représente les données qui se trouvent dans des applications professionnelles - Salesforce, Google Analytics, etc. Pour en tirer parti, vous devez extraire les données et les charger dans un référentiel à partir duquel vous pouvez générer une informatique décisionnelle.
C'est ce que fait le logiciel ELT : Il extrait les données de centaines de systèmes sources différents, les charge dans un data warehouse ou un data lake, et les transforme en une forme permettant de les utiliser dans l'analyse.
Sommaire
Chapitre 1 : Qu’est-ce que la transformation des données ?
Chapitre 2 : Techniques de transformation des données
Chapitre 3 : Le rôle de Fivetran
Qu'est-ce que la transformation des données ?
La transformation des données est le processus de révision, de calcul, de séparation et de combinaison des données brutes en modèles de données prêts à être analysés. Les modèles de données sont des représentations de la réalité qui peuvent être facilement transformées en mesures, rapports et tableaux de bord pour aider les utilisateurs à atteindre des objectifs spécifiques. Les entreprises ont notamment besoin d'indicateurs de performance clés et d'autres mesures pour quantifier et comprendre ce qu'elles font et comment elles le font.
La transformation prépare les données pour une série de cas d'utilisation, notamment :
- Analyse - L'analyse à l'appui des décisions commence par des indicateurs. Parfois, les indicateurs peuvent être calculés à partir d'une seule source et ne nécessitent qu'une transformation modeste. Dans d'autres cas, la seule façon de calculer un indicateur est de combiner des données provenant d'un large éventail de sources et de les agréger.
- Apprentissage automatique - L'apprentissage automatique est la reconnaissance automatisée des modèles. Les applications commerciales de l'apprentissage automatique comprennent les projections de chiffres d’affaires et de bénéfices, la modélisation prédictive pour soutenir les décisions importantes, les systèmes de recommandation de produits pour les clients et toutes sortes d'automatisation des processus métier.
- Conformité réglementaire - Le fait de stocker inutilement des données d’identification rend les données sensibles vulnérables à toute une série de violations de données accidentelles ou malveillantes. Les violations de données compromettent la confidentialité de vos données et créent de graves problèmes tant pour vous que pour vos clients.
Techniques de transformation des données
Les données brutes sont rarement structurées ou formatées de manière à satisfaire les cas d'utilisation énumérés ci-dessus. Voici quelques exemples courants de transformations qui rendent les données plus facilement utilisables.
Révision
La révision des données permet de s'assurer que les valeurs sont correctes et organisées de manière à répondre à l'utilisation prévue. La normalisation des bases de données est une forme de révision des données qui consiste à réduire un modèle de données à une forme « normale » sans redondances ni valeurs « à origines multiples et destination unique » dans une colonne. La normalisation réduit les besoins de stockage et rend un modèle de données plus concis et plus lisible pour les analystes. Cependant, cela demande beaucoup de travail, d'investigations, de rétro-ingénierie et de réflexion critique.

Le nettoyage des données convertit les valeurs des données pour assurer la compatibilité du formatage.

La révision/conversion de format remplace les caractères incompatibles, convertit les unités, convertit le formatage des dates et modifie les types de données.

La restructuration des clés crée des identifiants génériques à partir de valeurs ayant une signification intrinsèque, afin qu'ils puissent être utilisés comme clés fixes et uniques dans les tables.

La déduplication consiste à identifier et à supprimer les enregistrements en double.

La validation des données évalue la validité d'un enregistrement en fonction de l'exhaustivité des données, généralement en excluant les enregistrements incomplets.

La suppression des colonnes inutilisées et répétées vous permet de sélectionner les champs que vous souhaitez utiliser comme fonctions, c'est-à-dire les variables d'entrée d'un modèle prédictif. Elle peut également améliorer les performances et la lisibilité globale d'un modèle.

Calcul
Le calcul de nouvelles valeurs à partir de données existantes est souvent utilisé pour calculer des taux, des proportions, des statistiques sommaires et d'autres chiffres importants. Un autre cas d’utilisation consiste à transformer des données non structurées, telles que des fichiers multimédias, en données structurées pouvant être interprétées par un algorithme d'apprentissage automatique.
La dérivation comprend des calculs simples entre colonnes.

La synthèse consiste à utiliser des fonctions d'agrégation pour produire des valeurs récapitulatives.

Le pivotage transforme les valeurs des lignes en colonnes et vice-versa.

Le tri, le classement et l’indexation organisent les enregistrements de manière ordinale afin d'améliorer les performances de la recherche

L’évolutivité, la normalisation et la standardisation placent les nombres sur une échelle cohérente, comme les fractions d'un écart type dans la normalisation du score Z. Cela permet de comparer des nombres différents.

La vectorisation convertit les données non numériques en tableaux de nombres. Il existe de nombreuses applications d'apprentissage automatique de ces transformations, notamment pour le traitement du langage naturel (NLP) et la reconnaissance d'images.
Un exemple de vectorisation est la conversion des paroles de chansons en un « nuage de mots », ou en une série d'enregistrements consistant en un nombre de mots.

Un autre exemple est la conversion d'une image en une matrice de valeurs RVB qui représentent la valeur de la couleur des pixels de l'image.

Séparation
La séparation consiste à diviser les valeurs en leurs éléments constitutifs. Les valeurs des données sont souvent combinées dans le même champ en raison des particularités de la collecte des données, mais il peut être nécessaire de les séparer pour effectuer une analyse plus granulaire.
Le fractionnement d’une colonne en plusieurs colonnes est souvent utilisée pour les champs contenant des valeurs délimitées ou pour convertir une colonne comportant plusieurs valeurs catégorielles possibles en variables fictives pour une analyse de régression.

Le filtrage exclut des données sur la base de certaines valeurs de lignes ou sur la base de colonnes.

Combinaison
Une tâche courante et importante dans le domaine de l'analyse consiste à combiner des enregistrements provenant de différents tableaux et des données de sources multiples afin de dresser un tableau complet des activités d'une organisation.
La jointure est l'action de lier les données de plusieurs tables.

La fusion, également connue sous le nom d'ajout ou d'union, combine des enregistrements provenant de plusieurs tables. En combinant les deux tables à l'aide d'une colonne commune, telle que « e-mail » dans l'exemple ci-dessous, vous pouvez assembler des parties du parcours de vente et du marketing. Il s'agit également d'un exemple d'intégration, qui consiste à rapprocher les noms et les valeurs d'un même élément de données dans différentes tables.

Les exemples cités ci-dessus montrent qu'un traitement supplémentaire est presque toujours nécessaire pour transformer les données brutes en modèles de données utilisables. Les transformations elles-mêmes sont un élément clé d'un processus plus large appelé intégration des données, sans lequel l'analyse et la science des données sont impossibles.
Le rôle de Fivetran
Fivetran résout automatiquement la plupart des problèmes auxquels les professionnels des données sont confrontés lors des transformations. En plus de déplacer des données en planifiant des extractions de vos sources de données, Fivetran crée et gère automatiquement des schémas et des types de données adaptés à votre destination. Cela crée des tables qui sont immédiatement prêtes à être interrogées dans votre data warehouse ou votre data lake.
En outre, Fivetran propose des outils de transformation des données tels que le blocage et le hachage des colonnes pour exclure ou rendre anonymes les données sensibles, ainsi qu'une vaste bibliothèque de modèles de données qui peuvent être facilement appliqués aux sources de données prises en charge.
Téléchargez « Le guide ultime de la transformation des données » pour un examen approfondi de ce sujet.