Data warehouse vs database

Les data warehouses sont un type de database particulier. Découvrez comment ils s'intègrent parfaitement à l’analytique.
July 20, 2021

En matière de calcul, comme souvent, la vitesse compte. Personne n'aime attendre devant un écran pendant que l’ordinateur « réfléchit » à une réponse.

Ce simple constat a stimulé le développement de matériels informatiques (processeurs, réseaux et stockage plus rapides), tout en motivant les développeurs logiciels, qui ont inventé au fil des ans des moyens toujours plus intelligents d'accélérer le transfert des data aux personnes. Un bon exemple ? Les data warehouses et les bases de données relationnelles.

Dans cet article, nous aborderons les différences entre une database et un data warehouse.

Qu’est-ce qu’une database?

Les entreprises utilisent des databases depuis aussi longtemps qu’elles stockent des données électroniques. Sur le plan conceptuel, un système de gestion de database (DBMS) est un simple moyen de rendre les données accessibles plus rapidement.

Lorsque nous parlons de databases, nous faisons généralement référence aux systèmes de gestion de database relationnelle (RDBMS), car les databases relationnelles représentaient une part écrasante du marché pendant plusieurs décennies. Les entreprises les utilisent car le stockage et la récupération de data dans un RDBMS est bien plus rapide qu’avec les autres alternatives.

Une database est une collection organisée de data. Dans les databases relationnelles, les data sont organisées dans des tables, qui rassemblent les objets liés. On peut décrire les tables comme des grilles avec des lignes et des colonnes.

  • Chaque ligne est une instance de l’objet indiqué dans la table : par exemple, enregistrement client ou data de transport.
  • Chaque colonne est un champ d’information : numéro client, nom, adresse, etc.
  • Les tables, les lignes et les colonnes sont définies par un schéma, qui définit tous les composants d’une database.

Les databases font souvent office de back-end pour les applications de traitement des transactions en ligne (OLTP), ou databases transactionnelles. Les data y sont ajoutées, modifiées et supprimées, un enregistrement à la fois. Les data des tables sont accessibles une ligne à la fois. Par conséquent, la manière la plus efficace de stocker des enregistrements est par ligne. Celles-ci s’indexent sur les champs importants et optimisent la récupération d’un enregistrement donné.

Cependant, tous les systèmes ne sont pas basés sur des transactions. Parfois, vous souhaitez consulter les tendances de data au fil du temps. Pour ce faire, vous n’avez pas besoin de connaître les valeurs des enregistrements individuels. Vous avez besoin d’informations agrégées : nombre de ventes réalisées, nombre de voyages effectués par les passagers, etc. Encore une fois, il est indispensable d’obtenir rapidement ces informations.

Un outil existe pour cela : un data warehouse.

Qu’est-ce qu’un data warehouse?

Comme une database, un data warehouse dispose d’une structure relationnelle, de sorte que les data sont organisées en tables, lignes et colonnes. Il existe cependant une différence majeure.

Alors que les données d’une database sont organisées et stockées par ligne, les données d’un data warehouse sont stockées par colonnes, ce qui facilite le traitement analytique digital (OLAP). La veille économique est constituée de rapports qui rassemblent de nombreux enregistrements du même type : achats par mois, voyages par destination et par coût... Les lignes individuelles ne sont pas importantes. Ce qui compte, ce sont les colonnes.

Les data warehouses sont des databases en colonnes. Ils sont organisés, stockés et indexés selon les valeurs de colonne. Dans une database, le stockage s'organise lui en lignes. Ils utilisent des index columnstore qui, bien qu’ils soient difficiles à créer, sont simples à comprendre : ils facilitent l’extraction d’informations à partir de lignes agrégées dans une table en une seule fois, à des fins de rapport.

Aller d’un point A à un point B

Vous vous demandez peut-être : si mes data sont déjà dans une database, est-il nécessaire de les dupliquer en les copiant dans un data warehouse ? N’est-il pas contre-productif de conserver plusieurs copies des mêmes data ?

Cela n’est pas exactement ce qui se passe lorsqu'on gère un data warehouse. Les données d’une database sont régulièrement mises à jour, un enregistrement à la fois. Elles représentent les transactions et événements du monde réel. En revanche, les données d’un warehouse sont uniquement mises à jour par lot lorsque de nouvelles data sont fournies pour analyse. Elles représentent donc les systèmes dans leur intégralité.

En comparant les data warehouses et les databases, rappelez-vous que : les databases montrent l’état actuel d’un système, tandis que les data warehouses fournissent une perspective historique utile pour analyser des data.

Imaginez que les data de vos systèmes OLTP sont un type d’organisme vivant. Dans cette analogie, les data de votre système OLAP ou de votre data warehouse sont des radiographies : elles sont une image en temps quasi réel d’un sous-ensemble de l’organisme.

De fait, il est toujours utile de posséder le bon outil pour effectuer une tâche. Et si cette tâche concerne l'exécution d’analyses data pour obtenir des résultats rapides, alors un data warehouse est l’outil idéal pour la concrétiser.

D’autres types d’éléments évoluent également dans cet écosystème de data, notamment les data lakes et les data marts, ainsi qu’une nouvelle solution hybride, les data lakehouses.

Est-il possible d’utiliser une database comme un data warehouse?

Étant donné que les databases et les data warehouses utilisent tous deux des structures de data relationnelles, il est facile de les confondre. La plupart des professionnels de la data se familiarisent avec les databases avant de travailler sur des data warehouses. Après tout, il est normal de s’en tenir à des outils familiers.

Mais dans tous les cas, il n’est jamais judicieux de substituer une database à un data warehouse. Une database utilisant des lignes ne dispose tout simplement pas des performances requises pour l'analyse de data, surtout lorsqu'on parle de grands volumes.

Cependant, de petites organisations ou des développeurs qui élaborent des prototypes utilisent parfois une database plutôt qu’un data warehouse. Si vous vous sentez visé, nous n’allons pas vous forcer à annuler votre abonnement à l’Association des professionnels de l’analyse de data, mais nous vous encourageons à cesser cette pratique.

De nos jours, il existe des data warehouses modernes, basés sur le cloud et très économiques. Seules les ressources utilisées (stockage et temps de processeur, selon le warehouse choisi) sont payantes. Il n'y a donc plus aucune raison de bouder les data warehouses lors de la création de vos prototypes. Amazon Redshift, Google BigQuery, Snowflake et Microsoft Synapse sont tous d’excellents data warehouses cloud. L’une de ces solutions convient probablement à votre cas d’utilisation. Notre guide de data warehouses pour entreprise peut vous aider à faire la différence.

Peu importe le data warehouse cloud que vous choisissez, nous vous conseillons d’utiliser Fivetran pour répliquer les données de vos systèmes OLTP (databases et applications SaaS) dans votre data warehouse cloud. Inscrivez-vous aujourd’hui pour essayer Fivetran gratuitement.

Commencer gratuitement

Rejoignez les milliers d’entreprises qui utilisent Fivetran pour centraliser et transformer leur data.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Data insights
Data insights

Data warehouse vs database

Data warehouse vs database

July 20, 2021
July 20, 2021
Data warehouse vs database
Les data warehouses sont un type de database particulier. Découvrez comment ils s'intègrent parfaitement à l’analytique.

En matière de calcul, comme souvent, la vitesse compte. Personne n'aime attendre devant un écran pendant que l’ordinateur « réfléchit » à une réponse.

Ce simple constat a stimulé le développement de matériels informatiques (processeurs, réseaux et stockage plus rapides), tout en motivant les développeurs logiciels, qui ont inventé au fil des ans des moyens toujours plus intelligents d'accélérer le transfert des data aux personnes. Un bon exemple ? Les data warehouses et les bases de données relationnelles.

Dans cet article, nous aborderons les différences entre une database et un data warehouse.

Qu’est-ce qu’une database?

Les entreprises utilisent des databases depuis aussi longtemps qu’elles stockent des données électroniques. Sur le plan conceptuel, un système de gestion de database (DBMS) est un simple moyen de rendre les données accessibles plus rapidement.

Lorsque nous parlons de databases, nous faisons généralement référence aux systèmes de gestion de database relationnelle (RDBMS), car les databases relationnelles représentaient une part écrasante du marché pendant plusieurs décennies. Les entreprises les utilisent car le stockage et la récupération de data dans un RDBMS est bien plus rapide qu’avec les autres alternatives.

Une database est une collection organisée de data. Dans les databases relationnelles, les data sont organisées dans des tables, qui rassemblent les objets liés. On peut décrire les tables comme des grilles avec des lignes et des colonnes.

  • Chaque ligne est une instance de l’objet indiqué dans la table : par exemple, enregistrement client ou data de transport.
  • Chaque colonne est un champ d’information : numéro client, nom, adresse, etc.
  • Les tables, les lignes et les colonnes sont définies par un schéma, qui définit tous les composants d’une database.

Les databases font souvent office de back-end pour les applications de traitement des transactions en ligne (OLTP), ou databases transactionnelles. Les data y sont ajoutées, modifiées et supprimées, un enregistrement à la fois. Les data des tables sont accessibles une ligne à la fois. Par conséquent, la manière la plus efficace de stocker des enregistrements est par ligne. Celles-ci s’indexent sur les champs importants et optimisent la récupération d’un enregistrement donné.

Cependant, tous les systèmes ne sont pas basés sur des transactions. Parfois, vous souhaitez consulter les tendances de data au fil du temps. Pour ce faire, vous n’avez pas besoin de connaître les valeurs des enregistrements individuels. Vous avez besoin d’informations agrégées : nombre de ventes réalisées, nombre de voyages effectués par les passagers, etc. Encore une fois, il est indispensable d’obtenir rapidement ces informations.

Un outil existe pour cela : un data warehouse.

Qu’est-ce qu’un data warehouse?

Comme une database, un data warehouse dispose d’une structure relationnelle, de sorte que les data sont organisées en tables, lignes et colonnes. Il existe cependant une différence majeure.

Alors que les données d’une database sont organisées et stockées par ligne, les données d’un data warehouse sont stockées par colonnes, ce qui facilite le traitement analytique digital (OLAP). La veille économique est constituée de rapports qui rassemblent de nombreux enregistrements du même type : achats par mois, voyages par destination et par coût... Les lignes individuelles ne sont pas importantes. Ce qui compte, ce sont les colonnes.

Les data warehouses sont des databases en colonnes. Ils sont organisés, stockés et indexés selon les valeurs de colonne. Dans une database, le stockage s'organise lui en lignes. Ils utilisent des index columnstore qui, bien qu’ils soient difficiles à créer, sont simples à comprendre : ils facilitent l’extraction d’informations à partir de lignes agrégées dans une table en une seule fois, à des fins de rapport.

Aller d’un point A à un point B

Vous vous demandez peut-être : si mes data sont déjà dans une database, est-il nécessaire de les dupliquer en les copiant dans un data warehouse ? N’est-il pas contre-productif de conserver plusieurs copies des mêmes data ?

Cela n’est pas exactement ce qui se passe lorsqu'on gère un data warehouse. Les données d’une database sont régulièrement mises à jour, un enregistrement à la fois. Elles représentent les transactions et événements du monde réel. En revanche, les données d’un warehouse sont uniquement mises à jour par lot lorsque de nouvelles data sont fournies pour analyse. Elles représentent donc les systèmes dans leur intégralité.

En comparant les data warehouses et les databases, rappelez-vous que : les databases montrent l’état actuel d’un système, tandis que les data warehouses fournissent une perspective historique utile pour analyser des data.

Imaginez que les data de vos systèmes OLTP sont un type d’organisme vivant. Dans cette analogie, les data de votre système OLAP ou de votre data warehouse sont des radiographies : elles sont une image en temps quasi réel d’un sous-ensemble de l’organisme.

De fait, il est toujours utile de posséder le bon outil pour effectuer une tâche. Et si cette tâche concerne l'exécution d’analyses data pour obtenir des résultats rapides, alors un data warehouse est l’outil idéal pour la concrétiser.

D’autres types d’éléments évoluent également dans cet écosystème de data, notamment les data lakes et les data marts, ainsi qu’une nouvelle solution hybride, les data lakehouses.

Est-il possible d’utiliser une database comme un data warehouse?

Étant donné que les databases et les data warehouses utilisent tous deux des structures de data relationnelles, il est facile de les confondre. La plupart des professionnels de la data se familiarisent avec les databases avant de travailler sur des data warehouses. Après tout, il est normal de s’en tenir à des outils familiers.

Mais dans tous les cas, il n’est jamais judicieux de substituer une database à un data warehouse. Une database utilisant des lignes ne dispose tout simplement pas des performances requises pour l'analyse de data, surtout lorsqu'on parle de grands volumes.

Cependant, de petites organisations ou des développeurs qui élaborent des prototypes utilisent parfois une database plutôt qu’un data warehouse. Si vous vous sentez visé, nous n’allons pas vous forcer à annuler votre abonnement à l’Association des professionnels de l’analyse de data, mais nous vous encourageons à cesser cette pratique.

De nos jours, il existe des data warehouses modernes, basés sur le cloud et très économiques. Seules les ressources utilisées (stockage et temps de processeur, selon le warehouse choisi) sont payantes. Il n'y a donc plus aucune raison de bouder les data warehouses lors de la création de vos prototypes. Amazon Redshift, Google BigQuery, Snowflake et Microsoft Synapse sont tous d’excellents data warehouses cloud. L’une de ces solutions convient probablement à votre cas d’utilisation. Notre guide de data warehouses pour entreprise peut vous aider à faire la différence.

Peu importe le data warehouse cloud que vous choisissez, nous vous conseillons d’utiliser Fivetran pour répliquer les données de vos systèmes OLTP (databases et applications SaaS) dans votre data warehouse cloud. Inscrivez-vous aujourd’hui pour essayer Fivetran gratuitement.

Topics
No items found.
Share

Articles associés

No items found.
No items found.
No items found.

Commencer gratuitement

Rejoignez les milliers d’entreprises qui utilisent Fivetran pour centraliser et transformer leur data.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.