
Shutterstock développe une infrastructure de données ouvertes compatible IA avec Fivetran
- Réduction du temps d'intégration des données d'un sprint à quelques minutes
- Réduction du temps de résolution des problèmes de pipeline de plusieurs semaines à quelques jours
- Permis le reporting quasi en temps réel
- Construit une base pérenne capable d'évoluer avec l'entreprise et de prendre en charge de nouveaux cas d'utilisation sans refonte architecturale
« Une infrastructure de données ouverte nous offre la flexibilité d'utiliser l'outil adapté à chaque situation. Qu'il s'agisse de Snowflake, des services AWS ou de toute nouvelle technologie à l'avenir, nos données sont déjà là où elles doivent être, sans avoir à les déplacer ou à les reconstruire. »
– Jitesh Kumar, Directeur principal du développement logiciel chez Shutterstock
Shutterstock est une plateforme créative mondiale de premier plan, offrant des images, des vidéos et de la musique de haute qualité à des millions de clients dans le monde entier. En coulisses, l'entreprise repose sur une architecture distribuée de microservices qui alimentent la livraison de contenu, les abonnements, les licences et le commerce mondial à grande échelle.
Soutenir cet écosystème nécessite une base de données très fiable. L'équipe d'entrepôt de données de Shutterstock est responsable de la fourniture de données fiables pour les rapports internes, l'analyse des produits et les rapports financiers, y compris la reconnaissance des revenus utilisée dans les dépôts auprès de la SEC.
À mesure que l'entreprise se développait, l'équipe a vu une opportunité de faire évoluer son architecture de données pour mieux s'adapter à cette croissance. Les données étaient générées à travers des dizaines de microservices et de systèmes, ainsi que des données d'entrée commerciales critiques stockées dans des outils comme Google Sheets. Bien que cela ait permis une certaine flexibilité pour l'entreprise, l'intégration et la gouvernance de ces données exigeaient un effort d'ingénierie considérable. Parallèlement, leur approche de réplication existante basée sur Debezium introduisait des lacunes et des temps de récupération lents, rendant difficile de respecter constamment les SLA et les attentes en matière d'audit.
Plutôt que de continuer à faire évoluer un modèle étroitement couplé et centré sur l'entrepôt de données, l'équipe a décidé d'adopter une approche lakehouse plus flexible — une approche qui découplerait le stockage et le calcul, améliorerait le contrôle des données et prendrait en charge un éventail plus large de cas d'utilisation en aval.
Un passage à une architecture de données ouverte et découplée sur S3
Pour soutenir ce changement, Shutterstock a standardisé sur Fivetran Managed Data Lake Service comme base pour l'ingestion de données, en construisant une architecture lakehouse sur Amazon S3 avec Snowflake comme moteur de calcul et de requête.
« Nous voulions découpler le stockage du calcul et garder le contrôle de nos données. Avec Fivetran chargeant les données dans S3, nous avons construit une infrastructure de données ouverte qui n'est liée à aucun fournisseur et peut évoluer avec nous au fil du temps. »
– Jitesh Kumar, Directeur principal du développement logiciel chez Shutterstock
Fivetran a initialement résolu un besoin ciblé : ingérer de manière fiable les données de Google Sheets dans un environnement gouverné, créant une méthode cohérente pour intégrer des données d'entrée critiques pour l'entreprise, telles que les budgets et la logique de catégorisation. À mesure que l'adoption s'est étendue, Fivetran a remplacé les pipelines manuels et la réplication basée sur Debezium, éliminant les lacunes de données et améliorant la fiabilité.
Aujourd'hui, Fivetran connecte plus de 70 microservices et sources de données dans un lac de données basé sur S3, en utilisant les tables Iceberg comme fondation (couche bronze). Snowflake sert de moteur de calcul pour interroger ces données, avec dbt alimentant les transformations et les modèles organisés dans la couche finale (or).
En centralisant les données brutes dans S3, Shutterstock a créé une base accessible par plusieurs équipes et outils, sans duplication ni verrouillage des données dans un seul système. Les équipes de données et d'IA peuvent travailler directement depuis S3 en utilisant les services natifs d'AWS, tandis que les équipes commerciales continuent de s'appuyer sur Snowflake pour des rapports gouvernés.
De semaines à minutes : Livraison plus rapide, données plus fiables
Avec Fivetran, Shutterstock a considérablement amélioré la vitesse et la fiabilité de sa plateforme de données. L'équipe a réduit le temps d'intégration des données, passant de semaines de planification et de développement à quelques minutes de configuration. Fiabilité des pipelines s'est également améliorée, réduisant le temps de résolution des problèmes de semaines à jours et éliminant les lacunes de données qui affectaient auparavant les SLA.
Une disponibilité des données plus prévisible et plus rapide a permis à l'équipe de commencer le traitement quotidien plus tôt et de fournir des informations plus rapidement à l'ensemble de l'entreprise. Ce changement permet déjà de nouveaux cas d'utilisation, y compris une visibilité quasi en temps réel sur les performances des produits — permettant aux équipes de surveiller les lancements et l'activité des clients en quelques minutes au lieu d'attendre les rapports du lendemain.
Fivetran a également renforcé la capacité de Shutterstock à prendre en charge les exigences d'audit et de conformité. En centralisant les journaux des connecteurs dans Snowflake, l'équipe peut interroger les performances des pipelines, suivre les échecs et fournir une piste d'audit complète pour les rapports financiers.
Positionné pour l'IA et la prochaine génération de cas d'utilisation
L'architecture de Shutterstock est conçue pour une flexibilité à long terme, et pas seulement pour des gains immédiats. En conservant les données brutes dans S3 dans un format ouvert, l'équipe a créé une base qui prend en charge plusieurs outils et moteurs de traitement — de Snowflake aux services natifs d'AWS et aux futures plateformes — sans avoir besoin de dupliquer les données ou de refaire l'architecture.
Grâce à la disponibilité des données quasi en temps réel et à une architecture ouverte et découplée, Shutterstock est bien positionné pour prendre en charge les cas d'utilisation basés sur l'IA, l'analyse avancée et les besoins commerciaux évolutifs — tout en maintenant la gouvernance et l'auditabilité requises pour les rapports financiers.
« En construisant une base de données prête pour l'IA avec Fivetran, nous n'améliorons pas seulement les rapports — nous permettons la prochaine génération de cas d'utilisation d'analyse et d'IA basés sur des données fiables et en temps réel. »
– Jitesh Kumar, Responsable principal du développement logiciel chez Shutterstock
[CTA_MODULE]








.png)
.png)
.png)