
Shutterstock baut KI-bereite Offene Dateninfrastruktur mit Fivetran
- Verkürzte Datenintegrationszeit von einem Sprint auf Minuten
- Verkürzte Lösungszeit für Pipeline-Probleme von Wochen auf Tage
- Ermöglichte Reporting nahezu in Echtzeit
- Schuf eine zukunftssichere Grundlage, die mit dem Unternehmen wachsen und neue Anwendungsfälle unterstützen kann, ohne eine Neukonzeption der Architektur
„Eine offene Dateninfrastruktur gibt uns die Flexibilität, das richtige Tool für die jeweilige Aufgabe zu verwenden. Ob Snowflake, AWS-Dienste oder etwas Neues in der Zukunft – unsere Daten sind bereits dort, wo sie sein müssen, ohne dass wir sie verschieben oder neu aufbauen müssen.“
– Jitesh Kumar, Leitender Softwareentwicklungsmanager bei Shutterstock
Shutterstock ist eine führende globale Kreativplattform, die Millionen von Kunden weltweit hochwertige Bilder, Videos und Musik zur Verfügung stellt. Hinter den Kulissen läuft das Geschäft auf einer verteilten Mikroservice-Architektur, die die Bereitstellung von Inhalten, Abonnements, Lizenzierungen und den globalen Handel im großen Maßstab antreibt.
Dieses Ökosystem zu unterstützen, erfordert eine hochgradig zuverlässige Datengrundlage. Das Data-Warehouse-Team von Shutterstock ist verantwortlich für die Bereitstellung vertrauenswürdiger Daten für interne Berichte, Produktanalysen und Finanzberichte, einschließlich der Umsatzrealisierung, die in SEC-Einreichungen verwendet wird.
Als das Geschäft wuchs, sah das Team die Möglichkeit, seine Datenarchitektur weiterzuentwickeln, um diesem Wachstum besser gerecht zu werden. Daten wurden über Dutzende von Mikroservices und Systemen hinweg generiert, zusammen mit kritischen Geschäftseingaben, die in Tools wie Google Sheets gespeichert waren. Obwohl dies dem Unternehmen Flexibilität ermöglichte, erforderte die Integration und Governance dieser Daten einen erheblichen technischen Aufwand. Gleichzeitig führte ihr bestehender Debezium-basierter Replikationsansatz zu Lücken und langen Wiederherstellungszeiten, was es schwierig machte, SLAs und Audit-Erwartungen konsistent zu erfüllen.
Anstatt weiterhin ein eng gekoppeltes, Warehouse-zentriertes Modell zu skalieren, machte sich das Team daran, einen flexibleren Lakehouse-Ansatz zu verfolgen – einen, der Speicher und Rechenleistung entkoppeln, die Kontrolle über Daten verbessern und eine breitere Palette von nachgelagerten Anwendungsfällen unterstützen würde.
Ein Wechsel zu einer offenen, entkoppelten Datenarchitektur auf S3
Um diesen Wandel zu unterstützen, standardisierte Shutterstock auf Fivetran Managed Data Lake Service als Grundlage für die Datenaufnahme und baute eine Lakehouse-Architektur auf Amazon S3 auf, wobei Snowflake als Rechen- und Abfrage-Engine dient.
„Wir wollten Speicher von Rechenleistung entkoppeln und die Kontrolle über unsere Daten behalten. Da Fivetran Daten in S3 lädt, haben wir eine offene Dateninfrastruktur aufgebaut, die nicht an einen bestimmten Anbieter gebunden ist und sich mit uns weiterentwickeln kann.“
– Jitesh Kumar, Leitender Softwareentwicklungsmanager bei Shutterstock
Fivetran löste zunächst einen gezielten Bedarf: die zuverlässige Aufnahme von Google Sheets-Daten in eine verwaltete Umgebung, wodurch eine konsistente Methode zur Einbindung geschäftskritischer Eingaben wie Budgets und Kategorisierungslogik geschaffen wurde. Mit zunehmender Akzeptanz ersetzte Fivetran manuelle Pipelines und die Debezium-basierte Replikation, wodurch Datenlücken beseitigt und die Zuverlässigkeit verbessert wurden.
Heute verbindet Fivetran mehr als 70 Mikroservices und Datenquellen mit einem S3-basierten Data Lake, wobei Iceberg-Tabellen als Grundlage dienen (Bronze-Schicht). Snowflake dient als Rechen-Engine, um diese Daten abzufragen, wobei dbt Transformationen und kuratierte Modelle in der finalen (Gold-)Schicht antreibt.
Durch die Zentralisierung von Rohdaten in S3 schuf Shutterstock eine Grundlage, die von mehreren Teams und Tools genutzt werden kann, ohne Daten zu duplizieren oder in einem einzigen System zu sperren. Daten- und KI-Teams können direkt aus S3 mit AWS-nativen Diensten arbeiten, während Business-Teams weiterhin auf Snowflake für reguliertes Reporting setzen.
Von Wochen zu Minuten: Schnellere Bereitstellung, zuverlässigere Daten
Mit Fivetran verbesserte Shutterstock erheblich sowohl die Geschwindigkeit als auch die Zuverlässigkeit seiner Datenplattform. Das Team reduzierte die Datenintegrationszeit von Wochen der Planung und Entwicklung auf Minuten der Einrichtung. Pipeline-Zuverlässigkeit verbesserte sich ebenfalls, wodurch die Zeit zur Problemlösung von Wochen auf Tage verkürzt und die Datenlücken beseitigt wurden, die zuvor SLAs beeinträchtigten.
Eine besser vorhersehbare und zeitnahe Datenverfügbarkeit ermöglichte es dem Team, die tägliche Verarbeitung früher zu starten und Erkenntnisse schneller im gesamten Unternehmen bereitzustellen. Diese Umstellung ermöglicht bereits neue Anwendungsfälle, einschließlich nahezu Echtzeit-Einblicke in die Produktleistung – wodurch Teams Markteinführungen und Kundenaktivitäten innerhalb von Minuten überwachen können, anstatt auf Berichte vom nächsten Tag zu warten.
Fivetran stärkte auch die Fähigkeit von Shutterstock, Audit- und Compliance-Anforderungen zu unterstützen. Durch die Zentralisierung von Connector-Logs in Snowflake kann das Team die Pipeline-Leistung abfragen, Fehler verfolgen und einen vollständigen Audit-Trail für die Finanzberichterstattung bereitstellen.
Für KI und die nächste Generation von Anwendungsfällen positioniert
Die Architektur von Shutterstock ist auf langfristige Flexibilität ausgelegt, nicht nur auf sofortige Vorteile. Indem Rohdaten in S3 in einem offenen Format gehalten werden, hat das Team eine Grundlage geschaffen, die mehrere Tools und Verarbeitungs-Engines unterstützt – von Snowflake über AWS-native Dienste bis hin zu zukünftigen Plattformen – ohne Daten duplizieren oder die Architektur neu gestalten zu müssen.
Mit nahezu Echtzeit-Datenverfügbarkeit und einer offenen, entkoppelten Architektur ist Shutterstock gut aufgestellt, um KI-gesteuerte Anwendungsfälle, erweiterte Analysen und sich entwickelnde Geschäftsanforderungen zu unterstützen – unter Beibehaltung der für die Finanzberichterstattung erforderlichen Governance und Prüfbarkeit.
„Indem wir mit Fivetran eine KI-fähige Datengrundlage schaffen, verbessern wir nicht nur das Reporting – wir ermöglichen die nächste Generation von Analyse- und KI-Anwendungsfällen auf der Grundlage vertrauenswürdiger Echtzeitdaten.“
– Jitesh Kumar, Senior Software Development Manager bei Shutterstock
[CTA_MODULE]








.png)
.png)
.png)