Más contenido relacionado Similar a Modern Data Stack – Buzzword oder echter Game-Changer? (20) Modern Data Stack – Buzzword oder echter Game-Changer?1. © OPITZ CONSULTING 2022 / Öffentlich
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 1
Buzzword oder echter
Game-Changer?
20.06.2022 – TDWI München
Fabian Hardt und Dr. Jens Bleiholder
MODERN DATA STACK
2. © OPITZ CONSULTING 2022 / Öffentlich
INHALT
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 2
EINFÜHRUNG
01
WAS IST DER MODERN
DATA STACK
02
FAZIT
04
HANDS ON / DEMO
03
3. © OPITZ CONSULTING 2022 / Öffentlich
DAS SIND WIR:
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 3
Jahre Erfahrung
Komplexität
meistern
Budgetsicherheit &
Transparenz
Skalierbarkeit
Exzellente
Preis-Leistung
Kooperation auf
Augenhöhe
Als deutschlandweit einer der führenden
Partner der Digitalisierung bilden unser
technologisches Know-how,
jahrzehntelange Erfahrung und begeisterte
Kolleginnen und Kollegen das Fundament
für den Erfolg unserer Kunden.
Unsere Fähigkeit, komplexe Projekte mit
agilen Methoden und exzellentem
Fachwissen zum Erfolg zu führen, verschafft
unseren Kunden Wettbewerbsvorteile.
Mit einer fairen Risikoverteilung sind wir in
der Lage, die Kosten für Risiken zu
minimieren und Lösungen mit einem
ausgezeichneten Preis-Leistungs-Verhältnis
anzubieten.
Mit ca. 500 Mitarbeitern ist OPITZ
CONSULTING in der Lage, das Projektteam
so zu skalieren, dass es einen
termingerechten Projektabschluss jederzeit
unterstützt.
Durch unsere flexiblen Engagement-
Modelle für agile Projekte erhalten Sie
Transparenz und Kontrolle über die
Projektkosten.
Wir arbeiten mit unseren Kunden
partnerschaftlich zusammen – auf
Augenhöhe!
30+
4. © OPITZ CONSULTING 2022 / Öffentlich
#TECHNOLOGIE & KOMPETENZEN
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 4
CONSULTING
nachhaltig-langfristig-
erfolgreich
APPLICATIONS
innovativ-herausragend-
benutzerfreundlich
INTEGRATION
flexibel-automatisiert-
performt
ANALYTICS
smart-intelligent-
verlässlich
INFRASTRUCTURE
cloud-hybrid-
elastisch
CHANGE
nachhaltig-achtsam-
verbindlich
Serverless Microservices
DevOps
Modernisierung
Entkopplung
API first
Bi-Modal
UX-Design
Lifecycle
Cloud Based Integration
Sensor Data
IoT / Industrie 4.0
API-Management
Integration Third Party Apps
Process Integration
Application Integration
Data Lakes
Big Data & Fast Data
AI & Machine Learning
Intelligent Automation
Analytics für IoT
Data Labs
Data Governance
Open Data
Hybride Architekturen
Infrastructure as Code
Cloud Consumption
Multi-Cloud Management
Sicherheit der Cloud
Shared Cloud Services
Compliance
Managed Services
Vision & Sinn
Rolle und Identität
Werte & Glaubenssätze
Umwelt
Fähigkeiten und
Verhalten
Culture Gardening
Digital Awareness
Digitalisierungsstrategie
Digitale Transformation
Innovation
Digitale Roadmap
Governance
Lizenzberatung
DIGITALE PLATTFORM
basierend auf dynamikrobusten Architekturen der Digitalisierung
Künstliche Intelligenz mit dem Fokus auf Automatisierung & Entscheidungsvorbereitung
5. © OPITZ CONSULTING 2022 / Öffentlich
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 5
EINFÜHRUNG
01
6. © OPITZ CONSULTING 2022 / Öffentlich
BEOBACHTUNG: ES IST VIEL GELD IM UMLAUF…
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 6
Quelle: u.a. https://future.com/data50/
7. © OPITZ CONSULTING 2022 / Öffentlich
„THE UNBUNDLING OF AIRFLOW“
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 7
Craigslist-Effekt → Zunehmende Spezialisierung
Aber auch Gegenbewegung: BI+AI und DWH+Data Lake (siehe z.B. Snowflake/Databricks)
Quelle Grafiken: https://blog.fal.ai/the-unbundling-of-airflow-2/
8. © OPITZ CONSULTING 2022 / Öffentlich
Data Lake und DWH wachsen zusammen
Genauso wachsen BI und AI zusammen, siehe z.B.
Snowflake und Databricks. Gegenbewegung zur
zunehmenden Spezialisierung.
Generell: es bewegt sich viel.
WAS WIR AKTUELL WAHRNEHMEN…
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 8
Viel Geld im Umlauf
Damit zunehmende Zersplitterung der Funktionalitäten;
jedes neue Startup kümmert sich um eine Spezialfunktion.
Dadurch Verteilung einzelner Funktionalitäten in separate
Tools.
Cloud ist Standard
Kaum jemand baut analytische Architekturen noch On-
Premises. Es gibt aber Ausnahmen. Das Hadoop-
Ökosystem verliert an Bedeutung; Data Lakes zunehmend
auf Object Storage in der Public Cloud.
Verwendung von Best Practices aus der
Softwareentwicklung
Auch als Folge der Migration in die Cloud. Also
Infrastructure as Code, Automatisierung, CI/CD.
Zunehmende Sympathien für Code-First und Open Source,
Rückkehr der Frameworks, des DIY, des SQL only (Skills!).
9. © OPITZ CONSULTING 2022 / Öffentlich
ENTER: „THE MODERN DATA STACK“
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 9
In diesem Umfeld kam der Begriff Modern
Data Stack auf.
Aber:
Was verbirgt sich dahinter?
Was ist modern am „Modern Data Stack“?
Welche Komponenten und Prinzipien
verstecken sich dahinter?
Wie arbeitet man damit?
Taugt das was?
Quelle Grafik: https://continual.ai/post/the-modern-data-stack-ecosystem-fall-2021-edition
10. © OPITZ CONSULTING 2022 / Öffentlich
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 10
MODERN DATA STACK
02
11. © OPITZ CONSULTING 2022 / Öffentlich
WAS IST EIN DATA STACK?
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 11
Def.: Ein Data Stack ist die Sammlung der Tools und Anwendungen, mit denen in einem
Unternehmen Daten verarbeitet und Analytics betrieben wird.
Quelle: https://future.com/emerging-architectures-modern-data-infrastructure/
12. © OPITZ CONSULTING 2022 / Öffentlich
WAS IST „MODERN“ AM „MODERN DATA STACK“?
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 12
Automatisierung und
Operationalisierung
Es halten Grundparadigmen moderner
Softwareentwicklung Einzug, u.a. GitOps,
CI/CD, Container, automatisiertes Testen.
Best of Breed und Modular
Ein Modern Data Stack ist modular
aufgebaut. Einzelne Komponenten lassen
sich austauschen. EL+T sind getrennt. Für
jede Disziplin wird das beste Tool ausgewählt.
Cloud DWH
Zentrale Datenspeicher-Komponente des
Modern Data Stack. Verbindet Vorteile von
Data Lake und Data Warehouse.
SaaS / IaC
Fokus auf Wartbarkeit und geringer Time to
Market. Mittels SaaS Services der
Cloudanbieter, oder Automatisierung mittels
IaC kann dies erreicht werden.
13. © OPITZ CONSULTING 2022 / Öffentlich
DIE VIELFALT DA DRAUßEN…
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 13
Modern Data Stack ≠ Modern Data Stack
Architekturen und Komponenten leicht
unterschiedlich
Oft Fokus auf der eigenen Technologie, dem
eigenen Tool, der eigenen Lösung
Oha, doch Marketing-Hype?
Verbindende Elemente:
Ingest, Extraktion, Tracking, Streaming
Storage, Transformation
Data Science, Reporting, Reverse ETL
Orchestration, Testing, Observability, Catalog,
Governance
Quelle: Google Bildersuche
14. © OPITZ CONSULTING 2022 / Öffentlich
UNSERE WAHL: KOMPONENTEN
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 14
15. © OPITZ CONSULTING 2022 / Öffentlich
SNOWFLAKE
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 15
Cloud Data Warehouse
Seit 2012 mit Fokus auf DWH Workloads
Wartungsarm, SQL als Abfragesprache
Einfach Skalierbar, Trennung von Storage und Compute
Verfügbar bei drei großen Cloud-Anbietern (GCP, Azure, AWS)
Speicherung relationaler und semi-strukturierter Daten (JSON)
Python, Data Sharing, Visualisierung, … weiter Ausbau zur
Datenplattform
Vergleich zu On-Premise
Vorteile der Cloud gelten auch hier…
Mögliche Alternativen: Big Query, Redshift, Databricks,
Synapse, …
16. © OPITZ CONSULTING 2022 / Öffentlich
AZURE KUBERNETES SERVICE (AKS)
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 16
Managed Kubernetes Service in Azure Cloud
Kubernetes Cluster mit Integration zu anderen Azure Komponenten
Netzwerke, Azure CNI, Load Balancer, …
Autoscaling von Worker Nodes möglich (Node Pools)
Vollständig von Azure verwaltete Master Nodes
Kubernetes (K8s)
Open Source, ursprünglich von Google entwickelt, heute CNCF
Zur automatisierten Bereitstellung, Skalierung und Verwaltung von Container-Applikationen
Sehr weit verbreitet in der modernen Applikationsentwicklung
Mögliche Alternativen: Oracle - OKE, AWS – EKS, Google – GKE, VMware Tanzu
17. © OPITZ CONSULTING 2022 / Öffentlich
AIRBYTE
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 17
Data Ingest
Viele Standard-Konnektoren vorhanden
Saas, Cloud, APIs, Datenbanken,…
Facebook, Google, Salesforce, Redshift, Snowflake, BigQuery, …
Eigene Konnektoren mit Python Connector Development Kit
Einfache Transformationen möglich
SaaS (nur USA) und Open Source zur eigenen Installation
Containerbasierter Betrieb
Trennung Plattform/Konnektoren (Server, UI, Scheduler, …)
Eigener Container je Konnektor
Mögliche Alternativen: Stitch, Fivetran, Singer, Meltano, …
18. © OPITZ CONSULTING 2022 / Öffentlich
DBT
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 18
Datentransformation („Data Build Tool“)
Nur „T“ in EL+T – Extraktion separat
ELT Ansatz, sog. Modelle werden für Zielplattform (z.B. Cloud DWH,
Snowflake) kompiliert und dort ausgeführt
Code-first, SQL mit Jinja (Templating)
Wachsende Community vorhanden, Erweiterungen downloadbar
SaaS und Open Source (Python)
Entwicklungsumgebung cloud.getdbt.com
Lokal beliebiger Editor nutzbar, CLI vorhanden (dbt-core)
Deployment
VM, Docker Container, fast überall einbindbar
Mögliche Alternativen: Azure Data Factory, Talend, Informatica, …
19. © OPITZ CONSULTING 2022 / Öffentlich
LIGHTDASH
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 19
Self-Service Reporting Tool
Sehr einfache Charts und Dashboards
Rudimentäre Funktionalität
Basierend auf Definitionen in dbt Projekten
Nutzt die Idee des Metric Store in dbt
Konfiguration: dbt Projekt und Verbindung Cloud DWH
SaaS (in beta) und Open Source
Aktuell nicht konkurrenzfähig…
Mögliche Alternativen: Looker, Power BI, Apache
Superset, Metabase, Tableau, …
20. © OPITZ CONSULTING 2022 / Öffentlich
APACHE AIRFLOW
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 20
Workflow Management System
Ursprünglich von Airbnb entwickelt
Ausführung eines DAG (Directed Acyclic Graph)
Knoten enthalten Operatoren, können Code ausführen, aber auch
andere Tools steuern
Populär zum Erstellen/Ausführen von Data Pipelines
Bestens für GitOps geeignet / Einbindung in Pipelines
Managed Varianten verfügbar und Open Source
Astronomer, Managed Airflow bei AWS, Google
Bestehend aus: Scheduler, Worker, UI, DB, Flower (Celery, Redis)
Parallele Abarbeitung auf mehreren Workern möglich
Skaliert dank Containertechnologie
Mögliche Alternativen: Dagster, Luigi, Prefect, …
21. © OPITZ CONSULTING 2022 / Öffentlich
Rückrichtung, Datenfluss aus dem Data
Warehouse hinein in die Quellsysteme, bzw.
weitere konsumierende Systeme
Bereinigte und integrierte Daten werden
Salesforce, Email-Marketingtools und anderen
Systemen zur Verfügung gestellt, oft über
Standardkonnektoren
Hightouch und Census als Beispiele für SaaS
QUERBEZÜGE UND WEITERE BEGRIFFE IM DUNSTKREIS
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 21
Zusammen mit dem Modern Data Stack entstehen neue Architekturkomponenten und
Rollenbilder. Aber nicht alles hängt zusammen, Lakehouse und Data Mesh sind getrennt zu
betrachten. Data Apps, SQL Notebooks und Data Observability gehören aber wieder dazu.
Reverse ETL
Auch Metrics Layer oder Headless BI genannt
Verlagert die Definition von Kennzahlen, Fakten,
Dimensionen, Filtern, etc. in eine gemeinsame,
geteilte Schicht oder Komponente
Projektberichte und Umsetzungen von AirBnB
(Minerva) und LinkedIn, auch eigene Firmen
(Supergrain, Transform)
Hier: dbt/lightdash (noch sehr rudimentär)
Metrics Store
Neue Rollendefinition zur Abgrenzung
gegenüber vorhandenen Rollen. Vertreten von
dbt und der Modern Data Stack Community
Grob gesagt: Irgendetwas zwischen Data
Engineer und Data Analyst mit einem Touch
Softwareentwickler
Kann SQL, greift auf Quelldaten zu und stellt
anderen aufbereitete Daten zur Verfügung
Analytics Engineering
22. © OPITZ CONSULTING 2022 / Öffentlich
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 22
HANDS ON / DEMO
03
23. © OPITZ CONSULTING 2022 / Öffentlich
KEYWORD – INFRASTRUCTURE AS CODE
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 Seite 23
IaC
Prozess zum Verwalten und Provisionieren von Computern, VM‘s, Netzwerken
Versionierte Infrastruktur-Definitionen
Wiederholbar und zuverlässig
Viele Plugins und Module verfügbar
Frameworks
Hashicorp Terraform
Puppet
SaltStack
RedHat Ansible, …
24. © OPITZ CONSULTING 2022 / Öffentlich
HELM UND BUILD PIPELINES
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 24
HELM
Paketmanager für Kubernetes
Charts basieren auf Templates für K8s Ressourcen
Übernimmt Deployment und Updates (patches) von K8s Objekten
Stateful – Aktueller State wird direkt im K8s gesichert
Build Pipeline (IaC und Infrastruktur Deployment)
Führt die nötigen Befehle in korrekter Reihenfolge aus
Idealerweise idempotent aufgebaut
Mit der Fähigkeit ausgeführte Aktionen auch wieder rückgängig zu machen
Beispiel: GitLab CI/CD
25. © OPITZ CONSULTING 2022 / Öffentlich
DEMO
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 Seite 25
26. © OPITZ CONSULTING 2022 / Öffentlich
DEMO
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 26
27. © OPITZ CONSULTING 2022 / Öffentlich
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 27
FAZIT
04
28. © OPITZ CONSULTING 2022 / Öffentlich
Dbt als Transformationstool ist eine
Bereicherung der Landschaft von ETL/ELT Tools
Data Ingest Tools schon gut verwendbar,
Standardkonnektoren hilfreich und haben guten
Stand
Reverse ETL, Metrics Store und neue Reporting-
Tools: hier gibt es noch Nachholbedarf
FAZIT – BUZZWORD ODER ECHTER GAMECHANGER?
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 28
There‘s a whole new world out there…
Data Twitter, Substacks, Blogs, Konferenzen, und viele neue Firmen und Tools
Genau hinsehen: Funktionalität sollte natürlich zu den eigenen Anforderungen passen
Reifegrad
Modularität kann Fluch und Segen sein. Gute
Einzellösungen vs. komplexere Landschaft.
Auswahl und Pflege wird nicht einfacher
Oft sowohl SaaS als auch Open Source Varianten
verfügbar. Selbermachen vs. Aufwandslos.
Modularität
IaC, GitOps, Containerisierung, DevOps, Data
Observability, Automatisches Testen und CI/CD
gehören nun automatisch dazu
Viel kommt durch die Migration in die Cloud
Skills sollten dann aber auch vorhanden sein
Methoden / Techniken
29. © OPITZ CONSULTING 2022 / Öffentlich
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 29
ZEIT FÜR IHRE FRAGEN
30. © OPITZ CONSULTING 2022 / Öffentlich
Modern Data Stack - Buzzword oder Gamechanger? - TDWI 2022 30
www.opitz-consulting.com
KONTAKT
Dr. Jens Bleiholder
Senior Manager Corporate Development
Jens.Bleiholder@opitz-consulting.com
+49 151 42130835
https://www.xing.com/profile/Jens_Bleiholder/
https://www.linkedin.com/in/jensbleiholder/
Fabian Hardt
Solution Architect
Fabian.Hardt@opitz-consulting.com
https://twitter.com/fabian_hardt
https://www.xing.com/profile/Fabian_Hardt
https://www.linkedin.com/in/fabian-hardt-0956b1b1