BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
OpenDMA - Daten Management Solution
1.
2. Open Data Management Automation (OpenDMA)
Eine moderne Datenmanagement Plattform für Ihr Data Warehouse
und Ihre Big Data Analysen
Torsten Glunde, Juni 2015
3. agenda
• Big Data
• OpenDMA Strategie
• OpenDMA – Automation, DataVault und Architektur
4. Industrie 4.0 Automation von Industrieprozessen, Vernetzung der Maschinen (Internet of Things)
Mobile Data Fitnessdaten, Apps, Shopping
Soziale Netzwerke & Co Facebook, Xing, LinkedIn, WhatsApp, Twitter, Tumblr, About.com,
Blog
BigData Volume+Velocity+Variety, Strukturierte und Unstrukturierte Daten, MPP, Analytics
Datenstrategie, das daten-getriebene Unternehmen
RDBMS ist nicht für solche Datenmengen und nicht-strukturierte Daten
ausgelegt
Prozesse müssen schneller werden, gleichzeitig aber auch flexibler und
anpassungsfähiger
BigData
Datentreiber
5. BigData
Implementierung
• Roman Census Method, MPP
www.thedatascienceinstitute.com/big-data-and-the-roman-census-approach/
• MPP ermöglicht lineare Skalierung
• Prozessierung wandert zu den Daten (im Gegensatz zu ETL)
• Hadoop, HDFS
• Speichert binäre Datenblöcke ohne interne Strukturen
• Kein ACID, kein UPDATE, INSERT ONLY
• Fail-over durch Duplizierung jedes Datenblockes
• Structure on Read (vs. Structure on Write)
• Unstrukturierte oder semi-strukturierte Daten können gespeichert werden
• Ermöglicht die Speicherung von großen Datenmengen
• Dateninhalte müssen vor Verarbeitung geparsed werden
• Flexibel, da bestehende Datenstrukturen nicht angepasst werden müssen
Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” ,
Elsevier, Morgan Kaufman 2015
6. BigData
Lambda Architektur ist Bestandteil von OpenDMA
Die Lambda Architektur besteht aus 3 Komponenten
Batch layer
• Verwaltet den Master Datensatz, ein immutable,
append-only Rohdaten Speicher
• persistente batch views zur Abfrage die
vorberechnet werden
Serving layer
Dieser Layer indiziert die Batch Views, damit sie in
niedriger Latenz abgefragt werden können
Speed layer
Real-time bzw. Near-Realtime Anfragen werden hier
mit Streaming Mitteln beantwortet. Schnelle,
inkrementelle Algorithmen werden hier verwendet.
Nur die aktuellsten Daten werden hier verarbeitet.
Michael Hausenblas, Chief Engeneer MapR, Lambda Architecture,
https://www.mapr.com/fr/developercentral/lambda-architecture
Nathan Marz – Big Data Principles and Practices of Scalable realtime data systems
http://www.manning.com/marz/
7. Verarbeitung geht zu den Daten
Distribution der Daten
MPP ist unabhängig von der Speicherhaltung der Daten
Strukturiert,Relational optimiertes, random Lesen per SQL ABER: modellierte,kontrollierte Daten
Unstrukturiert, Ohne Schema optimiertes Schreiben,lesen per SQL, aber nur sequentiell optimiert
Unstrukturierte Speicherung bedingt immer noch viel Programmierung – SQL ist aber zukünftig gesetzt
• Speicherung und Pflege der Daten ist strukturiert teurer als unstrukturiert
• Automatisierung mittels DataVault vermindertdie Kosten für strukturierte Datenhaltung
• Sub-second Antwortzeiten nur mit schema-basierten Datenstrukturen möglich
BigData
MPP
8. Eignet sich zur Datenaufnahme im Datenmanagement, da es große Datenmengen sicher und redundant
speichern kann
Eignet sich zur Transformation von großen Datenmengen, da über MPP linear skaliert werden kann - wie zu
statistischen Analysen
ABER:
Transformationen werden in Hadoop programmiert (Java, Scala, …)
Reproduzierbarkeit schwierig zu gewährleisten, wenn Strukturen unbekannt und veränderlich sind
Ursprünglich ist Hadoop eine reine BATCH-Architektur – keine Adhoc-Abfragen
Häufig werden Daten in Hadoop verarbeitet, die mit MPP-fähigen RDBMS schneller verarbeitet werden können
(In-Memory Technologie)
In RDBMS wird SQL verarbeitet, das eine hohe Akzeptanz und Verbreitung hat
BigData = MPP , BigData != NoSQL , BigData Maybe SQL
BigData
Unverzichtbare Komponente, aber kein Allheilmittel
9. agenda
• Big Data
• OpenDMA Strategie
• OpenDMA – Automation, DataVault und Architektur
10. Strategie
Ziele und Vorhaben
Datenmanagement
Systeme und
Applikationen
Network /
Infrastructure
Strategie
Ziele und Vorhaben
Systeme und
Applikationen
Network /
Infrastructure
Datenmanagement
Datengetrieben
Applikationsgetrieben
OpenDMA
Strategie
14. Informationen liefern
Push-Versus-Pull
3FolieFolieAWF Arbeitsgemeinschaft “Pull-Systeme” – Dipl.-Ing. O. Völker und Dipl.-Ing. S. Binner
Einleitung „Push“ und „Pull“
In OutBestand in der Fertigung
Ziehlogik (PullZiehlogik (Pull--Prinzip)Prinzip)
Bestand in der Fertigung
In Out
Schiebelogik (PushSchiebelogik (Push--Prinzip)Prinzip)
15. Bekannte Anforderungen
Geringe Personalisierung
Skaleneffekte
Gleichförmige Produktion
Geringe Änderungskosten
Geringe Vorbereitungszeit
Variable Anforderungen
Hohe Personalisierung
Geringer Verkaufsaufwand
Variabilität in der
Produktion
Hohe Anpassungskosten
Größere Vorbereitungszeit
Push Pull
Informationen liefern
Push-Versus-Pull
16. Informationen liefern
Prozessunterscheidung nach Entwicklungsstil
Systematisch
• Nutzer und Entwickler sind getrennt
• Fokus auf Kontrolle und Compliance
• Fokus auf Non-Functionals
• Zentrale, unternehmensweite Informationsobjekte
Opportunistisch
• Nutzer und Entwickler sind eng verbunden
• Offensive Governance – Fokus auf Agilität und Anpassbarkeit
• dezentralisierte Informationsobjekte
• Deployment direkt in Produktion
Development Style
17. I
• Facts
• Datenmodell
II
• Context
• Taxanomie
• Ad-Hoc Abfragen
• Geschäftsregel
III
• Shadow IT
• Incubation
• Ad-hoc
• Once off
IV
• Research
• Innovation
• Design
Pull / Demand / Product drivenPush / Supply / Source driven
Push/Pull Point
Development Style
SystematicOpportunistic
Informationen liefern
Datenquadrant im Datenmanagement
Ronald Damhof, 4 Quadrant Model for Data Deployment, http://www.b-eye-network.com/blogs/damhof/archives/2013/08/4_quadrant_mode.php
18. I
• Single Version of
Facts
II
• Multiple Versions of
Truth
III
• Single
Sources
IV
• All Data
MPP
Automatisierung
des DWH mit
DataVault
Enterprise Information
Products
Reports
Predictive Analytics
Adhoc-Queries
DWH Mart
Methoden
Datenmanagement
Data LakeInput
ComplicatedSimple
Chaotic
Analytics, Innovations
Data Science
Data Mining
Machine Learning
Alle Daten
Complex
19. I
• Single Version of
Facts
II
• Multiple Versions of
Truth
III
• Single
Sources
IV
• All Data
MPP
Enterprise Information
Products
Reports
Predictive Analytics
Adhoc-Queries
DWH Mart
Analytics, Innovations
Data Science
Data Mining
Machine Learning
Alle Daten
Governance
Im Datenquadranten
Data Lake
- Kontrolle und Verantwortung liegt beim
jeweiligen Anwender
- Hohe Freiheitsgrade ermöglichen Innovation
BI Governance
Metadaten
20. agenda
• Big Data
• OpenDMA Strategie
• OpenDMA – Automation, DataVault und Architektur
21. Datenmanagement Plattform
DataVault Architektur und Modellierung
MPP Datenhaltung für strukturierte und unstrukturierte Daten
Datenverarbeitung mit linearer Skalierung
Werkzeug zur schnellen Entwicklung
Automatisierung der Data Warehouse Entwicklung
basierend auf Datenmodell und Metadaten
Ermöglicht Rapid Prototyping
ELT oder ETL Generator
generiert SQL und DDL
oder auch ETL basierend auf Templates
unterstützt RDBMS und Hive (auf Hadoop)
Architekturvorgaben
Die Einhaltung des Regelwerks gewährleistet eine lineare Skalierung
Single Version of Facts – Multiple Versions of the Truth
Multiple Timelines - Temporalität
Open Data Management Automation
Was ist OpenDMA?
22. Nicht-Destruktive Datenmodellierung
Konsistente Kosten für Anpassungen
Automatisierung durch wiederholbare Muster
Implementierung in NoSQL, RDBMS und hybrid
möglich
100% Tatsachen (anstatt von „Golden Record“,
„One Version of The Truth“), ermöglicht:
Gap Analyse, Auditing und Data Lineage
Separation of Concerns
Kontext, Konzept, Logisch, Physisch
Bill Inmon sagt:
"the Data Vault is the optimal choice for modeling the EDW in the DW 2.0
framework."
OpenDMA
DataVault 2.0 Vorteile
Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” ,
Elsevier, Morgan Kaufman 2015
23. Data Vault Benefits
Entire UDT DataVault Model
Typical OLTP Data Model
OpenDMA
DataVault 2.0 Vorteile
Bsam Bendayan and Mary Mink, Ultimate Software 2015, Presented at
WWDVC 2015
25. OpenDMA Automation
basiert auf OpenSource, beschleunigt die Entwicklung von Datenmanagement Prozessen
benötigt kein ETL-Werkzeug, unterstützt aber die gängigsten auf dem Markt
Methoden und Vorgehensweisen
schnelle Implementierung neuer Geschäftsregeln
Basis ist Data Vault 2.0 volle Nachvollziehbarkeit und Integration von strukturierten und unstrukturierten
Daten
Lineare Skalierung
läuft auf sogenannten Commodity-Hardware Knoten
Verdopplung der Knoten halbiert die Laufzeit
sowohl für unstrukturierte als auch strukturierte Daten
Cloud-fähigkeit steht an erster Stelle
einfache Implementierung und Unterstützung von DevOps
OpenDMA
Die wichtigsten Vorteile
26. Im Zeitalter von BigData und MPP gilt: ETL ist tot, es lebe SQL
Die Verarbeitung der Daten wird mehr und mehr in der Datenbank stattfinden müssen, da die
Datenmengen die für die Verarbeitung notwendig sind nicht mehr transportierbar sind. Die aktuellsten
Entwicklungen in Hadoop setzen auf SQL als Schnittstelle zu Daten im HDFS.
Automatisierung ist der nächste große Trend
Durch moderne Methoden der Datenmodellierung und Datenmodelltransformation lassen sich weite Teile
des klassischen DWH automatisieren.
Das klassische DWH und BigData sind komplementäre
Infrastrukturkomponenten
Data Lake, Enterprise Hub & Co. sind Bestandteile einer Dateninfrastruktur, können aber nicht die
kompletten Architekturanforderungen abdecken. MPP gilt auch für klassisch modellierte RDBMS. Über
DataVault 2.0 lässt sich das DWH mit unstrukturierten Daten verbinden.
OpenDMA: Cloud-First und Automatisierung der Datenintegration
Niedrige Einstiegsbarrieren
schneller ROI
Takeaway
28. SQL
SQL
SQL in Hadoop minimiert die Programmierung
Lambda Architektur erhöht Reproduzierbarkeit durch Reduktion der Komplexität
Erweiterung um Real-Time Anforderung – allerdings auch mit API (Storm)
Caching durch Kylin OLAP-Komponente
In RDBMS wird SQL verarbeitet, das eine hohe Akzeptanz und Verbreitung hat
BigData
Lambda im OpenDMA
30. OpenDMA verbindet die Welten
DataVault 2.0 Architektur
Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” ,
Elsevier, Morgan Kaufman 2015
31. OpenDMA
Logical Data Warehouse Model – Separation of Concerns
- Corporate Overview: Context
- Top management view of the world, sketch environment
- What are the most important kinds of data
- Global things of significance, many-2-many relationships
- About dozen boxes
- “Environment Model”
- Conceptual
- complete, detailed description
- Business terms, concepts, one-to-many relationships represent assertions
- Moderate attributes
- Technology independent model
- Semantic
- Language as used, vehicle for identifying semantic conflicts
- divergent
- Architectural
- More abstract, convergent model
- Logical
- Particular data management technological
- Relational, hierarchical legs, network edges, object oriented, xml tags
- Implementation with technological twists
- Relational: foreign key and primary keys
- Path direction in object models
- Platform specific model
- Physical
- Physical storage
- Discrete physical databases
- Partitions
- Tablespaces
- Etc
- Vendor platform specific model