SlideShare una empresa de Scribd logo
1 de 31
Open Data Management Automation (OpenDMA)
Eine moderne Datenmanagement Plattform für Ihr Data Warehouse
und Ihre Big Data Analysen
Torsten Glunde, Juni 2015
agenda
• Big Data
• OpenDMA Strategie
• OpenDMA – Automation, DataVault und Architektur
 Industrie 4.0 Automation von Industrieprozessen, Vernetzung der Maschinen (Internet of Things)
 Mobile Data Fitnessdaten, Apps, Shopping
 Soziale Netzwerke & Co Facebook, Xing, LinkedIn, WhatsApp, Twitter, Tumblr, About.com,
Blog
 BigData Volume+Velocity+Variety, Strukturierte und Unstrukturierte Daten, MPP, Analytics
 Datenstrategie, das daten-getriebene Unternehmen
 RDBMS ist nicht für solche Datenmengen und nicht-strukturierte Daten
ausgelegt
 Prozesse müssen schneller werden, gleichzeitig aber auch flexibler und
anpassungsfähiger
BigData
Datentreiber
BigData
Implementierung
• Roman Census Method, MPP
www.thedatascienceinstitute.com/big-data-and-the-roman-census-approach/
• MPP ermöglicht lineare Skalierung
• Prozessierung wandert zu den Daten (im Gegensatz zu ETL)
• Hadoop, HDFS
• Speichert binäre Datenblöcke ohne interne Strukturen
• Kein ACID, kein UPDATE, INSERT ONLY
• Fail-over durch Duplizierung jedes Datenblockes
• Structure on Read (vs. Structure on Write)
• Unstrukturierte oder semi-strukturierte Daten können gespeichert werden
• Ermöglicht die Speicherung von großen Datenmengen
• Dateninhalte müssen vor Verarbeitung geparsed werden
• Flexibel, da bestehende Datenstrukturen nicht angepasst werden müssen
Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” ,
Elsevier, Morgan Kaufman 2015
BigData
Lambda Architektur ist Bestandteil von OpenDMA
Die Lambda Architektur besteht aus 3 Komponenten
Batch layer
• Verwaltet den Master Datensatz, ein immutable,
append-only Rohdaten Speicher
• persistente batch views zur Abfrage die
vorberechnet werden
Serving layer
Dieser Layer indiziert die Batch Views, damit sie in
niedriger Latenz abgefragt werden können
Speed layer
Real-time bzw. Near-Realtime Anfragen werden hier
mit Streaming Mitteln beantwortet. Schnelle,
inkrementelle Algorithmen werden hier verwendet.
Nur die aktuellsten Daten werden hier verarbeitet.
Michael Hausenblas, Chief Engeneer MapR, Lambda Architecture,
https://www.mapr.com/fr/developercentral/lambda-architecture
Nathan Marz – Big Data Principles and Practices of Scalable realtime data systems
http://www.manning.com/marz/
 Verarbeitung geht zu den Daten
 Distribution der Daten
 MPP ist unabhängig von der Speicherhaltung der Daten
 Strukturiert,Relational  optimiertes, random Lesen per SQL  ABER: modellierte,kontrollierte Daten
 Unstrukturiert, Ohne Schema  optimiertes Schreiben,lesen per SQL, aber nur sequentiell optimiert
 Unstrukturierte Speicherung bedingt immer noch viel Programmierung – SQL ist aber zukünftig gesetzt
• Speicherung und Pflege der Daten ist strukturiert teurer als unstrukturiert
• Automatisierung mittels DataVault vermindertdie Kosten für strukturierte Datenhaltung
• Sub-second Antwortzeiten nur mit schema-basierten Datenstrukturen möglich
BigData
MPP
 Eignet sich zur Datenaufnahme im Datenmanagement, da es große Datenmengen sicher und redundant
speichern kann
 Eignet sich zur Transformation von großen Datenmengen, da über MPP linear skaliert werden kann - wie zu
statistischen Analysen
ABER:
 Transformationen werden in Hadoop programmiert (Java, Scala, …)
 Reproduzierbarkeit schwierig zu gewährleisten, wenn Strukturen unbekannt und veränderlich sind
 Ursprünglich ist Hadoop eine reine BATCH-Architektur – keine Adhoc-Abfragen
 Häufig werden Daten in Hadoop verarbeitet, die mit MPP-fähigen RDBMS schneller verarbeitet werden können
(In-Memory Technologie)
 In RDBMS wird SQL verarbeitet, das eine hohe Akzeptanz und Verbreitung hat
 BigData = MPP , BigData != NoSQL , BigData Maybe SQL
BigData
Unverzichtbare Komponente, aber kein Allheilmittel
agenda
• Big Data
• OpenDMA Strategie
• OpenDMA – Automation, DataVault und Architektur
Strategie
Ziele und Vorhaben
Datenmanagement
Systeme und
Applikationen
Network /
Infrastructure
Strategie
Ziele und Vorhaben
Systeme und
Applikationen
Network /
Infrastructure
Datenmanagement
Datengetrieben
Applikationsgetrieben
OpenDMA
Strategie
Personen und
Organisation
Geschäftsprozesse Ziele und
Vorhaben
Technologie
Technology Assets
Datenmanagement
Daten Assets
Informiert
ErstelltKontext
Datengetriebenes Unternehmen
Strategie
Datengetriebene Architektur
Analogie zur Produktion
Informationen liefern
Prozesskette im Datenmanagement
Rohdaten
Geschäftsregeln
Historisierung
Standard
Regelwerk
Berechnung
Informationen liefern
Push-Versus-Pull
3FolieFolieAWF Arbeitsgemeinschaft “Pull-Systeme” – Dipl.-Ing. O. Völker und Dipl.-Ing. S. Binner
Einleitung „Push“ und „Pull“
In OutBestand in der Fertigung
Ziehlogik (PullZiehlogik (Pull--Prinzip)Prinzip)
Bestand in der Fertigung
In Out
Schiebelogik (PushSchiebelogik (Push--Prinzip)Prinzip)
Bekannte Anforderungen
Geringe Personalisierung
Skaleneffekte
Gleichförmige Produktion
Geringe Änderungskosten
Geringe Vorbereitungszeit
Variable Anforderungen
Hohe Personalisierung
Geringer Verkaufsaufwand
Variabilität in der
Produktion
Hohe Anpassungskosten
Größere Vorbereitungszeit
Push Pull
Informationen liefern
Push-Versus-Pull
Informationen liefern
Prozessunterscheidung nach Entwicklungsstil
Systematisch
• Nutzer und Entwickler sind getrennt
• Fokus auf Kontrolle und Compliance
• Fokus auf Non-Functionals
• Zentrale, unternehmensweite Informationsobjekte
Opportunistisch
• Nutzer und Entwickler sind eng verbunden
• Offensive Governance – Fokus auf Agilität und Anpassbarkeit
• dezentralisierte Informationsobjekte
• Deployment direkt in Produktion
Development Style
I
• Facts
• Datenmodell
II
• Context
• Taxanomie
• Ad-Hoc Abfragen
• Geschäftsregel
III
• Shadow IT
• Incubation
• Ad-hoc
• Once off
IV
• Research
• Innovation
• Design
Pull / Demand / Product drivenPush / Supply / Source driven
Push/Pull Point
Development Style
SystematicOpportunistic
Informationen liefern
Datenquadrant im Datenmanagement
Ronald Damhof, 4 Quadrant Model for Data Deployment, http://www.b-eye-network.com/blogs/damhof/archives/2013/08/4_quadrant_mode.php
I
• Single Version of
Facts
II
• Multiple Versions of
Truth
III
• Single
Sources
IV
• All Data
MPP
Automatisierung
des DWH mit
DataVault
Enterprise Information
Products
Reports
Predictive Analytics
Adhoc-Queries
DWH Mart
Methoden
Datenmanagement
Data LakeInput
ComplicatedSimple
Chaotic
Analytics, Innovations
Data Science
Data Mining
Machine Learning
Alle Daten
Complex
I
• Single Version of
Facts
II
• Multiple Versions of
Truth
III
• Single
Sources
IV
• All Data
MPP
Enterprise Information
Products
Reports
Predictive Analytics
Adhoc-Queries
DWH Mart
Analytics, Innovations
Data Science
Data Mining
Machine Learning
Alle Daten
Governance
Im Datenquadranten
Data Lake
- Kontrolle und Verantwortung liegt beim
jeweiligen Anwender
- Hohe Freiheitsgrade ermöglichen Innovation
BI Governance
Metadaten
agenda
• Big Data
• OpenDMA Strategie
• OpenDMA – Automation, DataVault und Architektur
 Datenmanagement Plattform
DataVault Architektur und Modellierung
MPP Datenhaltung für strukturierte und unstrukturierte Daten
Datenverarbeitung mit linearer Skalierung
 Werkzeug zur schnellen Entwicklung
Automatisierung der Data Warehouse Entwicklung
basierend auf Datenmodell und Metadaten
Ermöglicht Rapid Prototyping
 ELT oder ETL Generator
generiert SQL und DDL
oder auch ETL basierend auf Templates
unterstützt RDBMS und Hive (auf Hadoop)
 Architekturvorgaben
Die Einhaltung des Regelwerks gewährleistet eine lineare Skalierung
Single Version of Facts – Multiple Versions of the Truth
Multiple Timelines - Temporalität
Open Data Management Automation
Was ist OpenDMA?
 Nicht-Destruktive Datenmodellierung
 Konsistente Kosten für Anpassungen
 Automatisierung durch wiederholbare Muster
 Implementierung in NoSQL, RDBMS und hybrid
möglich
 100% Tatsachen (anstatt von „Golden Record“,
„One Version of The Truth“), ermöglicht:
Gap Analyse, Auditing und Data Lineage
 Separation of Concerns
Kontext, Konzept, Logisch, Physisch
Bill Inmon sagt:
"the Data Vault is the optimal choice for modeling the EDW in the DW 2.0
framework."
OpenDMA
DataVault 2.0 Vorteile
Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” ,
Elsevier, Morgan Kaufman 2015
Data Vault Benefits
Entire UDT DataVault Model
Typical OLTP Data Model
OpenDMA
DataVault 2.0 Vorteile
Bsam Bendayan and Mary Mink, Ultimate Software 2015, Presented at
WWDVC 2015
OpenDMA
Unser Stack
 OpenDMA Automation
basiert auf OpenSource, beschleunigt die Entwicklung von Datenmanagement Prozessen
benötigt kein ETL-Werkzeug, unterstützt aber die gängigsten auf dem Markt
 Methoden und Vorgehensweisen
schnelle Implementierung neuer Geschäftsregeln
Basis ist Data Vault 2.0  volle Nachvollziehbarkeit und Integration von strukturierten und unstrukturierten
Daten
 Lineare Skalierung
läuft auf sogenannten Commodity-Hardware Knoten
Verdopplung der Knoten halbiert die Laufzeit
sowohl für unstrukturierte als auch strukturierte Daten
 Cloud-fähigkeit steht an erster Stelle
einfache Implementierung und Unterstützung von DevOps
OpenDMA
Die wichtigsten Vorteile
 Im Zeitalter von BigData und MPP gilt: ETL ist tot, es lebe SQL
Die Verarbeitung der Daten wird mehr und mehr in der Datenbank stattfinden müssen, da die
Datenmengen die für die Verarbeitung notwendig sind nicht mehr transportierbar sind. Die aktuellsten
Entwicklungen in Hadoop setzen auf SQL als Schnittstelle zu Daten im HDFS.
 Automatisierung ist der nächste große Trend
Durch moderne Methoden der Datenmodellierung und Datenmodelltransformation lassen sich weite Teile
des klassischen DWH automatisieren.
 Das klassische DWH und BigData sind komplementäre
Infrastrukturkomponenten
Data Lake, Enterprise Hub & Co. sind Bestandteile einer Dateninfrastruktur, können aber nicht die
kompletten Architekturanforderungen abdecken. MPP gilt auch für klassisch modellierte RDBMS. Über
DataVault 2.0 lässt sich das DWH mit unstrukturierten Daten verbinden.
 OpenDMA: Cloud-First und Automatisierung der Datenintegration
Niedrige Einstiegsbarrieren
schneller ROI
Takeaway
zentrale:
marktplatz 3
82031 grünwald
tel: 089 939451- 0
fax: 089 939451- 59
www.oss.de
Vielen Dank
SQL
SQL
 SQL in Hadoop minimiert die Programmierung
 Lambda Architektur erhöht Reproduzierbarkeit durch Reduktion der Komplexität
 Erweiterung um Real-Time Anforderung – allerdings auch mit API (Storm)
 Caching durch Kylin OLAP-Komponente
 In RDBMS wird SQL verarbeitet, das eine hohe Akzeptanz und Verbreitung hat
BigData
Lambda im OpenDMA
HDP
OpenDMA
Ein Use Case
CSV-Strom
Postgres
XL
OpenDMA
CSV
Streaming
Stundenprotokoll
Batch Vortagesaktuell
angereichert
DV Mart
OpenDMA verbindet die Welten
DataVault 2.0 Architektur
Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” ,
Elsevier, Morgan Kaufman 2015
OpenDMA
Logical Data Warehouse Model – Separation of Concerns
- Corporate Overview: Context
- Top management view of the world, sketch environment
- What are the most important kinds of data
- Global things of significance, many-2-many relationships
- About dozen boxes
- “Environment Model”
- Conceptual
- complete, detailed description
- Business terms, concepts, one-to-many relationships represent assertions
- Moderate attributes
- Technology independent model
- Semantic
- Language as used, vehicle for identifying semantic conflicts
- divergent
- Architectural
- More abstract, convergent model
- Logical
- Particular data management technological
- Relational, hierarchical legs, network edges, object oriented, xml tags
- Implementation with technological twists
- Relational: foreign key and primary keys
- Path direction in object models
- Platform specific model
- Physical
- Physical storage
- Discrete physical databases
- Partitions
- Tablespaces
- Etc
- Vendor platform specific model

Más contenido relacionado

La actualidad más candente

Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...
Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...
Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...Business Intelligence Research
 
Hif 3 d information center 0.7
Hif 3 d information center 0.7Hif 3 d information center 0.7
Hif 3 d information center 0.7Sascha Oehl
 
Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Harald Erb
 
Data Virtualization - Supernova
Data Virtualization - SupernovaData Virtualization - Supernova
Data Virtualization - SupernovaTorsten Glunde
 
Big Data - Die große Innovation?
Big Data - Die große Innovation?Big Data - Die große Innovation?
Big Data - Die große Innovation?BARC GmbH
 
Storage economics 2009
Storage economics 2009Storage economics 2009
Storage economics 2009Sascha Oehl
 
RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?Capgemini
 
Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...
Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...
Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...Business Intelligence Research
 
Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...
Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...
Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...Business Intelligence Research
 
CDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
CDC und Data Vault für den Aufbau eines DWH in der AutomobilindustrieCDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
CDC und Data Vault für den Aufbau eines DWH in der AutomobilindustrieAndreas Buckenhofer
 
Data Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLData Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLFromDual GmbH
 
Caching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI ServerCaching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI ServerAndreas Buckenhofer
 
Hitachi marktforum it beschaffung 2012 0.2
Hitachi   marktforum it beschaffung 2012 0.2Hitachi   marktforum it beschaffung 2012 0.2
Hitachi marktforum it beschaffung 2012 0.2Sascha Oehl
 

La actualidad más candente (20)

The cloud 2011
The cloud 2011The cloud 2011
The cloud 2011
 
Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...
Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...
Beyond SAP - Effektive Nutzung von Business Content durch In-Memory-OLAP und ...
 
Hif 3 d information center 0.7
Hif 3 d information center 0.7Hif 3 d information center 0.7
Hif 3 d information center 0.7
 
Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!
 
Lambdaarchitektur für BigData
Lambdaarchitektur für BigDataLambdaarchitektur für BigData
Lambdaarchitektur für BigData
 
Data Virtualization - Supernova
Data Virtualization - SupernovaData Virtualization - Supernova
Data Virtualization - Supernova
 
Big Data - Die große Innovation?
Big Data - Die große Innovation?Big Data - Die große Innovation?
Big Data - Die große Innovation?
 
Storage economics 2009
Storage economics 2009Storage economics 2009
Storage economics 2009
 
Dlr v1.2
Dlr v1.2Dlr v1.2
Dlr v1.2
 
Portfolio 2016
Portfolio 2016Portfolio 2016
Portfolio 2016
 
RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?
 
Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...
Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...
Analytical Sandboxing: Data-Warehousing und Datenanalysen im Spannungsfeld zw...
 
Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...
Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...
Weitere Dezentralisierung der BI - mehr Selbständigkeit der Fachbereiche durc...
 
Warum sap hana sql data warehousing
Warum sap hana sql data warehousingWarum sap hana sql data warehousing
Warum sap hana sql data warehousing
 
CDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
CDC und Data Vault für den Aufbau eines DWH in der AutomobilindustrieCDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
CDC und Data Vault für den Aufbau eines DWH in der Automobilindustrie
 
2010 09 30 11-30 thomas marx
2010 09 30 11-30 thomas marx2010 09 30 11-30 thomas marx
2010 09 30 11-30 thomas marx
 
Data Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQLData Warehouse (DWH) with MySQL
Data Warehouse (DWH) with MySQL
 
SAP BW im Umbruch
SAP BW im UmbruchSAP BW im Umbruch
SAP BW im Umbruch
 
Caching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI ServerCaching: In-Memory Column Store oder im BI Server
Caching: In-Memory Column Store oder im BI Server
 
Hitachi marktforum it beschaffung 2012 0.2
Hitachi   marktforum it beschaffung 2012 0.2Hitachi   marktforum it beschaffung 2012 0.2
Hitachi marktforum it beschaffung 2012 0.2
 

Destacado

Data Vault Architektur
Data Vault ArchitekturData Vault Architektur
Data Vault ArchitekturTorsten Glunde
 
MT AG Data Vault Generator
MT AG Data Vault GeneratorMT AG Data Vault Generator
MT AG Data Vault GeneratorMT AG
 
Data Vault Vor- und Nachteile
Data Vault Vor- und NachteileData Vault Vor- und Nachteile
Data Vault Vor- und NachteileTorsten Glunde
 
Modellierung agliler Data Warehouses mit Data Vault
Modellierung agliler Data Warehouses mit Data VaultModellierung agliler Data Warehouses mit Data Vault
Modellierung agliler Data Warehouses mit Data VaultTrivadis
 
Metadaten und Data Vault (Meta Vault)
Metadaten und Data Vault (Meta Vault)Metadaten und Data Vault (Meta Vault)
Metadaten und Data Vault (Meta Vault)Andreas Buckenhofer
 
Curric. night 7th
Curric. night 7thCurric. night 7th
Curric. night 7thJen Walsh
 
Unique cars and parts history
Unique cars and parts    historyUnique cars and parts    history
Unique cars and parts historyAlvie2022
 
Каталог выставки "Вино и Виноделие", 7-9 февраля, 2013
Каталог выставки "Вино и Виноделие", 7-9 февраля, 2013Каталог выставки "Вино и Виноделие", 7-9 февраля, 2013
Каталог выставки "Вино и Виноделие", 7-9 февраля, 2013Anna Yermolayeva
 
Effective use of powerpoint
Effective use of powerpointEffective use of powerpoint
Effective use of powerpointMaye Payumo
 
User activity monitoring with SysKit
User activity monitoring with SysKitUser activity monitoring with SysKit
User activity monitoring with SysKitSysKit Ltd
 
Birmingham Food Council: Presentation to the Sustainability Forum on 17th Sep...
Birmingham Food Council: Presentation to the Sustainability Forum on 17th Sep...Birmingham Food Council: Presentation to the Sustainability Forum on 17th Sep...
Birmingham Food Council: Presentation to the Sustainability Forum on 17th Sep...Kate Cooper
 
Prezentacja szkoły
Prezentacja szkołyPrezentacja szkoły
Prezentacja szkołygim1mik
 
Long island-junk-removal
Long island-junk-removalLong island-junk-removal
Long island-junk-removal1855 Junk That
 
Lymphatic and immune system
Lymphatic and immune systemLymphatic and immune system
Lymphatic and immune systememeredith2
 
Подсистема Стоматология, Пациент.NET
Подсистема Стоматология, Пациент.NETПодсистема Стоматология, Пациент.NET
Подсистема Стоматология, Пациент.NETMedotrade
 
Topic 1 mp_2013
Topic 1 mp_2013Topic 1 mp_2013
Topic 1 mp_2013m_rinaldi
 
Itlm topic 7_8
Itlm topic 7_8Itlm topic 7_8
Itlm topic 7_8m_rinaldi
 

Destacado (20)

Data Vault Architektur
Data Vault ArchitekturData Vault Architektur
Data Vault Architektur
 
MT AG Data Vault Generator
MT AG Data Vault GeneratorMT AG Data Vault Generator
MT AG Data Vault Generator
 
Data Vault Vor- und Nachteile
Data Vault Vor- und NachteileData Vault Vor- und Nachteile
Data Vault Vor- und Nachteile
 
Modellierung agliler Data Warehouses mit Data Vault
Modellierung agliler Data Warehouses mit Data VaultModellierung agliler Data Warehouses mit Data Vault
Modellierung agliler Data Warehouses mit Data Vault
 
Metadaten und Data Vault (Meta Vault)
Metadaten und Data Vault (Meta Vault)Metadaten und Data Vault (Meta Vault)
Metadaten und Data Vault (Meta Vault)
 
Curric. night 7th
Curric. night 7thCurric. night 7th
Curric. night 7th
 
Unique cars and parts history
Unique cars and parts    historyUnique cars and parts    history
Unique cars and parts history
 
Anemia
AnemiaAnemia
Anemia
 
Doc4
Doc4Doc4
Doc4
 
Каталог выставки "Вино и Виноделие", 7-9 февраля, 2013
Каталог выставки "Вино и Виноделие", 7-9 февраля, 2013Каталог выставки "Вино и Виноделие", 7-9 февраля, 2013
Каталог выставки "Вино и Виноделие", 7-9 февраля, 2013
 
Effective use of powerpoint
Effective use of powerpointEffective use of powerpoint
Effective use of powerpoint
 
User activity monitoring with SysKit
User activity monitoring with SysKitUser activity monitoring with SysKit
User activity monitoring with SysKit
 
Birmingham Food Council: Presentation to the Sustainability Forum on 17th Sep...
Birmingham Food Council: Presentation to the Sustainability Forum on 17th Sep...Birmingham Food Council: Presentation to the Sustainability Forum on 17th Sep...
Birmingham Food Council: Presentation to the Sustainability Forum on 17th Sep...
 
Prezentacja szkoły
Prezentacja szkołyPrezentacja szkoły
Prezentacja szkoły
 
Long island-junk-removal
Long island-junk-removalLong island-junk-removal
Long island-junk-removal
 
Lymphatic and immune system
Lymphatic and immune systemLymphatic and immune system
Lymphatic and immune system
 
Ekonomika
EkonomikaEkonomika
Ekonomika
 
Подсистема Стоматология, Пациент.NET
Подсистема Стоматология, Пациент.NETПодсистема Стоматология, Пациент.NET
Подсистема Стоматология, Пациент.NET
 
Topic 1 mp_2013
Topic 1 mp_2013Topic 1 mp_2013
Topic 1 mp_2013
 
Itlm topic 7_8
Itlm topic 7_8Itlm topic 7_8
Itlm topic 7_8
 

Similar a OpenDMA - Daten Management Solution

Data Mining und OLAP
Data Mining und OLAPData Mining und OLAP
Data Mining und OLAPmurat9393
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesOPITZ CONSULTING Deutschland
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data KonnektivitätTrivadis
 
Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtIBsolution GmbH
 
SnT DataCenter Services
SnT DataCenter ServicesSnT DataCenter Services
SnT DataCenter ServicesS&T AG
 
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzenAWS Germany
 
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...Precisely
 
Datenqualitätsmanagement heute und morgen
Datenqualitätsmanagement heute und morgenDatenqualitätsmanagement heute und morgen
Datenqualitätsmanagement heute und morgenVizlib Ltd.
 
Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewOMM Solutions GmbH
 
he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...
he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...
he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...AvePoint
 
Warum NoSQL Datenbanken auf dem Vormarsch sind
Warum NoSQL Datenbanken auf dem Vormarsch sindWarum NoSQL Datenbanken auf dem Vormarsch sind
Warum NoSQL Datenbanken auf dem Vormarsch sindRegina Holzapfel
 
Azure SQL Database vs. Azure SQL Data Warehouse
Azure SQL Database vs. Azure SQL Data WarehouseAzure SQL Database vs. Azure SQL Data Warehouse
Azure SQL Database vs. Azure SQL Data WarehousepmOne Analytics GmbH
 
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-KourilBITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-KourilStefan Schwarz
 

Similar a OpenDMA - Daten Management Solution (20)

Data Mining und OLAP
Data Mining und OLAPData Mining und OLAP
Data Mining und OLAP
 
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTiggesDas modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
Das modulare DWH-Modell - DOAG SIG BI/DWH 2010 - OPITZ CONSULTING - ArnoTigges
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
Big Data Appliances
Big Data AppliancesBig Data Appliances
Big Data Appliances
 
Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedacht
 
SnT DataCenter Services
SnT DataCenter ServicesSnT DataCenter Services
SnT DataCenter Services
 
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
8 Tipps für eine Cloud Strategie – wie Unternehmen heute die Cloud einsetzen
 
Big Data und Business Intelligence
Big Data und Business IntelligenceBig Data und Business Intelligence
Big Data und Business Intelligence
 
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
Datenintegrität für moderne Cloud Data Warehouse (MDWH) und Analytics Archite...
 
Webinar big data für unternehmen
Webinar big data für unternehmenWebinar big data für unternehmen
Webinar big data für unternehmen
 
Datenqualitätsmanagement heute und morgen
Datenqualitätsmanagement heute und morgenDatenqualitätsmanagement heute und morgen
Datenqualitätsmanagement heute und morgen
 
Big/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overviewBig/Smart/Fast Data – a very compact overview
Big/Smart/Fast Data – a very compact overview
 
Datenmanagement 2.0: Active Datamanagement (ADM)
Datenmanagement 2.0: Active Datamanagement (ADM)Datenmanagement 2.0: Active Datamanagement (ADM)
Datenmanagement 2.0: Active Datamanagement (ADM)
 
#PinkDB DataVault
#PinkDB DataVault#PinkDB DataVault
#PinkDB DataVault
 
he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...
he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...
he Future of SharePoint is Now – Tipps für On-Premise, Cloud oder Hybride Mig...
 
Modernes Rechenzentrum
Modernes Rechenzentrum Modernes Rechenzentrum
Modernes Rechenzentrum
 
Warum NoSQL Datenbanken auf dem Vormarsch sind
Warum NoSQL Datenbanken auf dem Vormarsch sindWarum NoSQL Datenbanken auf dem Vormarsch sind
Warum NoSQL Datenbanken auf dem Vormarsch sind
 
2010 09 29 13-30 michael gniffke
2010 09 29 13-30 michael gniffke2010 09 29 13-30 michael gniffke
2010 09 29 13-30 michael gniffke
 
Azure SQL Database vs. Azure SQL Data Warehouse
Azure SQL Database vs. Azure SQL Data WarehouseAzure SQL Database vs. Azure SQL Data Warehouse
Azure SQL Database vs. Azure SQL Data Warehouse
 
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-KourilBITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
 

OpenDMA - Daten Management Solution

  • 1.
  • 2. Open Data Management Automation (OpenDMA) Eine moderne Datenmanagement Plattform für Ihr Data Warehouse und Ihre Big Data Analysen Torsten Glunde, Juni 2015
  • 3. agenda • Big Data • OpenDMA Strategie • OpenDMA – Automation, DataVault und Architektur
  • 4.  Industrie 4.0 Automation von Industrieprozessen, Vernetzung der Maschinen (Internet of Things)  Mobile Data Fitnessdaten, Apps, Shopping  Soziale Netzwerke & Co Facebook, Xing, LinkedIn, WhatsApp, Twitter, Tumblr, About.com, Blog  BigData Volume+Velocity+Variety, Strukturierte und Unstrukturierte Daten, MPP, Analytics  Datenstrategie, das daten-getriebene Unternehmen  RDBMS ist nicht für solche Datenmengen und nicht-strukturierte Daten ausgelegt  Prozesse müssen schneller werden, gleichzeitig aber auch flexibler und anpassungsfähiger BigData Datentreiber
  • 5. BigData Implementierung • Roman Census Method, MPP www.thedatascienceinstitute.com/big-data-and-the-roman-census-approach/ • MPP ermöglicht lineare Skalierung • Prozessierung wandert zu den Daten (im Gegensatz zu ETL) • Hadoop, HDFS • Speichert binäre Datenblöcke ohne interne Strukturen • Kein ACID, kein UPDATE, INSERT ONLY • Fail-over durch Duplizierung jedes Datenblockes • Structure on Read (vs. Structure on Write) • Unstrukturierte oder semi-strukturierte Daten können gespeichert werden • Ermöglicht die Speicherung von großen Datenmengen • Dateninhalte müssen vor Verarbeitung geparsed werden • Flexibel, da bestehende Datenstrukturen nicht angepasst werden müssen Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” , Elsevier, Morgan Kaufman 2015
  • 6. BigData Lambda Architektur ist Bestandteil von OpenDMA Die Lambda Architektur besteht aus 3 Komponenten Batch layer • Verwaltet den Master Datensatz, ein immutable, append-only Rohdaten Speicher • persistente batch views zur Abfrage die vorberechnet werden Serving layer Dieser Layer indiziert die Batch Views, damit sie in niedriger Latenz abgefragt werden können Speed layer Real-time bzw. Near-Realtime Anfragen werden hier mit Streaming Mitteln beantwortet. Schnelle, inkrementelle Algorithmen werden hier verwendet. Nur die aktuellsten Daten werden hier verarbeitet. Michael Hausenblas, Chief Engeneer MapR, Lambda Architecture, https://www.mapr.com/fr/developercentral/lambda-architecture Nathan Marz – Big Data Principles and Practices of Scalable realtime data systems http://www.manning.com/marz/
  • 7.  Verarbeitung geht zu den Daten  Distribution der Daten  MPP ist unabhängig von der Speicherhaltung der Daten  Strukturiert,Relational  optimiertes, random Lesen per SQL  ABER: modellierte,kontrollierte Daten  Unstrukturiert, Ohne Schema  optimiertes Schreiben,lesen per SQL, aber nur sequentiell optimiert  Unstrukturierte Speicherung bedingt immer noch viel Programmierung – SQL ist aber zukünftig gesetzt • Speicherung und Pflege der Daten ist strukturiert teurer als unstrukturiert • Automatisierung mittels DataVault vermindertdie Kosten für strukturierte Datenhaltung • Sub-second Antwortzeiten nur mit schema-basierten Datenstrukturen möglich BigData MPP
  • 8.  Eignet sich zur Datenaufnahme im Datenmanagement, da es große Datenmengen sicher und redundant speichern kann  Eignet sich zur Transformation von großen Datenmengen, da über MPP linear skaliert werden kann - wie zu statistischen Analysen ABER:  Transformationen werden in Hadoop programmiert (Java, Scala, …)  Reproduzierbarkeit schwierig zu gewährleisten, wenn Strukturen unbekannt und veränderlich sind  Ursprünglich ist Hadoop eine reine BATCH-Architektur – keine Adhoc-Abfragen  Häufig werden Daten in Hadoop verarbeitet, die mit MPP-fähigen RDBMS schneller verarbeitet werden können (In-Memory Technologie)  In RDBMS wird SQL verarbeitet, das eine hohe Akzeptanz und Verbreitung hat  BigData = MPP , BigData != NoSQL , BigData Maybe SQL BigData Unverzichtbare Komponente, aber kein Allheilmittel
  • 9. agenda • Big Data • OpenDMA Strategie • OpenDMA – Automation, DataVault und Architektur
  • 10. Strategie Ziele und Vorhaben Datenmanagement Systeme und Applikationen Network / Infrastructure Strategie Ziele und Vorhaben Systeme und Applikationen Network / Infrastructure Datenmanagement Datengetrieben Applikationsgetrieben OpenDMA Strategie
  • 11. Personen und Organisation Geschäftsprozesse Ziele und Vorhaben Technologie Technology Assets Datenmanagement Daten Assets Informiert ErstelltKontext Datengetriebenes Unternehmen Strategie
  • 13. Informationen liefern Prozesskette im Datenmanagement Rohdaten Geschäftsregeln Historisierung Standard Regelwerk Berechnung
  • 14. Informationen liefern Push-Versus-Pull 3FolieFolieAWF Arbeitsgemeinschaft “Pull-Systeme” – Dipl.-Ing. O. Völker und Dipl.-Ing. S. Binner Einleitung „Push“ und „Pull“ In OutBestand in der Fertigung Ziehlogik (PullZiehlogik (Pull--Prinzip)Prinzip) Bestand in der Fertigung In Out Schiebelogik (PushSchiebelogik (Push--Prinzip)Prinzip)
  • 15. Bekannte Anforderungen Geringe Personalisierung Skaleneffekte Gleichförmige Produktion Geringe Änderungskosten Geringe Vorbereitungszeit Variable Anforderungen Hohe Personalisierung Geringer Verkaufsaufwand Variabilität in der Produktion Hohe Anpassungskosten Größere Vorbereitungszeit Push Pull Informationen liefern Push-Versus-Pull
  • 16. Informationen liefern Prozessunterscheidung nach Entwicklungsstil Systematisch • Nutzer und Entwickler sind getrennt • Fokus auf Kontrolle und Compliance • Fokus auf Non-Functionals • Zentrale, unternehmensweite Informationsobjekte Opportunistisch • Nutzer und Entwickler sind eng verbunden • Offensive Governance – Fokus auf Agilität und Anpassbarkeit • dezentralisierte Informationsobjekte • Deployment direkt in Produktion Development Style
  • 17. I • Facts • Datenmodell II • Context • Taxanomie • Ad-Hoc Abfragen • Geschäftsregel III • Shadow IT • Incubation • Ad-hoc • Once off IV • Research • Innovation • Design Pull / Demand / Product drivenPush / Supply / Source driven Push/Pull Point Development Style SystematicOpportunistic Informationen liefern Datenquadrant im Datenmanagement Ronald Damhof, 4 Quadrant Model for Data Deployment, http://www.b-eye-network.com/blogs/damhof/archives/2013/08/4_quadrant_mode.php
  • 18. I • Single Version of Facts II • Multiple Versions of Truth III • Single Sources IV • All Data MPP Automatisierung des DWH mit DataVault Enterprise Information Products Reports Predictive Analytics Adhoc-Queries DWH Mart Methoden Datenmanagement Data LakeInput ComplicatedSimple Chaotic Analytics, Innovations Data Science Data Mining Machine Learning Alle Daten Complex
  • 19. I • Single Version of Facts II • Multiple Versions of Truth III • Single Sources IV • All Data MPP Enterprise Information Products Reports Predictive Analytics Adhoc-Queries DWH Mart Analytics, Innovations Data Science Data Mining Machine Learning Alle Daten Governance Im Datenquadranten Data Lake - Kontrolle und Verantwortung liegt beim jeweiligen Anwender - Hohe Freiheitsgrade ermöglichen Innovation BI Governance Metadaten
  • 20. agenda • Big Data • OpenDMA Strategie • OpenDMA – Automation, DataVault und Architektur
  • 21.  Datenmanagement Plattform DataVault Architektur und Modellierung MPP Datenhaltung für strukturierte und unstrukturierte Daten Datenverarbeitung mit linearer Skalierung  Werkzeug zur schnellen Entwicklung Automatisierung der Data Warehouse Entwicklung basierend auf Datenmodell und Metadaten Ermöglicht Rapid Prototyping  ELT oder ETL Generator generiert SQL und DDL oder auch ETL basierend auf Templates unterstützt RDBMS und Hive (auf Hadoop)  Architekturvorgaben Die Einhaltung des Regelwerks gewährleistet eine lineare Skalierung Single Version of Facts – Multiple Versions of the Truth Multiple Timelines - Temporalität Open Data Management Automation Was ist OpenDMA?
  • 22.  Nicht-Destruktive Datenmodellierung  Konsistente Kosten für Anpassungen  Automatisierung durch wiederholbare Muster  Implementierung in NoSQL, RDBMS und hybrid möglich  100% Tatsachen (anstatt von „Golden Record“, „One Version of The Truth“), ermöglicht: Gap Analyse, Auditing und Data Lineage  Separation of Concerns Kontext, Konzept, Logisch, Physisch Bill Inmon sagt: "the Data Vault is the optimal choice for modeling the EDW in the DW 2.0 framework." OpenDMA DataVault 2.0 Vorteile Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” , Elsevier, Morgan Kaufman 2015
  • 23. Data Vault Benefits Entire UDT DataVault Model Typical OLTP Data Model OpenDMA DataVault 2.0 Vorteile Bsam Bendayan and Mary Mink, Ultimate Software 2015, Presented at WWDVC 2015
  • 25.  OpenDMA Automation basiert auf OpenSource, beschleunigt die Entwicklung von Datenmanagement Prozessen benötigt kein ETL-Werkzeug, unterstützt aber die gängigsten auf dem Markt  Methoden und Vorgehensweisen schnelle Implementierung neuer Geschäftsregeln Basis ist Data Vault 2.0  volle Nachvollziehbarkeit und Integration von strukturierten und unstrukturierten Daten  Lineare Skalierung läuft auf sogenannten Commodity-Hardware Knoten Verdopplung der Knoten halbiert die Laufzeit sowohl für unstrukturierte als auch strukturierte Daten  Cloud-fähigkeit steht an erster Stelle einfache Implementierung und Unterstützung von DevOps OpenDMA Die wichtigsten Vorteile
  • 26.  Im Zeitalter von BigData und MPP gilt: ETL ist tot, es lebe SQL Die Verarbeitung der Daten wird mehr und mehr in der Datenbank stattfinden müssen, da die Datenmengen die für die Verarbeitung notwendig sind nicht mehr transportierbar sind. Die aktuellsten Entwicklungen in Hadoop setzen auf SQL als Schnittstelle zu Daten im HDFS.  Automatisierung ist der nächste große Trend Durch moderne Methoden der Datenmodellierung und Datenmodelltransformation lassen sich weite Teile des klassischen DWH automatisieren.  Das klassische DWH und BigData sind komplementäre Infrastrukturkomponenten Data Lake, Enterprise Hub & Co. sind Bestandteile einer Dateninfrastruktur, können aber nicht die kompletten Architekturanforderungen abdecken. MPP gilt auch für klassisch modellierte RDBMS. Über DataVault 2.0 lässt sich das DWH mit unstrukturierten Daten verbinden.  OpenDMA: Cloud-First und Automatisierung der Datenintegration Niedrige Einstiegsbarrieren schneller ROI Takeaway
  • 27. zentrale: marktplatz 3 82031 grünwald tel: 089 939451- 0 fax: 089 939451- 59 www.oss.de Vielen Dank
  • 28. SQL SQL  SQL in Hadoop minimiert die Programmierung  Lambda Architektur erhöht Reproduzierbarkeit durch Reduktion der Komplexität  Erweiterung um Real-Time Anforderung – allerdings auch mit API (Storm)  Caching durch Kylin OLAP-Komponente  In RDBMS wird SQL verarbeitet, das eine hohe Akzeptanz und Verbreitung hat BigData Lambda im OpenDMA
  • 30. OpenDMA verbindet die Welten DataVault 2.0 Architektur Bill Inmon, Dan Linstedt, “Data Architecture: A Primer for the Data Scientist” , Elsevier, Morgan Kaufman 2015
  • 31. OpenDMA Logical Data Warehouse Model – Separation of Concerns - Corporate Overview: Context - Top management view of the world, sketch environment - What are the most important kinds of data - Global things of significance, many-2-many relationships - About dozen boxes - “Environment Model” - Conceptual - complete, detailed description - Business terms, concepts, one-to-many relationships represent assertions - Moderate attributes - Technology independent model - Semantic - Language as used, vehicle for identifying semantic conflicts - divergent - Architectural - More abstract, convergent model - Logical - Particular data management technological - Relational, hierarchical legs, network edges, object oriented, xml tags - Implementation with technological twists - Relational: foreign key and primary keys - Path direction in object models - Platform specific model - Physical - Physical storage - Discrete physical databases - Partitions - Tablespaces - Etc - Vendor platform specific model