Weitere ähnliche Inhalte Ähnlich wie Data lake vs Data Warehouse: Hybrid Architectures (20) Mehr von Comsysto Reply GmbH (20) Data lake vs Data Warehouse: Hybrid Architectures2. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
DATA WAREHOUSE 2
Planungs - / Zielgrößen
• Rentabilität / Gewinn pro Stück
• Liquidität
• Wirtschaftlichkeit
• Cashflow
Kontrollgrößen
• Produktivität (Stück pro Einheit)
• Durchlaufzeiten (Tage, Wochen)
• Umschlagsfrequenz
• Lagerdauer
• Sicherheit
• Nacharbeit
• Rückläufer
Steuerungskennzahlen
• ROI
• Kundenzufriedenheit
• Umsatz pro Mitarbeiter
• Qualität der Produkte
• Ablauf der Prozesse
• Zuverlässigkeit von Lieferanten
• Mitarbeiterzufriedenheit
Wie
verkaufe
ich die
gelben
Fahrräder
mit dem
größten
Gewinn
und
der größten
Nachhaltigkeit
für mein
Unternehmen
?
Marktchancen
• Sichtbarkeit im Markt
• Reputation
• Markenwert
• Kundentreue
• Adaption von Trends
• Kunden-Typen
• Lokale Verteilungen
• Einkommensverteilung
Vergleichskennzahlen
• Ø Time_To_Market
• Ø Gewinn pro Stück
• Anteil am Markt
„Zufälle“
• Wetter / Monatskalender
• Blogs / Stimmungen
• Lokale Verkehrs-
situationen
+
3. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
DATA WAREHOUSE 3
Planungs - / Zielgrößen
• Rentabilität / Gewinn pro Stück
• Liquidität
• Wirtschaftlichkeit
• Cashflow
Kontrollgrößen
• Produktivität (Stück pro Einheit)
• Durchlaufzeiten (Tage, Wochen)
• Umschlagsfrequenz
• Lagerdauer
• Sicherheit
• Nacharbeit
• Rückläufer
Steuerungskennzahlen
• ROI
• Kundenzufriedenheit
• Umsatz pro Mitarbeiter
• Qualität der Produkte
• Ablauf der Prozesse
• Zuverlässigkeit von Lieferanten
• Mitarbeiterzufriedenheit
Service
Logistik
Controlling
Einkauf
Vertrieb
Marketing
Zentral, unternehmensweit,
einheitlich, verstehbar,
angereichert, historisch
D a t a W a r e h o u s e
4. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
DATA WAREHOUSE
Enterprise Layer User ViewIntegration
Was verdienen wir an gelben + bunten Fahrrädern?
Es geht
um
Gesamt-
Sichten
und
Einheitlich-
keit:
„Breite“
der
Daten-
modelle
Logistik
WARE
Waren_Nr
Gebinde
Gewicht
Hoehe
Laenge
Breite
Verpackung
Einkauf
ARTIKEL
Artikel_Nr
Einheit
Preis
Lieferant
Vertrieb
PRODUKT
Produkt_Nr
Einheit
Farbe
Preis
LIEFERANT
PK_Lieferanten_ID
Lieferant_Name
VERPACKUNGSART
PK_Verpackungs_ID
Hoehe
Laenge
Breite
Rabatte
Lieferanten-
Discounts
FARBE
PK_Farben_ID
Farbe
Aufschlag
Verkaufte
Artikel
Menge +
Preise
Gelagerte
Artikel,
Menge +
Größe
Verpackungen Lager
Lieferanten
Zeit
Gekaufte
Artikel,
Menge +
Preise
S_ARTIKEL
PK_Artikel_ID
Eink_Artikel_Nr
Log_Waren_Nr
Vert_Produkt_Nr
Eink_Einheit
Eink_Preis
FK_Lieferanten_ID
Gebinde
Gewicht
PK_Verpackungs_ID
Vert_Einheit
FK_Farben_ID
Vert_Preis
T_ARTIKEL
PK_Artikel_ID
Eink_Artikel_Nr
Log_Waren_Nr
Vert_Produkt_Nr
Eink_Einheit
Eink_Preis
Lieferant
Gebinde
Gewicht
Hoehe
Laenge
Breite
Verpackung
Vert_Einheit
Farbe
Vert_Preis
D_ARTIKEL_LAGER
PK_Artikel_ID
Log_Waren_Nr
Gebinde
Gewicht
Verpackung
D_ARTIKEL_VERT
PK_Artikel_ID
Vert_Produkt_Nr
Eink_Einheit
Vert_Einheit
Farben
Vert_Preis
D_ARTIKEL_EINK
PK_Artikel_ID
Eink_Artikel_Nr
Eink_Einheit
Eink_Preis
Lieferanten
Farben
4
5. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
DATA WAREHOUSE
DATA WAREHOUSE
5
Marktchancen
• Sichtbarkeit im Markt
• Reputation
• Markenwert
• Kundentreue
• Adaption von Trends
• Kunden-Typen
• Lokale Verteilungen
• Einkommensverteilung
Vergleichskennzahlen
• Ø Time_To_Market
• Ø Gewinn pro Stück
• Anteil am Markt
„Zufälle“
• Wetter / Monatskalender
• Blogs / Stimmungen
• Lokale Verkehrs-
situationen
Was kommt heute dazu?
Zur
Verfügung
stehende
Daten
Technischer
Fortschritt
Statistische
Methoden
Machine
Learning
Interne / Externe Daten
Maschinen- / Sensordaten
Social Media
Bewegungs- / Geo-Daten
Digitalisierung von allen
Lebensbereichen
Hadoop, Spark,
R, Python
In Memory
Gesunkene
Kosten für
Storage + Memory
Cloud
Data Mining
Exploratives Analysieren
Predictive Analytics
6. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
DATA WAREHOUSE
DATA WAREHOUSE
6
Marktchancen
• Sichtbarkeit im Markt
• Reputation
• Markenwert
• Kundentreue
• Adaption von Trends
• Kunden-Typen
• Lokale Verteilungen
• Einkommensverteilung
Vergleichskennzahlen
• Ø Time_To_Market
• Ø Gewinn pro Stück
• Anteil am Markt
„Zufälle“
• Wetter / Monatskalender
• Blogs / Stimmungen
• Lokale Verkehrs-
situationen
Was ist neu?
Zur
Verfügung
stehende
Daten
Technischer
Fortschritt
Statistische
Methoden
Machine
Learning
Interne / Externe Daten
Maschinen- / Sensordaten
Social Media
Bewegungs- / Geo-Daten
Digitalisierung von allen
Lebensbereichen
Hadoop, Spark,
R, Python
In Memory
Gesunkene
Kosten für
Storage + Memory
Cloud
Data Mining
Exploratives Analysieren
Predictive Analytics
7. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Restricted 7
• Schnelles Schreiben im Originalformat
• Keine Gedanken um spätere Verwendung
• Daten müssen beim Lesen interpretiert werden
• Strukturierung und Prüfung während des Schreibens
• Spätere Verwendung ist bereits vorgedacht
• Leichtes schnelles Lesen mit z. B. mit SQL
Schema on Read Schema On Write
8. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Restricted 8
DataLake
Semantische, unternehmensweite Konsolidierung
Leichter Aufbau von Referenzen und Metadaten
Entity/Relationship-Denkweise
Historisierungs-Verfahren
Analyse-unterstützende Modelle, z. B. Input-
Strukturen für Algorithmen
Leichte Verwaltung von vielen kleinen
Datenobjekten z. B. Stamm- Referenzdaten.
Vielzahl SQL-basierter Verfahren und Tools
Technisches Know how von Mitarbeitern
Schema-On-Write-Daten sind bereits strukturiert
und können direkt analysiert werden
DataWarehouse
Vielfalt von Datenformaten
Schnelligkeit bei der Bereitstellung von
Single-Daten für kompakte Anwendungen (noSQL-DB)
Kostengünstige horizontale Skalierung
Mono-former Daten
Leseperformance bei Massendaten
(> 50 - 100 TB)
Schnelligkeit bei rudimentären Daten-Sammeln
ohne Struktur- und Qualitätsvalidierung
Bewährte Verfahren erweitern…
Jedes Konzept hat seine
spezifischen Vorteile,
daher … lesen Sie weiter auf der nächsten Seite
SQL
9. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Restricted 9
DataLake
Qualität-Standards
Universelle und harmonisierte Datenmodell mit
Enterprise-Blick
Historisierung
Taktisches, strategisches Wissen
Entscheidungsunterstützend / Steuernd
Veredelungs-Funktion
DataWarehouse
Generisches Sammeln
Unbestimmte Daten, Funktion und
Verwendung noch nicht klar
Bewährte Verfahren erweitern…
Jedes Konzept hat seine
spezifischen Vorteile,
daher … lesen Sie weiter auf der nächsten Seite
Qualität nur für spontanen Bedarf
Datenmodelle für spezifische Aufgaben
10. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Restricted 10
Kauft Herr Müller ein gelbes Fahrrad?
Vorbereitung der
Daten als Werteklassen
Quelle Information Analyse Aktion
Einkommen
Wohnart
Bildung
Sportlichkeit
BMI
Terrain
Radwegenetz
Stimmung
Schnäppchenjäger
schlecht mittel gut
flach hügelig
positiv negativ
Miete Wohnung Haus
Haupt Real Gym Uni
< 20 25 > 30
ja nein
ja nein
< 10K 20K >30K
Wie
Klassifizierung
Kaufkandidat
Ja / Nein
z. B. Naive Bayes
Benötigt werden
z. B. 30 Input-
und 1 Ziel-Variable
P(A|B) =
)𝐏(𝐁|𝐀) ∗ 𝐏(𝐀
)𝐏(𝐁
oder Support
Vector Machines
Spontan
Angebot
im Shop oder
Web
Sorgfältig
und peppig
Aufgemachte
Brief-
Kampagne
Kundenkarte
Kaufhistorie
Kaufhistorie
DWH
Teilnahme an
Sportevents
Sammeln von
öffentlichen Listen
Feedbacks in
Social Media
Text-
Mining
Referenzdaten zur
Wohngegend
Öffentliche
Daten
11. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Restricted 11
Kauft Herr Müller ein gelbes Fahrrad? Wo machen wir jetzt die Analyse?
Vorbereitung der
Daten als Werteklassen
Information
Einkommen
Wohnart
Bildung
Sportlichkeit
BMI
Terrain
Radwegenetz
Stimmung
Schnäppchenjäger
schlecht mittel gut
flach hügelig
positiv negativ
Miete Wohnung Haus
Haupt Real Gym Uni
< 20 25 > 30
ja nein
ja nein
< 10K 20K >30K
Wo die
angereicherten
Kundendaten
vorhalten?
Wo die
Vorhersage-
Modell
vorhalten?
12. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 12Copyright © 2018, Oracle and/or its affiliates. All rights reserved.
Hybride Konzepte: Data Warehouse + Data Lakes
• Daten je nach Machart und
Verwendungsart speichern
• Brücken bauen
• Transparente Zugriffe
• Auch SQL als generische
weitverbreitete
Zugriffssprache
Kafka
Streaming
Data Lake
Oracle Data Warehouse
Hive
Metadata
HDFS
Big Data SQL Cells
Big Data SQL
Python GraphRnode.js JavaREST SQL
External Table
Enterprise
Data
Neue
Datenarten
Modelle
13. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 13Copyright © 2018, Oracle and/or its affiliates. All rights reserved.
Hybride Konzepte: Data Warehouse + Data Lakes
• Modelle müssen
nicht nur entwickelt,
sondern auch
angewendet
werden
• Modelle dort vorhalten,
wo operative Daten
fließen
Kafka
Streaming
Data Lake
Hive
Metadata
HDFS
Big Data SQL Cells
Big Data SQL
Python GraphRnode.js JavaREST SQL
External Table
Enterprise
Data
Neue
Datenarten
Oracle Data Warehouse
Model Store
Modelle
14. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Storage Layer
Filesystem (HDFS)
NoSQL Databases
(Oracle NoSQL DB, Hbase)
Resource Management (YARN, cgroups)
Processing Layer
Big Data
SQL
Big Data SQL: Eine neue Hadoop Processing Engine
MapReduce
and Hive
Spark Impala Search
15. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
SQL
Soll man Herrn Meier ein Sonderangebot für ein gelbes
Fahrrad machen?
15
Häufigkeit der
Positiven / negativen
Nennungen von Produkten
+ Produktbilder Oracle 12.1 /12.2
Hadoop/HDFS
Individuelle Angebotsaktionen
für Mini-Kundensegmente
Oracle noSQL
1
2
3
Modelle +
angereicherte
Stammdaten
Historien
Affinität für poppige Dinge
Kaufwahrscheinlichkeit
Lagerbestand
Eine Abfrage! 3 spezialisierte Speicher-Typen
Object Storage
16. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |Copyright © 2018, Oracle and/or its affiliates. All rights reserved.
Das Cloud-Thema
ändert die
Szenerie
17. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
DATA WAREHOUSE
17Copyright © 2018, Oracle and/or its affiliates. All rights reserved. 17
Noch ohne Cloud
Big Data Appliance Exadata
BD Data SQL
BD Data Connectors
Infiniband
Sun Oracle X6-2L Servers with
• 864 (2.1 GHz) Intel Xeon 8160
• DDR4 Memory -> 27 TB
• 2160 TB Disk space +
5,4 TB SSD
• 2x QDR 40Gb/sec InfiniBand
Integrated Software:
• Oracle Linux
• Oracle Big Data SQL
• Cloudera Distribution of
Apache Hadoop
• Cloudera Manager
• Oracle R Distribution
• Oracle NoSQL Database CE
Datenbank Server
• 864 (2.1 GHz) Intel Xeon 8160
• DDR4 Memory -> 11 TB
• 2160 TB Disk space +
5,4 TB SSD
• 2x QDR 40Gb/sec InfiniBand
Storage Server
• Bis zu 1680 TB Roh-Storage
• Bis zu 280 Cores
• Bis zu 358 TB Flash
18. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 18Copyright © 2018, Oracle and/or its affiliates. All rights reserved.
Hybride Konzepte in der Cloud:
Data Warehouse + Data Lakes
• Object-Storage
ersetzt HDFS
• Ausfallsicher
• Beliebig viel
• Extrem billig
• Entkoppelung von
Rechenpower und
Storage
• Extrem große
Memory-
Ausbauten
• Einsatz von GPUs
Kafka
Streaming
Data Lake
Hive
Metadata
HDFS
Big Data SQL Cells
Big Data SQL
Python GraphRnode.js JavaREST SQL
External Table
Enterprise
Data
Neue
Datenarten
Oracle Data Warehouse
Model Store
Modelle
Kafka
Streaming
Data Lake
Hive
Metadata
HDFS
Big Data SQL Cells
Big Data SQL
Python GraphRnode.js JavaREST SQL
External Table
Enterprise
Data
Neue
Datenarten
Oracle Data Warehouse
Model Store
Modelle
Object
Storage
19. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 19Copyright © 2018, Oracle and/or its affiliates. All rights reserved. 19
Moderne Storage/Data Lake-Konzepte, günstig + flexibel
für unterschiedliche Datenarten und Zwecke
Big Data Cloud Service
(BDCS)
Autonomous Data Warehouse Cloud
(ADWC)
Big
Data
SQL Strukturierte Unternehmensdaten
HDFS Connector External Tables
Object Storage
z. B. Bilder, Videos,
Tonaufnahmen, Texte
Archive Storage
Archivierte Massendaten
$0,0255 / GB / Monat
$25 / TB / Monat
$0,0026 / GB / Monat
$2,6 / TB / Monat
Automatische Replizierung
99,99 Verfügbarkeit
High-Performance-Storage
Security-Features /
Encryption
Self Healing
Open APIs, RESTfull
Event notification
Security-Features
Encryption
Dauerhafter Storage
Pay as you need
Parquet-Files
zus.
Compute
Service
opt.
GPU
Power
20. ETL
dump
dump
Schema on
Write
Schema on
Read
Data Lake
Objekt Storage
20
• Spezielle Datenarten
CDRs, Bondaten, Logdaten,
Click-Daten, Messwertdaten
20
H y b r i d D a t a L a k e + D a t a W a r e h o u s e
• Archive im Sinn von ILM
• Filter-Funktion für Stage
• Log-Funktion für ETL
• Lager für schwach-relevante Daten
• Operational Data Store
Funktion
• Zusätzliche Datenarten
Bilder, Filme, Texte, Sprache
Enterprise Layer
Core - DWH / Info Pool
User View
Layer
Integration Layer
(Stage) Strategische Sichten Taktische Sichten
GenETL
• Auslagern von
• Partitionen
großer
Tabellen
offload
Tr
Tr
D
D P1 D
P2
P3
P4
21. 21
• Anforderungen prüfen
• Technologie entsprechend der Anforderungen einsetzen
(und nicht Trend-gesteuert)
• „Schema on Read / Write“ im Hinterkopf haben
• Infrastruktur nicht auf eine bestimmte Technologie festlegen
• Inseln vermeiden
• Warehouse-Systeme sind und bleiben fester Bestandteil
der Informationsversorgung im Unternehmen. Sie müssen
weiterentwickelt werden.
Zusammenfassung