Keynote auf dem BARC Big Data Forum auf der OOP 2017, München.
Data Lakes bieten das Potenzial, den Zugriff auf heterogene Massendaten deutlich schneller und einfacher als relationale DWH-System zu ermöglichen. Die Risiken, die sich durch neue Technologien und den weitgehenden Verzicht auf vorab definierte Strukturen ergeben, dürfen allerdings nicht außer acht gelassen werden. Anforderungsmuster helfen, notwendige Strukturen für den Data Lake an sich und auch den Technologie-Stack zu definieren.
7. Prof. Dr. Jens Albrecht Big Data 11
Storage
Layer
Ingestion
Layer
Serving
Layer
Referenzarchitektur für BI
End-User
Layer
Data Sources
Reporting OLAP
OLTP Systems
In-Memory
RDBMS
Data Marts
Staging Area
Enterprise
DWH
8. Prof. Dr. Jens Albrecht Big Data 12
Storage
Layer
Ingestion
Layer
Serving
Layer
Referenzarchitektur für BI und Big Data
End-User
Layer
Data Sources
Reporting OLAP
Operational
Analytics
Data
Discovery
Data Lake
Hadoop, NoSQL
Prediction
OLTP Systems
In-Memory
RDBMS
Data Marts
Staging Area
Enterprise
DWH
Search
9. Prof. Dr. Jens Albrecht Big Data 14
Enterprise Data Lake / Hub / Reservoir
Internal
Applications
External
Data Sources
0
1
0
1
0
1
0
1
0
1
0
1
0 1
Comprehensive
Data Pool
Business Analytics
Tool
Collect data as it is generated, process data when it is needed.
10. Prof. Dr. Jens Albrecht Big Data 15
Wozu ein Data Lake?
Daten in Originalformat
gespeichert
Datenstrukturen werden erst
definiert, wenn Daten benötigt
werden (Schema-on-Read)
Alle Daten werden gespeichert
Einfache Adaption von
Änderungen
Agile Einbindung neuer Daten
Einfacher Zugriff für alle
Benutzer
11. Prof. Dr. Jens Albrecht Big Data 16
>
Anforderungsmuster verstehen
12. Prof. Dr. Jens Albrecht Big Data 18
Nifi
Flink Storm
Samza
Apex …
Real-Time/
Stream
Kafka Spark
Fixing the Requirements: Ingestion
ForeachDataSource Data Types
(Variety)
Frequency
(Velocity)
Latency
(Batch or Stream)
Volume
Quality (Veracity)
Consistent
Timeline
CDC
Push/Pull
Hive
Sqoop Spark
…
Batch
Beam
13. Prof. Dr. Jens Albrecht Big Data 19
Lambda und Kappa Architektur
Streaming Data
Speed Layer
Kafka, Storm
Batch Layer
Hadoop, Spark
Serving LayerLambda
Streaming Data
Message Buffer
and Broker
Kafka
Stream
Processor
Flink, Spark
Serving Layer
Kappa
Speed Table
Batch Table
14. Prof. Dr. Jens Albrecht Big Data 20
Fixing the Requirements: Storage & Process
Storage 3V's
Query Patterns
Update Patterns
SQL Support
Data Linkage
Schema Evolution
Historical Queries
(as-is vs. as-was)
Security
Retention Policy
Accumulo
HBase Cassandra
Mongo
Neo4j …
NoSQL
In-Memory
SMP MPP
Open
Source
Kudu …
Relational
Parquet
Flat Files JSON
ORC
Avro …
HDFS
+
Hive/Spark
Cloud?
15. Prof. Dr. Jens Albrecht Big Data 21
Apache Spark – Swiss Army Knife of Big Data
☛ Agilität und Skalierbarkeit mit und ohne Hadoop
▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python)
▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung
▸ Einheitliches System für Batch- und Stream-Processing
Batch Processing
Machine Learning
Java
Python
Scala R
Data Streaming
Graph Processing
SQL
Apache Spark
16. Prof. Dr. Jens Albrecht Big Data 22
Fixing the Requirements: Curation & Governance
Curation Quality
Policies &
Standards
Security & Privacy
Lifecycle
Management
Lineage
Metadata
Management
Data Tagging
Data Lake
Landing
Zone
Raw Zone
Discovery
Sandbox
Curated
Zone
Work
Zone
DataInventory
Security
Sensitive
Zone
Waterline
Atlas
Cloudera
Navigator
Sentry
Ranger
17. Prof. Dr. Jens Albrecht Big Data 24
Anwendungsfälle
Data Lake
Hadoop, NoSQL
Enterprise
DWH
UseCases Advanced
Analytics
Self-Service
Data Discovery
Stream Processing
ETL Migration
Data Offloading
Virtual Data Hub
Kafka
Sqoop
Spark
Datasource API
SQL, R, ML, Streaming
Hive, Drill,
Impala
26. Prof. Dr. Jens Albrecht Big Data 33
Fazit
1. Data Warehouse und Data Lake ergänzen sich und werden
stärker zusammen wachsen
2. Muster für Anwendungsfälle als Voraussetzung für sorgfältige
Technologie-Auswahl
3. Komplexität kontrollieren
4. Gesundes Maß für Data Governance und Security finden
5. Ohne Mitarbeiter mit der richten Expertise geht gar nichts
27. Prof. Dr. Jens Albrecht Big Data 34
>
Vielen Dank
Jens.Albrecht@th-nuernberg.de