Data Lake Architektur: Von den Anforderungen zur Technologie

•

5 recomendaciones•3,548 vistas

Keynote auf dem BARC Big Data Forum auf der OOP 2017, München. Data Lakes bieten das Potenzial, den Zugriff auf heterogene Massendaten deutlich schneller und einfacher als relationale DWH-System zu ermöglichen. Die Risiken, die sich durch neue Technologien und den weitgehenden Verzicht auf vorab definierte Strukturen ergeben, dürfen allerdings nicht außer acht gelassen werden. Anforderungsmuster helfen, notwendige Strukturen für den Data Lake an sich und auch den Technologie-Stack zu definieren.

Datos y análisis

Prof. Dr. Jens Albrecht
jens.albrecht@th-nuernberg.de
Data Lake Architektur
Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 11
Storage
Layer
Ingestion
Layer
Serving
Layer
Referenzarchitektur für BI
End-User
Layer
Data Sources
Reporting OLAP
OLTP Systems
In-Memory
RDBMS
Data Marts
Staging Area
Enterprise
DWH

Prof. Dr. Jens Albrecht Big Data 12
Storage
Layer
Ingestion
Layer
Serving
Layer
Referenzarchitektur für BI und Big Data
End-User
Layer
Data Sources
Reporting OLAP
Operational
Analytics
Data
Discovery
Data Lake
Hadoop, NoSQL
Prediction
OLTP Systems
In-Memory
RDBMS
Data Marts
Staging Area
Enterprise
DWH
Search

Prof. Dr. Jens Albrecht Big Data 14
Enterprise Data Lake / Hub / Reservoir
Internal
Applications
External
Data Sources
0
1
0
1
0
1
0
1
0
1
0
1
0 1
Comprehensive
Data Pool
Business Analytics
Tool
Collect data as it is generated, process data when it is needed.

Prof. Dr. Jens Albrecht Big Data 15
Wozu ein Data Lake?
Daten in Originalformat
gespeichert
Datenstrukturen werden erst
definiert, wenn Daten benötigt
werden (Schema-on-Read)
Alle Daten werden gespeichert
Einfache Adaption von
Änderungen
Agile Einbindung neuer Daten
Einfacher Zugriff für alle
Benutzer

Prof. Dr. Jens Albrecht Big Data 16
>
Anforderungsmuster verstehen

Prof. Dr. Jens Albrecht Big Data 18
Nifi
Flink Storm
Samza
Apex …
Real-Time/
Stream
Kafka Spark
Fixing the Requirements: Ingestion
ForeachDataSource Data Types
(Variety)
Frequency
(Velocity)
Latency
(Batch or Stream)
Volume
Quality (Veracity)
Consistent
Timeline
CDC
Push/Pull
Hive
Sqoop Spark
…
Batch
Beam

Prof. Dr. Jens Albrecht Big Data 19
Lambda und Kappa Architektur
Streaming Data
Speed Layer
Kafka, Storm
Batch Layer
Hadoop, Spark
Serving LayerLambda
Streaming Data
Message Buffer
and Broker
Kafka
Stream
Processor
Flink, Spark
Serving Layer
Kappa
Speed Table
Batch Table

Prof. Dr. Jens Albrecht Big Data 20
Fixing the Requirements: Storage & Process
Storage 3V's
Query Patterns
Update Patterns
SQL Support
Data Linkage
Schema Evolution
Historical Queries
(as-is vs. as-was)
Security
Retention Policy
Accumulo
HBase Cassandra
Mongo
Neo4j …
NoSQL
In-Memory
SMP MPP
Open
Source
Kudu …
Relational
Parquet
Flat Files JSON
ORC
Avro …
HDFS
+
Hive/Spark
Cloud?

Prof. Dr. Jens Albrecht Big Data 21
Apache Spark – Swiss Army Knife of Big Data
☛ Agilität und Skalierbarkeit mit und ohne Hadoop
▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python)
▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung
▸ Einheitliches System für Batch- und Stream-Processing
Batch Processing
Machine Learning
Java
Python
Scala R
Data Streaming
Graph Processing
SQL
Apache Spark

Prof. Dr. Jens Albrecht Big Data 22
Fixing the Requirements: Curation & Governance
Curation Quality
Policies &
Standards
Security & Privacy
Lifecycle
Management
Lineage
Metadata
Management
Data Tagging
Data Lake
Landing
Zone
Raw Zone
Discovery
Sandbox
Curated
Zone
Work
Zone
DataInventory
Security
Sensitive
Zone
Waterline
Atlas
Cloudera
Navigator
Sentry
Ranger

Prof. Dr. Jens Albrecht Big Data 24
Anwendungsfälle
Data Lake
Hadoop, NoSQL
Enterprise
DWH
UseCases Advanced
Analytics
Self-Service
Data Discovery
Stream Processing
ETL Migration
Data Offloading
Virtual Data Hub
Kafka
Sqoop
Spark
Datasource API
SQL, R, ML, Streaming
Hive, Drill,
Impala

Prof. Dr. Jens Albrecht Big Data 25
>
Risiken verstehen

Prof. Dr. Jens Albrecht Big Data 26
Risiken
Wer billig kauft,
kauft zweimal
CC BY 2.0 Zorilla (https://www.flickr.com/photos/barry_b)

Prof. Dr. Jens Albrecht Big Data 27
Risiken
Falsches Werkzeug
für die Aufgabe
www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 28
Risiken
Unterschätzung der
technologischen
Komplexität
www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 29
Risiken
Unterschätzung des
Personalbedarfs und
-aufwands
www.pixabay.com
www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 30
Risiken
Mangelnde
Automatisierung
und Wieder-
verwendbarkeit
www.pixabay.com
www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 31
Risiken
Abhängigkeit
von der IT
www.pixabay.com
www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 32
>
Fazit

Prof. Dr. Jens Albrecht Big Data 33
Fazit
1. Data Warehouse und Data Lake ergänzen sich und werden
stärker zusammen wachsen
2. Muster für Anwendungsfälle als Voraussetzung für sorgfältige
Technologie-Auswahl
3. Komplexität kontrollieren
4. Gesundes Maß für Data Governance und Security finden
5. Ohne Mitarbeiter mit der richten Expertise geht gar nichts

Prof. Dr. Jens Albrecht Big Data 34
>
Vielen Dank
Jens.Albrecht@th-nuernberg.de

Más contenido relacionado

La actualidad más candente

Big data by Mithlesh sadhMithlesh Sadh

Big Data: Its Characteristics And Architecture CapabilitiesAshraf Uddin

Enterprise guide to building a Data MeshSion Smith

Building Modern Data Platform with Microsoft AzureDmitry Anoshin

Stl meetup cloudera platform - january 2020Adam Doyle

A tour of Amazon RedshiftKel Graham

Introduction to Big Data and hadoopSandeep Patil

Vue d'ensemble DremioModern Data Stack France

Presentation About Big Data (DBMS)SiamAhmed16

Data Platform Architecture Principles and Evaluation CriteriaScyllaDB

Introducing Databricks DeltaDatabricks

Intro to Delta LakeDatabricks

Tech Talk: RocksDB Slides by Dhruba Borthakur & Haobo Xu of FacebookThe Hive

Architecting a datalakeLaurent Leturgez

dbt Python models - GoDataFest by Guillermo SanchezGoDataDriven

MongoDB AtlasMongoDB

DW Migration Webinar-March 2022.pptxDatabricks

利用Denodo平台安全地进行数据共享Denodo

Moving to Databricks & DeltaDatabricks

Introduction to Data EngineeringVivek Aanand Ganesan

La actualidad más candente (20)

Big data by Mithlesh sadh

Big Data: Its Characteristics And Architecture Capabilities

Enterprise guide to building a Data Mesh

Building Modern Data Platform with Microsoft Azure

Stl meetup cloudera platform - january 2020

A tour of Amazon Redshift

Introduction to Big Data and hadoop

Vue d'ensemble Dremio

Presentation About Big Data (DBMS)

Data Platform Architecture Principles and Evaluation Criteria

Introducing Databricks Delta

Intro to Delta Lake

Tech Talk: RocksDB Slides by Dhruba Borthakur & Haobo Xu of Facebook

Architecting a datalake

dbt Python models - GoDataFest by Guillermo Sanchez

MongoDB Atlas

DW Migration Webinar-March 2022.pptx

利用Denodo平台安全地进行数据共享

Moving to Databricks & Delta

Introduction to Data Engineering

Similar a Data Lake Architektur: Von den Anforderungen zur Technologie

Logical Data Warehouse - SQL mit Oracle DB und HadoopOPITZ CONSULTING Deutschland

Einfuehrung in Apache SparkJens Albrecht

Warum sap hana sql data warehousingISR Information Products AG

Big Data KonnektivitätTrivadis

SAP BW/4HANA - Ein ÜberblickISR Information Products AG

Oracle Database 12c Release 2 oraclebudb

Überblick zu Oracle Database 12c Release 2Ulrike Schwinn

Dataservices - Data Processing mit MicroservicesQAware GmbH

Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?KurtStockinger

SAP BW im UmbruchISR Information Products AG

Analytic powerhouse parallel data warehouse und rMarcel Franke

Text Mining mit Python und PowerBIJens Albrecht

Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Harald Erb

Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Cloudera, Inc.

Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS SummitAWS Germany

Rbu amanox big_data_intro_infrastrukturRene Burgener

Analytics meets Big Data – R/Python auf der Hadoop/Spark-PlattformRising Media Ltd.

Geänderte Anforderungen an eine Data-Warehouse-LandschaftISR Information Products AG

Oracle Technology Monthly Oktober 2017oraclebudb

Big Data Discovery + Analytics = Datengetriebene Innovation!Harald Erb

Similar a Data Lake Architektur: Von den Anforderungen zur Technologie (20)

Logical Data Warehouse - SQL mit Oracle DB und Hadoop

Einfuehrung in Apache Spark

Warum sap hana sql data warehousing

Big Data Konnektivität

SAP BW/4HANA - Ein Überblick

Oracle Database 12c Release 2

Überblick zu Oracle Database 12c Release 2

Dataservices - Data Processing mit Microservices

Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?

SAP BW im Umbruch

Analytic powerhouse parallel data warehouse und r

Text Mining mit Python und PowerBI

Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...

Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...

Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS Summit

Rbu amanox big_data_intro_infrastruktur

Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform

Geänderte Anforderungen an eine Data-Warehouse-Landschaft

Oracle Technology Monthly Oktober 2017

Big Data Discovery + Analytics = Datengetriebene Innovation!

Data Lake Architektur: Von den Anforderungen zur Technologie

1. Prof. Dr. Jens Albrecht jens.albrecht@th-nuernberg.de Data Lake Architektur Von den Anforderungen zur Technologie

2. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com

3. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com

4. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com

5. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com

6. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com

7. Prof. Dr. Jens Albrecht Big Data 11 Storage Layer Ingestion Layer Serving Layer Referenzarchitektur für BI End-User Layer Data Sources Reporting OLAP OLTP Systems In-Memory RDBMS Data Marts Staging Area Enterprise DWH

8. Prof. Dr. Jens Albrecht Big Data 12 Storage Layer Ingestion Layer Serving Layer Referenzarchitektur für BI und Big Data End-User Layer Data Sources Reporting OLAP Operational Analytics Data Discovery Data Lake Hadoop, NoSQL Prediction OLTP Systems In-Memory RDBMS Data Marts Staging Area Enterprise DWH Search

9. Prof. Dr. Jens Albrecht Big Data 14 Enterprise Data Lake / Hub / Reservoir Internal Applications External Data Sources 0 1 0 1 0 1 0 1 0 1 0 1 0 1 Comprehensive Data Pool Business Analytics Tool Collect data as it is generated, process data when it is needed.

10. Prof. Dr. Jens Albrecht Big Data 15 Wozu ein Data Lake? Daten in Originalformat gespeichert Datenstrukturen werden erst definiert, wenn Daten benötigt werden (Schema-on-Read) Alle Daten werden gespeichert Einfache Adaption von Änderungen Agile Einbindung neuer Daten Einfacher Zugriff für alle Benutzer

11. Prof. Dr. Jens Albrecht Big Data 16 > Anforderungsmuster verstehen

12. Prof. Dr. Jens Albrecht Big Data 18 Nifi Flink Storm Samza Apex … Real-Time/ Stream Kafka Spark Fixing the Requirements: Ingestion ForeachDataSource Data Types (Variety) Frequency (Velocity) Latency (Batch or Stream) Volume Quality (Veracity) Consistent Timeline CDC Push/Pull Hive Sqoop Spark … Batch Beam

13. Prof. Dr. Jens Albrecht Big Data 19 Lambda und Kappa Architektur Streaming Data Speed Layer Kafka, Storm Batch Layer Hadoop, Spark Serving LayerLambda Streaming Data Message Buffer and Broker Kafka Stream Processor Flink, Spark Serving Layer Kappa Speed Table Batch Table

14. Prof. Dr. Jens Albrecht Big Data 20 Fixing the Requirements: Storage & Process Storage 3V's Query Patterns Update Patterns SQL Support Data Linkage Schema Evolution Historical Queries (as-is vs. as-was) Security Retention Policy Accumulo HBase Cassandra Mongo Neo4j … NoSQL In-Memory SMP MPP Open Source Kudu … Relational Parquet Flat Files JSON ORC Avro … HDFS + Hive/Spark Cloud?

15. Prof. Dr. Jens Albrecht Big Data 21 Apache Spark – Swiss Army Knife of Big Data ☛ Agilität und Skalierbarkeit mit und ohne Hadoop ▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python) ▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung ▸ Einheitliches System für Batch- und Stream-Processing Batch Processing Machine Learning Java Python Scala R Data Streaming Graph Processing SQL Apache Spark

16. Prof. Dr. Jens Albrecht Big Data 22 Fixing the Requirements: Curation & Governance Curation Quality Policies & Standards Security & Privacy Lifecycle Management Lineage Metadata Management Data Tagging Data Lake Landing Zone Raw Zone Discovery Sandbox Curated Zone Work Zone DataInventory Security Sensitive Zone Waterline Atlas Cloudera Navigator Sentry Ranger

17. Prof. Dr. Jens Albrecht Big Data 24 Anwendungsfälle Data Lake Hadoop, NoSQL Enterprise DWH UseCases Advanced Analytics Self-Service Data Discovery Stream Processing ETL Migration Data Offloading Virtual Data Hub Kafka Sqoop Spark Datasource API SQL, R, ML, Streaming Hive, Drill, Impala

18. Prof. Dr. Jens Albrecht Big Data 25 > Risiken verstehen

19. Prof. Dr. Jens Albrecht Big Data 26 Risiken Wer billig kauft, kauft zweimal CC BY 2.0 Zorilla (https://www.flickr.com/photos/barry_b)

20. Prof. Dr. Jens Albrecht Big Data 27 Risiken Falsches Werkzeug für die Aufgabe www.pixabay.com

21. Prof. Dr. Jens Albrecht Big Data 28 Risiken Unterschätzung der technologischen Komplexität www.pixabay.com

22. Prof. Dr. Jens Albrecht Big Data 29 Risiken Unterschätzung des Personalbedarfs und -aufwands www.pixabay.com www.pixabay.com

23. Prof. Dr. Jens Albrecht Big Data 30 Risiken Mangelnde Automatisierung und Wieder- verwendbarkeit www.pixabay.com www.pixabay.com

24. Prof. Dr. Jens Albrecht Big Data 31 Risiken Abhängigkeit von der IT www.pixabay.com www.pixabay.com

25. Prof. Dr. Jens Albrecht Big Data 32 > Fazit

26. Prof. Dr. Jens Albrecht Big Data 33 Fazit 1. Data Warehouse und Data Lake ergänzen sich und werden stärker zusammen wachsen 2. Muster für Anwendungsfälle als Voraussetzung für sorgfältige Technologie-Auswahl 3. Komplexität kontrollieren 4. Gesundes Maß für Data Governance und Security finden 5. Ohne Mitarbeiter mit der richten Expertise geht gar nichts

27. Prof. Dr. Jens Albrecht Big Data 34 > Vielen Dank Jens.Albrecht@th-nuernberg.de

Data Lake Architektur: Von den Anforderungen zur Technologie

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Data Lake Architektur: Von den Anforderungen zur Technologie

Similar a Data Lake Architektur: Von den Anforderungen zur Technologie (20)

Data Lake Architektur: Von den Anforderungen zur Technologie