SlideShare una empresa de Scribd logo
1 de 27
Descargar para leer sin conexión
Prof. Dr. Jens Albrecht
jens.albrecht@th-nuernberg.de
Data Lake Architektur
Von den Anforderungen zur Technologie
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 11
Storage
Layer
Ingestion
Layer
Serving
Layer
Referenzarchitektur für BI
End-User
Layer
Data Sources
Reporting OLAP
OLTP Systems
In-Memory
RDBMS
Data Marts
Staging Area
Enterprise
DWH
Prof. Dr. Jens Albrecht Big Data 12
Storage
Layer
Ingestion
Layer
Serving
Layer
Referenzarchitektur für BI und Big Data
End-User
Layer
Data Sources
Reporting OLAP
Operational
Analytics
Data
Discovery
Data Lake
Hadoop, NoSQL
Prediction
OLTP Systems
In-Memory
RDBMS
Data Marts
Staging Area
Enterprise
DWH
Search
Prof. Dr. Jens Albrecht Big Data 14
Enterprise Data Lake / Hub / Reservoir
Internal
Applications
External
Data Sources
0
1
0
1
0
1
0
1
0
1
0
1
0 1
Comprehensive
Data Pool
Business Analytics
Tool
Collect data as it is generated, process data when it is needed.
Prof. Dr. Jens Albrecht Big Data 15
Wozu ein Data Lake?
Daten in Originalformat
gespeichert
Datenstrukturen werden erst
definiert, wenn Daten benötigt
werden (Schema-on-Read)
Alle Daten werden gespeichert
Einfache Adaption von
Änderungen
Agile Einbindung neuer Daten
Einfacher Zugriff für alle
Benutzer
Prof. Dr. Jens Albrecht Big Data 16
>
Anforderungsmuster verstehen
Prof. Dr. Jens Albrecht Big Data 18
Nifi
Flink Storm
Samza
Apex …
Real-Time/
Stream
Kafka Spark
Fixing the Requirements: Ingestion
ForeachDataSource Data Types
(Variety)
Frequency
(Velocity)
Latency
(Batch or Stream)
Volume
Quality (Veracity)
Consistent
Timeline
CDC
Push/Pull
Hive
Sqoop Spark
…
Batch
Beam
Prof. Dr. Jens Albrecht Big Data 19
Lambda und Kappa Architektur
Streaming Data
Speed Layer
Kafka, Storm
Batch Layer
Hadoop, Spark
Serving LayerLambda
Streaming Data
Message Buffer
and Broker
Kafka
Stream
Processor
Flink, Spark
Serving Layer
Kappa
Speed Table
Batch Table
Prof. Dr. Jens Albrecht Big Data 20
Fixing the Requirements: Storage & Process
Storage 3V's
Query Patterns
Update Patterns
SQL Support
Data Linkage
Schema Evolution
Historical Queries
(as-is vs. as-was)
Security
Retention Policy
Accumulo
HBase Cassandra
Mongo
Neo4j …
NoSQL
In-Memory
SMP MPP
Open
Source
Kudu …
Relational
Parquet
Flat Files JSON
ORC
Avro …
HDFS
+
Hive/Spark
Cloud?
Prof. Dr. Jens Albrecht Big Data 21
Apache Spark – Swiss Army Knife of Big Data
☛ Agilität und Skalierbarkeit mit und ohne Hadoop
▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python)
▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung
▸ Einheitliches System für Batch- und Stream-Processing
Batch Processing
Machine Learning
Java
Python
Scala R
Data Streaming
Graph Processing
SQL
Apache Spark
Prof. Dr. Jens Albrecht Big Data 22
Fixing the Requirements: Curation & Governance
Curation Quality
Policies &
Standards
Security & Privacy
Lifecycle
Management
Lineage
Metadata
Management
Data Tagging
Data Lake
Landing
Zone
Raw Zone
Discovery
Sandbox
Curated
Zone
Work
Zone
DataInventory
Security
Sensitive
Zone
Waterline
Atlas
Cloudera
Navigator
Sentry
Ranger
Prof. Dr. Jens Albrecht Big Data 24
Anwendungsfälle
Data Lake
Hadoop, NoSQL
Enterprise
DWH
UseCases Advanced
Analytics
Self-Service
Data Discovery
Stream Processing
ETL Migration
Data Offloading
Virtual Data Hub
Kafka
Sqoop
Spark
Datasource API
SQL, R, ML, Streaming
Hive, Drill,
Impala
Prof. Dr. Jens Albrecht Big Data 25
>
Risiken verstehen
Prof. Dr. Jens Albrecht Big Data 26
Risiken
Wer billig kauft,
kauft zweimal
CC BY 2.0 Zorilla (https://www.flickr.com/photos/barry_b)
Prof. Dr. Jens Albrecht Big Data 27
Risiken
Falsches Werkzeug
für die Aufgabe
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 28
Risiken
Unterschätzung der
technologischen
Komplexität
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 29
Risiken
Unterschätzung des
Personalbedarfs und
-aufwands
www.pixabay.com
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 30
Risiken
Mangelnde
Automatisierung
und Wieder-
verwendbarkeit
www.pixabay.com
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 31
Risiken
Abhängigkeit
von der IT
www.pixabay.com
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 32
>
Fazit
Prof. Dr. Jens Albrecht Big Data 33
Fazit
1. Data Warehouse und Data Lake ergänzen sich und werden
stärker zusammen wachsen
2. Muster für Anwendungsfälle als Voraussetzung für sorgfältige
Technologie-Auswahl
3. Komplexität kontrollieren
4. Gesundes Maß für Data Governance und Security finden
5. Ohne Mitarbeiter mit der richten Expertise geht gar nichts
Prof. Dr. Jens Albrecht Big Data 34
>
Vielen Dank
Jens.Albrecht@th-nuernberg.de

Más contenido relacionado

La actualidad más candente

Big data by Mithlesh sadh
Big data by Mithlesh sadhBig data by Mithlesh sadh
Big data by Mithlesh sadhMithlesh Sadh
 
Big Data: Its Characteristics And Architecture Capabilities
Big Data: Its Characteristics And Architecture CapabilitiesBig Data: Its Characteristics And Architecture Capabilities
Big Data: Its Characteristics And Architecture CapabilitiesAshraf Uddin
 
Enterprise guide to building a Data Mesh
Enterprise guide to building a Data MeshEnterprise guide to building a Data Mesh
Enterprise guide to building a Data MeshSion Smith
 
Building Modern Data Platform with Microsoft Azure
Building Modern Data Platform with Microsoft AzureBuilding Modern Data Platform with Microsoft Azure
Building Modern Data Platform with Microsoft AzureDmitry Anoshin
 
Stl meetup cloudera platform - january 2020
Stl meetup   cloudera platform  - january 2020Stl meetup   cloudera platform  - january 2020
Stl meetup cloudera platform - january 2020Adam Doyle
 
A tour of Amazon Redshift
A tour of Amazon RedshiftA tour of Amazon Redshift
A tour of Amazon RedshiftKel Graham
 
Introduction to Big Data and hadoop
Introduction to Big Data and hadoopIntroduction to Big Data and hadoop
Introduction to Big Data and hadoopSandeep Patil
 
Presentation About Big Data (DBMS)
Presentation About Big Data (DBMS)Presentation About Big Data (DBMS)
Presentation About Big Data (DBMS)SiamAhmed16
 
Data Platform Architecture Principles and Evaluation Criteria
Data Platform Architecture Principles and Evaluation CriteriaData Platform Architecture Principles and Evaluation Criteria
Data Platform Architecture Principles and Evaluation CriteriaScyllaDB
 
Introducing Databricks Delta
Introducing Databricks DeltaIntroducing Databricks Delta
Introducing Databricks DeltaDatabricks
 
Intro to Delta Lake
Intro to Delta LakeIntro to Delta Lake
Intro to Delta LakeDatabricks
 
Tech Talk: RocksDB Slides by Dhruba Borthakur & Haobo Xu of Facebook
Tech Talk: RocksDB Slides by Dhruba Borthakur & Haobo Xu of FacebookTech Talk: RocksDB Slides by Dhruba Borthakur & Haobo Xu of Facebook
Tech Talk: RocksDB Slides by Dhruba Borthakur & Haobo Xu of FacebookThe Hive
 
dbt Python models - GoDataFest by Guillermo Sanchez
dbt Python models - GoDataFest by Guillermo Sanchezdbt Python models - GoDataFest by Guillermo Sanchez
dbt Python models - GoDataFest by Guillermo SanchezGoDataDriven
 
MongoDB Atlas
MongoDB AtlasMongoDB Atlas
MongoDB AtlasMongoDB
 
DW Migration Webinar-March 2022.pptx
DW Migration Webinar-March 2022.pptxDW Migration Webinar-March 2022.pptx
DW Migration Webinar-March 2022.pptxDatabricks
 
利用Denodo平台安全地进行数据共享
利用Denodo平台安全地进行数据共享利用Denodo平台安全地进行数据共享
利用Denodo平台安全地进行数据共享Denodo
 
Moving to Databricks & Delta
Moving to Databricks & DeltaMoving to Databricks & Delta
Moving to Databricks & DeltaDatabricks
 

La actualidad más candente (20)

Big data by Mithlesh sadh
Big data by Mithlesh sadhBig data by Mithlesh sadh
Big data by Mithlesh sadh
 
Big Data: Its Characteristics And Architecture Capabilities
Big Data: Its Characteristics And Architecture CapabilitiesBig Data: Its Characteristics And Architecture Capabilities
Big Data: Its Characteristics And Architecture Capabilities
 
Enterprise guide to building a Data Mesh
Enterprise guide to building a Data MeshEnterprise guide to building a Data Mesh
Enterprise guide to building a Data Mesh
 
Building Modern Data Platform with Microsoft Azure
Building Modern Data Platform with Microsoft AzureBuilding Modern Data Platform with Microsoft Azure
Building Modern Data Platform with Microsoft Azure
 
Stl meetup cloudera platform - january 2020
Stl meetup   cloudera platform  - january 2020Stl meetup   cloudera platform  - january 2020
Stl meetup cloudera platform - january 2020
 
A tour of Amazon Redshift
A tour of Amazon RedshiftA tour of Amazon Redshift
A tour of Amazon Redshift
 
Introduction to Big Data and hadoop
Introduction to Big Data and hadoopIntroduction to Big Data and hadoop
Introduction to Big Data and hadoop
 
Vue d'ensemble Dremio
Vue d'ensemble DremioVue d'ensemble Dremio
Vue d'ensemble Dremio
 
Presentation About Big Data (DBMS)
Presentation About Big Data (DBMS)Presentation About Big Data (DBMS)
Presentation About Big Data (DBMS)
 
Data Platform Architecture Principles and Evaluation Criteria
Data Platform Architecture Principles and Evaluation CriteriaData Platform Architecture Principles and Evaluation Criteria
Data Platform Architecture Principles and Evaluation Criteria
 
Introducing Databricks Delta
Introducing Databricks DeltaIntroducing Databricks Delta
Introducing Databricks Delta
 
Intro to Delta Lake
Intro to Delta LakeIntro to Delta Lake
Intro to Delta Lake
 
Tech Talk: RocksDB Slides by Dhruba Borthakur & Haobo Xu of Facebook
Tech Talk: RocksDB Slides by Dhruba Borthakur & Haobo Xu of FacebookTech Talk: RocksDB Slides by Dhruba Borthakur & Haobo Xu of Facebook
Tech Talk: RocksDB Slides by Dhruba Borthakur & Haobo Xu of Facebook
 
Architecting a datalake
Architecting a datalakeArchitecting a datalake
Architecting a datalake
 
dbt Python models - GoDataFest by Guillermo Sanchez
dbt Python models - GoDataFest by Guillermo Sanchezdbt Python models - GoDataFest by Guillermo Sanchez
dbt Python models - GoDataFest by Guillermo Sanchez
 
MongoDB Atlas
MongoDB AtlasMongoDB Atlas
MongoDB Atlas
 
DW Migration Webinar-March 2022.pptx
DW Migration Webinar-March 2022.pptxDW Migration Webinar-March 2022.pptx
DW Migration Webinar-March 2022.pptx
 
利用Denodo平台安全地进行数据共享
利用Denodo平台安全地进行数据共享利用Denodo平台安全地进行数据共享
利用Denodo平台安全地进行数据共享
 
Moving to Databricks & Delta
Moving to Databricks & DeltaMoving to Databricks & Delta
Moving to Databricks & Delta
 
Introduction to Data Engineering
Introduction to Data EngineeringIntroduction to Data Engineering
Introduction to Data Engineering
 

Similar a Data Lake Architektur: Von den Anforderungen zur Technologie

Logical Data Warehouse - SQL mit Oracle DB und Hadoop
Logical Data Warehouse - SQL mit Oracle DB und HadoopLogical Data Warehouse - SQL mit Oracle DB und Hadoop
Logical Data Warehouse - SQL mit Oracle DB und HadoopOPITZ CONSULTING Deutschland
 
Einfuehrung in Apache Spark
Einfuehrung in Apache SparkEinfuehrung in Apache Spark
Einfuehrung in Apache SparkJens Albrecht
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data KonnektivitätTrivadis
 
Oracle Database 12c Release 2
Oracle Database 12c Release 2 Oracle Database 12c Release 2
Oracle Database 12c Release 2 oraclebudb
 
Überblick zu Oracle Database 12c Release 2
Überblick zu Oracle Database 12c Release 2Überblick zu Oracle Database 12c Release 2
Überblick zu Oracle Database 12c Release 2Ulrike Schwinn
 
Dataservices - Data Processing mit Microservices
Dataservices - Data Processing mit MicroservicesDataservices - Data Processing mit Microservices
Dataservices - Data Processing mit MicroservicesQAware GmbH
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?KurtStockinger
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rMarcel Franke
 
Text Mining mit Python und PowerBI
Text Mining mit Python und PowerBIText Mining mit Python und PowerBI
Text Mining mit Python und PowerBIJens Albrecht
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Harald Erb
 
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Cloudera, Inc.
 
Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS Summit
Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS SummitEchtzeitanwendungen aus der Cloud - Partnervortrag vom AWS Summit
Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS SummitAWS Germany
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRene Burgener
 
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-PlattformAnalytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-PlattformRising Media Ltd.
 
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftGeänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftISR Information Products AG
 
Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017oraclebudb
 
Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Harald Erb
 

Similar a Data Lake Architektur: Von den Anforderungen zur Technologie (20)

Logical Data Warehouse - SQL mit Oracle DB und Hadoop
Logical Data Warehouse - SQL mit Oracle DB und HadoopLogical Data Warehouse - SQL mit Oracle DB und Hadoop
Logical Data Warehouse - SQL mit Oracle DB und Hadoop
 
Einfuehrung in Apache Spark
Einfuehrung in Apache SparkEinfuehrung in Apache Spark
Einfuehrung in Apache Spark
 
Warum sap hana sql data warehousing
Warum sap hana sql data warehousingWarum sap hana sql data warehousing
Warum sap hana sql data warehousing
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
SAP BW/4HANA - Ein Überblick
SAP BW/4HANA - Ein ÜberblickSAP BW/4HANA - Ein Überblick
SAP BW/4HANA - Ein Überblick
 
Oracle Database 12c Release 2
Oracle Database 12c Release 2 Oracle Database 12c Release 2
Oracle Database 12c Release 2
 
Überblick zu Oracle Database 12c Release 2
Überblick zu Oracle Database 12c Release 2Überblick zu Oracle Database 12c Release 2
Überblick zu Oracle Database 12c Release 2
 
Dataservices - Data Processing mit Microservices
Dataservices - Data Processing mit MicroservicesDataservices - Data Processing mit Microservices
Dataservices - Data Processing mit Microservices
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
 
SAP BW im Umbruch
SAP BW im UmbruchSAP BW im Umbruch
SAP BW im Umbruch
 
Analytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und rAnalytic powerhouse parallel data warehouse und r
Analytic powerhouse parallel data warehouse und r
 
Text Mining mit Python und PowerBI
Text Mining mit Python und PowerBIText Mining mit Python und PowerBI
Text Mining mit Python und PowerBI
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
 
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
 
Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS Summit
Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS SummitEchtzeitanwendungen aus der Cloud - Partnervortrag vom AWS Summit
Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS Summit
 
Rbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastrukturRbu amanox big_data_intro_infrastruktur
Rbu amanox big_data_intro_infrastruktur
 
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-PlattformAnalytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
 
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-LandschaftGeänderte Anforderungen an eine Data-Warehouse-Landschaft
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
 
Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017Oracle Technology Monthly Oktober 2017
Oracle Technology Monthly Oktober 2017
 
Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!Big Data Discovery + Analytics = Datengetriebene Innovation!
Big Data Discovery + Analytics = Datengetriebene Innovation!
 

Data Lake Architektur: Von den Anforderungen zur Technologie

  • 1. Prof. Dr. Jens Albrecht jens.albrecht@th-nuernberg.de Data Lake Architektur Von den Anforderungen zur Technologie
  • 2. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com
  • 3. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com
  • 4. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com
  • 5. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com
  • 6. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com
  • 7. Prof. Dr. Jens Albrecht Big Data 11 Storage Layer Ingestion Layer Serving Layer Referenzarchitektur für BI End-User Layer Data Sources Reporting OLAP OLTP Systems In-Memory RDBMS Data Marts Staging Area Enterprise DWH
  • 8. Prof. Dr. Jens Albrecht Big Data 12 Storage Layer Ingestion Layer Serving Layer Referenzarchitektur für BI und Big Data End-User Layer Data Sources Reporting OLAP Operational Analytics Data Discovery Data Lake Hadoop, NoSQL Prediction OLTP Systems In-Memory RDBMS Data Marts Staging Area Enterprise DWH Search
  • 9. Prof. Dr. Jens Albrecht Big Data 14 Enterprise Data Lake / Hub / Reservoir Internal Applications External Data Sources 0 1 0 1 0 1 0 1 0 1 0 1 0 1 Comprehensive Data Pool Business Analytics Tool Collect data as it is generated, process data when it is needed.
  • 10. Prof. Dr. Jens Albrecht Big Data 15 Wozu ein Data Lake? Daten in Originalformat gespeichert Datenstrukturen werden erst definiert, wenn Daten benötigt werden (Schema-on-Read) Alle Daten werden gespeichert Einfache Adaption von Änderungen Agile Einbindung neuer Daten Einfacher Zugriff für alle Benutzer
  • 11. Prof. Dr. Jens Albrecht Big Data 16 > Anforderungsmuster verstehen
  • 12. Prof. Dr. Jens Albrecht Big Data 18 Nifi Flink Storm Samza Apex … Real-Time/ Stream Kafka Spark Fixing the Requirements: Ingestion ForeachDataSource Data Types (Variety) Frequency (Velocity) Latency (Batch or Stream) Volume Quality (Veracity) Consistent Timeline CDC Push/Pull Hive Sqoop Spark … Batch Beam
  • 13. Prof. Dr. Jens Albrecht Big Data 19 Lambda und Kappa Architektur Streaming Data Speed Layer Kafka, Storm Batch Layer Hadoop, Spark Serving LayerLambda Streaming Data Message Buffer and Broker Kafka Stream Processor Flink, Spark Serving Layer Kappa Speed Table Batch Table
  • 14. Prof. Dr. Jens Albrecht Big Data 20 Fixing the Requirements: Storage & Process Storage 3V's Query Patterns Update Patterns SQL Support Data Linkage Schema Evolution Historical Queries (as-is vs. as-was) Security Retention Policy Accumulo HBase Cassandra Mongo Neo4j … NoSQL In-Memory SMP MPP Open Source Kudu … Relational Parquet Flat Files JSON ORC Avro … HDFS + Hive/Spark Cloud?
  • 15. Prof. Dr. Jens Albrecht Big Data 21 Apache Spark – Swiss Army Knife of Big Data ☛ Agilität und Skalierbarkeit mit und ohne Hadoop ▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python) ▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung ▸ Einheitliches System für Batch- und Stream-Processing Batch Processing Machine Learning Java Python Scala R Data Streaming Graph Processing SQL Apache Spark
  • 16. Prof. Dr. Jens Albrecht Big Data 22 Fixing the Requirements: Curation & Governance Curation Quality Policies & Standards Security & Privacy Lifecycle Management Lineage Metadata Management Data Tagging Data Lake Landing Zone Raw Zone Discovery Sandbox Curated Zone Work Zone DataInventory Security Sensitive Zone Waterline Atlas Cloudera Navigator Sentry Ranger
  • 17. Prof. Dr. Jens Albrecht Big Data 24 Anwendungsfälle Data Lake Hadoop, NoSQL Enterprise DWH UseCases Advanced Analytics Self-Service Data Discovery Stream Processing ETL Migration Data Offloading Virtual Data Hub Kafka Sqoop Spark Datasource API SQL, R, ML, Streaming Hive, Drill, Impala
  • 18. Prof. Dr. Jens Albrecht Big Data 25 > Risiken verstehen
  • 19. Prof. Dr. Jens Albrecht Big Data 26 Risiken Wer billig kauft, kauft zweimal CC BY 2.0 Zorilla (https://www.flickr.com/photos/barry_b)
  • 20. Prof. Dr. Jens Albrecht Big Data 27 Risiken Falsches Werkzeug für die Aufgabe www.pixabay.com
  • 21. Prof. Dr. Jens Albrecht Big Data 28 Risiken Unterschätzung der technologischen Komplexität www.pixabay.com
  • 22. Prof. Dr. Jens Albrecht Big Data 29 Risiken Unterschätzung des Personalbedarfs und -aufwands www.pixabay.com www.pixabay.com
  • 23. Prof. Dr. Jens Albrecht Big Data 30 Risiken Mangelnde Automatisierung und Wieder- verwendbarkeit www.pixabay.com www.pixabay.com
  • 24. Prof. Dr. Jens Albrecht Big Data 31 Risiken Abhängigkeit von der IT www.pixabay.com www.pixabay.com
  • 25. Prof. Dr. Jens Albrecht Big Data 32 > Fazit
  • 26. Prof. Dr. Jens Albrecht Big Data 33 Fazit 1. Data Warehouse und Data Lake ergänzen sich und werden stärker zusammen wachsen 2. Muster für Anwendungsfälle als Voraussetzung für sorgfältige Technologie-Auswahl 3. Komplexität kontrollieren 4. Gesundes Maß für Data Governance und Security finden 5. Ohne Mitarbeiter mit der richten Expertise geht gar nichts
  • 27. Prof. Dr. Jens Albrecht Big Data 34 > Vielen Dank Jens.Albrecht@th-nuernberg.de