SlideShare una empresa de Scribd logo
1 de 17
Microsoft HDInsight
WA S IST MICR O S O F T HD I NS I G HT

Sascha Dittmann
Blog: http://www.sascha-dittmann.de
Twitter: @SaschaDittmann
Was ist Big Data
Die 3 V‘s
• Variety (Vielfalt)
• Relational, XML, Video, Text, ...

• Velocity (Geschwindigkeit)

Variety

• Batch, Intervall, Echtzeit, ...

• Volume (Menge)
• KB, MB, GB, TB, EB, PB, ZB, YB, ...
Velocity

Volume
Weltweites Datenvolumen
• 2005: 130 Exabyte (1018)
• 2010: 1,2 Zettabyte (1021)
• 2012: 2.8 Zettabyte (1021)
• 2020: 40 Zettabyte (1021)

Quelle: IDC – The Digital Universe in 2020, gesponsert von EMC, Dezember 2012
http://www.emc.com/collateral/analyst-reports/idc-the-digital-universe-in-2020.pdf
Facebook
New Yorker Börse
Large Hadron Collider (CERN Schweiz)
Big Data Szenarien

Churn
analysis

Fraud
detection

Life sciences
research

Legal
discovery

Social network
analysis

Traffic flow
optimization

Natural resource
exploration

IT infrastructure
optimization

Weather
forecasting

Healthcare
outcomes

Advertising
analysis

Equipment
monitoring

Web app
optimization

Smart meter
monitoring
Auswertbare Daten

Quelle: IDC – The Digital Universe in 2020, gesponsert von EMC, Dezember 2012
http://www.emc.com/collateral/analyst-reports/idc-the-digital-universe-in-2020.pdf
Was ist Hadoop / HDInsight
Entstehungsgeschichte von Hadoop

• Das Projekt “Nutch” wird
gestartet
• Google File System (GFS)
• Google MapReduce

2002-2004

2005
• Nutch wird zu Hadoop
• Hadoop läuft stabil auf
20 Knoten

• Doug Cutting geht zu
Yahoo!
• Offizieller Start des
Apache Hadoop
Projektes
• Größere Cluster

2006

2007-2009
• Immer größere Cluster
• Weltrecord im Sortieren
von 1 TB Daten
Apache Hadoop / Microsoft HDInsight
Apache Hadoop Ecosystem
Oozie
(Workflow)
Hive
(Warehouse
and Data
Access)

Cascading
(programming
model)

Apache
Mahout

HBase / Cassandra

(Columnar NoSQL Databases)

Flume

HBase (Column DB)

MapReduce (Job Scheduling/Execution System)

Hadoop = MapReduce + HDFS
HDFS
(Hadoop Distributed File System)

Sqoop

Avro (Serialization)

Zookeeper (Coordination)

Pig (Data
Flow)

Traditional BI Tools
Microsoft HDInsight Ecosystem
Visual Studio
Traditional BI Tools

Oozie
(Workflow)

Active Directory

Cascading
(programming
model)

Apache
Mahout

(Columnar NoSQL Databases)

Flume

HBase (Column DB)

MapReduce (Job Scheduling/Execution System)

Hadoop = MapReduce + HDFS
HDFS
(Hadoop Distributed File System)
Windows

Sqoop

Avro (Serialization)

System Center
Zookeeper (Coordination)

Pig (Data
Flow)

Hive
(Warehouse
and Data
Access)

HBase / Cassandra
Skalierbarkeit
V E R TIKALE SK A L IERUNG

H O R IZONTA LE SK A L IE RUNG
RDBMS vs. Hadoop
RDBMS

Hadoop

Datenmenge

Gigabytes

Petabytes

Verarbeitung

Ad-Hoc und Batch

Batch

Updates

Viele Lese- und
Schreibzugriffe

Einmal Schreiben,
Viele Lesezugriffe

Datenschema

Statisch

Dynamisch

Datenintegrität

Hoch

Niedrig

Skalierverhalten

Nicht-Linear

Linear
Wie geht es weiter?
• Folge 1 – Grundlagen

• Folge 2 – Installation
• Folge 3 – HDFS
• Folge 4 – MapReduce
•…

Ich freue mich über Feedback!
Blog: http://www.sascha-dittmann.de
Twitter: @SaschaDittmann

Más contenido relacionado

Destacado

Enfermedades monogenéticas
Enfermedades monogenéticasEnfermedades monogenéticas
Enfermedades monogenéticasVianey Arias
 
HANA Modelling process flow
HANA Modelling process flowHANA Modelling process flow
HANA Modelling process flowjk571983
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache TajoGruter
 
태교신기 최종판
태교신기 최종판태교신기 최종판
태교신기 최종판Kate Kim
 
Herramientas corporativas de google
Herramientas corporativas de googleHerramientas corporativas de google
Herramientas corporativas de googleGiovanni Rizo
 
Enzimologia clinica
Enzimologia clinicaEnzimologia clinica
Enzimologia clinicaYass Romeska
 
Electrolitos séricos - EGO
Electrolitos séricos - EGOElectrolitos séricos - EGO
Electrolitos séricos - EGOazurachancruz
 

Destacado (14)

Digipak analysis
Digipak analysisDigipak analysis
Digipak analysis
 
Enfermedades monogenéticas
Enfermedades monogenéticasEnfermedades monogenéticas
Enfermedades monogenéticas
 
Enfermedades mitocondriales
Enfermedades mitocondrialesEnfermedades mitocondriales
Enfermedades mitocondriales
 
HANA Modelling process flow
HANA Modelling process flowHANA Modelling process flow
HANA Modelling process flow
 
Traqueostomia
TraqueostomiaTraqueostomia
Traqueostomia
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache Tajo
 
태교신기 최종판
태교신기 최종판태교신기 최종판
태교신기 최종판
 
Social Dev Trend
Social Dev TrendSocial Dev Trend
Social Dev Trend
 
Herramientas corporativas de google
Herramientas corporativas de googleHerramientas corporativas de google
Herramientas corporativas de google
 
Foro PAE eneo 2651 naval
Foro PAE eneo 2651 navalForo PAE eneo 2651 naval
Foro PAE eneo 2651 naval
 
elasticsearch
elasticsearchelasticsearch
elasticsearch
 
Enzimologia clinica
Enzimologia clinicaEnzimologia clinica
Enzimologia clinica
 
PAE Rocio
PAE RocioPAE Rocio
PAE Rocio
 
Electrolitos séricos - EGO
Electrolitos séricos - EGOElectrolitos séricos - EGO
Electrolitos séricos - EGO
 

Similar a Microsoft HDInsight Podcast #001 - Was ist HDInsight

Big Data & Predictive Analytics – Eine Einführung für Verlage
Big Data & Predictive Analytics – Eine Einführung für VerlageBig Data & Predictive Analytics – Eine Einführung für Verlage
Big Data & Predictive Analytics – Eine Einführung für VerlageTim Bruysten
 
Sicherheit im Internet-of-Things - Wie man das größte Botnetz der Welt absichert
Sicherheit im Internet-of-Things - Wie man das größte Botnetz der Welt absichertSicherheit im Internet-of-Things - Wie man das größte Botnetz der Welt absichert
Sicherheit im Internet-of-Things - Wie man das größte Botnetz der Welt absichertAndré Nitze
 
Netzpolitik13: Das Internet der Dinge: Rechte, Regulierung & Spannungsfelder
Netzpolitik13: Das Internet der Dinge: Rechte, Regulierung & SpannungsfelderNetzpolitik13: Das Internet der Dinge: Rechte, Regulierung & Spannungsfelder
Netzpolitik13: Das Internet der Dinge: Rechte, Regulierung & SpannungsfelderPeter Bihr
 
Big Data, Cloud Computing, Internet of Things & Co. Technologien von heute - ...
Big Data, Cloud Computing, Internet of Things & Co. Technologien von heute - ...Big Data, Cloud Computing, Internet of Things & Co. Technologien von heute - ...
Big Data, Cloud Computing, Internet of Things & Co. Technologien von heute - ...Bernhard Kainrath
 
Überblick: BigData & Predictive Analytics
Überblick: BigData & Predictive AnalyticsÜberblick: BigData & Predictive Analytics
Überblick: BigData & Predictive AnalyticsTim Bruysten
 
Internet of Things: Bestandsaufnahme & Spannungsfelder (Uni Dresden, 18. Okt ...
Internet of Things: Bestandsaufnahme & Spannungsfelder (Uni Dresden, 18. Okt ...Internet of Things: Bestandsaufnahme & Spannungsfelder (Uni Dresden, 18. Okt ...
Internet of Things: Bestandsaufnahme & Spannungsfelder (Uni Dresden, 18. Okt ...Peter Bihr
 
Zusammenfassung und Ausblick (Digitale Bibliotheken)
Zusammenfassung und Ausblick (Digitale Bibliotheken)Zusammenfassung und Ausblick (Digitale Bibliotheken)
Zusammenfassung und Ausblick (Digitale Bibliotheken)Jakob .
 
Das materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen WeltDas materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen WeltRalf Stockmann
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Semantic Web Company
 
Daten ohne Grenzen – Big Data
Daten ohne Grenzen – Big DataDaten ohne Grenzen – Big Data
Daten ohne Grenzen – Big DataAWS Germany
 
AdminCamp 2015 - Improve Communication and Collaboration
AdminCamp 2015 - Improve Communication and CollaborationAdminCamp 2015 - Improve Communication and Collaboration
AdminCamp 2015 - Improve Communication and CollaborationChristoph Adler
 
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...Stefan Dietze
 
Big Data - Kleine Gebrauchsanleitung
Big Data - Kleine GebrauchsanleitungBig Data - Kleine Gebrauchsanleitung
Big Data - Kleine GebrauchsanleitungMartin Virtel
 
Halluzinationen - Online Trends für Anfänger und Fortgeschrittene
Halluzinationen - Online Trends für Anfänger und FortgeschritteneHalluzinationen - Online Trends für Anfänger und Fortgeschrittene
Halluzinationen - Online Trends für Anfänger und FortgeschritteneAlexander Muehr
 

Similar a Microsoft HDInsight Podcast #001 - Was ist HDInsight (20)

Big Data & Predictive Analytics – Eine Einführung für Verlage
Big Data & Predictive Analytics – Eine Einführung für VerlageBig Data & Predictive Analytics – Eine Einführung für Verlage
Big Data & Predictive Analytics – Eine Einführung für Verlage
 
Sicherheit im Internet-of-Things - Wie man das größte Botnetz der Welt absichert
Sicherheit im Internet-of-Things - Wie man das größte Botnetz der Welt absichertSicherheit im Internet-of-Things - Wie man das größte Botnetz der Welt absichert
Sicherheit im Internet-of-Things - Wie man das größte Botnetz der Welt absichert
 
Netzpolitik13: Das Internet der Dinge: Rechte, Regulierung & Spannungsfelder
Netzpolitik13: Das Internet der Dinge: Rechte, Regulierung & SpannungsfelderNetzpolitik13: Das Internet der Dinge: Rechte, Regulierung & Spannungsfelder
Netzpolitik13: Das Internet der Dinge: Rechte, Regulierung & Spannungsfelder
 
Lernen und Arbeiten im 21. Jahrhundert
Lernen und Arbeiten im 21. JahrhundertLernen und Arbeiten im 21. Jahrhundert
Lernen und Arbeiten im 21. Jahrhundert
 
Vortrag stARTconference
Vortrag stARTconferenceVortrag stARTconference
Vortrag stARTconference
 
Vortrag stART09
Vortrag stART09Vortrag stART09
Vortrag stART09
 
Big Data, Cloud Computing, Internet of Things & Co. Technologien von heute - ...
Big Data, Cloud Computing, Internet of Things & Co. Technologien von heute - ...Big Data, Cloud Computing, Internet of Things & Co. Technologien von heute - ...
Big Data, Cloud Computing, Internet of Things & Co. Technologien von heute - ...
 
Überblick: BigData & Predictive Analytics
Überblick: BigData & Predictive AnalyticsÜberblick: BigData & Predictive Analytics
Überblick: BigData & Predictive Analytics
 
Internet of Things: Bestandsaufnahme & Spannungsfelder (Uni Dresden, 18. Okt ...
Internet of Things: Bestandsaufnahme & Spannungsfelder (Uni Dresden, 18. Okt ...Internet of Things: Bestandsaufnahme & Spannungsfelder (Uni Dresden, 18. Okt ...
Internet of Things: Bestandsaufnahme & Spannungsfelder (Uni Dresden, 18. Okt ...
 
Zusammenfassung und Ausblick (Digitale Bibliotheken)
Zusammenfassung und Ausblick (Digitale Bibliotheken)Zusammenfassung und Ausblick (Digitale Bibliotheken)
Zusammenfassung und Ausblick (Digitale Bibliotheken)
 
Das materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen WeltDas materielle Objekt in der digitalen Welt
Das materielle Objekt in der digitalen Welt
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?
 
Daten ohne Grenzen – Big Data
Daten ohne Grenzen – Big DataDaten ohne Grenzen – Big Data
Daten ohne Grenzen – Big Data
 
AdminCamp 2015 - Improve Communication and Collaboration
AdminCamp 2015 - Improve Communication and CollaborationAdminCamp 2015 - Improve Communication and Collaboration
AdminCamp 2015 - Improve Communication and Collaboration
 
Zukunftsszenrios Games
Zukunftsszenrios GamesZukunftsszenrios Games
Zukunftsszenrios Games
 
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...
 
Big Data - Kleine Gebrauchsanleitung
Big Data - Kleine GebrauchsanleitungBig Data - Kleine Gebrauchsanleitung
Big Data - Kleine Gebrauchsanleitung
 
Halluzinationen - Online Trends für Anfänger und Fortgeschrittene
Halluzinationen - Online Trends für Anfänger und FortgeschritteneHalluzinationen - Online Trends für Anfänger und Fortgeschrittene
Halluzinationen - Online Trends für Anfänger und Fortgeschrittene
 
Einführung Big Data
Einführung Big DataEinführung Big Data
Einführung Big Data
 
Die Zukunft des Web
Die Zukunft des WebDie Zukunft des Web
Die Zukunft des Web
 

Más de Sascha Dittmann

Hochskalierbare, relationale Datenbanken in Microsoft Azure
Hochskalierbare, relationale Datenbanken in Microsoft AzureHochskalierbare, relationale Datenbanken in Microsoft Azure
Hochskalierbare, relationale Datenbanken in Microsoft AzureSascha Dittmann
 
Microsoft R - Data Science at Scale
Microsoft R - Data Science at ScaleMicrosoft R - Data Science at Scale
Microsoft R - Data Science at ScaleSascha Dittmann
 
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSONSQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSONSascha Dittmann
 
dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric Sascha Dittmann
 
SQL Saturday #313 Rheinland - MapReduce in der Praxis
SQL Saturday #313 Rheinland - MapReduce in der PraxisSQL Saturday #313 Rheinland - MapReduce in der Praxis
SQL Saturday #313 Rheinland - MapReduce in der PraxisSascha Dittmann
 
Hadoop 2.0 - The Next Level
Hadoop 2.0 - The Next LevelHadoop 2.0 - The Next Level
Hadoop 2.0 - The Next LevelSascha Dittmann
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)Sascha Dittmann
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)Sascha Dittmann
 
dotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile Servicesdotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile ServicesSascha Dittmann
 
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwicklerdotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET EntwicklerSascha Dittmann
 
Developer Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing WorkshopDeveloper Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing WorkshopSascha Dittmann
 
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)Sascha Dittmann
 
CloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die CloudCloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die CloudSascha Dittmann
 
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv....NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...Sascha Dittmann
 
NoSQL mit RavenDB und Azure
NoSQL mit RavenDB und AzureNoSQL mit RavenDB und Azure
NoSQL mit RavenDB und AzureSascha Dittmann
 
Windows Azure für Entwickler V1
Windows Azure für Entwickler V1Windows Azure für Entwickler V1
Windows Azure für Entwickler V1Sascha Dittmann
 

Más de Sascha Dittmann (18)

C# + SQL = Big Data
C# + SQL = Big DataC# + SQL = Big Data
C# + SQL = Big Data
 
Hochskalierbare, relationale Datenbanken in Microsoft Azure
Hochskalierbare, relationale Datenbanken in Microsoft AzureHochskalierbare, relationale Datenbanken in Microsoft Azure
Hochskalierbare, relationale Datenbanken in Microsoft Azure
 
Microsoft R - Data Science at Scale
Microsoft R - Data Science at ScaleMicrosoft R - Data Science at Scale
Microsoft R - Data Science at Scale
 
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSONSQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON
 
dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric
 
SQL Saturday #313 Rheinland - MapReduce in der Praxis
SQL Saturday #313 Rheinland - MapReduce in der PraxisSQL Saturday #313 Rheinland - MapReduce in der Praxis
SQL Saturday #313 Rheinland - MapReduce in der Praxis
 
Hadoop 2.0 - The Next Level
Hadoop 2.0 - The Next LevelHadoop 2.0 - The Next Level
Hadoop 2.0 - The Next Level
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
 
dotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile Servicesdotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile Services
 
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwicklerdotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
 
Developer Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing WorkshopDeveloper Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing Workshop
 
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
 
CloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die CloudCloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die Cloud
 
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv....NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
 
Big Data & NoSQL
Big Data & NoSQLBig Data & NoSQL
Big Data & NoSQL
 
NoSQL mit RavenDB und Azure
NoSQL mit RavenDB und AzureNoSQL mit RavenDB und Azure
NoSQL mit RavenDB und Azure
 
Windows Azure für Entwickler V1
Windows Azure für Entwickler V1Windows Azure für Entwickler V1
Windows Azure für Entwickler V1
 

Microsoft HDInsight Podcast #001 - Was ist HDInsight

  • 1. Microsoft HDInsight WA S IST MICR O S O F T HD I NS I G HT Sascha Dittmann Blog: http://www.sascha-dittmann.de Twitter: @SaschaDittmann
  • 2. Was ist Big Data
  • 3. Die 3 V‘s • Variety (Vielfalt) • Relational, XML, Video, Text, ... • Velocity (Geschwindigkeit) Variety • Batch, Intervall, Echtzeit, ... • Volume (Menge) • KB, MB, GB, TB, EB, PB, ZB, YB, ... Velocity Volume
  • 4. Weltweites Datenvolumen • 2005: 130 Exabyte (1018) • 2010: 1,2 Zettabyte (1021) • 2012: 2.8 Zettabyte (1021) • 2020: 40 Zettabyte (1021) Quelle: IDC – The Digital Universe in 2020, gesponsert von EMC, Dezember 2012 http://www.emc.com/collateral/analyst-reports/idc-the-digital-universe-in-2020.pdf
  • 7. Large Hadron Collider (CERN Schweiz)
  • 8. Big Data Szenarien Churn analysis Fraud detection Life sciences research Legal discovery Social network analysis Traffic flow optimization Natural resource exploration IT infrastructure optimization Weather forecasting Healthcare outcomes Advertising analysis Equipment monitoring Web app optimization Smart meter monitoring
  • 9. Auswertbare Daten Quelle: IDC – The Digital Universe in 2020, gesponsert von EMC, Dezember 2012 http://www.emc.com/collateral/analyst-reports/idc-the-digital-universe-in-2020.pdf
  • 10. Was ist Hadoop / HDInsight
  • 11. Entstehungsgeschichte von Hadoop • Das Projekt “Nutch” wird gestartet • Google File System (GFS) • Google MapReduce 2002-2004 2005 • Nutch wird zu Hadoop • Hadoop läuft stabil auf 20 Knoten • Doug Cutting geht zu Yahoo! • Offizieller Start des Apache Hadoop Projektes • Größere Cluster 2006 2007-2009 • Immer größere Cluster • Weltrecord im Sortieren von 1 TB Daten
  • 12. Apache Hadoop / Microsoft HDInsight
  • 13. Apache Hadoop Ecosystem Oozie (Workflow) Hive (Warehouse and Data Access) Cascading (programming model) Apache Mahout HBase / Cassandra (Columnar NoSQL Databases) Flume HBase (Column DB) MapReduce (Job Scheduling/Execution System) Hadoop = MapReduce + HDFS HDFS (Hadoop Distributed File System) Sqoop Avro (Serialization) Zookeeper (Coordination) Pig (Data Flow) Traditional BI Tools
  • 14. Microsoft HDInsight Ecosystem Visual Studio Traditional BI Tools Oozie (Workflow) Active Directory Cascading (programming model) Apache Mahout (Columnar NoSQL Databases) Flume HBase (Column DB) MapReduce (Job Scheduling/Execution System) Hadoop = MapReduce + HDFS HDFS (Hadoop Distributed File System) Windows Sqoop Avro (Serialization) System Center Zookeeper (Coordination) Pig (Data Flow) Hive (Warehouse and Data Access) HBase / Cassandra
  • 15. Skalierbarkeit V E R TIKALE SK A L IERUNG H O R IZONTA LE SK A L IE RUNG
  • 16. RDBMS vs. Hadoop RDBMS Hadoop Datenmenge Gigabytes Petabytes Verarbeitung Ad-Hoc und Batch Batch Updates Viele Lese- und Schreibzugriffe Einmal Schreiben, Viele Lesezugriffe Datenschema Statisch Dynamisch Datenintegrität Hoch Niedrig Skalierverhalten Nicht-Linear Linear
  • 17. Wie geht es weiter? • Folge 1 – Grundlagen • Folge 2 – Installation • Folge 3 – HDFS • Folge 4 – MapReduce •… Ich freue mich über Feedback! Blog: http://www.sascha-dittmann.de Twitter: @SaschaDittmann

Notas del editor

  1. Herzlich Willkommen zur ersten Folge meines Microsoft HDInsight Podcasts. In dieser Podcast Serie möchte ich sowohl einen Einstieg in die Thematik „Big Data Analysen“ anbieten, aber auch die einzelnen Module von Hadoop bzw. HDInsight näher beleuchten.Starten möchte ich heute mit 2 Fragestellungen:Was ist eigentlich Big Data?undWas ist Hadoop bzw. HDInsight?
  2. Big Data ist eines der meinst diskutierten Themen der letzten Jahre. Die eigentlichen Herausforderungen für Unternehmen sind das Maximum aus den bereits existierenden Daten ziehen zu können und ein Gefühl dafür zu bekommen, welche Daten man für die Zukunft sammeln sollte. Mit dem Wachstum eines Unternehmens steigt natürlich auch die Menge an Daten, die dieses Sammelt. „Big Data“ heißt aber nicht zwangsläufig „Große Datenmengen“, sondern auch eine andere Herangehensweise für Analysen.
  3. Wenn man nach einer Beschreibung für Big Data sucht, stößt man oft auf die 3 V’s.KLICK! Das erste V steht für Variety (also die Datenvielfalt). Daten können in verschiedenen Formaten vorliegen.Beispielsweise in Form einer relationalen Datenbank, aber auch als Excel-Datei, im XML- oder JSON-Format oder als einfacher Text.Außerdem gibt es auch noch Daten in Binärformaten, wie z.B. Bilder oder Videos.Auch hier besteht natürlich die Herausforderung nützliche Informationen aus solchen Daten ziehen zu können.Oft verwenden Analysen gleich mehreren dieser Datenquellen gleichzeitig, was ein Zeichen für Big Data ist. KLICK!Das zweite V steht für Velocity (also die Geschwindigkeit mit der wir auf Daten zugreifen).Durch den Anstieg der Datenmengen, stellte sich natürlich auch irgendwann die Frage, ob Daten immer in Echtzeit angezeigt werden müssen.Deshalb wurde Prozesse genutzt um Daten vorzuberechnen.Dieser Trend ist teilweise wieder rückläufig, da die Daten immer schneller als veraltet gelten.Diese Hohe Geschwindigkeitsanforderung ist auch ein Zeichen für BigData KLICK!Das letzte V steht für Volume (also die Datenmenge).Diese nimmt in den letzten Jahren rasant zu.Dazu ein paar Beispiele …
  4. Die IDC veröffentlicht seit 2007 einen Jahresbericht über das „Digital Universe“.In diesem wird u.a. das Weltweite Datenvolumen geschätzt und Prognosen für die Zukunft gestellt.Das hier gezeigte Diagramm stammt aus dem Bericht vom Dezember 2012. Dort wird das weltweite Datenvolumen für das Jahr 2005 auf 130 Exabyte (also 130 mal 10 Hoch 18 Byte) geschätzt. Für 2010 soll sich dieses fast verneunfacht haben, mit 1,2 Zetabyte. Bei 2012 geht der Bericht von 2.8 Zetabyte aus, also mehr als eine Verdopplung in 2 Jahren. Für die kommenden Jahre gibt die IDC eine Prognose von 40 Zetabyte bis zum Jahr 2020 an. In dem Bericht wird auch die größte Treibende Kraft angegeben.Hier werden unter anderem die Sozialen Netze und maschinell erzeugte Daten genannt.
  5. Beispielsweise speicherte Facebook im Jahr 2008 ungefähr 10 Milliarden Fotos…
  6. Die New Yorker Börse generiert ungefähr 1 Terabyte an Daten pro Tag…
  7. Und der LHC Teilchenbeschleuniger an der CERN produziert ungefähr 1 Petabyte Messdaten pro Tag (also 10 hoch 15 Bytes) von denen 15 Petabyte pro Jahr gespeichert werden.
  8. Doch zurück zu den Analysemöglichkeiten in Unternehmen. Hier könnten beispielsweise in der Finanzbranche die Ausgaben der Bankkunden in Echtzeit überprüft werden um Missbrauch auszuschließen, Marketing Kampagnen könnten besser auf die Kunden angepasst werden, Im Bereich Medizin könnten die Risiken von Krankheiten besser abgeschätzt werden oder in der IT könnte durch entsprechende Analysen die Netzwerke optimiert werden.
  9. Abschließend möchte ich noch ein Diagramme aus dem IDC Bericht über das „Digital Universe“ zeigen: Hier wird noch einmal aufgezeigt, wie viele der erzeugten Daten denn nützlich für Analysen wäre. Auch wenn diese nur einen Bruchteil der Gesamten Daten darstellen, ist die Menge nicht zu unterschätzen!
  10. Soweit zu „Was ist Big Data“ Kommen wir zur zweiten Frage dieses Podcasts. Was ist eigentlich Hadoop bzw. Microsoft HDInsight?
  11. Die Entwicklung von Hadoop wurde 2002 von Doug Cutting – dem Entwickler von Apache Lucene – unter dem Namen „Nutch“ gestartet.Ziel war es eine Open Source Internet-Suchmaschine zu entwickeln, die Teil von Lucene werden sollte.Eine Suchmaschine von Null-Auf zu bauen, war natürlich ein sportliches Ziel.Relativ schnell stelle sich heraus, das die ursprüngliche Architektur nicht Milliarden von Webseiten stand halten würde.In 2003 veröffentlichte Google das Konzept für ein Verteiltes Dateisystem, was in 2004 in Nutch eingebaut wurde.Google veröffentlichte in 2004 außerdem ein Konzept für verteilte Analysten mit dem Namen MapReduce, welche auch in Nutch implementiert wurde. 2005 wurden Nutch aus dem Lucene Projekt herausgelöst und als eigenständiges Produkt unter dem Namen Hadoop weitergeführt. In 2006 bekam Doug Cutting eine Arbeitsstelle bei Yahoo! und somit ein Team und die Resourcen um Hadoop schneller vorantreiben zu können. In 2008 wurde Hadoop zum Top-Level-Projekt bei Apache und wurde von einigen Firmen, darunter Last.fm, Facebook und der New York Times, eingesetzt.Im April 2008 brach Hadoop sogar den Weltrekord im Sortieren von 1 Terabyte Daten mit 209 Sekunden.In 2009 wurde dieser Rekord auf 62 Sekunden verbessert.
  12. Wie vielleicht schon aufgefallen ist, rede ich immer von Hadoop und Microsoft HDInsight. Da stellt sich natürlich die Frage, was hier der Unterschied ist. Microsoft beschäftigt sich auch seit einigen Jahren mit Hadoop und hatte Projekte, wie z.B. Hadoop on Windows Azure gestartet. Gemeinsam mit einem auf Hadoop spezialisierten Unternehmen Namens Hortenworks hat Microsoft ein Produkt mit dem Namen Microsoft HDInsight auf den Markt gebracht. Diese wird derzeit für Windows Server, aber auch als Windows Azure Dienst angeboten.
  13. Wie sieht das jetzt im Detail aus… Das Apache HadoopEkosystem besteht aus vielen eigenständigen Projekten die mit Java entwickelt wurden. Wobei das verteilte Dateisystem HDFS und die Analyse-Framework MapReduce das eigentliche Hadoop darstellen. Im Laufe dieser Podcast Serie werde ich Stück für Stück die einzelnen hier gezeigten Projekte vorstellen.
  14. Meistens wird Hadoop auf Linuxsystemen betrieben. Deshalb hat Microsoft das Ziel, dieses Ecosystem auch unter Windows anzubieten. Desweiteren soll Hadoop natürlich nicht nur auf Windows laufen, sondern sich auch in Produkte wie beispielsweise dem Active Directory und System Center Integrieren  und die Softwareentwicklung soll natürlich mit Visual Studio und nicht Eclipse gemacht werden.
  15. Da wir bei Hadoop die ganze Zeit von Clustern mit vielen Knoten sprechen, möchte ich auch noch auf das Thema Skalierbarkeit eingehen. Bei Skalierung von Systemen unterscheidet man zwischen 2 Arten. Auf der einen Seite gibt es die Vertikalen Skalierung.Diese wird beispielsweise beim SQL Server eingesetzt.Hier werden immer größere Maschinen benutzt, d.h. Mehr CPU’s, Mehr RAM, ein schnelleres Plattensystem bzw. mehr oder größere Festplatten.Meist skalieren diese Systeme aber nicht Linear. Auf der anderen Seite haben wir die Horizontale Skalierung.Diese setzt beispielsweise Hadoop ein.Hier werden viele kleinere Maschinen benutzt um mehr Leistung zu erzielen.Meist handelt es sich hierbei um kostengünstige Hardware oder virtuelle Maschinen.Deshalb ist Hadoop besonders im Cloud Computing und somit für Windows Azure interessant.
  16. Zum Abschluss dieser Folge möchte ich noch einen Vergleich zwischen den klassischen, relationalen Datenbanksystemen und Hadoop zeigen. Relationale Datenbanken wurden mit dem Fokus auf Daten im Gigabyte-Bereich entwickelt, wogegen Hadoop den Petabyte-Bereich im Auge hatte. Bei der Art der Verarbeitung lassen sich bei Datenbanken Ad-Hoc Abfragen stellen sowie Daten im Batchmodus vorberechnen.Bei Hadoop laufen alle Abfragen als Batch-Job ab. Wenn Daten aktualisierst werden, geht das bei Relationalen Datenbanken jederzeit.Hadoop ist hingegen dafür ausgelegt, dass bereits persistierte Daten sich nicht mehr ändern und nur weitere hinzukommen. Relationale Datenbanken arbeiten meist mit statischen Schemas.Da Hadoop auf einem verteilten Dateisystem aufbaut und dabei jede Art von Dateien gespeichert werden, gibt es hier nicht zwangsläufig ein Schema. Auch Transaktionen und ähnliches was man von relationalen Datenbanken kennt, ist Hadoop fremd. Über das Skalierverhalten hatte ich bereits im vorherigen Slide gesprochen.Beim Relationalen Datenbanken sprechen wir von einem Nicht-Linearen Verhalten und Hadoop skaliert Linear.
  17. Nach dieser ganzen Theorie, wird es in den kommenden Folgen mehr um die Praxis gehen. Als Nächstes steht die Installation von HDInsight im Fokus, gefolgt von Verteilten Dateisystem HDFS und den Analyse-Framework MapReduce. Ich hoffe es hat euch gefallen, und freue mich über Feedback auf meinem Blog oder auf Twitter unter @SaschaDittmann