SlideShare una empresa de Scribd logo
1 de 7
Microsoft HDInsight
HD INSIG HT INSTA L L IER EN

Sascha Dittmann
Blog: http://www.sascha-dittmann.de
Twitter: @SaschaDittmann
Cluster Architektur
• Name- bzw. Head-Nodes

• Data- bzw. Worker-Nodes
Windows Azure Besonderheiten
Windows Azure Blob Storage
• Hochverfügbares, sklierbares und sicheres
Dateisystem
• Geo-Replication über
Rechenzentrumsgrenzen

• Auch verfügbar wenn das HDInsight
Cluster nicht im Betrieb ist
Speicherkonzepte im Blob Storage
Koala.jpg
bilder
Tulpen.jpg
demo
videos

Wolken.mpg

Tiere/Pferde.mpg

Storage
Account

Container

Blobs
Installation von HDInsight
Wie geht es weiter?
• Folge 1 – Grundlagen

• Folge 2 – Installation
• Folge 3 – HDFS
• Folge 4 – MapReduce
•…

Ich freue mich über Feedback!
Blog: http://www.sascha-dittmann.de
Twitter: @SaschaDittmann

Más contenido relacionado

Más de Sascha Dittmann

dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric Sascha Dittmann
 
Hadoop 2.0 - The Next Level
Hadoop 2.0 - The Next LevelHadoop 2.0 - The Next Level
Hadoop 2.0 - The Next LevelSascha Dittmann
 
Microsoft HDInsight Podcast #001 - Was ist HDInsight
Microsoft HDInsight Podcast #001 - Was ist HDInsightMicrosoft HDInsight Podcast #001 - Was ist HDInsight
Microsoft HDInsight Podcast #001 - Was ist HDInsightSascha Dittmann
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)Sascha Dittmann
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)Sascha Dittmann
 
dotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile Servicesdotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile ServicesSascha Dittmann
 
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwicklerdotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET EntwicklerSascha Dittmann
 
Developer Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing WorkshopDeveloper Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing WorkshopSascha Dittmann
 
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)Sascha Dittmann
 
CloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die CloudCloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die CloudSascha Dittmann
 
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv....NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...Sascha Dittmann
 
NoSQL mit RavenDB und Azure
NoSQL mit RavenDB und AzureNoSQL mit RavenDB und Azure
NoSQL mit RavenDB und AzureSascha Dittmann
 
Windows Azure für Entwickler V1
Windows Azure für Entwickler V1Windows Azure für Entwickler V1
Windows Azure für Entwickler V1Sascha Dittmann
 

Más de Sascha Dittmann (14)

dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric dotnet Cologne 2015 - Azure Service Fabric
dotnet Cologne 2015 - Azure Service Fabric
 
Hadoop 2.0 - The Next Level
Hadoop 2.0 - The Next LevelHadoop 2.0 - The Next Level
Hadoop 2.0 - The Next Level
 
Microsoft HDInsight Podcast #001 - Was ist HDInsight
Microsoft HDInsight Podcast #001 - Was ist HDInsightMicrosoft HDInsight Podcast #001 - Was ist HDInsight
Microsoft HDInsight Podcast #001 - Was ist HDInsight
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)
 
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)
 
dotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile Servicesdotnet Cologne 2013 - Windows Azure Mobile Services
dotnet Cologne 2013 - Windows Azure Mobile Services
 
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwicklerdotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler
 
Developer Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing WorkshopDeveloper Open Space 2012 - Cloud Computing Workshop
Developer Open Space 2012 - Cloud Computing Workshop
 
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
PASS Camp 2012 - Big Data mit Microsoft (Teil 1)
 
CloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die CloudCloudOps Summit 2012 - 3 Wege in die Cloud
CloudOps Summit 2012 - 3 Wege in die Cloud
 
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv....NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...
 
Big Data & NoSQL
Big Data & NoSQLBig Data & NoSQL
Big Data & NoSQL
 
NoSQL mit RavenDB und Azure
NoSQL mit RavenDB und AzureNoSQL mit RavenDB und Azure
NoSQL mit RavenDB und Azure
 
Windows Azure für Entwickler V1
Windows Azure für Entwickler V1Windows Azure für Entwickler V1
Windows Azure für Entwickler V1
 

Microsoft HDInsight Podcast #002 - Was ist HDInsight

Notas del editor

  1. Herzlich Willkommen zur zweiten Folge des Microsoft HDInsight Podcasts. Nachdem wir in Folge 1 uns mit den Hintergründen zu HDInsight beschäftigt haben, dreht sich heute alles um die Installation.
  2. Bevor wir jedoch mit den eigentlichen Demos beginnen, möchte ich noch kurz auf die Architektur von Hadoop bzw. HDInsight Clustern eingehen… Ein Hadoop Cluster besteht aus einem Name- bzw. Head-Node sowie mehreren Data- bzw. Worker-Nodes.Je nachdem welche Literatur man in Händen hält, werden für den gleichen Knotentyp der Eine oder der Andere Begriff verwendet. Die Kommunikation der Client Applikationen findet meistens zuerst mit dem Name-Node statt und wird dann ggf. an die entsprechenden Data-Nodes weitergeleitet.Beispielsweise beim verteilten Dateisystem HDFS.Dort ist der Name-Node für die Metadaten des Dateisystems verantwortlich und die eigentlichen Daten sind auf die Data-Nodes verteilt. Genaueres hierzu erfahrt ihr in der kommenden Folge. Wie man schon an der bisher gezeigten Architektur erkennen kann, ist der Name-Node ein sogenannter Single-Point-Of-Failture.Wenn dieser also ausfällt, ist ein Arbeiten mit dem Cluster unmöglich.Deshalb wurden während der Version 0.2 von Hadoop verschiedene Möglichkeiten ausprobiert, wie man dieses Problem in den Griff bekommen könnte.Durchgesetzt hat sich der Secondary-Name-Node Ansatz.Diese Maschine läuft die ganze Zeit aktiv im Hintergrund und springt bei Ausfall des primären Name-Nodes für diesen ein.
  3. Wenn man HDInsight nicht im eigenen Rechenzentrum betreiben, sondern den Komfort der quasi endlosen Resourcen der Windows Azure Plattform nutzen möchte, gibt es ein paar Besonderheiten zu beachten…
  4. Die wichtigste Änderungen betrifft das verteilte Dateisystem HDFS.Dieses ist zwar auch beim Windows Azure Dienst verfügbar, allerdings nicht als Standard eingestellt.Statt dessen wird das Windows Azure eigene Dateisystem – der Windows AzureBlob Storage verwendet.Dieser ist - wie auch das HDFS – durch mindestens 3 Kopieren jeder Datei ein hochverfügbares, skalierbaren und sicheres Dateisystem. Durch Geo-Replikation wird eine zusätzliche Sicherheit mit 3 weiteren Kopien im Geschwister-Rechenzentrum erreicht.In Europa wären das die Rechenzentren in Dublin und in Amsterdam. Diese Architekturänderung hat einen großen Vorteil.Da die Daten außerhalb des HDInsight Clusters gehalten werden, muss das Cluster nur dann gestartet werden, wenn es Arbeit für dieses gibt.Damit spart man natürlich Geld, wenn gerade Nichts berechnet werden muss.Außerdem lassen sich Daten hinzufügen bzw. löschen, auch wenn das Cluster gerade nicht läuft.
  5. Ich möchte auch noch kurz auf die relevanten Elemente des Blob Storages eingehen… Als ersten benötigt man ein Storage Account.Dieses stellt 3 REST-Endpunkte zur Verfügung wovon wir in diesem Fall nur den für den Blob Storage benötigen. Unterhalb des Storage Accounts benötige ich zwingend einen Container, der dann später meine Dateien beinhalten wird. Last but not Least habe ich dann natürlich noch meine Dateien selbst, die sogenannten Blobs (Binary Large Objects). Eine Besonderheit des Blob Storages liegt in der Verzeichnisstruktur.Der Container stellt das erste Unterverzeichnis unterhalb des Storage Accounts dar.Alle weiteren Unterverzeichnisse gibt es streng genommen nicht wirklich, sondern werden nur durch einen Prefix im Dateinamen abgebildet.
  6. Soweit zur Theorie, jetzt aber endlich zur Praxis.
  7. Das war‘s auch schon für heute. In der kommenden Folge geht es um das verteilten Dateisystem HDFS. Ich hoffe es hat euch gefallen, und freue mich über Feedback auf meinem Blog oder auf Twitter unter @SaschaDittmann