Microsoft HDInsight Podcast #002 - Was ist HDInsight

•

0 recomendaciones•657 vistas

Sascha Dittmann

Im zweiten Teil dieser Video-Podcast Serie dreht sich alles um die Installation von HDInsight. Dabei zeige ich einerseits wie man den lokalen Microsoft HDInsight Emulator mittels Web Platform Installer installiert. Andererseits stelle ich vor wie der Windows Azure HDInsight Dienst via Management Portal, PowerShell Skript oder Windows Azure CLI Tool erstellt werden kann.

Microsoft HDInsight
HD INSIG HT INSTA L L IER EN

Sascha Dittmann
Blog: http://www.sascha-dittmann.de
Twitter: @SaschaDittmann

Cluster Architektur
• Name- bzw. Head-Nodes

• Data- bzw. Worker-Nodes

Windows Azure Besonderheiten

Windows Azure Blob Storage
• Hochverfügbares, sklierbares und sicheres
Dateisystem
• Geo-Replication über
Rechenzentrumsgrenzen

• Auch verfügbar wenn das HDInsight
Cluster nicht im Betrieb ist

Speicherkonzepte im Blob Storage
Koala.jpg
bilder
Tulpen.jpg
demo
videos

Wolken.mpg

Tiere/Pferde.mpg

Storage
Account

Container

Blobs

Installation von HDInsight

Wie geht es weiter?
• Folge 1 – Grundlagen

• Folge 2 – Installation
• Folge 3 – HDFS
• Folge 4 – MapReduce
•…

Ich freue mich über Feedback!
Blog: http://www.sascha-dittmann.de
Twitter: @SaschaDittmann

Recomendados

Was kommt nach SharePoint?

Was kommt nach SharePoint?

Was kommt nach SharePoint?IOZ AG

Microsoft on Big Data

Microsoft on Big Data

Microsoft on Big DataYvette Teiken

SQL Saturday #313 Rheinland - MapReduce in der Praxis

SQL Saturday #313 Rheinland - MapReduce in der Praxis

SQL Saturday #313 Rheinland - MapReduce in der PraxisSascha Dittmann

SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON

SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON

SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSONSascha Dittmann

Neues in SQL Server 2016 – Evaluierung SQL Server 2016 CTP 3 für den BI Stack

Neues in SQL Server 2016 – Evaluierung SQL Server 2016 CTP 3 für den BI Stack

Neues in SQL Server 2016 – Evaluierung SQL Server 2016 CTP 3 für den BI Stackinovex GmbH

C# + SQL = Big Data

C# + SQL = Big Data

C# + SQL = Big DataSascha Dittmann

Hochskalierbare, relationale Datenbanken in Microsoft Azure

Hochskalierbare, relationale Datenbanken in Microsoft Azure

Hochskalierbare, relationale Datenbanken in Microsoft AzureSascha Dittmann

Microsoft R - Data Science at Scale

Microsoft R - Data Science at Scale

Microsoft R - Data Science at ScaleSascha Dittmann

Recomendados

Was kommt nach SharePoint?

Was kommt nach SharePoint?

Was kommt nach SharePoint?IOZ AG

Microsoft on Big Data

Microsoft on Big Data

Microsoft on Big DataYvette Teiken

SQL Saturday #313 Rheinland - MapReduce in der Praxis

SQL Saturday #313 Rheinland - MapReduce in der Praxis

SQL Saturday #313 Rheinland - MapReduce in der PraxisSascha Dittmann

SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON

SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSON

SQL Server vs. Azure DocumentDB – Ein Battle zwischen XML und JSONSascha Dittmann

Neues in SQL Server 2016 – Evaluierung SQL Server 2016 CTP 3 für den BI Stack

Neues in SQL Server 2016 – Evaluierung SQL Server 2016 CTP 3 für den BI Stack

Neues in SQL Server 2016 – Evaluierung SQL Server 2016 CTP 3 für den BI Stackinovex GmbH

C# + SQL = Big Data

C# + SQL = Big Data

C# + SQL = Big DataSascha Dittmann

Hochskalierbare, relationale Datenbanken in Microsoft Azure

Hochskalierbare, relationale Datenbanken in Microsoft Azure

Hochskalierbare, relationale Datenbanken in Microsoft AzureSascha Dittmann

Microsoft R - Data Science at Scale

Microsoft R - Data Science at Scale

Microsoft R - Data Science at ScaleSascha Dittmann

dotnet Cologne 2015 - Azure Service Fabric

dotnet Cologne 2015 - Azure Service Fabric

dotnet Cologne 2015 - Azure Service Fabric Sascha Dittmann

Hadoop 2.0 - The Next Level

Hadoop 2.0 - The Next Level

Hadoop 2.0 - The Next LevelSascha Dittmann

Microsoft HDInsight Podcast #001 - Was ist HDInsight

Microsoft HDInsight Podcast #001 - Was ist HDInsight

Microsoft HDInsight Podcast #001 - Was ist HDInsightSascha Dittmann

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)Sascha Dittmann

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)Sascha Dittmann

dotnet Cologne 2013 - Windows Azure Mobile Services

dotnet Cologne 2013 - Windows Azure Mobile Services

dotnet Cologne 2013 - Windows Azure Mobile ServicesSascha Dittmann

dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler

dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler

dotnet Cologne 2013 - Microsoft HD Insight für .NET EntwicklerSascha Dittmann

Developer Open Space 2012 - Cloud Computing Workshop

Developer Open Space 2012 - Cloud Computing Workshop

Developer Open Space 2012 - Cloud Computing WorkshopSascha Dittmann

PASS Camp 2012 - Big Data mit Microsoft (Teil 1)

PASS Camp 2012 - Big Data mit Microsoft (Teil 1)

PASS Camp 2012 - Big Data mit Microsoft (Teil 1)Sascha Dittmann

CloudOps Summit 2012 - 3 Wege in die Cloud

CloudOps Summit 2012 - 3 Wege in die Cloud

CloudOps Summit 2012 - 3 Wege in die CloudSascha Dittmann

.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...

.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...

.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...Sascha Dittmann

Big Data & NoSQL

Big Data & NoSQL

Big Data & NoSQLSascha Dittmann

NoSQL mit RavenDB und Azure

NoSQL mit RavenDB und Azure

NoSQL mit RavenDB und AzureSascha Dittmann

Windows Azure für Entwickler V1

Windows Azure für Entwickler V1

Windows Azure für Entwickler V1Sascha Dittmann

Más contenido relacionado

Más de Sascha Dittmann

dotnet Cologne 2015 - Azure Service Fabric

dotnet Cologne 2015 - Azure Service Fabric

dotnet Cologne 2015 - Azure Service Fabric Sascha Dittmann

Hadoop 2.0 - The Next Level

Hadoop 2.0 - The Next Level

Hadoop 2.0 - The Next LevelSascha Dittmann

Microsoft HDInsight Podcast #001 - Was ist HDInsight

Microsoft HDInsight Podcast #001 - Was ist HDInsight

Microsoft HDInsight Podcast #001 - Was ist HDInsightSascha Dittmann

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)Sascha Dittmann

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)Sascha Dittmann

dotnet Cologne 2013 - Windows Azure Mobile Services

dotnet Cologne 2013 - Windows Azure Mobile Services

dotnet Cologne 2013 - Windows Azure Mobile ServicesSascha Dittmann

dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler

dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler

dotnet Cologne 2013 - Microsoft HD Insight für .NET EntwicklerSascha Dittmann

Developer Open Space 2012 - Cloud Computing Workshop

Developer Open Space 2012 - Cloud Computing Workshop

Developer Open Space 2012 - Cloud Computing WorkshopSascha Dittmann

PASS Camp 2012 - Big Data mit Microsoft (Teil 1)

PASS Camp 2012 - Big Data mit Microsoft (Teil 1)

PASS Camp 2012 - Big Data mit Microsoft (Teil 1)Sascha Dittmann

CloudOps Summit 2012 - 3 Wege in die Cloud

CloudOps Summit 2012 - 3 Wege in die Cloud

CloudOps Summit 2012 - 3 Wege in die CloudSascha Dittmann

.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...

.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...

.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...Sascha Dittmann

Big Data & NoSQL

Big Data & NoSQL

Big Data & NoSQLSascha Dittmann

NoSQL mit RavenDB und Azure

NoSQL mit RavenDB und Azure

NoSQL mit RavenDB und AzureSascha Dittmann

Windows Azure für Entwickler V1

Windows Azure für Entwickler V1

Windows Azure für Entwickler V1Sascha Dittmann

Más de Sascha Dittmann (14)

dotnet Cologne 2015 - Azure Service Fabric

dotnet Cologne 2015 - Azure Service Fabric

dotnet Cologne 2015 - Azure Service Fabric

Hadoop 2.0 - The Next Level

Hadoop 2.0 - The Next Level

Hadoop 2.0 - The Next Level

Microsoft HDInsight Podcast #001 - Was ist HDInsight

Microsoft HDInsight Podcast #001 - Was ist HDInsight

Microsoft HDInsight Podcast #001 - Was ist HDInsight

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 2)

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)

SQLSaturday #230 - Introduction to Microsoft Big Data (Part 1)

dotnet Cologne 2013 - Windows Azure Mobile Services

dotnet Cologne 2013 - Windows Azure Mobile Services

dotnet Cologne 2013 - Windows Azure Mobile Services

dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler

dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler

dotnet Cologne 2013 - Microsoft HD Insight für .NET Entwickler

Developer Open Space 2012 - Cloud Computing Workshop

Developer Open Space 2012 - Cloud Computing Workshop

Developer Open Space 2012 - Cloud Computing Workshop

PASS Camp 2012 - Big Data mit Microsoft (Teil 1)

PASS Camp 2012 - Big Data mit Microsoft (Teil 1)

PASS Camp 2012 - Big Data mit Microsoft (Teil 1)

CloudOps Summit 2012 - 3 Wege in die Cloud

CloudOps Summit 2012 - 3 Wege in die Cloud

CloudOps Summit 2012 - 3 Wege in die Cloud

.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...

.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...

.NET Usergroup Rhein-Neckar: Big Data in der Cloud - Apache Hadoop-based Serv...

Big Data & NoSQL

Big Data & NoSQL

Big Data & NoSQL

NoSQL mit RavenDB und Azure

NoSQL mit RavenDB und Azure

NoSQL mit RavenDB und Azure

Windows Azure für Entwickler V1

Windows Azure für Entwickler V1

Windows Azure für Entwickler V1

Microsoft HDInsight Podcast #002 - Was ist HDInsight

1. Microsoft HDInsight HD INSIG HT INSTA L L IER EN Sascha Dittmann Blog: http://www.sascha-dittmann.de Twitter: @SaschaDittmann

2. Cluster Architektur • Name- bzw. Head-Nodes • Data- bzw. Worker-Nodes

3. Windows Azure Besonderheiten

4. Windows Azure Blob Storage • Hochverfügbares, sklierbares und sicheres Dateisystem • Geo-Replication über Rechenzentrumsgrenzen • Auch verfügbar wenn das HDInsight Cluster nicht im Betrieb ist

5. Speicherkonzepte im Blob Storage Koala.jpg bilder Tulpen.jpg demo videos Wolken.mpg Tiere/Pferde.mpg Storage Account Container Blobs

6. Installation von HDInsight

7. Wie geht es weiter? • Folge 1 – Grundlagen • Folge 2 – Installation • Folge 3 – HDFS • Folge 4 – MapReduce •… Ich freue mich über Feedback! Blog: http://www.sascha-dittmann.de Twitter: @SaschaDittmann

Notas del editor

Herzlich Willkommen zur zweiten Folge des Microsoft HDInsight Podcasts. Nachdem wir in Folge 1 uns mit den Hintergründen zu HDInsight beschäftigt haben, dreht sich heute alles um die Installation.
Bevor wir jedoch mit den eigentlichen Demos beginnen, möchte ich noch kurz auf die Architektur von Hadoop bzw. HDInsight Clustern eingehen… Ein Hadoop Cluster besteht aus einem Name- bzw. Head-Node sowie mehreren Data- bzw. Worker-Nodes.Je nachdem welche Literatur man in Händen hält, werden für den gleichen Knotentyp der Eine oder der Andere Begriff verwendet. Die Kommunikation der Client Applikationen findet meistens zuerst mit dem Name-Node statt und wird dann ggf. an die entsprechenden Data-Nodes weitergeleitet.Beispielsweise beim verteilten Dateisystem HDFS.Dort ist der Name-Node für die Metadaten des Dateisystems verantwortlich und die eigentlichen Daten sind auf die Data-Nodes verteilt. Genaueres hierzu erfahrt ihr in der kommenden Folge. Wie man schon an der bisher gezeigten Architektur erkennen kann, ist der Name-Node ein sogenannter Single-Point-Of-Failture.Wenn dieser also ausfällt, ist ein Arbeiten mit dem Cluster unmöglich.Deshalb wurden während der Version 0.2 von Hadoop verschiedene Möglichkeiten ausprobiert, wie man dieses Problem in den Griff bekommen könnte.Durchgesetzt hat sich der Secondary-Name-Node Ansatz.Diese Maschine läuft die ganze Zeit aktiv im Hintergrund und springt bei Ausfall des primären Name-Nodes für diesen ein.
Wenn man HDInsight nicht im eigenen Rechenzentrum betreiben, sondern den Komfort der quasi endlosen Resourcen der Windows Azure Plattform nutzen möchte, gibt es ein paar Besonderheiten zu beachten…
Die wichtigste Änderungen betrifft das verteilte Dateisystem HDFS.Dieses ist zwar auch beim Windows Azure Dienst verfügbar, allerdings nicht als Standard eingestellt.Statt dessen wird das Windows Azure eigene Dateisystem – der Windows AzureBlob Storage verwendet.Dieser ist - wie auch das HDFS – durch mindestens 3 Kopieren jeder Datei ein hochverfügbares, skalierbaren und sicheres Dateisystem. Durch Geo-Replikation wird eine zusätzliche Sicherheit mit 3 weiteren Kopien im Geschwister-Rechenzentrum erreicht.In Europa wären das die Rechenzentren in Dublin und in Amsterdam. Diese Architekturänderung hat einen großen Vorteil.Da die Daten außerhalb des HDInsight Clusters gehalten werden, muss das Cluster nur dann gestartet werden, wenn es Arbeit für dieses gibt.Damit spart man natürlich Geld, wenn gerade Nichts berechnet werden muss.Außerdem lassen sich Daten hinzufügen bzw. löschen, auch wenn das Cluster gerade nicht läuft.
Ich möchte auch noch kurz auf die relevanten Elemente des Blob Storages eingehen… Als ersten benötigt man ein Storage Account.Dieses stellt 3 REST-Endpunkte zur Verfügung wovon wir in diesem Fall nur den für den Blob Storage benötigen. Unterhalb des Storage Accounts benötige ich zwingend einen Container, der dann später meine Dateien beinhalten wird. Last but not Least habe ich dann natürlich noch meine Dateien selbst, die sogenannten Blobs (Binary Large Objects). Eine Besonderheit des Blob Storages liegt in der Verzeichnisstruktur.Der Container stellt das erste Unterverzeichnis unterhalb des Storage Accounts dar.Alle weiteren Unterverzeichnisse gibt es streng genommen nicht wirklich, sondern werden nur durch einen Prefix im Dateinamen abgebildet.
Soweit zur Theorie, jetzt aber endlich zur Praxis.
Das war‘s auch schon für heute. In der kommenden Folge geht es um das verteilten Dateisystem HDFS. Ich hoffe es hat euch gefallen, und freue mich über Feedback auf meinem Blog oder auf Twitter unter @SaschaDittmann