Im zweiten Teil dieser Video-Podcast Serie dreht sich alles um die Installation von HDInsight.
Dabei zeige ich einerseits wie man den lokalen Microsoft HDInsight Emulator mittels Web Platform Installer installiert.
Andererseits stelle ich vor wie der Windows Azure HDInsight Dienst via Management Portal, PowerShell Skript oder Windows Azure CLI Tool erstellt werden kann.
4. Windows Azure Blob Storage
• Hochverfügbares, sklierbares und sicheres
Dateisystem
• Geo-Replication über
Rechenzentrumsgrenzen
• Auch verfügbar wenn das HDInsight
Cluster nicht im Betrieb ist
7. Wie geht es weiter?
• Folge 1 – Grundlagen
• Folge 2 – Installation
• Folge 3 – HDFS
• Folge 4 – MapReduce
•…
Ich freue mich über Feedback!
Blog: http://www.sascha-dittmann.de
Twitter: @SaschaDittmann
Notas del editor
Herzlich Willkommen zur zweiten Folge des Microsoft HDInsight Podcasts. Nachdem wir in Folge 1 uns mit den Hintergründen zu HDInsight beschäftigt haben, dreht sich heute alles um die Installation.
Bevor wir jedoch mit den eigentlichen Demos beginnen, möchte ich noch kurz auf die Architektur von Hadoop bzw. HDInsight Clustern eingehen… Ein Hadoop Cluster besteht aus einem Name- bzw. Head-Node sowie mehreren Data- bzw. Worker-Nodes.Je nachdem welche Literatur man in Händen hält, werden für den gleichen Knotentyp der Eine oder der Andere Begriff verwendet. Die Kommunikation der Client Applikationen findet meistens zuerst mit dem Name-Node statt und wird dann ggf. an die entsprechenden Data-Nodes weitergeleitet.Beispielsweise beim verteilten Dateisystem HDFS.Dort ist der Name-Node für die Metadaten des Dateisystems verantwortlich und die eigentlichen Daten sind auf die Data-Nodes verteilt. Genaueres hierzu erfahrt ihr in der kommenden Folge. Wie man schon an der bisher gezeigten Architektur erkennen kann, ist der Name-Node ein sogenannter Single-Point-Of-Failture.Wenn dieser also ausfällt, ist ein Arbeiten mit dem Cluster unmöglich.Deshalb wurden während der Version 0.2 von Hadoop verschiedene Möglichkeiten ausprobiert, wie man dieses Problem in den Griff bekommen könnte.Durchgesetzt hat sich der Secondary-Name-Node Ansatz.Diese Maschine läuft die ganze Zeit aktiv im Hintergrund und springt bei Ausfall des primären Name-Nodes für diesen ein.
Wenn man HDInsight nicht im eigenen Rechenzentrum betreiben, sondern den Komfort der quasi endlosen Resourcen der Windows Azure Plattform nutzen möchte, gibt es ein paar Besonderheiten zu beachten…
Die wichtigste Änderungen betrifft das verteilte Dateisystem HDFS.Dieses ist zwar auch beim Windows Azure Dienst verfügbar, allerdings nicht als Standard eingestellt.Statt dessen wird das Windows Azure eigene Dateisystem – der Windows AzureBlob Storage verwendet.Dieser ist - wie auch das HDFS – durch mindestens 3 Kopieren jeder Datei ein hochverfügbares, skalierbaren und sicheres Dateisystem. Durch Geo-Replikation wird eine zusätzliche Sicherheit mit 3 weiteren Kopien im Geschwister-Rechenzentrum erreicht.In Europa wären das die Rechenzentren in Dublin und in Amsterdam. Diese Architekturänderung hat einen großen Vorteil.Da die Daten außerhalb des HDInsight Clusters gehalten werden, muss das Cluster nur dann gestartet werden, wenn es Arbeit für dieses gibt.Damit spart man natürlich Geld, wenn gerade Nichts berechnet werden muss.Außerdem lassen sich Daten hinzufügen bzw. löschen, auch wenn das Cluster gerade nicht läuft.
Ich möchte auch noch kurz auf die relevanten Elemente des Blob Storages eingehen… Als ersten benötigt man ein Storage Account.Dieses stellt 3 REST-Endpunkte zur Verfügung wovon wir in diesem Fall nur den für den Blob Storage benötigen. Unterhalb des Storage Accounts benötige ich zwingend einen Container, der dann später meine Dateien beinhalten wird. Last but not Least habe ich dann natürlich noch meine Dateien selbst, die sogenannten Blobs (Binary Large Objects). Eine Besonderheit des Blob Storages liegt in der Verzeichnisstruktur.Der Container stellt das erste Unterverzeichnis unterhalb des Storage Accounts dar.Alle weiteren Unterverzeichnisse gibt es streng genommen nicht wirklich, sondern werden nur durch einen Prefix im Dateinamen abgebildet.
Soweit zur Theorie, jetzt aber endlich zur Praxis.
Das war‘s auch schon für heute. In der kommenden Folge geht es um das verteilten Dateisystem HDFS. Ich hoffe es hat euch gefallen, und freue mich über Feedback auf meinem Blog oder auf Twitter unter @SaschaDittmann