Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Big Data: Hadoop Map / Reduce sur Windows et Windows Azure

1.605 visualizaciones

Publicado el

L'algorithme Map/Reduce et sa mise en oeuvre avec Apache Hadoop permettent de gérer de très grands volumes de données non structurées. Microsoft adopte Haddop sur Windows et Windows Azure. Venez voir comment.

Publicado en: Tecnología
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Big Data: Hadoop Map / Reduce sur Windows et Windows Azure

  1. 1. palais descongrèsParis7, 8 et 9février 2012
  2. 2. BIG DATA: HADOOP MAP / REDUCESUR WINDOWS ET WINDOWSAZURE • Yann SCHWARTZ yschwartz@kobojo.com • Benjamin Guinebertière (DPE) www.benjguin.com • Pierre Lagarde (DPE) pierlag@microsoft.com
  3. 3. Agenda Intro BigData / Hadoop Exemple pour comprendre Exemple pratique Q&A
  4. 4. En 10 ANS LUNIVERS NUMERIQUEVA CROITRE DE x44DE 0.9 à 35.2 Zetta-octets New Bytes of Information in 2010 Source: IDC, as reported in The Economist, Feb 25, 2010
  5. 5. Traditional e-commerce dataflow
  6. 6. New exploratory e-commerce dataflow Batch
  7. 7. Qui fait quoi ? Développeurs BigData Data Analyste Community Manager Lanceur de démo 
  8. 8. DémoLancement du scénario Kobojo
  9. 9. Présentation Scénario
  10. 10. Ce qui caractérise BigData Nouveaux outils Nouvelles source de données Très gros volume Stockage ou Données non Flux Nouvelle économie relationnelles Nouvelles questions + nouveaux résultatsLes 4V du BIG DATA: VOLUME, VELOCITY, VARIABILITY, AND VARIETY
  11. 11. Cassandra Hadoop BackType MR/GFS SimpleDB Hive Oozie Hadoop Bigtable Dynamo Scribe PigLatin Pig HBase Dremel EC2/EMR/S3 Hadoop … Cassandra … … [ Isotope | Azure | Excel | BI | SQL DW]Lécosystème BigDataScalable machine learning and data mining [Mahout]Statistical modeling and analysis [R]Coordination and workflow [Oozie, Cascading]Data integration and transformation [SQOOP, Flume]Social network analytics and petascale graph learning [Pegasus]Real-time stream analytics and business intelligence merged with petascale computation [Storm/BackType]Scale-out caching and storage [Cassandra, HBase, Riak, Redis, Couchbase, S3]Cloud-oriented data warehousing, pattern discovery, and transformation [Hive, Pig]
  12. 12. Hadoop (Wikipedia) Hadoop est un framework Java libre destiné aux applications distribuées et à la gestion intensive des données. Il permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de données. Source : http://fr.wikipedia.org/wiki/Hadoop
  13. 13. Relationel ou MapReduce ? Traditional RDBMS MapReduceData Size Des Megabytes aux Terabytes Des Gigabytes aux PetabytesAccess Interactive and Batch BatchUpdates Read / Write many times Write once, Read many timesStructure Static Schema Dynamic SchemaIntegrity High (ACID) LowScaling Nonlinear LinearReference: Tom White’s Hadoop: The Definitive Guide
  14. 14. Larchitecture dHadoop Task Task tracker tracker Map Reduce Job Layer tracker HDFS Name Layer node Data Data node node Reference: http://en.wikipedia.org/wiki/File:Hadoop_1.png
  15. 15. Positionnement dHadoop enentreprise HADOOP [Azure and Enterprise] Java OM Streaming OM HiveQL PigLatin .NET/C#/F# (T)SQL OCEAN OF DATA NOSQL [unstructured, semi-structured, structured] ETL HDFS EIS / ERP RDBMS File System OData [RSS] Azure Storage
  16. 16. COMPTONS LES MOTS
  17. 17. Exemple: comptage de mots Map:  Pour chaque mot trouvé  Émettre <<le mot>>, 1 Shuffle (magiquement géré par le Framework) Reduce  Pour toutes les occurrences reçues clef, valeur (même clef)  Comptage += valeur  Émettre clef, comptage
  18. 18. En Linq … et pour la montée en charge?
  19. 19. Map/Reduce: principe Extrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »
  20. 20. Map/Reduce - JavaScript
  21. 21. Map/Reduce - Java
  22. 22. Map/Reduce – C#
  23. 23. Et sur quelles machines ?
  24. 24. Démo - JavaScript distcp HDFS Sort/filter JavaScript M/R from("books")Azure Storage .mapReduce("file.js", "word, count:long") .orderBy("count DESC") .take(10) .to("top10") HDFS File Graph.bar(data) Azure Storage Excel SQL Server HIVE ODBC Driver HIVE ODBC Driver SQOOP
  25. 25. DémoComptons les mots
  26. 26. Au-delà de Map Reduce Map Reduce représente le noyau des traitement  Vocabulaire élémentaire de traitement  Très simple - Trop simple ?  Un algorithme nécessite beaucoup de phases de map/reduce Besoin dexprimer des jobs MR à plus haut niveau:  Expression dune série de traitements (flux de données)  Plus proche dune expression familière  Pseudo SQL : Hive  Dataflow impératif : Pig Latin
  27. 27. PIG LATIN records = LOAD avs://input/ncdc/micro-tab/sample.txt AS (year:chararray, temperature:int, quality:int); filtered_records = FILTER records BY temperature != 9999 AND (quality == 0 OR quality == 1 OR quality == 4 OR quality == 5 OR quality == 9); grouped_records = GROUP filtered_records BY year; max_temp = FOREACH grouped_records GENERATE group, MAX(filtered_records.temperature); STORE max_temp INTO avs://temperatures USING PigStorage();
  28. 28. PIG LATIN - Opérateurs Les opérateurs LOAD FILTER GROUP / COGROUP JOIN CROSS UNION SORT FOREACH...GENERATE
  29. 29. PIG Définition de fonctions utilisateur (UDF)  Traitement spécifique  Exprimable en Java/Python/Javascript  Extensibilité du langage Caractéristiques  Moins rapide que Map/Reduce  Beaucoup moins de code  "Modèle mental" moins tordu  Les performances saméliorent à chaque release
  30. 30. Autres langages Cascalog  DSL basé sur Clojure  Unifié (un seul langage pour les scripts et les UDF)  Bien plus expressif que Pig  Coût dentrée assez élevé (fonctionnel, et Clojure...)
  31. 31. Au-delà de Map Reduce Map Reduce représente le noyau des traitement  Vocabulaire élémentaire de traitement  Très simple - Trop simple ?  Un algorithme nécessite beaucoup de phases de map/reduce Besoin dexprimer des jobs MR à plus haut niveau:  Expression dune série de traitements (flux de données)  Plus proche dune expression familière  Pseudo SQL : Hive  Dataflow impératif : Pig Latin
  32. 32. Optimiser un job MR Adapter vos données au traitement  Pré traitement / post traitement  Filtrer en amont  Cascade de traitements Compression  Arbitrer entre IO disque et réseau / CPU  Plusieurs algorithmes disponibles  gzip, lzo, bzip2 Compresser comment ?  Les données en entrée et sortie (coût de stockage moindre)
  33. 33. Optimiser un job MR Gestion de la mémoire  Hadoop sait travailler en mémoire et fichier …mais il vaut mieux limiter le spilling Map: limiter le nombre de spills lors du tri Reduce : favoriser le traitement en mémoire Comme toujours pour l’analyse de performances: …Mesurer Modifier Itérer…
  34. 34. Schéma de la démo
  35. 35. Mahout Explication de la démarche Explication de lalgorithme  Critères globaux
  36. 36. Lien Hadoop vers BI MS Résultat dans Hive et lecture  Dans Excel  Dans SSIS Excel Hive Connector Lien avec SQL Server
  37. 37. Démo
  38. 38. Optimisations / Best Practices Idem relationnel (index par exemple) Bien comprendre la "forme" des données  Simple beaucoup de données  Complexe sur peu de données
  39. 39. Ecosystème au dessusdHadoop Lucene sur Hadoop Hbase Mahout …
  40. 40. Livre sur Windows Azure Premier ouvrage rédigé en Français Sur l’intégralité de la plateforme Windows Azure Disponible dès aujourd’hui! Consultation et achat possible sur le stand (52) des éditions ENI
  41. 41. Des ressources Windows Azuregratuites Testez Windows Azure Abonnés MSDN, vous gratuitement pendant bénéficiez de 90 jours Windows Azure  http://aka.ms/  http://aka.ms/ tester-azure-90j activer-azure-msdn
  42. 42. Pour aller plus loin Prochaines sessions des Dev Camps Chaque semaine, les 10 Live Open Data - Développer des applications riches avec le février DevCamps 2012 16 Meeting protocole Open Data ALM, Azure, Windows Phone, HTML5, OpenData février Live Meeting Azure series - Développer des applications sociales sur la plateforme Windows Azure 2012 http://msdn.microsoft.com/fr-fr/devcamp 17 Live Comprendre le canvas avec Galactic et la librairie février Meeting three.js 2012 Téléchargement, ressources 21 février Live La production automatisée de code avec CodeFluent Meeting Entities et toolkits : RdV sur MSDN 2012 2 mars Live Comprendre et mettre en oeuvre le toolkit Azure pour http://msdn.microsoft.com/fr-fr/ 2012 Meeting Windows Phone 7, iOS et Android 6 mars Live Nuget et ALM 2012 Meeting Les offres à connaître 9 mars 2012 Live Meeting Kinect - Bien gérer la vie de son capteur 90 jours d’essai gratuit de Windows 13 mars 2012 Live Meeting Sharepoint series - Automatisation des tests Azure 14 mars Live TFS Health Check - vérifier la bonne santé de votre www.windowsazure.fr 2012 Meeting plateforme de développement 15 mars Live Azure series - Développer pour les téléphones, les 2012 Meeting tablettes et le cloud avec Visual Studio 2010 Jusqu’à 35% de réduction sur Visual 16 mars Live Applications METRO design - Désossage en règle dun Studio Pro, avec l’abonnement MSDN 2012 Meeting template METRO javascript 20 mars Live Retour dexpérience LightSwitch, Optimisation de www.visualstudio.fr 2012 Meeting laccès aux données, Intégration Silverlight 23 mars Live OAuth - la clé de lutilisation des réseaux sociaux dans 2012 Meeting votre application
  43. 43. Q&R http://aka.ms/benjguinhadoop http://blogs.msdn.com/windowsazurefrance

×