SlideShare una empresa de Scribd logo
1 de 35
Descargar para leer sin conexión
Qu’est-ce que le Big Data ?
De plus en plus interconnecté
Le monde change
2 milliards
4.6 milliards
utilisateurs d’Internet
téléphones cellulaires
Le monde change
De plus en plus interconnecté
De plus en plus instrumentalisé
Le monde change
Web 3.0
L'Internet des objets représente l'extension d'Internet à des choses et à des
lieux dans le monde physique.
Alors qu'Internet ne se prolonge habituellement pas au-delà du monde
électronique, l'internet des objets (IdO) a pour but de l'étendre au monde réel
en associant des étiquettes munies de codes, de puces RFID ou d'URLs aux
objets ou aux lieux.
Ces étiquettes pourront être lues par des dispositifs mobiles sans fil, ce qui devrait
favoriser l’émergence de la réalité augmentée.
Le monde change
De plus en plus interconnecté
De plus en plus intelligent
De plus en plus instrumentalisé
Qu’est ce que le Big Data ?
Qu’est ce que le Big Data ?
Ensembles de données qui deviennent tellement volumineux qu'ils en deviennent
difficiles à travailler avec des outils classiques de gestion de base de données ou de
gestion de l'information.
Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le
partage, l'analyse et la visualisation des données doivent être redéfinis
Caractéristiques
44x plus de données en une
décennie
L’information grandit à une
vitesse incroyable !
Caractéristiques
20%
80%
80% des données sont
non structurées
Deux types de Big Data
Données en mouvement
Le reste
• Tweets / Posts Facebook
• Données boursières
• Capteurs : Signes vitaux d’un nouveau-né
• Historique de données en mouvement
• Données non structurées : formulaires ...
• Données structurées depuis des systèmes disparates
Exemples de Big Data
100 TB de données / jour
230 M de tweets / jour
294 M de courriels / jour
50 Petabytes de
données dans le
domaine de la
santé
Examples
• Analyse multicanal du sentiment et de l’expérience utilisateur
• Détecter les signes inquiétants d’un patient dans les hôpitaux afin d’intervenir à
temps
• Prendre des décisions risquées basées sur les données transactionnelles en
temps réel
• Identifier les criminels et menaces depuis de nombreuses sources vidéos, audio et
flux de données
• Prédire les modèles climatiques afin de choisir un emplacement optimisé pour les
éoliennes
Comment analyser ces données
et en extraire l’essentiel ?
Challenges
Ranger 10TB sur 1 noeud :
sur 100 noeuds :
2.5 jours
35 min
Challenges
Gros noeuds implique un cout élevé
Grand nombre de noeuds bon marché impliquent un
gros nombre d’erreurs
Plusieurs Noeuds bon
marché
Système Fault-tolerant
automatique
Challenges
On a besoin d’un nouveau modèle de
traitement parallèle pour des clusters de
machines
À la rescousse
Map Reduce
Publié par Google en .
Rendu populaire par le projet Apache Hadoop
Utilisé par :
2004
Map Reduce
Map Reduce
Philosophie
• Masque la complexité
• Rends le processus évolutif (scalability)
• Le rend peu onéreux
Coeur de Hadoop
Map Reduce
HDFS Système de fichier distribué
Planification / Execution
Coeur de Hadoop
Map Reduce
Système de fichier distribué
Planification / Execution
HDFS
• Name Node garde les métadonnées
• Fichiers coupés en blocs de 64 MB
• Blocs répliqués sur 3 Data Node
Coeur de Hadoop
Map Reduce
Système de fichier distribué
Planification / Execution
HDFS
• Name Node garde les métadonnées
• Fichiers coupés en blocs de 64 MB
• Blocs répliqués sur 3 Data Node
• Job tracker distribue les taches et gères les
erreurs
• Tâches assignées selon les données locales
• Task Tracker peut exécuter plusieurs tâches
Coeur de Hadoop
Job Tracker
Name Node Data Node
Task Tracker
Client
Suite HadoopZookeeper
Avro
Pig (ETL) Hive (BI) Sqoop (RDBMS)
MapReduce
HDFS
Pig
Hive
Coeur de HadoopZookeeper
Avro
Mahout HBase Cassandra
MapReduce
HDFS
Des Questions ?
a Storm is coming ...

Más contenido relacionado

Similar a BigData et Hadoop

Ethique big data - Présentation Paul-Olivier Gibert (Digital & Ethics)
Ethique big data - Présentation Paul-Olivier Gibert (Digital & Ethics)Ethique big data - Présentation Paul-Olivier Gibert (Digital & Ethics)
Ethique big data - Présentation Paul-Olivier Gibert (Digital & Ethics)
Kezhan SHI
 
dt_medecine_personalis.pptx
dt_medecine_personalis.pptxdt_medecine_personalis.pptx
dt_medecine_personalis.pptx
nour91922
 

Similar a BigData et Hadoop (20)

Big data
Big dataBig data
Big data
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
 
Big data
Big dataBig data
Big data
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdf
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdf
 
Voici les 32 technologies de 2017 à forts enjeux stratégiques selon Gartner
Voici les 32 technologies de 2017 à forts enjeux stratégiques selon GartnerVoici les 32 technologies de 2017 à forts enjeux stratégiques selon Gartner
Voici les 32 technologies de 2017 à forts enjeux stratégiques selon Gartner
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
 
Didier Hélal - L’internet des objets - Une ubiquité au service de nos sociétés
Didier Hélal - L’internet des objets - Une ubiquité au service de nos sociétésDidier Hélal - L’internet des objets - Une ubiquité au service de nos sociétés
Didier Hélal - L’internet des objets - Une ubiquité au service de nos sociétés
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
bgi-data-1 (1).pptx
bgi-data-1 (1).pptxbgi-data-1 (1).pptx
bgi-data-1 (1).pptx
 
Infographie des 10 tendances technologiques 2018
Infographie des 10 tendances technologiques 2018Infographie des 10 tendances technologiques 2018
Infographie des 10 tendances technologiques 2018
 
Idc big data dk
Idc big data   dkIdc big data   dk
Idc big data dk
 
CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?CapCom13: CN4: Comment aborder l'ère du Big Data ?
CapCom13: CN4: Comment aborder l'ère du Big Data ?
 
Internet des objets
Internet des objetsInternet des objets
Internet des objets
 
Ethique big data - Présentation Paul-Olivier Gibert (Digital & Ethics)
Ethique big data - Présentation Paul-Olivier Gibert (Digital & Ethics)Ethique big data - Présentation Paul-Olivier Gibert (Digital & Ethics)
Ethique big data - Présentation Paul-Olivier Gibert (Digital & Ethics)
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence Artificielle
 
L’entreprise en ligne
L’entreprise en ligneL’entreprise en ligne
L’entreprise en ligne
 
dt_medecine_personalis.pptx
dt_medecine_personalis.pptxdt_medecine_personalis.pptx
dt_medecine_personalis.pptx
 
Internet Of Things
Internet Of Things Internet Of Things
Internet Of Things
 

BigData et Hadoop

  • 1. Qu’est-ce que le Big Data ?
  • 2. De plus en plus interconnecté Le monde change
  • 3. 2 milliards 4.6 milliards utilisateurs d’Internet téléphones cellulaires Le monde change
  • 4. De plus en plus interconnecté De plus en plus instrumentalisé Le monde change
  • 5. Web 3.0 L'Internet des objets représente l'extension d'Internet à des choses et à des lieux dans le monde physique. Alors qu'Internet ne se prolonge habituellement pas au-delà du monde électronique, l'internet des objets (IdO) a pour but de l'étendre au monde réel en associant des étiquettes munies de codes, de puces RFID ou d'URLs aux objets ou aux lieux. Ces étiquettes pourront être lues par des dispositifs mobiles sans fil, ce qui devrait favoriser l’émergence de la réalité augmentée.
  • 6. Le monde change De plus en plus interconnecté De plus en plus intelligent De plus en plus instrumentalisé
  • 7. Qu’est ce que le Big Data ?
  • 8. Qu’est ce que le Big Data ? Ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis
  • 9. Caractéristiques 44x plus de données en une décennie L’information grandit à une vitesse incroyable !
  • 11. Deux types de Big Data Données en mouvement Le reste • Tweets / Posts Facebook • Données boursières • Capteurs : Signes vitaux d’un nouveau-né • Historique de données en mouvement • Données non structurées : formulaires ... • Données structurées depuis des systèmes disparates
  • 12. Exemples de Big Data 100 TB de données / jour 230 M de tweets / jour 294 M de courriels / jour 50 Petabytes de données dans le domaine de la santé
  • 13. Examples • Analyse multicanal du sentiment et de l’expérience utilisateur • Détecter les signes inquiétants d’un patient dans les hôpitaux afin d’intervenir à temps • Prendre des décisions risquées basées sur les données transactionnelles en temps réel • Identifier les criminels et menaces depuis de nombreuses sources vidéos, audio et flux de données • Prédire les modèles climatiques afin de choisir un emplacement optimisé pour les éoliennes
  • 14.
  • 15. Comment analyser ces données et en extraire l’essentiel ?
  • 16.
  • 17. Challenges Ranger 10TB sur 1 noeud : sur 100 noeuds : 2.5 jours 35 min
  • 18. Challenges Gros noeuds implique un cout élevé Grand nombre de noeuds bon marché impliquent un gros nombre d’erreurs Plusieurs Noeuds bon marché Système Fault-tolerant automatique
  • 19. Challenges On a besoin d’un nouveau modèle de traitement parallèle pour des clusters de machines
  • 21. Map Reduce Publié par Google en . Rendu populaire par le projet Apache Hadoop Utilisé par : 2004
  • 24. Philosophie • Masque la complexité • Rends le processus évolutif (scalability) • Le rend peu onéreux
  • 25. Coeur de Hadoop Map Reduce HDFS Système de fichier distribué Planification / Execution
  • 26. Coeur de Hadoop Map Reduce Système de fichier distribué Planification / Execution HDFS • Name Node garde les métadonnées • Fichiers coupés en blocs de 64 MB • Blocs répliqués sur 3 Data Node
  • 27. Coeur de Hadoop Map Reduce Système de fichier distribué Planification / Execution HDFS • Name Node garde les métadonnées • Fichiers coupés en blocs de 64 MB • Blocs répliqués sur 3 Data Node • Job tracker distribue les taches et gères les erreurs • Tâches assignées selon les données locales • Task Tracker peut exécuter plusieurs tâches
  • 28. Coeur de Hadoop Job Tracker Name Node Data Node Task Tracker Client
  • 29. Suite HadoopZookeeper Avro Pig (ETL) Hive (BI) Sqoop (RDBMS) MapReduce HDFS
  • 30. Pig
  • 31. Hive
  • 32. Coeur de HadoopZookeeper Avro Mahout HBase Cassandra MapReduce HDFS
  • 34.
  • 35. a Storm is coming ...