SlideShare una empresa de Scribd logo
1 de 31
Big Data
1
Plan
Problématique
Définition du Big Data
Big Data et 3V
Data wahrehouse VS Big Data
Domaines d’utilisations
Les techniques de traitement
Conclusion
Big Data et Aspect Mobile
2
Rappel
• 1 kilo-octet (ko) = 1 024 octets  210
• 1 mégaoctet (Mo) = 1 024 ko = 1 048 576 octets 220
• 1 gigaoctet (Go) = 1 024 Mo = 1,073 milliard d'octets  230
• 1 téraoctet (To) = 1 024 Go = 1 099,512 milliards d'octets  240
• 1 pétatoctet (Po) = 1 024 To = 1 259 000 milliards d'octets  250
• 1 exaoctet (Eo) = 1 024 Po = 1,15 milliard de milliards d'octets  260
• 1 zettaoctet (Zo) = 1 024 Eo = 1 180 milliards de milliards d'octets  270
• 1 yottaoctet (Yo) = 1 024 Zo = 1,208 million de milliards de milliards d'octets 280
3
Problématique
• 1.8 Zettaoctets ont été produits en 2011
(l’équivalent d’un milliard de disque durs de grande capacité récents, un chiffre qui continue à
augmenter de 50% chaque année)
• 2,5 trillions d’octets de données généré chaque jour
• 90% des données dans le monde ont été créées au cours des deux dernières
années seulement.
(Ces données proviennent de partout : de capteurs utilisés pour collecter les informations
climatiques, des messages sur les sites de médias sociaux, d'images numériques et de vidéos
publiées en ligne, d'enregistrements transactionnels d'achats en ligne et de signaux GPS de
téléphones mobiles…) 4
…de données stockées en 2011
(*)1,8 Zo
Bases de données
Capteurs
Puces Internet
Réseaux sociaux
Appareils
numériques
Moyens de paiement
Ordinateurs
RFID
Mobilité
…de données générées
sur internet en 2010
800 Md Go
Videos
…de croissance des données
Sur la seule année 2012
48%
…de croissance annuelles
des données non structurées
50 à 75%
5
Problématique
Ces données sont appelées Big Data ou volumes massifs
de données.
6
Définition
• Les big data (grosses données), parfois appelées données massives, sont des
ensembles de données tellement volumineux qu'ils en deviennent difficiles à
travailler avec des outils classiques de gestion de base de données ou de
gestion de l'information.
• Il s’agit donc d’un ensemble de technologies, d’architecture, d’outils et de
procédures permettant à une organisation de très rapidement capter, traiter et
analyser de larges quantités et contenus hétérogènes , structurées ,non-
structurées, et d’en extraire les informations pertinentes à un coût accessible.
7
Big Data et 3V
• La difficulté de traitement du « Big Data » s’explique par
Leur volume,
Leur variété,
Leur vélocité
8
Big Data et 3V
• Volume
 Quantité de données généré est très importante.
 La taille des données détermine la valeur et le potentiel des données en cours d'examen.
 Le nom «Big Data» contient un terme liée à la taille
• Variété
 Pas de données relationnelles traditionnelles
 Les données sont brutes, semi-structurées voire non structurées
 Des données complexes provenant du web, du format texte et des images .
Les analyses sont d’autant plus complexes qu’elles portent de plus en plus sur les liens entre des données de natures
différentes.
• Velocité
 La fréquence à laquelle les données sont générées, capturées et partagées.
 Permet de répondre aux exigences et aux défis qui nous attendent dans le chemin de la croissance et le
développement.
9
Data warehouse VS Big Data
• Les environnements d’analyses Big data ne visent pas à remplacer les
data warehouse traditionnels mais à les compléter
• Solution big data: technologie
• Data warehouse : architecture
10
Data warehouse VS Big Data
DATA WAREHOUSE (BI traditionnelle) BIG DATA
Sources de données essentiellement
internes, connues et structurées
Nombreuses sources externes
Modèles de données stables Importants volumes de données non-
structurées
La majorité des données sont des
données historiques
L’analyse est faite sur des données qui
restent dans leur état brut
11
Domaines d’utilisations: log files
• Les fichiers journaux de serveurs Web représentent un trésor de données que les entreprises peuvent mine pour
gagner une compréhension profonde des habitudes d'achat des clients, l'utilisation des médias sociaux, web,
publicité et d'autres mesures qui informent des décisions d'affaires.
• Chaque clic depuis une page Web peut créer de l'ordre de 100 octets de données dans un journal de site typique.
• Par conséquent, de grands sites Web de manutention des millions de visiteurs simultanés peuvent générer des
centaines de giga octets ou même des téraoctets par jour.
• De nombreuses organisations se tournent vers les logiciels libres utilitaires trouvés dans l'écosystème Hadoop pour
analyser ces Big Data.
• Le choix d'un outil particulier dépend des besoins de l'analyse, l'ensemble de l'analyste de données de
compétences, et le compromis entre le temps de développement et le temps d'exécution.
12
Hadoop
13
Hadoop: Qu’est ce que c’est ?
o Framework Java open source .
o pour le stockage et le traitement distribués de grosses
volumétries de données.
o Consister deux grandes parties :
HDFS (Hadoop Distributed File System)
MapReduce
14
HDFS(Hadoop Distributed Files System)
 Un système de fichiers large ,distribué et scalable
 Ou moins 10K nœuds ,100 milles de fichiers
 HDFS pour stocker de très gros volumes de données sur un grand nombre
de machines(nœuds).
 Principe :
1. HDFS crée des blocs entre 64MB et 256MB.
2. Chaque bloc est enregistré dans un nœud (Data Node)différent du cluster
3. Répliquée plusieurs fois.
15
NameNode DataNode
1. NameNode :
 s’exécute sur une machine séparée(cluster).
 Contient des métadonnées.
 Association entre les bloc et leurs emplacement sur data
Nœuds
 Moteur de réplication des blocs.
2. Data Node
 Un serveur de bloc
 Rapport des bloc
 Faciliter les échanges des donnes entre les
nœuds
Quand on a besoin un task précis il suffit de poser question à NameNode
NameNode connait le lieu , le type de contenue de tous DataNoeuds 16
MapReduce
17
Définition
MapReduce est un cadre logiciel qui permet aux
développeurs d'écrire des programmes qui traitent des
quantités massives de données non structurées en
parallèle sur un distribuée ...
18
Principe
Consiste à découper le traitement en 2 phases :
• la première phase (Map) est une étape d'ingestion et de transformation
des données sous la forme de paires clé/valeur
• la seconde phase (Reduce) est une étape de fusion des
enregistrements par clé pour former le résultat final
19
Des langages pour
faciliter les requêtes sur Hadoop
1. HIVE
2. PIG
20
Mahout
1. Définition
2. Principe
21
• Mahout est un API Java dédié aux algorithmes d’apprentissage, à
savoir:
 Recommandation
 Clustering
 Classification
• Mahout supporte l’écosystème Hadoop.
• Les algorithmes sont programmés sous le paradigme MapReduce
22
Définition
Principe
 Bibliothèque d’apprentissage automatique.
 Permet de :
 Déterminer des éléments qu’un utilisateur pourra
apprécier selon son comportement
 Grouper des documents
 Affecter automatiquement des catégories aux
documents.
23
Hadoop un écosystème riche et complexé
24
Big Data et Aspect
Mobile
25
Photo
Ect…
Recherche
Texte
appel
téléphonique
e-mailVidéo
Stocker
 Stockage des données issues des Smartphones 26
Smartphones : le véritable générateur de
données volumineuses
• Plus de six milliards de smartphones utilisés génèrent des données massives.
• Chaque utilisateur de smartphone génère environ 60 gigaoctets de données
chaque année
• On stocke plus de 335 exaoctets d'informations chaque année avec seuls
smartphones.
27
Nécessité du Stockage:
Toute information peut être utile !
• Les appareils mobiles sont utilisés plus fréquemment pour acheter des biens
et services, les informations générées seront exploités pour déterminer où
vous allez faire du shopping, quels sont vos intérêts et même quelle marque
de café que vous aiment, afin que les annonceurs et les autres peuvent
identifier vos besoins et vos désirs.
• Voilà ce qu’on appelle les réseaux de stockage intelligente - faisant usage de
grand stockage de données et à exploiter cette information.
28
Mobile et Big Data : les défis
• Tous les données doivent être stockées quelque part
• Se qui signifie:
 L'industrie du stockage est dans une course pour fournir des densités plus élevées et
supérieures de dispositifs de stockage de données à moindre coût
 La technologie de déduplication de données devient encore plus importante.
29
Conclusion
• le Big Data ne représente pas une opportunité de description par un nouveau
modèle, mais un moyen de plus en plus incontournable d’optimiser leur
efficience et donc leur compétitivité.
30
Merci pour votre attention
31

Más contenido relacionado

La actualidad más candente

Introduction au projet Datapride
Introduction au projet DataprideIntroduction au projet Datapride
Introduction au projet Datapridedatapride
 
Étude comparative sur la valorisation du big data pour les contenus audiovisuels
Étude comparative sur la valorisation du big data pour les contenus audiovisuelsÉtude comparative sur la valorisation du big data pour les contenus audiovisuels
Étude comparative sur la valorisation du big data pour les contenus audiovisuelsThomas Malice
 
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Gautier Poupeau
 
Big Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache HadoopBig Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache Hadoophajlaoui jaleleddine
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big dataRomain Jouin
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptxAhmed rebai
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleMedhi Corneille Famibelle*
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Lilia Sfaxi
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech
 
Big Data : Une Introduction
Big Data : Une IntroductionBig Data : Une Introduction
Big Data : Une IntroductionNicolas OGÉ
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceParis Open Source Summit
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherLilia Sfaxi
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQLAntoine Augusti
 
Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Gautier Poupeau
 
Presentation Hadoop Québec
Presentation Hadoop QuébecPresentation Hadoop Québec
Presentation Hadoop QuébecMathieu Dumoulin
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQLLilia Sfaxi
 
Visite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonVisite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonGautier Poupeau
 

La actualidad más candente (20)

Introduction au projet Datapride
Introduction au projet DataprideIntroduction au projet Datapride
Introduction au projet Datapride
 
Étude comparative sur la valorisation du big data pour les contenus audiovisuels
Étude comparative sur la valorisation du big data pour les contenus audiovisuelsÉtude comparative sur la valorisation du big data pour les contenus audiovisuels
Étude comparative sur la valorisation du big data pour les contenus audiovisuels
 
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
 
Big Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache HadoopBig Data: Concepts, techniques et démonstration de Apache Hadoop
Big Data: Concepts, techniques et démonstration de Apache Hadoop
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big data
 
Big data
Big dataBig data
Big data
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
 
Introduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence ArtificielleIntroduction à la BIG DATA et l'Intelligence Artificielle
Introduction à la BIG DATA et l'Intelligence Artificielle
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture
 
Valtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvreValtech - Big Data : Détails d’une mise en œuvre
Valtech - Big Data : Détails d’une mise en œuvre
 
Big Data : Une Introduction
Big Data : Une IntroductionBig Data : Une Introduction
Big Data : Une Introduction
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysance
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
 
Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...Big data, Intelligence artificielle, quelles conséquences pour les profession...
Big data, Intelligence artificielle, quelles conséquences pour les profession...
 
Presentation Hadoop Québec
Presentation Hadoop QuébecPresentation Hadoop Québec
Presentation Hadoop Québec
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
Visite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonVisite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizon
 

Destacado

Larkin University Unveiled
Larkin University UnveiledLarkin University Unveiled
Larkin University UnveiledJack Michel MD
 
Final Rural Nurse Residency Looping Expereince.dunlop ppt
Final Rural Nurse Residency Looping Expereince.dunlop pptFinal Rural Nurse Residency Looping Expereince.dunlop ppt
Final Rural Nurse Residency Looping Expereince.dunlop pptArla Dunlop
 
24 slides free-template-presentation
24 slides free-template-presentation24 slides free-template-presentation
24 slides free-template-presentationSameh Mbm
 
Postgraduate residency webinar #1 01.27.16
Postgraduate residency webinar #1 01.27.16Postgraduate residency webinar #1 01.27.16
Postgraduate residency webinar #1 01.27.16CHC Connecticut
 
framework of job satisfaction
framework of job satisfactionframework of job satisfaction
framework of job satisfactionMandakini Bhosale
 
A Retrospective Study Of A Nurse Residency Program And Reports Of Job Satisfa...
A Retrospective Study Of A Nurse Residency Program And Reports Of Job Satisfa...A Retrospective Study Of A Nurse Residency Program And Reports Of Job Satisfa...
A Retrospective Study Of A Nurse Residency Program And Reports Of Job Satisfa...KennethDion
 
The Essentials of PowerPoint Color Theme
The Essentials of PowerPoint Color ThemeThe Essentials of PowerPoint Color Theme
The Essentials of PowerPoint Color Theme24Slides
 
Mu0017 talent management and employee retention
Mu0017 talent management and employee retentionMu0017 talent management and employee retention
Mu0017 talent management and employee retentionconsult4solutions
 
market-abuse-regulation
market-abuse-regulationmarket-abuse-regulation
market-abuse-regulationEd Newman
 
2013/14 Ministry and Department of Education Budget Brief
2013/14 Ministry and Department of Education Budget Brief 2013/14 Ministry and Department of Education Budget Brief
2013/14 Ministry and Department of Education Budget Brief Bermuda Public Schools
 
Subrat resume (final 424242)
Subrat resume (final 424242)Subrat resume (final 424242)
Subrat resume (final 424242)Subrat Pattnaik
 

Destacado (17)

24 slides
24 slides24 slides
24 slides
 
Larkin University Unveiled
Larkin University UnveiledLarkin University Unveiled
Larkin University Unveiled
 
Final Rural Nurse Residency Looping Expereince.dunlop ppt
Final Rural Nurse Residency Looping Expereince.dunlop pptFinal Rural Nurse Residency Looping Expereince.dunlop ppt
Final Rural Nurse Residency Looping Expereince.dunlop ppt
 
24 slides free-template-presentation
24 slides free-template-presentation24 slides free-template-presentation
24 slides free-template-presentation
 
Postgraduate residency webinar #1 01.27.16
Postgraduate residency webinar #1 01.27.16Postgraduate residency webinar #1 01.27.16
Postgraduate residency webinar #1 01.27.16
 
framework of job satisfaction
framework of job satisfactionframework of job satisfaction
framework of job satisfaction
 
A Retrospective Study Of A Nurse Residency Program And Reports Of Job Satisfa...
A Retrospective Study Of A Nurse Residency Program And Reports Of Job Satisfa...A Retrospective Study Of A Nurse Residency Program And Reports Of Job Satisfa...
A Retrospective Study Of A Nurse Residency Program And Reports Of Job Satisfa...
 
The Essentials of PowerPoint Color Theme
The Essentials of PowerPoint Color ThemeThe Essentials of PowerPoint Color Theme
The Essentials of PowerPoint Color Theme
 
El repositorio LINDAT de CLARIN en LINHD _ ReTeLe 2016
El repositorio LINDAT de CLARIN en LINHD _ ReTeLe 2016El repositorio LINDAT de CLARIN en LINHD _ ReTeLe 2016
El repositorio LINDAT de CLARIN en LINHD _ ReTeLe 2016
 
Portfolio
PortfolioPortfolio
Portfolio
 
Mu0017 talent management and employee retention
Mu0017 talent management and employee retentionMu0017 talent management and employee retention
Mu0017 talent management and employee retention
 
Bxd 811 qd-bxd-18082016_bdkh
Bxd 811 qd-bxd-18082016_bdkhBxd 811 qd-bxd-18082016_bdkh
Bxd 811 qd-bxd-18082016_bdkh
 
market-abuse-regulation
market-abuse-regulationmarket-abuse-regulation
market-abuse-regulation
 
Vision
VisionVision
Vision
 
2013/14 Ministry and Department of Education Budget Brief
2013/14 Ministry and Department of Education Budget Brief 2013/14 Ministry and Department of Education Budget Brief
2013/14 Ministry and Department of Education Budget Brief
 
Anatomia ii
Anatomia iiAnatomia ii
Anatomia ii
 
Subrat resume (final 424242)
Subrat resume (final 424242)Subrat resume (final 424242)
Subrat resume (final 424242)
 

Similar a Big data

Big_Data_Cours.pdf
Big_Data_Cours.pdfBig_Data_Cours.pdf
Big_Data_Cours.pdfGonnaBe1
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solutionJEMLI Fathi
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big DataIdriss22
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdfZkSadrati
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdfZkSadrati
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big dataAbdelghani Azri
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungenGalsungen
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxExcelerate Systems
 
DESCRIPTIF BIG DATA (1).pptx
DESCRIPTIF BIG DATA (1).pptxDESCRIPTIF BIG DATA (1).pptx
DESCRIPTIF BIG DATA (1).pptxEliasLad
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big DataAlain KHEMILI
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 

Similar a Big data (20)

Big_Data_Cours.pdf
Big_Data_Cours.pdfBig_Data_Cours.pdf
Big_Data_Cours.pdf
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solution
 
Ecosystème Big Data
Ecosystème Big DataEcosystème Big Data
Ecosystème Big Data
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdf
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdf
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big data
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
 
DESCRIPTIF BIG DATA (1).pptx
DESCRIPTIF BIG DATA (1).pptxDESCRIPTIF BIG DATA (1).pptx
DESCRIPTIF BIG DATA (1).pptx
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 

Big data

  • 2. Plan Problématique Définition du Big Data Big Data et 3V Data wahrehouse VS Big Data Domaines d’utilisations Les techniques de traitement Conclusion Big Data et Aspect Mobile 2
  • 3. Rappel • 1 kilo-octet (ko) = 1 024 octets  210 • 1 mégaoctet (Mo) = 1 024 ko = 1 048 576 octets 220 • 1 gigaoctet (Go) = 1 024 Mo = 1,073 milliard d'octets  230 • 1 téraoctet (To) = 1 024 Go = 1 099,512 milliards d'octets  240 • 1 pétatoctet (Po) = 1 024 To = 1 259 000 milliards d'octets  250 • 1 exaoctet (Eo) = 1 024 Po = 1,15 milliard de milliards d'octets  260 • 1 zettaoctet (Zo) = 1 024 Eo = 1 180 milliards de milliards d'octets  270 • 1 yottaoctet (Yo) = 1 024 Zo = 1,208 million de milliards de milliards d'octets 280 3
  • 4. Problématique • 1.8 Zettaoctets ont été produits en 2011 (l’équivalent d’un milliard de disque durs de grande capacité récents, un chiffre qui continue à augmenter de 50% chaque année) • 2,5 trillions d’octets de données généré chaque jour • 90% des données dans le monde ont été créées au cours des deux dernières années seulement. (Ces données proviennent de partout : de capteurs utilisés pour collecter les informations climatiques, des messages sur les sites de médias sociaux, d'images numériques et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne et de signaux GPS de téléphones mobiles…) 4
  • 5. …de données stockées en 2011 (*)1,8 Zo Bases de données Capteurs Puces Internet Réseaux sociaux Appareils numériques Moyens de paiement Ordinateurs RFID Mobilité …de données générées sur internet en 2010 800 Md Go Videos …de croissance des données Sur la seule année 2012 48% …de croissance annuelles des données non structurées 50 à 75% 5
  • 6. Problématique Ces données sont appelées Big Data ou volumes massifs de données. 6
  • 7. Définition • Les big data (grosses données), parfois appelées données massives, sont des ensembles de données tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information. • Il s’agit donc d’un ensemble de technologies, d’architecture, d’outils et de procédures permettant à une organisation de très rapidement capter, traiter et analyser de larges quantités et contenus hétérogènes , structurées ,non- structurées, et d’en extraire les informations pertinentes à un coût accessible. 7
  • 8. Big Data et 3V • La difficulté de traitement du « Big Data » s’explique par Leur volume, Leur variété, Leur vélocité 8
  • 9. Big Data et 3V • Volume  Quantité de données généré est très importante.  La taille des données détermine la valeur et le potentiel des données en cours d'examen.  Le nom «Big Data» contient un terme liée à la taille • Variété  Pas de données relationnelles traditionnelles  Les données sont brutes, semi-structurées voire non structurées  Des données complexes provenant du web, du format texte et des images . Les analyses sont d’autant plus complexes qu’elles portent de plus en plus sur les liens entre des données de natures différentes. • Velocité  La fréquence à laquelle les données sont générées, capturées et partagées.  Permet de répondre aux exigences et aux défis qui nous attendent dans le chemin de la croissance et le développement. 9
  • 10. Data warehouse VS Big Data • Les environnements d’analyses Big data ne visent pas à remplacer les data warehouse traditionnels mais à les compléter • Solution big data: technologie • Data warehouse : architecture 10
  • 11. Data warehouse VS Big Data DATA WAREHOUSE (BI traditionnelle) BIG DATA Sources de données essentiellement internes, connues et structurées Nombreuses sources externes Modèles de données stables Importants volumes de données non- structurées La majorité des données sont des données historiques L’analyse est faite sur des données qui restent dans leur état brut 11
  • 12. Domaines d’utilisations: log files • Les fichiers journaux de serveurs Web représentent un trésor de données que les entreprises peuvent mine pour gagner une compréhension profonde des habitudes d'achat des clients, l'utilisation des médias sociaux, web, publicité et d'autres mesures qui informent des décisions d'affaires. • Chaque clic depuis une page Web peut créer de l'ordre de 100 octets de données dans un journal de site typique. • Par conséquent, de grands sites Web de manutention des millions de visiteurs simultanés peuvent générer des centaines de giga octets ou même des téraoctets par jour. • De nombreuses organisations se tournent vers les logiciels libres utilitaires trouvés dans l'écosystème Hadoop pour analyser ces Big Data. • Le choix d'un outil particulier dépend des besoins de l'analyse, l'ensemble de l'analyste de données de compétences, et le compromis entre le temps de développement et le temps d'exécution. 12
  • 14. Hadoop: Qu’est ce que c’est ? o Framework Java open source . o pour le stockage et le traitement distribués de grosses volumétries de données. o Consister deux grandes parties : HDFS (Hadoop Distributed File System) MapReduce 14
  • 15. HDFS(Hadoop Distributed Files System)  Un système de fichiers large ,distribué et scalable  Ou moins 10K nœuds ,100 milles de fichiers  HDFS pour stocker de très gros volumes de données sur un grand nombre de machines(nœuds).  Principe : 1. HDFS crée des blocs entre 64MB et 256MB. 2. Chaque bloc est enregistré dans un nœud (Data Node)différent du cluster 3. Répliquée plusieurs fois. 15
  • 16. NameNode DataNode 1. NameNode :  s’exécute sur une machine séparée(cluster).  Contient des métadonnées.  Association entre les bloc et leurs emplacement sur data Nœuds  Moteur de réplication des blocs. 2. Data Node  Un serveur de bloc  Rapport des bloc  Faciliter les échanges des donnes entre les nœuds Quand on a besoin un task précis il suffit de poser question à NameNode NameNode connait le lieu , le type de contenue de tous DataNoeuds 16
  • 18. Définition MapReduce est un cadre logiciel qui permet aux développeurs d'écrire des programmes qui traitent des quantités massives de données non structurées en parallèle sur un distribuée ... 18
  • 19. Principe Consiste à découper le traitement en 2 phases : • la première phase (Map) est une étape d'ingestion et de transformation des données sous la forme de paires clé/valeur • la seconde phase (Reduce) est une étape de fusion des enregistrements par clé pour former le résultat final 19
  • 20. Des langages pour faciliter les requêtes sur Hadoop 1. HIVE 2. PIG 20
  • 22. • Mahout est un API Java dédié aux algorithmes d’apprentissage, à savoir:  Recommandation  Clustering  Classification • Mahout supporte l’écosystème Hadoop. • Les algorithmes sont programmés sous le paradigme MapReduce 22 Définition
  • 23. Principe  Bibliothèque d’apprentissage automatique.  Permet de :  Déterminer des éléments qu’un utilisateur pourra apprécier selon son comportement  Grouper des documents  Affecter automatiquement des catégories aux documents. 23
  • 24. Hadoop un écosystème riche et complexé 24
  • 25. Big Data et Aspect Mobile 25
  • 27. Smartphones : le véritable générateur de données volumineuses • Plus de six milliards de smartphones utilisés génèrent des données massives. • Chaque utilisateur de smartphone génère environ 60 gigaoctets de données chaque année • On stocke plus de 335 exaoctets d'informations chaque année avec seuls smartphones. 27
  • 28. Nécessité du Stockage: Toute information peut être utile ! • Les appareils mobiles sont utilisés plus fréquemment pour acheter des biens et services, les informations générées seront exploités pour déterminer où vous allez faire du shopping, quels sont vos intérêts et même quelle marque de café que vous aiment, afin que les annonceurs et les autres peuvent identifier vos besoins et vos désirs. • Voilà ce qu’on appelle les réseaux de stockage intelligente - faisant usage de grand stockage de données et à exploiter cette information. 28
  • 29. Mobile et Big Data : les défis • Tous les données doivent être stockées quelque part • Se qui signifie:  L'industrie du stockage est dans une course pour fournir des densités plus élevées et supérieures de dispositifs de stockage de données à moindre coût  La technologie de déduplication de données devient encore plus importante. 29
  • 30. Conclusion • le Big Data ne représente pas une opportunité de description par un nouveau modèle, mais un moyen de plus en plus incontournable d’optimiser leur efficience et donc leur compétitivité. 30
  • 31. Merci pour votre attention 31

Notas del editor

  1. 1.8 Zetta octets ont été produits en 2011 (l’équivalent d’un milliard de disque durs de grande capacité récents), un chiffre qui continue à augmenter de 50% chaque année Chaque jour, nous générons 2,5 trillions d’octets de données. A tel point que 90% des données dans le monde ont été créées au cours des deux dernières années seulement. Ces données proviennent de partout : de capteurs utilisés pour collecter les informations climatiques, de messages sur les sites de médias sociaux, d'images numériques et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne et de signaux GPS de téléphones mobiles, pour ne citer que quelques sources. Ces données sont appeléesBig Data ou volumes massifs de données.
  2. 1.8 Zetta octets ont été produits en 2011 (l’équivalent d’un milliard de disque durs de grande capacité récents), un chiffre qui continue à augmenter de 50% chaque année Chaque jour, nous générons 2,5 trillions d’octets de données. A tel point que 90% des données dans le monde ont été créées au cours des deux dernières années seulement. Ces données proviennent de partout : de capteurs utilisés pour collecter les informations climatiques, de messages sur les sites de médias sociaux, d'images numériques et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne et de signaux GPS de téléphones mobiles, pour ne citer que quelques sources. Ces données sont appeléesBig Data ou volumes massifs de données.
  3. DATA WAREHOUSE (BI traditionnelle) •Sources de données essentiellement internes, connues et structurées •Modèles de données stables •La majorité des données sont des données historiques •De nombreux rapports produits de manière récurrente BIG DATA •Nombreuses sources externes •Importants volumes de données non-structurées •Besoin d’itérations rapides pour expérimenter des hypothèses •L’analyse est faite sur des données qui restent dans leur état brut
  4. La spécialité d’Hadoop, ce serait plutôt le traitement à très grande échelle de grands volumes de données non structurées tels que des documents textuels, des images, des fichiers audio… même s’il est aussi possible de traiter des données semi-structurées ou structurées avec Hadoop.
  5. Au coeur du framework open source se trouve avant tout un système de fichiers en cluster, baptisé HDFS . HDFS a été conçu pour stocker de très gros volumes de données sur un grand nombre de machines équipées de disques durs banalisés. Le filesystem HDFS est conçu pour assurer la sécurité des données en répliquant de multiples fois l’ensemble des données écrites sur le cluster.
  6. C’est pourquoi quand on a besoin un task précis il suffit de poser question à NameData NameData il a connu lieu , contenue de tt DataNoeuds
  7. *Au lieu de parcourir le fichier séquentiellement , il est divisé en morceaux qui sont parcourus en parallèle. Moyen plus efficace et rapide de traiter ces données
  8. Chaque texte, chaque recherche, chaque appel téléphonique, chaque e-mail et chaque photo ou vidéo que vous téléchargez ou action est stocké.