3. Historique du Big Data
Définition du Big Data
Les 5Vs du Big Data
Plan du chapitre
Les 5Vs du Big Data
Spécificités du Big Data
Les domaines d’application du Big Data
Mouna TORJMEN KHEMAKHEM
6. Big Data est plus qu’un logiciel, c’est un domaine d’activité!
6666
Mouna TORJMEN KHEMAKHEM
7. Google : Le système de fichier GFS
• Problème de stockage de l’index volumineux du moteur de
recherche Google.
1. Utilisation d’un SGBDR ?
BIG DATA: Historique
1. Utilisation d’un SGBDR ?
Problème de distribution des données
Problème du nombre d’utilisateurs
Problème de vitesse du moteur de recherche
2. Invention d’un nouveau système propriétaire : GFS ( Google File
Système) en 2003
7777
Mouna TORJMEN KHEMAKHEM
8. Google : Le système de fichier GFS
BIG DATA: Historique
8888
https://fr.wikipedia.org/wiki/Google_File_System
Mouna TORJMEN KHEMAKHEM
9. Google : Le système de fichier GFS
-MapReduce : Simplified Data Processing on Large Clusters
- -algorithme inventé par Google Inc permettant la distribution des traitements
sur un ensemble de machines avec le système GFS.
- Google possède aujourd'hui plus de 1 000 000 de serveurs interconnectés
BIG DATA: Historique
- Google possède aujourd'hui plus de 1 000 000 de serveurs interconnectés
dans le monde.
9999
Mouna TORJMEN KHEMAKHEM
10. BIG DATA: Définition
Données massives
Données incertaines
Visualisation de
donnéesBig
Data
Big
Data
Traitements parallèles
Données distribuées
Données non
structurées
Flux de données Fouille de données
Machine Learning
Prédiction et Prévision
10101010
DataData
Mouna TORJMEN KHEMAKHEM
11. Big Data = données massives
Facilité d’acquisition des données: capteurs, télescopes, cartes de
fidélité, réseaux sociaux, …
BIG DATA: Définition
fidélité, réseaux sociaux, …
Baisse des prix des supports de stockage
11111111
Mouna TORJMEN KHEMAKHEM
12. Big data = données distribuées
Quantités de données énormes
BIG DATA: Définition
Utilisation d’une seule machine impossible
Acquisition des données à des endroits différents
Transfert couteux en terme de temps
12121212
Mouna TORJMEN KHEMAKHEM
13. Big data = données incertaines
Imprécision des capteurs
BIG DATA: Définition
– Les images transmises par un télescope sont altérées
Fausses données sur les réseaux sociaux
– Les données des réseaux sociaux sont souvent incomplètes et
bruitées
13131313
Mouna TORJMEN KHEMAKHEM
14. Big Data = données non/peu structurées
Non structurées: vidéo
Peu structurées: tweets
BIG DATA: Définition
Peu structurées: tweets
Très structurées: tickets de caisse
Les systèmes NoSQL permettent une structuration lâche
14141414
Mouna TORJMEN KHEMAKHEM
15. Big Data = flux de données
Arrivé des données en continu (stream data)
Traitement efficace=prise en charge des données au moment d’arrivée
BIG DATA: Définition
Traitement efficace=prise en charge des données au moment d’arrivée
Proposition des algorithmes ne nécessitant pas plusieurs passes sur les
données
15151515
Mouna TORJMEN KHEMAKHEM
16. Big Data = Traitement parallèle
Stockage des données d’une manière distribuée traitement
parallèle autant que possible
BIG DATA: Définition
Remarque: Un traitement parallèle n’est pas forcément plus
rapide qu’un traitement séquentiel.
16161616
Mouna TORJMEN KHEMAKHEM
17. Big Data = Visualisation de données
Données massives Résultats massifs
Comment analyser et comprendre ces résultats énormes?
BIG DATA: Définition
Comment analyser et comprendre ces résultats énormes?
Visualisation: représentation graphique de données
17171717
Mouna TORJMEN KHEMAKHEM
18. Big Data = Fouille de données
Data Mining à partir de gros volumes de données
Extraction d'un savoir ou d'une connaissance
BIG DATA: Définition
Extraction d'un savoir ou d'une connaissance
18181818
Mouna TORJMEN KHEMAKHEM
19. Big Data = Prédiction et Prévision
Explication de phénomènes
Prévision des conséquences Réduire les risques
Analyse prédictif du futur Aide à la prise de décisions
BIG DATA: Définition
Analyse prédictif du futur Aide à la prise de décisions
19191919
Mouna TORJMEN KHEMAKHEM
20. Big Data = Machine Learning
Grâce aux grosses quantités de données
BIG DATA: Définition
Extraction des modèles au lieu de valeurs précises
Ces modèles sont
– plus précis grâce à la disponibilité de données
– plus difficiles à réaliser à cause de la quantité des données
20202020
Mouna TORJMEN KHEMAKHEM
21. Gartner (2001) – 3Vs
Les 5 Vs de BIG DATA
21212121
IBM (2012) – 4Vs
Mouna TORJMEN KHEMAKHEM
22. 2015: 5 Vs
Les 5 Vs de BIG DATA
22222222
Mouna TORJMEN KHEMAKHEM
23. Volume
Quantité de données croissante (teraoctets et même petaoctets).
En 1 minute Internet (30h vidéos, 204 millions emails, 300 milles tweets…)
Estimation d’une croissance de 800% des quantités de données à traiter dans 5
ans.
Les 5 Vs de BIG DATA
23232323
Mouna TORJMEN KHEMAKHEM
24. Variété
Données structurées (20%) :bases de données structurée, feuilles de calcul de
tableur, …
Données non structurées (80%) : textes, sons, photos, vidéos, emails ,
messages réseaux sociaux, …
Les 5 Vs de BIG DATA
Diversité des données
Variété
24242424
Mouna TORJMEN KHEMAKHEM
25. Vélocité : rapidité des flux de données
Données en temps réel (internet of things, détection de fraudes, …).
Analyse de ces données au moment de leur génération sans les stocker en
bases de données.
Les 5 Vs de BIG DATA
Exemple :
- Streaming Data: caméra de surveillance
- 100 Capteurs / voiture moderne pour la surveillance
25252525
Mouna TORJMEN KHEMAKHEM
26. Véracité
Qualité de la fiabilité des données.
Données bruitées, imprécises, …
Exemple:
Les 5 Vs de BIG DATA
Exemple:
-Faux profils sur les réseaux sociaux
-Fausses informations et faux avis des consommateurs sur un
produit.
-Capteurs défectueux.
Smart Data26262626
Mouna TORJMEN KHEMAKHEM
27. Valeur
Utilisation des stratégie adéquates pour une création de valeur
des données disponibles
apport de la valeur ajoutée et de nouvelles connaissances.
Les 5 Vs de BIG DATA
apport de la valeur ajoutée et de nouvelles connaissances.
27272727
Mouna TORJMEN KHEMAKHEM
28. • Distribution des données
Les spécificités du BIG DATA
Nœud 1
Nœud 2
Nœud 3
•Traitement en parallèle
28282828
Nœud 3
Mouna TORJMEN KHEMAKHEM
29. • Tolérance aux pannes
Les spécificités du BIG DATA
Fichier
29292929 Nœud 1 Nœud 2 Nœud 3 Nœud n
Mouna TORJMEN KHEMAKHEM
30. • Utilisation de matériel standard
• Flexibilité, évolutivité et scalabilité
Les spécificités du BIG DATA
RAID
• Flexibilité, évolutivité et scalabilité
30303030
Mouna TORJMEN KHEMAKHEM
31. Santé
• Dépister de manière précoce la maladie d’un individu grâce aux
requêtes qu’il a effectuées sur les moteurs de recherche en ligne
• Médecine personnalisée: choisir le traitement en fonction des
meilleures prédictions faites grâce au big data, prenant en compte
Domaines d’application de BIG DATA
meilleures prédictions faites grâce au big data, prenant en compte
un ensemble de critères variés allant de la génétique au mode
d’alimentation .
• Analyser les données de santé d’une population pour prévoir les
maladies et les épidémies, savoir les causes environnementales et
prendre les préventions nécessaires.
31313131
Mouna TORJMEN KHEMAKHEM
32. Marketing
• Analyse prédictive : prédiction de ce que cherche le client en
analysant l’historique de ses achats et proposition d’achat sur les
zones des offres et des publicités afin d’augmenter les achats.
• Analyse des sentiments : détection de satisfaction ou de
Domaines d’application de BIG DATA
• Analyse des sentiments : détection de satisfaction ou de
mécontentement des clients envers un produit en analysant leurs
posts sur les réseaux sociaux.
Analyse de tweets en temps réel
•Identification des terroristes par leurs tweets publiés
•Identification des thèmes les plus abordées en temps réel
•Analyse de sentiments
32323232
Mouna TORJMEN KHEMAKHEM
33. Politique
• L’analyse de Big Data a joué un rôle important dans la
campagne de ré-élection de Barack Obama, notamment
pour analyser les opinions politiques de la population.
Domaines d’application de BIG DATA
• En 2014, SIGMA conseil a utilisé le Big Data pour
donner l’estimation du résultat de vote préliminaire en
Tunisie.
33333333
Mouna TORJMEN KHEMAKHEM