1/ initiation avec le big Data
2/ Data warehouse VS Big Data
3/ Domaines d’utilisations
4/ Des connaissances importantes sur Hadoop
5/ Big Data et Aspect Mobile
2. Plan
Problématique
Définition du Big Data
Big Data et 3V
Data wahrehouse VS Big Data
Domaines d’utilisations
Les techniques de traitement
Conclusion
Big Data et Aspect Mobile
2
3. Rappel
• 1 kilo-octet (ko) = 1 024 octets 210
• 1 mégaoctet (Mo) = 1 024 ko = 1 048 576 octets 220
• 1 gigaoctet (Go) = 1 024 Mo = 1,073 milliard d'octets 230
• 1 téraoctet (To) = 1 024 Go = 1 099,512 milliards d'octets 240
• 1 pétatoctet (Po) = 1 024 To = 1 259 000 milliards d'octets 250
• 1 exaoctet (Eo) = 1 024 Po = 1,15 milliard de milliards d'octets 260
• 1 zettaoctet (Zo) = 1 024 Eo = 1 180 milliards de milliards d'octets 270
• 1 yottaoctet (Yo) = 1 024 Zo = 1,208 million de milliards de milliards d'octets 280
3
4. Problématique
• 1.8 Zettaoctets ont été produits en 2011
(l’équivalent d’un milliard de disque durs de grande capacité récents, un chiffre qui continue à
augmenter de 50% chaque année)
• 2,5 trillions d’octets de données généré chaque jour
• 90% des données dans le monde ont été créées au cours des deux dernières
années seulement.
(Ces données proviennent de partout : de capteurs utilisés pour collecter les informations
climatiques, des messages sur les sites de médias sociaux, d'images numériques et de vidéos
publiées en ligne, d'enregistrements transactionnels d'achats en ligne et de signaux GPS de
téléphones mobiles…) 4
5. …de données stockées en 2011
(*)1,8 Zo
Bases de données
Capteurs
Puces Internet
Réseaux sociaux
Appareils
numériques
Moyens de paiement
Ordinateurs
RFID
Mobilité
…de données générées
sur internet en 2010
800 Md Go
Videos
…de croissance des données
Sur la seule année 2012
48%
…de croissance annuelles
des données non structurées
50 à 75%
5
7. Définition
• Les big data (grosses données), parfois appelées données massives, sont des
ensembles de données tellement volumineux qu'ils en deviennent difficiles à
travailler avec des outils classiques de gestion de base de données ou de
gestion de l'information.
• Il s’agit donc d’un ensemble de technologies, d’architecture, d’outils et de
procédures permettant à une organisation de très rapidement capter, traiter et
analyser de larges quantités et contenus hétérogènes , structurées ,non-
structurées, et d’en extraire les informations pertinentes à un coût accessible.
7
8. Big Data et 3V
• La difficulté de traitement du « Big Data » s’explique par
Leur volume,
Leur variété,
Leur vélocité
8
9. Big Data et 3V
• Volume
Quantité de données généré est très importante.
La taille des données détermine la valeur et le potentiel des données en cours d'examen.
Le nom «Big Data» contient un terme liée à la taille
• Variété
Pas de données relationnelles traditionnelles
Les données sont brutes, semi-structurées voire non structurées
Des données complexes provenant du web, du format texte et des images .
Les analyses sont d’autant plus complexes qu’elles portent de plus en plus sur les liens entre des données de natures
différentes.
• Velocité
La fréquence à laquelle les données sont générées, capturées et partagées.
Permet de répondre aux exigences et aux défis qui nous attendent dans le chemin de la croissance et le
développement.
9
10. Data warehouse VS Big Data
• Les environnements d’analyses Big data ne visent pas à remplacer les
data warehouse traditionnels mais à les compléter
• Solution big data: technologie
• Data warehouse : architecture
10
11. Data warehouse VS Big Data
DATA WAREHOUSE (BI traditionnelle) BIG DATA
Sources de données essentiellement
internes, connues et structurées
Nombreuses sources externes
Modèles de données stables Importants volumes de données non-
structurées
La majorité des données sont des
données historiques
L’analyse est faite sur des données qui
restent dans leur état brut
11
12. Domaines d’utilisations: log files
• Les fichiers journaux de serveurs Web représentent un trésor de données que les entreprises peuvent mine pour
gagner une compréhension profonde des habitudes d'achat des clients, l'utilisation des médias sociaux, web,
publicité et d'autres mesures qui informent des décisions d'affaires.
• Chaque clic depuis une page Web peut créer de l'ordre de 100 octets de données dans un journal de site typique.
• Par conséquent, de grands sites Web de manutention des millions de visiteurs simultanés peuvent générer des
centaines de giga octets ou même des téraoctets par jour.
• De nombreuses organisations se tournent vers les logiciels libres utilitaires trouvés dans l'écosystème Hadoop pour
analyser ces Big Data.
• Le choix d'un outil particulier dépend des besoins de l'analyse, l'ensemble de l'analyste de données de
compétences, et le compromis entre le temps de développement et le temps d'exécution.
12
14. Hadoop: Qu’est ce que c’est ?
o Framework Java open source .
o pour le stockage et le traitement distribués de grosses
volumétries de données.
o Consister deux grandes parties :
HDFS (Hadoop Distributed File System)
MapReduce
14
15. HDFS(Hadoop Distributed Files System)
Un système de fichiers large ,distribué et scalable
Ou moins 10K nœuds ,100 milles de fichiers
HDFS pour stocker de très gros volumes de données sur un grand nombre
de machines(nœuds).
Principe :
1. HDFS crée des blocs entre 64MB et 256MB.
2. Chaque bloc est enregistré dans un nœud (Data Node)différent du cluster
3. Répliquée plusieurs fois.
15
16. NameNode DataNode
1. NameNode :
s’exécute sur une machine séparée(cluster).
Contient des métadonnées.
Association entre les bloc et leurs emplacement sur data
Nœuds
Moteur de réplication des blocs.
2. Data Node
Un serveur de bloc
Rapport des bloc
Faciliter les échanges des donnes entre les
nœuds
Quand on a besoin un task précis il suffit de poser question à NameNode
NameNode connait le lieu , le type de contenue de tous DataNoeuds 16
18. Définition
MapReduce est un cadre logiciel qui permet aux
développeurs d'écrire des programmes qui traitent des
quantités massives de données non structurées en
parallèle sur un distribuée ...
18
19. Principe
Consiste à découper le traitement en 2 phases :
• la première phase (Map) est une étape d'ingestion et de transformation
des données sous la forme de paires clé/valeur
• la seconde phase (Reduce) est une étape de fusion des
enregistrements par clé pour former le résultat final
19
22. • Mahout est un API Java dédié aux algorithmes d’apprentissage, à
savoir:
Recommandation
Clustering
Classification
• Mahout supporte l’écosystème Hadoop.
• Les algorithmes sont programmés sous le paradigme MapReduce
22
Définition
23. Principe
Bibliothèque d’apprentissage automatique.
Permet de :
Déterminer des éléments qu’un utilisateur pourra
apprécier selon son comportement
Grouper des documents
Affecter automatiquement des catégories aux
documents.
23
27. Smartphones : le véritable générateur de
données volumineuses
• Plus de six milliards de smartphones utilisés génèrent des données massives.
• Chaque utilisateur de smartphone génère environ 60 gigaoctets de données
chaque année
• On stocke plus de 335 exaoctets d'informations chaque année avec seuls
smartphones.
27
28. Nécessité du Stockage:
Toute information peut être utile !
• Les appareils mobiles sont utilisés plus fréquemment pour acheter des biens
et services, les informations générées seront exploités pour déterminer où
vous allez faire du shopping, quels sont vos intérêts et même quelle marque
de café que vous aiment, afin que les annonceurs et les autres peuvent
identifier vos besoins et vos désirs.
• Voilà ce qu’on appelle les réseaux de stockage intelligente - faisant usage de
grand stockage de données et à exploiter cette information.
28
29. Mobile et Big Data : les défis
• Tous les données doivent être stockées quelque part
• Se qui signifie:
L'industrie du stockage est dans une course pour fournir des densités plus élevées et
supérieures de dispositifs de stockage de données à moindre coût
La technologie de déduplication de données devient encore plus importante.
29
30. Conclusion
• le Big Data ne représente pas une opportunité de description par un nouveau
modèle, mais un moyen de plus en plus incontournable d’optimiser leur
efficience et donc leur compétitivité.
30
1.8 Zetta octets ont été produits en 2011 (l’équivalent d’un milliard de disque durs de grande capacité récents), un chiffre qui continue à augmenter de 50% chaque année
Chaque jour, nous générons 2,5 trillions d’octets de données.
A tel point que 90% des données dans le monde ont été créées au cours des deux dernières années seulement. Ces données proviennent de partout : de capteurs utilisés pour collecter les informations climatiques, de messages sur les sites de médias sociaux, d'images numériques et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne et de signaux GPS de téléphones mobiles, pour ne citer que quelques sources. Ces données sont appeléesBig Data ou volumes massifs de données.
1.8 Zetta octets ont été produits en 2011 (l’équivalent d’un milliard de disque durs de grande capacité récents), un chiffre qui continue à augmenter de 50% chaque année
Chaque jour, nous générons 2,5 trillions d’octets de données.
A tel point que 90% des données dans le monde ont été créées au cours des deux dernières années seulement. Ces données proviennent de partout : de capteurs utilisés pour collecter les informations climatiques, de messages sur les sites de médias sociaux, d'images numériques et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne et de signaux GPS de téléphones mobiles, pour ne citer que quelques sources. Ces données sont appeléesBig Data ou volumes massifs de données.
DATA WAREHOUSE (BI traditionnelle)
•Sources de données essentiellement internes, connues et structurées
•Modèles de données stables
•La majorité des données sont des données historiques
•De nombreux rapports produits de manière récurrente
BIG DATA
•Nombreuses sources externes
•Importants volumes de données non-structurées
•Besoin d’itérations rapides pour expérimenter des hypothèses
•L’analyse est faite sur des données qui restent dans leur état brut
La spécialité d’Hadoop, ce serait plutôt le traitement à très grande échelle de grands volumes de
données non structurées tels que des documents textuels, des images, des fichiers audio… même s’il est aussi
possible de traiter des données semi-structurées ou structurées avec Hadoop.
Au coeur du framework open source se trouve avant tout un système de fichiers en cluster, baptisé HDFS
. HDFS a été conçu pour stocker de très gros volumes de données sur un grand nombre de machines équipées de disques durs banalisés.
Le filesystem HDFS est conçu pour assurer la sécurité des données en répliquant de multiples fois l’ensemble des données écrites sur le cluster.
C’est pourquoi quand on a besoin un task précis il suffit de poser question à NameData
NameData il a connu lieu , contenue de tt DataNoeuds
*Au lieu de parcourir le fichier séquentiellement , il est divisé en morceaux qui
sont parcourus en parallèle.
Moyen plus efficace et
rapide de traiter ces données
Chaque texte, chaque recherche, chaque appel téléphonique, chaque e-mail et chaque photo ou vidéo que vous téléchargez ou action est stocké.