Presentation big data & prog. para. joseph abena
1. CALCUL À HAUTE PERFORMANCE
POUR S'APPROPRIER LE
TRAITEMENT DU BIGDATA AU
CAMEROUN
Par @JosephABENA
www.Joseph.ABENA.me
2. VOTRE INTERLOCUTEUR
Joseph ABENA ABENA – Background Professionnel
◦ Cadre d’ entreprise / Manager (Digital, Telecommunications)
◦ Entrepreneur
◦ Conseiller TIC au Conseil National de la Jeunesse du Cameroun
◦ Enseignant à l’ Université de Douala (depuis 2012)
3. Joseph ABENA ABENA – Background académique
◦ Doctorant en Informatique Apliquée
◦ DEA en Application informatiques Avancée.
◦ Ingénieur Informaticien spécialisé en Gestion de Projets IT
◦ Ingénieur de Travaux en Ingienerie Logiciel
VOTRE INTERLOCUTEUR
7. Le BIG DATA
Les big data ou mégadonnées ou données massives,
Ensembles de données qui deviennent tellement
volumineux qu'ils en deviennent difficiles à travailler
avec des outils classiques de gestion de base de
données ou de gestion de l'information.
8. Le BIG DATA : le Principe
• Depuis l’explosion d’Internet, les données sont partout : même à des
endroits où on ne les attend pas.
• L’idée générale du big data, c’est d’enregistrer beaucoup de données (le plus
possible)
Période Volume
des dinosaures à 2003
Il s’est enregistré 5 exabytes de
données en tout (5 EB ou 5Eo =
5 millions de TB ou To)
(5 milliards de GB)
en 2011 5 EB étaient produits en 2 jours
en 2013 5 EB étaient produits en 10 minutes
je vous laisse imaginer la suite
10. Le BIG DATA : D’oú viennent les Données ?
Assez classique et je pense que vous vous en doutez un peu :
Les sites sur lesquels vous surfez,
Les mails ou messages que vous envoyez ou recevez,
Les applications de vos smartphones,
Les conversations téléphoniques,
…
et quelques autres, dont vous vous ne doutiez peut être pas :
•Votre alarme de maison, si elle est relié à un central téléphonique,
•Les volets électriques s’ils peuvent être commandés à distance,
•Les thermostats s’ils sont commandés à distances, et en général beaucoup
d’équipements de domotique.
•Et bien évidemment, tout ce qui peut se connecter à Internet, comme par
exemple :
Les GPS,
Vos machines de Fitness, si elles sont capables d’enregistrer vos
performances,
Vos réfrigérateurs connectés,
Vos téléviseurs connectés,
…
11. Le BIG DATA : Les Enjeux ?
• Le Big data ne se limite pas aux multinationales à des fins commerciales et aux
gouvernements des pays occidentaux.
• Moteur de croissance dans les pays émergents où la donnée peut être
véritablement porteuse de valeur
o Plus de 6 milliards d’appareils mobiles sur terre.
o 5 milliards d’entre eux se trouvent dans les pays émergents.
• Big data, source de progrès économique.
• Big data, source de progrès également sociétal.
• Big data pour la Sécurité et positionnement Géostratégique du Cameroun.
12. Le BIG DATA : Les Enjeux ?
Trois types de technologies distinctes :
1. Une accélération matérielle à l'aide de mémoires dynamiques
DRAM ou Flash.
2. Le recours à des bases de données ou la programmation
massivement parallèles (Massively Parallel Processing)
3. Les solutions utilisant des formats de bases de données non
relationnelles basées sur NoSQL. …
14. Programmation //: Définition
En informatique, le parallélisme consiste à mettre en œuvre
des architectures d'électronique numérique permettant de traiter des
informations de manière simultanée, ainsi que les algorithmes spécialisés
pour celles-ci.
Ces techniques ont pour but de réaliser le plus grand nombre d'opérations
en un temps le plus petit possible.
16. Programmation // : Contraintes
Certaines applications peuvent avoir besoin d’effectuer plusieurs
traitements en parallèle. Elles peuvent être constituées de plusieurs
processus, bénéficiant ainsi:
•de l’ordonnancement du SE (multi-cœurs),
•de l’arbitrage des ressources par le SE.
Mais cette solution présente aussi des inconvénients :
•obligation de passer par le SE pour communiquer (entrées-sorties,),
•surcoût en temps lié aux IPC et à l’ordonnancement (commutation de
contexte).
20. Langage de Programmation //: API C - C++
MPI (Massage Passing Interface)
Une application écrite en C et MPI se composera des plusieurs processus, les processus
seront obtenus à partir du même code C (SPMD - Single Program Multiple Data) ou à
partir des codes différents (MPMD).
OpenMP (Open Multiprocessing)
Une application en OpenMP est une application mono-processus avec un thread
principal et, éventuellement, d'autres threads lancés en parallèle. Les variables du
programmes deviennent des variables communes (shared) ou privé (private).
CUDA C
CUDA est une architecture de traitement parallèle développée par NVIDIA permettant
de décupler les performances de calcul du système en exploitant la puissance des
processeurs graphiques (GPU).