1. SOUTENANCE
DE
FIN
D’ÉTUDE
STAGE
EN
BIG
DATA
Nelson
Verdier
-‐
5
Septembre
2014
2. Plan
• Ysance
• Big
data
?
• Proof
of
concept
-‐
Hadoop
• R&D
-‐
Spark
• DVP
• Conclusion
3. !
Stratégie digitale & Consulting IT!
Conception, mise en oeuvre et animation
ebusiness, Business Intelligence, Cloud Computing &
Big Data
4.
5. Le
big
data
?
• 3V
• volume
• vélocité
• variété
• Extraire
des
données
valorisées
• Architecture
distribuée
et
extensible
6. MapReduce
et
Hadoop
• MapReduce
• processus
de
traitement
parallèle
sur
cluster
• originaire
de
chez
Google
en
2004
• Hadoop
• implémentation
en
java
du
mapreduce
• par
Yahoo
en
2005
• hdfs
-‐
hadoop
distributed
file
system
• namenode,
datanode
9. Proof
of
concept
Hadoop
• Mission
pour
un
acteur
dans
la
lunetterie
• Contexte
:
• Ensemble
de
serveurs
qui
communiquent
entre
eux,
produisent
des
logs
• Extraire
de
ces
logs
des
informations
commerciales
• clients,
commandes,
adresses,
quantités…
• Stocker
ces
données
propres
dans
Amazon
S3
10. Proof
of
concept
Hadoop
• Implémentation
du
job
MapReduce
en
Java
• Déploiement
du
job
sur
Amazon
EMR
• script
de
lancement
de
job
• Première
approche
big
data
intéressante
• api
java
bas
niveau
avec
des
classes
Mapper
et
Reducer
11. R&D
-‐
Spark
• Volonté
de
maitriser
les
technologies
de
demain
• Apache
Spark
• framework
de
traitement
distribué
• chargement
des
données
en
mémoire
• briques
semi-‐temps
réel,
machine
learning,
sql
• Plusieurs
applications
développées
pour
tester
Spark
14. Applications
spark
• sentiment:
catégorisation
de
tweets
selon
qu’ils
soient
à
connotation
positive
ou
négative
• sql:
prise
en
main
de
la
brique
Spark
• Livrables:
• codes
sources
• documentation
sur
le
wiki
ysance
15. DVP
-‐
data
visualisation
platform
Data
visualisation
platform
• Permet
de
suivre
les
partages
d’urls
d’un
site
web
spécifique
sur
twitter,
page
par
page
et
sur
une
fenêtre
de
temps.
16. DVP
-‐
data
visualisation
platform
• Développement
du
backend
• Spark
Streaming
• MongoDB
• Hive
+
user
defined
function
• Hbase
• Elasticsearch
• Jusqu’a
200
urls
par
seconde
17. Conclusion
• Big
data,
un
environnement
riche
où
tout
reste
à
faire.
Des
challenges
techniques
comme
fonctionnels
• Volonté
de
gagner
en
expertise
technique
avant
d’évoluer
vers
un
poste
plus
haut
niveau
• Ysance,
un
investissement
en
R&D
pour
mieux
accueillir
les
futurs
besoins
clients