Data Science & Big Data, réalités et perspectives.
1. Data
Science
&
Big
Data
Umons
–
12/3/2014
Alexis
Gil
Gonzales
2. Agenda
1. Synopsis
historique
2. Data
Science
–
principes
3. Big
Data
4. Réalités
&
PerspecHves
3. Synopsis
historique
• 1900’s
:
StaHsHques
• 1960’s
:
Pêche
aux
données
(dredging)
• 1962
:
John
Tukey
«
The
Future
of
Data
Analysis
»
• 1974
:
Peter
Naur
«
Concise
Survey
of
Computer
Methods
»
• 1989
:
Gregory
Piatetsky-‐Shapiro
:
Knowledge
Discovery
in
Database
(KDD)
Workshop
4. Synopsis
historique
• 1990’s
:
Data
Mining
• 1996
:
Fayyad,
Piatetsky-‐Shapiro,
Smyth
«
From
Data
Mining
to
Knowledge
Discovery
in
Databases
»
• 1997
:
Data
Mining
and
Knowledge
Discovery
journal
• 2001
:
William
Cleveland
«
Data
Science
:
An
acHon
plan
for
expanding
the
technical
areas
of
the
field
of
staHsHcs
»
5. Synopsis
historique
• 2002/2003
:
Data
Science
Journal,
Journal
of
Data
Science
• 2004
:
Dean,
Ghemawat
(Google)
:
«
MapReduce
:
Simplified
Data
Processing
on
Large
Clusters
»
• 2005
:
Davenport,
Cohen,
Jacobson
«
CompeHng
on
AnalyHcs
»
• 2005
:
Hadoop
naît
chez
Yahoo
• 2006
:
Google
AnalyHcs
• 2007
:
Analyse
predicHve
• 2007
:
Research
Center
for
Datalogy
and
Data
Science
–
Shanghai
(China)
6. Synopsis
historique
• 2008
:
J.
Hammerbacher,
DJ
PaHl
(Facebook,
Linkedin)
uHlisent
pour
la
première
fois
le
rôle
«
Data
ScienHst
»
• 2009
:
Kirk
Borne
«
The
RevoluHon
in
Astronomy
EducaHon
:
Data
Science
for
the
Masses
»
• 2009
:
Mathew
Graham
«
The
Art
of
Data
Science
»
7. Data
Science
-‐
Principes
Défini&on
Extrac'on
de
patrons
ou
modèles
u'les
à
par'r
de
vastes
sources
de
données
(Fayyad,
Piatetsky,
Shapiro,
Smyth
1996)
8. Data
Science
-‐
Principes
Concepts
divers
Extraire
de
la
connaissance
u'le
à
par'r
de
grands
volumes
de
données
pour
résoudre
des
problèmes
d’entreprise
peut
être
réalisé
en
suivant
un
processus
en
étapes
bien
définies.
Example
:
CRISP-‐DM
9. Data
Science
-‐
Principes
Concepts
divers
A
par'r
de
grands
volumes
de
données,
technologies
de
l’informa'on
peuvent
être
u'lisées
pour
trouver
des
aAributs
descrip'fs
et
informa'fs
d’en'tés
d’intérêt.
10. Data
Science
-‐
Principes
Concepts
divers
Si
vous
regardez
assez
longtemps
un
ensemble
de
données
vous
pourriez
trouver
quelque
chose,
mais
ce
ne
peut
pas
être
généralisé
au
délà
de
l’ensemble
de
données
ini'al.
Overfiong
11. Data
Science
-‐
Principes
Classifica&on
Prédire,
pour
chaque
élément
d’une
populaHon,
à
quelle
classe
il
apparHent.
Scoring
Prédit,
pour
chaque
élément
d’une
populaHon,
la
probabilité
d’appartenance
à
chaque
classe.
12. Data
Science
-‐
Principes
Régression
Prédire,
pour
chaque
élément
d’une
populaHon,
la
valeur
numérique
d’une
variable
donnée.
Correspondance
de
similarités
IdenHfie
des
éléments
similaires
à
parHr
de
données
connues
sur
ceux-‐ci.
classe.
13. Data
Science
-‐
Principes
Clustering
Grouper
des
éléments
d’une
populaHon
ensemble
par
leur
similarité,
mais
sans
objecHf
bien
défini.
Groupage
de
co-‐occurrence
Trouve
des
associaHons
entre
des
éléments
basées
sur
des
transacHons
les
impliquant.
(Market
basket
analysis)
14. Data
Science
-‐
Principes
Profiling
CaractérisaHon
du
comportement
typique
d’un
élément,
groupe
ou
populaHon.
Prédic&on
de
lien
Prédire
l’existence
de
liens
entre
deux
éléments
et
éventuellement
esHmer
la
force
du
lien.
15. Data
Science
-‐
Principes
Réduc&on
de
données
ConverHr
un
grand
ensemble
de
données
en
un
autre
plus
peHt
en
conservant
le
max.
d’informaHon
du
premier.
Modélisa&on
causale
Comprendre
quels
événements
ou
acHons
influencent
d’autres.
17. Data
Science
-‐
Principes
Autres
ou'ls
analy'ques
ApprenHssage
Machine
InterrogaHon
BBDD
Data
Warehousing
Analyse
de
régression
StaHsHques
18. Data
Science
-‐
Principes
Data
Mining
Supvervisé
Classifica'on
et
Régression
• SélecHon
d’arributs
• ClassificaHon
par
arbres
(inducHon)
• ClassificaHon
par
opHmisaHon
(foncHon
linéaire,
foncHon
objecHf)
• Support
Vector
Machines
• Classificateurs
Bayesiens
• Réseaux
neuronaux
19. Data
Science
-‐
Principes
Similarités
et
voisins
• Similarités
entre
éléments
d’un
ensemble
• Distance
• Instances
similaires
-‐>
distance
minimale
• Nearest
Neighbor
• ClassificaHon
• Diverses
mesures
de
distance
!
(Manharan,
Jaccard,
Cosinus,
distance
d’édiHon,
...)
20. Data
Science
-‐
Principes
Clustering
• SegmentaHon
non
supervisée
• «
groupes
naturels
»,
sans
cible
connue
• Clustering
hiérarchique
21. Data
Science
-‐
Principes
Co-‐occurrence
• Découverte
d’associaHons
entre
éléments
d’une
populaHon
sur
base
des
transacHons
passées.
• Recherche
combinaison
d’éléments
aux
staHsHques
intéressantes.
• Grand
nombre
de
co-‐occurrences
!
• Hasard
• Support
de
l’associaHon
26. Big
Data
Technologies
• Au
début
:
MapReduce
(Google),
puis
Hadoop
(Yahoo),
vers
2004.
• MapReduce
:
Algorithme
distribué.
• Hadoop
:
plate-‐forme
distribuée.
27. Big
Data
Hadoop
• Architecture
en
Cluster:
NameNode,
DataNode.
Secondary
NameNode
• HDFS
:
Distributed
FS.
Data
Block
• Data
écrite
1
seule
fois,
lue
plusieurs.
• Hadoop
core
en
java
• MapReduce
inside
• Hbase
:
BD
en
colonnes.
Flexible,
Compression
• ZooKeeper
:
GesHon
de
configuraHon
• Hive
:
analyse
de
données,
proche
de
SQL,
scriptable
• Pig
:
analyse
de
données,
laHn.
28. Big
Data
Hadoop
(cont)
• Flume
:
traitement
de
flux,
logfiles
•
SolR
:
Basé
sur
project
Lucene.
Recherche
textuelle
sur
grands
volumes
de
documents.
• Mahout
:
Librairie
d’apprenHssage
machine
pour
grands
volumes
de
données.
UHlise
MapReduce.
• Giraph/Hama
:
Traitement
itéraHf
de
graphes.
Basé
sur
Pregel
(Google),
BSP.
• Ambari
:
provision,
gesHon,
mgmt
hadoop
• Squoop
:
connecteurs
de
données.
• Oozie
:
ordonnanceur
de
jobs.
29. Big
Data
Hadoop
(cont)
• WebHDFS
:
REST
API
• Hcatalog
:
expose
Hive
métadonnées.
«
schéma
»
• WebHCatalog
:
REST
API
• YARN
:
MapReduce
2.0,
généralisaHon
• Tez
:
Nouveau
framework
exécuHon
de
tâches
• Storm
:
Temps
réel
33. Big
Data
Enquête
Gartner
2013
(US)
• 64%
entreprises
invesHssent
ou
vont
le
faire
dans
des
technologies
Big
Data
• Mais
uniquement
8%
de
ces
derniers
ont
pris
des
acHons
concrètes
• Principaux
secteurs
:
Banque,
médias,
services
• Problème
1
:
quanHficaHon
de
la
valeur
du
BD
• Problème
2
:
manque
de
talents
à
<>
niveaux