SlideShare una empresa de Scribd logo
1 de 38
Descargar para leer sin conexión
Data	
  Science	
  &	
  Big	
  Data	
  
Umons	
  –	
  12/3/2014	
  
Alexis	
  Gil	
  Gonzales	
  
	
  
Agenda	
  
1.  Synopsis	
  historique	
  
2.  Data	
  Science	
  –	
  principes	
  
3.  Big	
  Data	
  
4.  Réalités	
  &	
  PerspecHves	
  
Synopsis	
  historique	
  
•  1900’s	
  :	
  StaHsHques	
  
•  1960’s	
  :	
  Pêche	
  aux	
  données	
  (dredging)	
  
•  1962	
  :	
  John	
  Tukey	
  «	
  The	
  Future	
  of	
  Data	
  
Analysis	
  »	
  
•  1974	
  :	
  Peter	
  Naur	
  «	
  Concise	
  Survey	
  of	
  
Computer	
  Methods	
  »	
  
•  1989	
  :	
  Gregory	
  Piatetsky-­‐Shapiro	
  :	
  Knowledge	
  
Discovery	
  in	
  Database	
  (KDD)	
  Workshop	
  
Synopsis	
  historique	
  
•  1990’s	
  :	
  Data	
  Mining	
  
•  1996	
  :	
  Fayyad,	
  Piatetsky-­‐Shapiro,	
  Smyth	
  
«	
  From	
  Data	
  Mining	
  to	
  Knowledge	
  Discovery	
  
in	
  Databases	
  »	
  
•  1997	
  :	
  Data	
  Mining	
  and	
  Knowledge	
  Discovery	
  
journal	
  
•  2001	
  :	
  William	
  Cleveland	
  «	
  Data	
  Science	
  :	
  An	
  
acHon	
  plan	
  for	
  expanding	
  the	
  technical	
  areas	
  
of	
  the	
  field	
  of	
  staHsHcs	
  »	
  
Synopsis	
  historique	
  
•  2002/2003	
  :	
  Data	
  Science	
  Journal,	
  Journal	
  of	
  Data	
  
Science	
  
•  2004	
  :	
  Dean,	
  Ghemawat	
  (Google)	
  :	
  «	
  MapReduce	
  :	
  
Simplified	
  Data	
  Processing	
  on	
  Large	
  Clusters	
  »	
  	
  
•  2005	
  :	
  Davenport,	
  Cohen,	
  Jacobson	
  «	
  CompeHng	
  on	
  
AnalyHcs	
  »	
  
•  2005	
  :	
  Hadoop	
  naît	
  chez	
  Yahoo	
  
•  2006	
  :	
  Google	
  AnalyHcs	
  
•  2007	
  :	
  Analyse	
  predicHve	
  
•  2007	
  :	
  Research	
  Center	
  for	
  Datalogy	
  and	
  Data	
  Science	
  
–	
  Shanghai	
  (China)	
  
Synopsis	
  historique	
  
•  2008	
  :	
  J.	
  Hammerbacher,	
  DJ	
  PaHl	
  (Facebook,	
  
Linkedin)	
  uHlisent	
  pour	
  la	
  première	
  fois	
  le	
  rôle	
  
«	
  Data	
  ScienHst	
  »	
  
•  2009	
  :	
  Kirk	
  Borne	
  «	
  The	
  RevoluHon	
  in	
  
Astronomy	
  EducaHon	
  :	
  Data	
  Science	
  for	
  the	
  
Masses	
  »	
  
•  2009	
  :	
  Mathew	
  Graham	
  «	
  The	
  Art	
  of	
  Data	
  
Science	
  »	
  
Data	
  Science	
  -­‐	
  Principes	
  
Défini&on	
  
	
  
Extrac'on	
  de	
  patrons	
  ou	
  modèles	
  u'les	
  à	
  par'r	
  
de	
  vastes	
  sources	
  de	
  données	
  (Fayyad,	
  
Piatetsky,	
  Shapiro,	
  Smyth	
  1996)	
  
Data	
  Science	
  -­‐	
  Principes	
  
Concepts	
  divers	
  
	
  
Extraire	
  de	
  la	
  connaissance	
  u'le	
  à	
  par'r	
  de	
  
grands	
  volumes	
  de	
  données	
  pour	
  résoudre	
  des	
  
problèmes	
  d’entreprise	
  peut	
  être	
  réalisé	
  en	
  
suivant	
  un	
  processus	
  en	
  étapes	
  bien	
  définies.	
  
Example	
  :	
  CRISP-­‐DM	
  
Data	
  Science	
  -­‐	
  Principes	
  
Concepts	
  divers	
  
	
  
A	
  par'r	
  de	
  grands	
  volumes	
  de	
  données,	
  
technologies	
  de	
  l’informa'on	
  peuvent	
  être	
  
u'lisées	
  pour	
  trouver	
  des	
  aAributs	
  descrip'fs	
  et	
  
informa'fs	
  d’en'tés	
  d’intérêt.	
  
	
  
Data	
  Science	
  -­‐	
  Principes	
  
Concepts	
  divers	
  
	
  
Si	
  vous	
  regardez	
  assez	
  longtemps	
  un	
  ensemble	
  
de	
  données	
  vous	
  pourriez	
  trouver	
  quelque	
  
chose,	
  mais	
  ce	
  ne	
  peut	
  pas	
  être	
  généralisé	
  au	
  
délà	
  de	
  l’ensemble	
  de	
  données	
  ini'al.	
  
	
  
Overfiong	
  
	
  
Data	
  Science	
  -­‐	
  Principes	
  
Classifica&on	
  
	
  
Prédire,	
  pour	
  chaque	
  élément	
  d’une	
  populaHon,	
  à	
  
quelle	
  classe	
  il	
  apparHent.	
  
	
  
Scoring	
  
	
  
Prédit,	
  pour	
  chaque	
  élément	
  d’une	
  populaHon,	
  la	
  
probabilité	
  d’appartenance	
  à	
  chaque	
  classe.	
  
	
  
Data	
  Science	
  -­‐	
  Principes	
  
Régression	
  
	
  
Prédire,	
  pour	
  chaque	
  élément	
  d’une	
  populaHon,	
  la	
  
valeur	
  numérique	
  d’une	
  variable	
  donnée.	
  
	
  
Correspondance	
  de	
  similarités	
  
	
  
IdenHfie	
  des	
  éléments	
  similaires	
  à	
  parHr	
  de	
  
données	
  connues	
  sur	
  ceux-­‐ci.	
  classe.	
  
	
  
Data	
  Science	
  -­‐	
  Principes	
  
Clustering	
  
	
  
Grouper	
  des	
  éléments	
  d’une	
  populaHon	
  ensemble	
  
par	
  leur	
  similarité,	
  mais	
  sans	
  objecHf	
  bien	
  défini.	
  
	
  
Groupage	
  de	
  co-­‐occurrence	
  
	
  
Trouve	
  des	
  associaHons	
  entre	
  des	
  éléments	
  basées	
  
sur	
  des	
  transacHons	
  les	
  impliquant.	
  
(Market	
  basket	
  analysis)	
  
	
  
Data	
  Science	
  -­‐	
  Principes	
  
Profiling	
  
	
  
CaractérisaHon	
  du	
  comportement	
  typique	
  d’un	
  
élément,	
  groupe	
  ou	
  populaHon.	
  
	
  
Prédic&on	
  de	
  lien	
  
	
  
Prédire	
  l’existence	
  de	
  liens	
  entre	
  deux	
  éléments	
  et	
  
éventuellement	
  esHmer	
  la	
  force	
  du	
  lien.	
  
	
  
Data	
  Science	
  -­‐	
  Principes	
  
Réduc&on	
  de	
  données	
  
	
  
ConverHr	
  un	
  grand	
  ensemble	
  de	
  données	
  en	
  un	
  
autre	
  plus	
  peHt	
  en	
  conservant	
  le	
  max.	
  
d’informaHon	
  du	
  premier.	
  
	
  
Modélisa&on	
  causale	
  
	
  
Comprendre	
  quels	
  événements	
  ou	
  acHons	
  
influencent	
  d’autres.	
  
	
  
Data	
  Science	
  -­‐	
  Principes	
  
CRISP-­‐DM
Data	
  Science	
  -­‐	
  Principes	
  
Autres	
  ou'ls	
  analy'ques	
  
ApprenHssage	
  
Machine	
  
InterrogaHon	
  BBDD	
  
Data	
  Warehousing	
  
Analyse	
  de	
  
régression	
  
StaHsHques	
  
Data	
  Science	
  -­‐	
  Principes	
  
Data	
  Mining	
  Supvervisé	
  
Classifica'on	
  et	
  Régression	
  
•  SélecHon	
  d’arributs	
  
•  ClassificaHon	
  par	
  arbres	
  (inducHon)	
  
•  ClassificaHon	
  par	
  opHmisaHon	
  (foncHon	
  
linéaire,	
  foncHon	
  objecHf)	
  
•  Support	
  Vector	
  Machines	
  
•  Classificateurs	
  Bayesiens	
  
•  Réseaux	
  neuronaux	
  
Data	
  Science	
  -­‐	
  Principes	
  
Similarités	
  et	
  voisins	
  
•  Similarités	
  entre	
  éléments	
  d’un	
  ensemble	
  
•  Distance	
  	
  
•  Instances	
  similaires	
  -­‐>	
  distance	
  minimale	
  
•  Nearest	
  Neighbor	
  
•  ClassificaHon	
  
•  Diverses	
  mesures	
  de	
  distance	
  !	
  (Manharan,	
  
Jaccard,	
  Cosinus,	
  distance	
  d’édiHon,	
  ...)	
  
Data	
  Science	
  -­‐	
  Principes	
  
Clustering	
  
•  SegmentaHon	
  non	
  supervisée	
  
•  «	
  groupes	
  naturels	
  »,	
  sans	
  cible	
  connue	
  
•  Clustering	
  hiérarchique	
  
Data	
  Science	
  -­‐	
  Principes	
  
Co-­‐occurrence	
  
•  Découverte	
  d’associaHons	
  entre	
  éléments	
  
d’une	
  populaHon	
  sur	
  base	
  des	
  transacHons	
  
passées.	
  
•  Recherche	
  combinaison	
  d’éléments	
  aux	
  
staHsHques	
  intéressantes.	
  
•  Grand	
  nombre	
  de	
  co-­‐occurrences	
  !	
  
•  Hasard	
  
•  Support	
  de	
  l’associaHon	
  
Data	
  Science	
  -­‐	
  Principes	
  
Profiling	
  
•  Comportement-­‐type	
  
•  DistribuHon	
  normale/log-­‐normale	
  
•  Gaussian	
  Mixture	
  Models	
  
•  Clusters	
  «	
  mous	
  »	
  
Big	
  Data	
  
•  Très	
  grands	
  volumes	
  de	
  données	
  
•  3	
  «	
  V	
  »	
  
•  Volume	
  
•  Vitesse	
  
•  Variabilité	
  
Big	
  Data	
  
Paysage	
  
Big	
  Data	
  
Big	
  Data	
  
Technologies	
  
•  Au	
  début	
  :	
  MapReduce	
  (Google),	
  puis	
  Hadoop	
  
(Yahoo),	
  vers	
  2004.	
  
•  MapReduce	
  :	
  Algorithme	
  distribué.	
  
•  Hadoop	
  :	
  plate-­‐forme	
  distribuée.	
  
Big	
  Data	
  
Hadoop	
  
•  Architecture	
  en	
  Cluster:	
  NameNode,	
  DataNode.	
  
Secondary	
  NameNode	
  
•  HDFS	
  :	
  Distributed	
  FS.	
  Data	
  Block	
  
•  Data	
  écrite	
  1	
  seule	
  fois,	
  lue	
  plusieurs.	
  
•  Hadoop	
  core	
  en	
  java	
  
•  MapReduce	
  inside	
  
•  Hbase	
  :	
  BD	
  en	
  colonnes.	
  Flexible,	
  Compression	
  
•  ZooKeeper	
  :	
  GesHon	
  de	
  configuraHon	
  
•  Hive	
  :	
  analyse	
  de	
  données,	
  proche	
  de	
  SQL,	
  scriptable	
  
•  Pig	
  :	
  analyse	
  de	
  données,	
  laHn.	
  
Big	
  Data	
  
Hadoop	
  (cont)	
  
•  Flume	
  :	
  traitement	
  de	
  flux,	
  logfiles	
  
•  	
  SolR	
  :	
  Basé	
  sur	
  project	
  Lucene.	
  Recherche	
  
	
  textuelle	
  sur	
  grands	
  volumes	
  de	
  documents.	
  
•  Mahout	
  :	
  Librairie	
  d’apprenHssage	
  machine	
  pour	
  	
  
grands	
  volumes	
  de	
  données.	
  UHlise	
  MapReduce.	
  
•  Giraph/Hama	
  :	
  Traitement	
  itéraHf	
  de	
  graphes.	
  
Basé	
  sur	
  Pregel	
  (Google),	
  BSP.	
  
•  Ambari	
  :	
  provision,	
  gesHon,	
  mgmt	
  hadoop	
  
•  Squoop	
  :	
  connecteurs	
  de	
  données.	
  
•  Oozie	
  :	
  ordonnanceur	
  de	
  jobs.	
  	
  
Big	
  Data	
  
Hadoop	
  (cont)	
  
•  WebHDFS	
  :	
  REST	
  API	
  
•  Hcatalog	
  :	
  expose	
  Hive	
  métadonnées.	
  
«	
  schéma	
  »	
  
•  WebHCatalog	
  :	
  REST	
  API	
  
•  YARN	
  :	
  MapReduce	
  2.0,	
  généralisaHon	
  
•  Tez	
  :	
  Nouveau	
  framework	
  exécuHon	
  de	
  tâches	
  
•  Storm	
  :	
  Temps	
  réel	
  
Big	
  Data	
  
Evolu'on	
  Hadoop	
  
Big	
  Data	
  
Quelques	
  examples	
  concrets	
  
Avec	
  flume,	
  pig,	
  hive	
  et	
  mahout	
  
Big	
  Data	
  
Réalités	
  
Big	
  Data	
  
Enquête	
  Gartner	
  	
  2013	
  (US)	
  
•  64%	
  entreprises	
  invesHssent	
  ou	
  vont	
  le	
  faire	
  
dans	
  des	
  technologies	
  Big	
  Data	
  
•  Mais	
  uniquement	
  8%	
  de	
  ces	
  derniers	
  ont	
  pris	
  
des	
  acHons	
  concrètes	
  
•  Principaux	
  secteurs	
  :	
  Banque,	
  médias,	
  services	
  
•  Problème	
  1	
  :	
  quanHficaHon	
  de	
  la	
  valeur	
  du	
  BD	
  
•  Problème	
  2	
  :	
  manque	
  de	
  talents	
  à	
  <>	
  niveaux	
  
Big	
  Data	
  
Réalités	
  
Big	
  Data	
  
Enquête	
  EMC	
  2012	
  
Big	
  Data	
  
Enquête	
  EMC	
  2012	
  
Big	
  Data	
  
Enquête	
  EMC	
  2012	
  
The	
  End	
  
Merci	
  !	
  

Más contenido relacionado

La actualidad más candente

BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computingsenejug
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big dataRomain Jouin
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
 
Valtech - Big Data en action
Valtech - Big Data en actionValtech - Big Data en action
Valtech - Big Data en actionValtech
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2Mehdi TAZI
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012datasio
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data ScienceAshraf Grioute
 
Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...
Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...
Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...Aurélien Malo
 
Introduction à la big data v3
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3 Mehdi TAZI
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopJoseph Glorieux
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationORSYS
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Lilia Sfaxi
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big DataNetSecure Day
 

La actualidad más candente (20)

BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computing
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Meetup intro techno big data
Meetup intro techno big dataMeetup intro techno big data
Meetup intro techno big data
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
Valtech - Big Data en action
Valtech - Big Data en actionValtech - Big Data en action
Valtech - Big Data en action
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012
 
Cours Big Data Part I
Cours Big Data Part ICours Big Data Part I
Cours Big Data Part I
 
Big data : défis & technologies
Big data : défis & technologiesBig data : défis & technologies
Big data : défis & technologies
 
Chapitre i-intro
Chapitre i-introChapitre i-intro
Chapitre i-intro
 
EXL Group - Offre Data Science
EXL Group - Offre Data ScienceEXL Group - Offre Data Science
EXL Group - Offre Data Science
 
Big data
Big dataBig data
Big data
 
Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...
Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...
Conférence "le big data en entreprise" de René Lefébure lors de l'évènement D...
 
Introduction à la big data v3
Introduction à la big data v3 Introduction à la big data v3
Introduction à la big data v3
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS FormationSéminaire BIG DATA, SYNTHÈSE - ORSYS Formation
Séminaire BIG DATA, SYNTHÈSE - ORSYS Formation
 
Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture Thinking Big - Big data: principes et architecture
Thinking Big - Big data: principes et architecture
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
 

Destacado

Chauffage et évaporation: calcul de quantité d'énergie
Chauffage et évaporation: calcul de quantité d'énergieChauffage et évaporation: calcul de quantité d'énergie
Chauffage et évaporation: calcul de quantité d'énergieNicolas JOUVE
 
Réflexion sur la valorisation des données issues des
Réflexion sur la valorisation des données issues desRéflexion sur la valorisation des données issues des
Réflexion sur la valorisation des données issues desHapaplap
 
Diaporama : Conférence sur la composition des produits d'entretien
Diaporama : Conférence sur la composition des produits d'entretienDiaporama : Conférence sur la composition des produits d'entretien
Diaporama : Conférence sur la composition des produits d'entretienprogramme-boreal
 
Tour d'eau dans les périmètres irrigués
Tour d'eau dans les périmètres irriguésTour d'eau dans les périmètres irrigués
Tour d'eau dans les périmètres irriguésHichem Achour
 
Tours d’eau chimie et protection du public contre la légionellose
Tours d’eau   chimie et protection du public contre la légionelloseTours d’eau   chimie et protection du public contre la légionellose
Tours d’eau chimie et protection du public contre la légionellosePhil Boileau
 
Calcul pompes de_surface
Calcul pompes de_surfaceCalcul pompes de_surface
Calcul pompes de_surfacekhaledH
 
L'hydraulique au pluriel
L'hydraulique au plurielL'hydraulique au pluriel
L'hydraulique au plurielfnetuntm
 
Eau de-pluie-habitat-2011 sa 1.0 ok
Eau de-pluie-habitat-2011 sa 1.0 okEau de-pluie-habitat-2011 sa 1.0 ok
Eau de-pluie-habitat-2011 sa 1.0 okSaraha import-export
 
Présentation: L'Alcalanité...la clé d'une bonne santé!
Présentation: L'Alcalanité...la clé d'une bonne santé!Présentation: L'Alcalanité...la clé d'une bonne santé!
Présentation: L'Alcalanité...la clé d'une bonne santé!Kareen 'Fearless' Aristide
 
Hydraulique à Surface Libre
Hydraulique à Surface LibreHydraulique à Surface Libre
Hydraulique à Surface LibreRoland Yonaba
 
Partie 1 - Assainissement sur AutoCad 2007 et 2004
Partie 1  -  Assainissement sur AutoCad 2007 et 2004Partie 1  -  Assainissement sur AutoCad 2007 et 2004
Partie 1 - Assainissement sur AutoCad 2007 et 2004Ahmed EL ATARI
 
Alimentation en eau potable1
Alimentation en eau potable1Alimentation en eau potable1
Alimentation en eau potable1Hiba Architecte
 

Destacado (12)

Chauffage et évaporation: calcul de quantité d'énergie
Chauffage et évaporation: calcul de quantité d'énergieChauffage et évaporation: calcul de quantité d'énergie
Chauffage et évaporation: calcul de quantité d'énergie
 
Réflexion sur la valorisation des données issues des
Réflexion sur la valorisation des données issues desRéflexion sur la valorisation des données issues des
Réflexion sur la valorisation des données issues des
 
Diaporama : Conférence sur la composition des produits d'entretien
Diaporama : Conférence sur la composition des produits d'entretienDiaporama : Conférence sur la composition des produits d'entretien
Diaporama : Conférence sur la composition des produits d'entretien
 
Tour d'eau dans les périmètres irrigués
Tour d'eau dans les périmètres irriguésTour d'eau dans les périmètres irrigués
Tour d'eau dans les périmètres irrigués
 
Tours d’eau chimie et protection du public contre la légionellose
Tours d’eau   chimie et protection du public contre la légionelloseTours d’eau   chimie et protection du public contre la légionellose
Tours d’eau chimie et protection du public contre la légionellose
 
Calcul pompes de_surface
Calcul pompes de_surfaceCalcul pompes de_surface
Calcul pompes de_surface
 
L'hydraulique au pluriel
L'hydraulique au plurielL'hydraulique au pluriel
L'hydraulique au pluriel
 
Eau de-pluie-habitat-2011 sa 1.0 ok
Eau de-pluie-habitat-2011 sa 1.0 okEau de-pluie-habitat-2011 sa 1.0 ok
Eau de-pluie-habitat-2011 sa 1.0 ok
 
Présentation: L'Alcalanité...la clé d'une bonne santé!
Présentation: L'Alcalanité...la clé d'une bonne santé!Présentation: L'Alcalanité...la clé d'une bonne santé!
Présentation: L'Alcalanité...la clé d'une bonne santé!
 
Hydraulique à Surface Libre
Hydraulique à Surface LibreHydraulique à Surface Libre
Hydraulique à Surface Libre
 
Partie 1 - Assainissement sur AutoCad 2007 et 2004
Partie 1  -  Assainissement sur AutoCad 2007 et 2004Partie 1  -  Assainissement sur AutoCad 2007 et 2004
Partie 1 - Assainissement sur AutoCad 2007 et 2004
 
Alimentation en eau potable1
Alimentation en eau potable1Alimentation en eau potable1
Alimentation en eau potable1
 

Similar a Data Science & Big Data, réalités et perspectives.

JIES 2014 A. Giordan - Introduction
JIES 2014 A. Giordan - IntroductionJIES 2014 A. Giordan - Introduction
JIES 2014 A. Giordan - IntroductionGroupe Traces
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdfZkSadrati
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdfZkSadrati
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungenGalsungen
 
Aaf archivistes these
Aaf archivistes   theseAaf archivistes   these
Aaf archivistes theseAssociationAF
 
Miettes de données - Keynote BDA 2015
Miettes de données - Keynote BDA 2015Miettes de données - Keynote BDA 2015
Miettes de données - Keynote BDA 2015Amélie Marian
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
 
Webinar EEIE #06 : Datavisualisation, faites parler la data
Webinar EEIE #06 : Datavisualisation, faites parler la dataWebinar EEIE #06 : Datavisualisation, faites parler la data
Webinar EEIE #06 : Datavisualisation, faites parler la dataGroupe EEIE
 
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheFiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheAgropolis International
 
Cersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutionsCersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutionsolivier
 
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...olivier
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 

Similar a Data Science & Big Data, réalités et perspectives. (20)

JIES 2014 A. Giordan - Introduction
JIES 2014 A. Giordan - IntroductionJIES 2014 A. Giordan - Introduction
JIES 2014 A. Giordan - Introduction
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdf
 
Introduction au BigData.pdf
Introduction au BigData.pdfIntroduction au BigData.pdf
Introduction au BigData.pdf
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
 
Aaf archivistes these
Aaf archivistes   theseAaf archivistes   these
Aaf archivistes these
 
Stage pgd 2021-04-07
Stage pgd 2021-04-07Stage pgd 2021-04-07
Stage pgd 2021-04-07
 
Bigdata opensource
Bigdata opensourceBigdata opensource
Bigdata opensource
 
Miettes de données - Keynote BDA 2015
Miettes de données - Keynote BDA 2015Miettes de données - Keynote BDA 2015
Miettes de données - Keynote BDA 2015
 
Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...
Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...
Entrepôt de données ouvertes IRD. Un service en ligne pour l’ouverture et le ...
 
OWF12/BIG DATA OWF OpenSearchServer light
OWF12/BIG DATA OWF OpenSearchServer lightOWF12/BIG DATA OWF OpenSearchServer light
OWF12/BIG DATA OWF OpenSearchServer light
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
Webinar EEIE #06 : Datavisualisation, faites parler la data
Webinar EEIE #06 : Datavisualisation, faites parler la dataWebinar EEIE #06 : Datavisualisation, faites parler la data
Webinar EEIE #06 : Datavisualisation, faites parler la data
 
introNoSQL.pdf
introNoSQL.pdfintroNoSQL.pdf
introNoSQL.pdf
 
DataMining.pdf
DataMining.pdfDataMining.pdf
DataMining.pdf
 
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheFiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
 
Cersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutionsCersic: culture informationnelle et institutions
Cersic: culture informationnelle et institutions
 
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
De la recherche d'information aux pratiques scientifiques : vers de nouveaux ...
 
Hadoop et le big data
Hadoop et le big dataHadoop et le big data
Hadoop et le big data
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 

Data Science & Big Data, réalités et perspectives.

  • 1. Data  Science  &  Big  Data   Umons  –  12/3/2014   Alexis  Gil  Gonzales    
  • 2. Agenda   1.  Synopsis  historique   2.  Data  Science  –  principes   3.  Big  Data   4.  Réalités  &  PerspecHves  
  • 3. Synopsis  historique   •  1900’s  :  StaHsHques   •  1960’s  :  Pêche  aux  données  (dredging)   •  1962  :  John  Tukey  «  The  Future  of  Data   Analysis  »   •  1974  :  Peter  Naur  «  Concise  Survey  of   Computer  Methods  »   •  1989  :  Gregory  Piatetsky-­‐Shapiro  :  Knowledge   Discovery  in  Database  (KDD)  Workshop  
  • 4. Synopsis  historique   •  1990’s  :  Data  Mining   •  1996  :  Fayyad,  Piatetsky-­‐Shapiro,  Smyth   «  From  Data  Mining  to  Knowledge  Discovery   in  Databases  »   •  1997  :  Data  Mining  and  Knowledge  Discovery   journal   •  2001  :  William  Cleveland  «  Data  Science  :  An   acHon  plan  for  expanding  the  technical  areas   of  the  field  of  staHsHcs  »  
  • 5. Synopsis  historique   •  2002/2003  :  Data  Science  Journal,  Journal  of  Data   Science   •  2004  :  Dean,  Ghemawat  (Google)  :  «  MapReduce  :   Simplified  Data  Processing  on  Large  Clusters  »     •  2005  :  Davenport,  Cohen,  Jacobson  «  CompeHng  on   AnalyHcs  »   •  2005  :  Hadoop  naît  chez  Yahoo   •  2006  :  Google  AnalyHcs   •  2007  :  Analyse  predicHve   •  2007  :  Research  Center  for  Datalogy  and  Data  Science   –  Shanghai  (China)  
  • 6. Synopsis  historique   •  2008  :  J.  Hammerbacher,  DJ  PaHl  (Facebook,   Linkedin)  uHlisent  pour  la  première  fois  le  rôle   «  Data  ScienHst  »   •  2009  :  Kirk  Borne  «  The  RevoluHon  in   Astronomy  EducaHon  :  Data  Science  for  the   Masses  »   •  2009  :  Mathew  Graham  «  The  Art  of  Data   Science  »  
  • 7. Data  Science  -­‐  Principes   Défini&on     Extrac'on  de  patrons  ou  modèles  u'les  à  par'r   de  vastes  sources  de  données  (Fayyad,   Piatetsky,  Shapiro,  Smyth  1996)  
  • 8. Data  Science  -­‐  Principes   Concepts  divers     Extraire  de  la  connaissance  u'le  à  par'r  de   grands  volumes  de  données  pour  résoudre  des   problèmes  d’entreprise  peut  être  réalisé  en   suivant  un  processus  en  étapes  bien  définies.   Example  :  CRISP-­‐DM  
  • 9. Data  Science  -­‐  Principes   Concepts  divers     A  par'r  de  grands  volumes  de  données,   technologies  de  l’informa'on  peuvent  être   u'lisées  pour  trouver  des  aAributs  descrip'fs  et   informa'fs  d’en'tés  d’intérêt.    
  • 10. Data  Science  -­‐  Principes   Concepts  divers     Si  vous  regardez  assez  longtemps  un  ensemble   de  données  vous  pourriez  trouver  quelque   chose,  mais  ce  ne  peut  pas  être  généralisé  au   délà  de  l’ensemble  de  données  ini'al.     Overfiong    
  • 11. Data  Science  -­‐  Principes   Classifica&on     Prédire,  pour  chaque  élément  d’une  populaHon,  à   quelle  classe  il  apparHent.     Scoring     Prédit,  pour  chaque  élément  d’une  populaHon,  la   probabilité  d’appartenance  à  chaque  classe.    
  • 12. Data  Science  -­‐  Principes   Régression     Prédire,  pour  chaque  élément  d’une  populaHon,  la   valeur  numérique  d’une  variable  donnée.     Correspondance  de  similarités     IdenHfie  des  éléments  similaires  à  parHr  de   données  connues  sur  ceux-­‐ci.  classe.    
  • 13. Data  Science  -­‐  Principes   Clustering     Grouper  des  éléments  d’une  populaHon  ensemble   par  leur  similarité,  mais  sans  objecHf  bien  défini.     Groupage  de  co-­‐occurrence     Trouve  des  associaHons  entre  des  éléments  basées   sur  des  transacHons  les  impliquant.   (Market  basket  analysis)    
  • 14. Data  Science  -­‐  Principes   Profiling     CaractérisaHon  du  comportement  typique  d’un   élément,  groupe  ou  populaHon.     Prédic&on  de  lien     Prédire  l’existence  de  liens  entre  deux  éléments  et   éventuellement  esHmer  la  force  du  lien.    
  • 15. Data  Science  -­‐  Principes   Réduc&on  de  données     ConverHr  un  grand  ensemble  de  données  en  un   autre  plus  peHt  en  conservant  le  max.   d’informaHon  du  premier.     Modélisa&on  causale     Comprendre  quels  événements  ou  acHons   influencent  d’autres.    
  • 16. Data  Science  -­‐  Principes   CRISP-­‐DM
  • 17. Data  Science  -­‐  Principes   Autres  ou'ls  analy'ques   ApprenHssage   Machine   InterrogaHon  BBDD   Data  Warehousing   Analyse  de   régression   StaHsHques  
  • 18. Data  Science  -­‐  Principes   Data  Mining  Supvervisé   Classifica'on  et  Régression   •  SélecHon  d’arributs   •  ClassificaHon  par  arbres  (inducHon)   •  ClassificaHon  par  opHmisaHon  (foncHon   linéaire,  foncHon  objecHf)   •  Support  Vector  Machines   •  Classificateurs  Bayesiens   •  Réseaux  neuronaux  
  • 19. Data  Science  -­‐  Principes   Similarités  et  voisins   •  Similarités  entre  éléments  d’un  ensemble   •  Distance     •  Instances  similaires  -­‐>  distance  minimale   •  Nearest  Neighbor   •  ClassificaHon   •  Diverses  mesures  de  distance  !  (Manharan,   Jaccard,  Cosinus,  distance  d’édiHon,  ...)  
  • 20. Data  Science  -­‐  Principes   Clustering   •  SegmentaHon  non  supervisée   •  «  groupes  naturels  »,  sans  cible  connue   •  Clustering  hiérarchique  
  • 21. Data  Science  -­‐  Principes   Co-­‐occurrence   •  Découverte  d’associaHons  entre  éléments   d’une  populaHon  sur  base  des  transacHons   passées.   •  Recherche  combinaison  d’éléments  aux   staHsHques  intéressantes.   •  Grand  nombre  de  co-­‐occurrences  !   •  Hasard   •  Support  de  l’associaHon  
  • 22. Data  Science  -­‐  Principes   Profiling   •  Comportement-­‐type   •  DistribuHon  normale/log-­‐normale   •  Gaussian  Mixture  Models   •  Clusters  «  mous  »  
  • 23. Big  Data   •  Très  grands  volumes  de  données   •  3  «  V  »   •  Volume   •  Vitesse   •  Variabilité  
  • 26. Big  Data   Technologies   •  Au  début  :  MapReduce  (Google),  puis  Hadoop   (Yahoo),  vers  2004.   •  MapReduce  :  Algorithme  distribué.   •  Hadoop  :  plate-­‐forme  distribuée.  
  • 27. Big  Data   Hadoop   •  Architecture  en  Cluster:  NameNode,  DataNode.   Secondary  NameNode   •  HDFS  :  Distributed  FS.  Data  Block   •  Data  écrite  1  seule  fois,  lue  plusieurs.   •  Hadoop  core  en  java   •  MapReduce  inside   •  Hbase  :  BD  en  colonnes.  Flexible,  Compression   •  ZooKeeper  :  GesHon  de  configuraHon   •  Hive  :  analyse  de  données,  proche  de  SQL,  scriptable   •  Pig  :  analyse  de  données,  laHn.  
  • 28. Big  Data   Hadoop  (cont)   •  Flume  :  traitement  de  flux,  logfiles   •   SolR  :  Basé  sur  project  Lucene.  Recherche    textuelle  sur  grands  volumes  de  documents.   •  Mahout  :  Librairie  d’apprenHssage  machine  pour     grands  volumes  de  données.  UHlise  MapReduce.   •  Giraph/Hama  :  Traitement  itéraHf  de  graphes.   Basé  sur  Pregel  (Google),  BSP.   •  Ambari  :  provision,  gesHon,  mgmt  hadoop   •  Squoop  :  connecteurs  de  données.   •  Oozie  :  ordonnanceur  de  jobs.    
  • 29. Big  Data   Hadoop  (cont)   •  WebHDFS  :  REST  API   •  Hcatalog  :  expose  Hive  métadonnées.   «  schéma  »   •  WebHCatalog  :  REST  API   •  YARN  :  MapReduce  2.0,  généralisaHon   •  Tez  :  Nouveau  framework  exécuHon  de  tâches   •  Storm  :  Temps  réel  
  • 30. Big  Data   Evolu'on  Hadoop  
  • 31. Big  Data   Quelques  examples  concrets   Avec  flume,  pig,  hive  et  mahout  
  • 33. Big  Data   Enquête  Gartner    2013  (US)   •  64%  entreprises  invesHssent  ou  vont  le  faire   dans  des  technologies  Big  Data   •  Mais  uniquement  8%  de  ces  derniers  ont  pris   des  acHons  concrètes   •  Principaux  secteurs  :  Banque,  médias,  services   •  Problème  1  :  quanHficaHon  de  la  valeur  du  BD   •  Problème  2  :  manque  de  talents  à  <>  niveaux  
  • 35. Big  Data   Enquête  EMC  2012  
  • 36. Big  Data   Enquête  EMC  2012  
  • 37. Big  Data   Enquête  EMC  2012