SlideShare una empresa de Scribd logo
1 de 18
Descargar para leer sin conexión
SOUTENANCE 
DE 
FIN 
D’ÉTUDE 
STAGE 
EN 
BIG 
DATA 
Nelson 
Verdier 
-­‐ 
5 
Septembre 
2014
Plan 
• Ysance 
• Big 
data 
? 
• Proof 
of 
concept 
-­‐ 
Hadoop 
• R&D 
-­‐ 
Spark 
• DVP 
• Conclusion
! 
Stratégie digitale & Consulting IT! 
Conception, mise en oeuvre et animation 
ebusiness, Business Intelligence, Cloud Computing & 
Big Data
Le 
big 
data 
? 
• 3V 
• volume 
• vélocité 
• variété 
• Extraire 
des 
données 
valorisées 
• Architecture 
distribuée 
et 
extensible
MapReduce 
et 
Hadoop 
• MapReduce 
• processus 
de 
traitement 
parallèle 
sur 
cluster 
• originaire 
de 
chez 
Google 
en 
2004 
• Hadoop 
• implémentation 
en 
java 
du 
mapreduce 
• par 
Yahoo 
en 
2005 
• hdfs 
-­‐ 
hadoop 
distributed 
file 
system 
• namenode, 
datanode
Map 
Reduce 
-­‐ 
word 
count
Eco-­‐système 
Hadoop 
MapReduce 
-­‐ 
traitement 
HDFS 
-­‐ 
stockage 
Hive 
sql 
Mahout 
machine 
learning 
HBase 
clé/valeur 
Pig 
scripts
Proof 
of 
concept 
Hadoop 
• Mission 
pour 
un 
acteur 
dans 
la 
lunetterie 
• Contexte 
: 
• Ensemble 
de 
serveurs 
qui 
communiquent 
entre 
eux, 
produisent 
des 
logs 
• Extraire 
de 
ces 
logs 
des 
informations 
commerciales 
• clients, 
commandes, 
adresses, 
quantités… 
• Stocker 
ces 
données 
propres 
dans 
Amazon 
S3
Proof 
of 
concept 
Hadoop 
• Implémentation 
du 
job 
MapReduce 
en 
Java 
• Déploiement 
du 
job 
sur 
Amazon 
EMR 
• script 
de 
lancement 
de 
job 
• Première 
approche 
big 
data 
intéressante 
• api 
java 
bas 
niveau 
avec 
des 
classes 
Mapper 
et 
Reducer
R&D 
-­‐ 
Spark 
• Volonté 
de 
maitriser 
les 
technologies 
de 
demain 
• Apache 
Spark 
• framework 
de 
traitement 
distribué 
• chargement 
des 
données 
en 
mémoire 
• briques 
semi-­‐temps 
réel, 
machine 
learning, 
sql 
• Plusieurs 
applications 
développées 
pour 
tester 
Spark
twitter_pictures 
Images 
les 
plus 
populaires 
sur 
twitter 
sur 
une 
fenêtre 
de 
temps
twitter_streaming 
Déceler 
les 
utilisateurs 
les 
plus 
influents 
du 
moment 
sur 
un 
thème 
donné.
Applications 
spark 
• sentiment: 
catégorisation 
de 
tweets 
selon 
qu’ils 
soient 
à 
connotation 
positive 
ou 
négative 
• sql: 
prise 
en 
main 
de 
la 
brique 
Spark 
• Livrables: 
• codes 
sources 
• documentation 
sur 
le 
wiki 
ysance
DVP 
-­‐ 
data 
visualisation 
platform 
Data 
visualisation 
platform 
• Permet 
de 
suivre 
les 
partages 
d’urls 
d’un 
site 
web 
spécifique 
sur 
twitter, 
page 
par 
page 
et 
sur 
une 
fenêtre 
de 
temps.
DVP 
-­‐ 
data 
visualisation 
platform 
• Développement 
du 
backend 
• Spark 
Streaming 
• MongoDB 
• Hive 
+ 
user 
defined 
function 
• Hbase 
• Elasticsearch 
• Jusqu’a 
200 
urls 
par 
seconde
Conclusion 
• Big 
data, 
un 
environnement 
riche 
où 
tout 
reste 
à 
faire. 
Des 
challenges 
techniques 
comme 
fonctionnels 
• Volonté 
de 
gagner 
en 
expertise 
technique 
avant 
d’évoluer 
vers 
un 
poste 
plus 
haut 
niveau 
• Ysance, 
un 
investissement 
en 
R&D 
pour 
mieux 
accueillir 
les 
futurs 
besoins 
clients
MERCI 
DE 
VOTRE 
ATTENTION 
DES 
QUESTIONS?

Más contenido relacionado

La actualidad más candente

SQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseSQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseRomain Casteres
 
04 big data fournisseurs
04 big data fournisseurs04 big data fournisseurs
04 big data fournisseursPatrick Bury
 
HTTP2 : ce qui va changer par Julien Landuré
HTTP2 : ce qui va changer par Julien LanduréHTTP2 : ce qui va changer par Julien Landuré
HTTP2 : ce qui va changer par Julien LanduréZenika
 
Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?Victor Coustenoble
 
Azure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides KeynoteAzure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides KeynoteMicrosoft
 
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réelMathieu DESPRIEE
 
Event: Petit-déjeuner MongoDB France
Event: Petit-déjeuner MongoDB FranceEvent: Petit-déjeuner MongoDB France
Event: Petit-déjeuner MongoDB FranceMongoDB
 
Apache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantApache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantALTIC Altic
 
Azure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaAzure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaMicrosoft
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Jean-Pierre Riehl
 
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache CassandraDataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache CassandraVictor Coustenoble
 
Datastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingDatastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingVictor Coustenoble
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackALTIC Altic
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
 
DataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoTDataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoTVictor Coustenoble
 
SQL Saturday 323 Paris 2014 - HDInsight
SQL Saturday 323 Paris 2014 - HDInsightSQL Saturday 323 Paris 2014 - HDInsight
SQL Saturday 323 Paris 2014 - HDInsightRomain Casteres
 
Panorama des offres NoSQL disponibles dans Azure
Panorama des offres NoSQL disponibles dans AzurePanorama des offres NoSQL disponibles dans Azure
Panorama des offres NoSQL disponibles dans AzureMicrosoft Décideurs IT
 

La actualidad más candente (20)

SQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseSQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - Polybase
 
04 big data fournisseurs
04 big data fournisseurs04 big data fournisseurs
04 big data fournisseurs
 
HTTP2 : ce qui va changer par Julien Landuré
HTTP2 : ce qui va changer par Julien LanduréHTTP2 : ce qui va changer par Julien Landuré
HTTP2 : ce qui va changer par Julien Landuré
 
Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?
 
Azure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides KeynoteAzure Camp 9 Décembre 2014 - slides Keynote
Azure Camp 9 Décembre 2014 - slides Keynote
 
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
 
Aws vs azure
Aws vs azureAws vs azure
Aws vs azure
 
Event: Petit-déjeuner MongoDB France
Event: Petit-déjeuner MongoDB FranceEvent: Petit-déjeuner MongoDB France
Event: Petit-déjeuner MongoDB France
 
Pj hug 07_04_2016
Pj hug 07_04_2016Pj hug 07_04_2016
Pj hug 07_04_2016
 
Apache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantApache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performant
 
Azure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaAzure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmedia
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?
 
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache CassandraDataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
 
Datastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingDatastax Cassandra + Spark Streaming
Datastax Cassandra + Spark Streaming
 
Webinar Degetel DataStax
Webinar Degetel DataStaxWebinar Degetel DataStax
Webinar Degetel DataStax
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStack
 
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...
 
DataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoTDataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoT
 
SQL Saturday 323 Paris 2014 - HDInsight
SQL Saturday 323 Paris 2014 - HDInsightSQL Saturday 323 Paris 2014 - HDInsight
SQL Saturday 323 Paris 2014 - HDInsight
 
Panorama des offres NoSQL disponibles dans Azure
Panorama des offres NoSQL disponibles dans AzurePanorama des offres NoSQL disponibles dans Azure
Panorama des offres NoSQL disponibles dans Azure
 

Destacado

Ysance conference - cloud computing - aws - 3 mai 2010
Ysance   conference - cloud computing - aws - 3 mai 2010Ysance   conference - cloud computing - aws - 3 mai 2010
Ysance conference - cloud computing - aws - 3 mai 2010Ysance
 
Social Networks and the Richness of Data
Social Networks and the Richness of DataSocial Networks and the Richness of Data
Social Networks and the Richness of Datalarsgeorge
 
Hadoop is dead - long live Hadoop | BiDaTA 2013 Genoa
Hadoop is dead - long live Hadoop | BiDaTA 2013 GenoaHadoop is dead - long live Hadoop | BiDaTA 2013 Genoa
Hadoop is dead - long live Hadoop | BiDaTA 2013 Genoalarsgeorge
 
Introduction sur les problématiques d'une architecture distribuée
Introduction sur les problématiques d'une architecture distribuéeIntroduction sur les problématiques d'une architecture distribuée
Introduction sur les problématiques d'une architecture distribuéeKhanh Maudoux
 
From Batch to Realtime with Hadoop - Berlin Buzzwords - June 2012
From Batch to Realtime with Hadoop - Berlin Buzzwords - June 2012From Batch to Realtime with Hadoop - Berlin Buzzwords - June 2012
From Batch to Realtime with Hadoop - Berlin Buzzwords - June 2012larsgeorge
 
Maven c'est bien, SBT c'est mieux
Maven c'est bien, SBT c'est mieuxMaven c'est bien, SBT c'est mieux
Maven c'est bien, SBT c'est mieuxFabrice Sznajderman
 
HBase Applications - Atlanta HUG - May 2014
HBase Applications - Atlanta HUG - May 2014HBase Applications - Atlanta HUG - May 2014
HBase Applications - Atlanta HUG - May 2014larsgeorge
 
HBase Sizing Notes
HBase Sizing NotesHBase Sizing Notes
HBase Sizing Noteslarsgeorge
 
Big Data is not Rocket Science
Big Data is not Rocket ScienceBig Data is not Rocket Science
Big Data is not Rocket Sciencelarsgeorge
 
Introduction à Scala - Michel Schinz - January 2010
Introduction à Scala - Michel Schinz - January 2010Introduction à Scala - Michel Schinz - January 2010
Introduction à Scala - Michel Schinz - January 2010JUG Lausanne
 
Phoenix - A High Performance Open Source SQL Layer over HBase
Phoenix - A High Performance Open Source SQL Layer over HBasePhoenix - A High Performance Open Source SQL Layer over HBase
Phoenix - A High Performance Open Source SQL Layer over HBaseSalesforce Developers
 
Scala in Action - Heiko Seeburger
Scala in Action - Heiko SeeburgerScala in Action - Heiko Seeburger
Scala in Action - Heiko SeeburgerJAX London
 
Paris stormusergroup intrudocution
Paris stormusergroup intrudocutionParis stormusergroup intrudocution
Paris stormusergroup intrudocutionParis_Storm_UG
 

Destacado (20)

Hadoop unit
Hadoop unitHadoop unit
Hadoop unit
 
Ysance conference - cloud computing - aws - 3 mai 2010
Ysance   conference - cloud computing - aws - 3 mai 2010Ysance   conference - cloud computing - aws - 3 mai 2010
Ysance conference - cloud computing - aws - 3 mai 2010
 
Social Networks and the Richness of Data
Social Networks and the Richness of DataSocial Networks and the Richness of Data
Social Networks and the Richness of Data
 
Hadoop is dead - long live Hadoop | BiDaTA 2013 Genoa
Hadoop is dead - long live Hadoop | BiDaTA 2013 GenoaHadoop is dead - long live Hadoop | BiDaTA 2013 Genoa
Hadoop is dead - long live Hadoop | BiDaTA 2013 Genoa
 
Introduction sur les problématiques d'une architecture distribuée
Introduction sur les problématiques d'une architecture distribuéeIntroduction sur les problématiques d'une architecture distribuée
Introduction sur les problématiques d'une architecture distribuée
 
From Batch to Realtime with Hadoop - Berlin Buzzwords - June 2012
From Batch to Realtime with Hadoop - Berlin Buzzwords - June 2012From Batch to Realtime with Hadoop - Berlin Buzzwords - June 2012
From Batch to Realtime with Hadoop - Berlin Buzzwords - June 2012
 
Présentation Club STORM
Présentation Club STORMPrésentation Club STORM
Présentation Club STORM
 
Maven c'est bien, SBT c'est mieux
Maven c'est bien, SBT c'est mieuxMaven c'est bien, SBT c'est mieux
Maven c'est bien, SBT c'est mieux
 
Universitélang scala tools
Universitélang scala toolsUniversitélang scala tools
Universitélang scala tools
 
Les monades Scala, Java 8
Les monades Scala, Java 8Les monades Scala, Java 8
Les monades Scala, Java 8
 
Université des langages scala
Université des langages   scalaUniversité des langages   scala
Université des langages scala
 
Scala Intro
Scala IntroScala Intro
Scala Intro
 
Lagom, reactive framework
Lagom, reactive frameworkLagom, reactive framework
Lagom, reactive framework
 
HBase Applications - Atlanta HUG - May 2014
HBase Applications - Atlanta HUG - May 2014HBase Applications - Atlanta HUG - May 2014
HBase Applications - Atlanta HUG - May 2014
 
HBase Sizing Notes
HBase Sizing NotesHBase Sizing Notes
HBase Sizing Notes
 
Big Data is not Rocket Science
Big Data is not Rocket ScienceBig Data is not Rocket Science
Big Data is not Rocket Science
 
Introduction à Scala - Michel Schinz - January 2010
Introduction à Scala - Michel Schinz - January 2010Introduction à Scala - Michel Schinz - January 2010
Introduction à Scala - Michel Schinz - January 2010
 
Phoenix - A High Performance Open Source SQL Layer over HBase
Phoenix - A High Performance Open Source SQL Layer over HBasePhoenix - A High Performance Open Source SQL Layer over HBase
Phoenix - A High Performance Open Source SQL Layer over HBase
 
Scala in Action - Heiko Seeburger
Scala in Action - Heiko SeeburgerScala in Action - Heiko Seeburger
Scala in Action - Heiko Seeburger
 
Paris stormusergroup intrudocution
Paris stormusergroup intrudocutionParis stormusergroup intrudocution
Paris stormusergroup intrudocution
 

Similar a Soutenance ysance

Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
Stats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.itStats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.ithibnico
 
Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009Olivier Grisel
 
Analytics et Big Data, une histoire de cubes...
Analytics et Big Data, une histoire de cubes...Analytics et Big Data, une histoire de cubes...
Analytics et Big Data, une histoire de cubes...Mathias Kluba
 
Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Jean-Michel Franco
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceParis Open Source Summit
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentationrajiasellami
 
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big DataJSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big DataGUSS
 
HDInsight : Hadoop en environnement Microsoft
HDInsight : Hadoop en environnement MicrosoftHDInsight : Hadoop en environnement Microsoft
HDInsight : Hadoop en environnement MicrosoftMicrosoft Technet France
 
Node.js et les nouvelles technologies javascript
Node.js et les nouvelles technologies javascriptNode.js et les nouvelles technologies javascript
Node.js et les nouvelles technologies javascriptKhalid Jebbari
 
Tours JUG (oct 2010) - NoSQL, des grands du Web aux entreprises
Tours JUG (oct 2010) - NoSQL, des grands du Web aux entreprisesTours JUG (oct 2010) - NoSQL, des grands du Web aux entreprises
Tours JUG (oct 2010) - NoSQL, des grands du Web aux entreprisesMichaël Figuière
 
Architecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.KArchitecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.KJulien Anguenot
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 

Similar a Soutenance ysance (20)

Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
 
NoSQL et Big Data
NoSQL et Big DataNoSQL et Big Data
NoSQL et Big Data
 
Stats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.itStats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.it
 
Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009Hadoop MapReduce - OSDC FR 2009
Hadoop MapReduce - OSDC FR 2009
 
Analytics et Big Data, une histoire de cubes...
Analytics et Big Data, une histoire de cubes...Analytics et Big Data, une histoire de cubes...
Analytics et Big Data, une histoire de cubes...
 
Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_ml
 
OWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysanceOWF12/BIG DATA Presentation big data owf ysance
OWF12/BIG DATA Presentation big data owf ysance
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
 
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big DataJSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
 
HDInsight : Hadoop en environnement Microsoft
HDInsight : Hadoop en environnement MicrosoftHDInsight : Hadoop en environnement Microsoft
HDInsight : Hadoop en environnement Microsoft
 
Node.js et les nouvelles technologies javascript
Node.js et les nouvelles technologies javascriptNode.js et les nouvelles technologies javascript
Node.js et les nouvelles technologies javascript
 
Tours JUG (oct 2010) - NoSQL, des grands du Web aux entreprises
Tours JUG (oct 2010) - NoSQL, des grands du Web aux entreprisesTours JUG (oct 2010) - NoSQL, des grands du Web aux entreprises
Tours JUG (oct 2010) - NoSQL, des grands du Web aux entreprises
 
Architecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.KArchitecture Big Data open source S.M.A.C.K
Architecture Big Data open source S.M.A.C.K
 
Commencer avec Hadoop
Commencer avec HadoopCommencer avec Hadoop
Commencer avec Hadoop
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Introduction spark
Introduction sparkIntroduction spark
Introduction spark
 
Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)
 

Soutenance ysance

  • 1. SOUTENANCE DE FIN D’ÉTUDE STAGE EN BIG DATA Nelson Verdier -­‐ 5 Septembre 2014
  • 2. Plan • Ysance • Big data ? • Proof of concept -­‐ Hadoop • R&D -­‐ Spark • DVP • Conclusion
  • 3. ! Stratégie digitale & Consulting IT! Conception, mise en oeuvre et animation ebusiness, Business Intelligence, Cloud Computing & Big Data
  • 4.
  • 5. Le big data ? • 3V • volume • vélocité • variété • Extraire des données valorisées • Architecture distribuée et extensible
  • 6. MapReduce et Hadoop • MapReduce • processus de traitement parallèle sur cluster • originaire de chez Google en 2004 • Hadoop • implémentation en java du mapreduce • par Yahoo en 2005 • hdfs -­‐ hadoop distributed file system • namenode, datanode
  • 7. Map Reduce -­‐ word count
  • 8. Eco-­‐système Hadoop MapReduce -­‐ traitement HDFS -­‐ stockage Hive sql Mahout machine learning HBase clé/valeur Pig scripts
  • 9. Proof of concept Hadoop • Mission pour un acteur dans la lunetterie • Contexte : • Ensemble de serveurs qui communiquent entre eux, produisent des logs • Extraire de ces logs des informations commerciales • clients, commandes, adresses, quantités… • Stocker ces données propres dans Amazon S3
  • 10. Proof of concept Hadoop • Implémentation du job MapReduce en Java • Déploiement du job sur Amazon EMR • script de lancement de job • Première approche big data intéressante • api java bas niveau avec des classes Mapper et Reducer
  • 11. R&D -­‐ Spark • Volonté de maitriser les technologies de demain • Apache Spark • framework de traitement distribué • chargement des données en mémoire • briques semi-­‐temps réel, machine learning, sql • Plusieurs applications développées pour tester Spark
  • 12. twitter_pictures Images les plus populaires sur twitter sur une fenêtre de temps
  • 13. twitter_streaming Déceler les utilisateurs les plus influents du moment sur un thème donné.
  • 14. Applications spark • sentiment: catégorisation de tweets selon qu’ils soient à connotation positive ou négative • sql: prise en main de la brique Spark • Livrables: • codes sources • documentation sur le wiki ysance
  • 15. DVP -­‐ data visualisation platform Data visualisation platform • Permet de suivre les partages d’urls d’un site web spécifique sur twitter, page par page et sur une fenêtre de temps.
  • 16. DVP -­‐ data visualisation platform • Développement du backend • Spark Streaming • MongoDB • Hive + user defined function • Hbase • Elasticsearch • Jusqu’a 200 urls par seconde
  • 17. Conclusion • Big data, un environnement riche où tout reste à faire. Des challenges techniques comme fonctionnels • Volonté de gagner en expertise technique avant d’évoluer vers un poste plus haut niveau • Ysance, un investissement en R&D pour mieux accueillir les futurs besoins clients
  • 18. MERCI DE VOTRE ATTENTION DES QUESTIONS?