SlideShare una empresa de Scribd logo
1 de 36
Descargar para leer sin conexión
Distributed Calculus with
 Hadoop MapReduce inside
 Orange Search Engine




SophiaConf2012               olivier.varene@orange.com
mardi 10 juillet 12
What is Big Data ?



SophiaConf2012                         olivier.varene@orange.com
mardi 10 juillet 12
$ 5 billions   (2012)




                                      to
                               $ 50 billions
                                    (by 2017)




                      Forbes


SophiaConf2012                                              olivier.varene@orange.com
mardi 10 juillet 12
«Big Data is the new definitive
                          source of competitive
                          advantage across all
                               industries»

                      Jeff Kelly



SophiaConf2012                                  olivier.varene@orange.com
mardi 10 juillet 12
Product success

                      «The days are over when you build a
                      product once and it just works.
                      You have to take ideas, test them, iterate
                      them, use data and analytics to understand
                      what works and what doesn’t in order to be
                      successful»

                      LivingSocial @PCWorld 2012



SophiaConf2012                                              olivier.varene@orange.com
mardi 10 juillet 12
Big Data




SophiaConf2012                   olivier.varene@orange.com
mardi 10 juillet 12
What about Hadoop ?



SophiaConf2012                         olivier.varene@orange.com
mardi 10 juillet 12
Beliefs

                      « We believe that by 2015, more than
                      half the world’s data will be processed
                      by Apache Hadoop »




                      HortonWorks @HadoopSummit 2012



SophiaConf2012                                            olivier.varene@orange.com
mardi 10 juillet 12
Actors




SophiaConf2012                 olivier.varene@orange.com
mardi 10 juillet 12
Hadoop eco-system




SophiaConf2012                       olivier.varene@orange.com
mardi 10 juillet 12
Context at Orange
                            (more than 2 years ago)




SophiaConf2012                                        olivier.varene@orange.com
mardi 10 juillet 12
Orange Search Engine
                      http://www.orange.fr



                                             http://www.lemoteur.fr


                       http://www.voila.fr

SophiaConf2012                                           olivier.varene@orange.com
mardi 10 juillet 12
Search Engine
                          Architecture
                                        Indexation
                         Collecte
                           du                           Infrastructure
            Internet      WEB                           de Recherche
                          24/24
                         (Crawl)       Pré-calcul de
                                          score



                                           PageRank


                         5 milliards                     750 millions de
                       de documents                    documents Français
SophiaConf2012                                                       olivier.varene@orange.com
mardi 10 juillet 12
Main issue
                      •   PageRank calculus on billions nodes and 10s
                          billions edges

                      •   regularly failed ! (hardware ...)

                      •   4 to 8 weeks calculus

                      •   unscalable

                      •   failure rate aroud 80%

                      •   One person full time to supervise

SophiaConf2012                                                      olivier.varene@orange.com
mardi 10 juillet 12
Answer



SophiaConf2012                 olivier.varene@orange.com
mardi 10 juillet 12
PageRank portable to
                      Hadoop / MapReduce ?
                      • Simple programing model:
                         Map(in_k,in_v) => list(out_k,intermed_v)
                         Reduce(out_k,intermed_v) => list(out_v)

                      • Scalable
                      • Batch Processing
                      • YES !
SophiaConf2012                                                      olivier.varene@orange.com
mardi 10 juillet 12
Hadoop Axioms

                      • System shall manage and heal himself
                      • Performance shall scale linearly
                      • Compute shall move to data
                      • Modular and extensible
SophiaConf2012                                          olivier.varene@orange.com
mardi 10 juillet 12
Our install ?



SophiaConf2012                        olivier.varene@orange.com
mardi 10 juillet 12
Our install

                                            Oozie



                      HIVE       PIG




                                                               ZooKeeper
                             MapReduce      Mahout




                                                     Khiops
                                   HDFS


SophiaConf2012                                                olivier.varene@orange.com
mardi 10 juillet 12
HDFS ?



SophiaConf2012                 olivier.varene@orange.com
mardi 10 juillet 12
Hadoop - HDFS
                                                                              00110
                                                                              10101
                                                            Master            11000
                                                                              0111
                           Client


                                       Nœud             Nœud      Nœud
                                      données          données     Nœud
                                                                 données
                                                                     Nœud
                                                                  données
                                                                    données
                       Read/Write
                       Read
                       Bloc ops          replication



                          COTS - replication - big blocks
                      maximize throughput - Metadata in RAM
SophiaConf2012                                                         olivier.varene@orange.com
mardi 10 juillet 12
Map Reduce ?



SophiaConf2012                       olivier.varene@orange.com
mardi 10 juillet 12
MapReduce


            cat | «your map» | sort -u | «your reduce»


                            Programming paradigm



SophiaConf2012                                 olivier.varene@orange.com
mardi 10 juillet 12
MapReduce


            cat | «your map» | sort -u | «your reduce»

                      FrameWork



SophiaConf2012                                 olivier.varene@orange.com
mardi 10 juillet 12
MapReduce


            cat | «your map» | sort -u | «your reduce»

                              your Job



SophiaConf2012                                 olivier.varene@orange.com
mardi 10 juillet 12
MapReduce Insides




SophiaConf2012                        olivier.varene@orange.com
mardi 10 juillet 12
Interfaces

                      • Java API
                      • Pipes
                      • Streaming (python, perl, C/C++, ...)

SophiaConf2012                                                 olivier.varene@orange.com
mardi 10 juillet 12
PIG
                      • High level data analysis script language
                      • extensible via UDF
                      • Structure of a Pig script
                        • load
                        •   filter
                        •   foreach | group by | join | your functions
                        •   order
                        •   store


SophiaConf2012                                                           olivier.varene@orange.com
mardi 10 juillet 12
HIVE
                      • High level SQL-like query and analysis
                        language
                      • extensible via UDF
                      • Structure of a Hive script
                        • create table
                        •   load data
                        •   select ... from ...
                        •   insert | group by | join


SophiaConf2012                                               olivier.varene@orange.com
mardi 10 juillet 12
Application domains ?



SophiaConf2012                           olivier.varene@orange.com
mardi 10 juillet 12
Projects

                      • Scoring
                      • User profiling
                      • Log analysis and statistics
                      • ... and many others to come

SophiaConf2012                                        olivier.varene@orange.com
mardi 10 juillet 12
ROI ?



SophiaConf2012                olivier.varene@orange.com
mardi 10 juillet 12
ROI
                      • Lines Of Code                  10X gain
                      • Development Time                    2X gain
                      • IT cost                             4X gain
                        less bug, automatic, scalable ...
SophiaConf2012                                                 olivier.varene@orange.com
mardi 10 juillet 12
Perfect World ?
                      ★ YES
                       •   Run cost
                       •   Development cost
                       •   Scalable
                       •   Stable
                       •   Heterogenity
                      ★ NO
                       •   SPOF (almost solved)
                       • Fastidious debugging
                       • Localy non optimum
                       • mono-site
SophiaConf2012                                    olivier.varene@orange.com
mardi 10 juillet 12
Thank you
                      Olivier Varene - Orange
                      olivier.varene@orange.com
                      @VareneO




SophiaConf2012                                    olivier.varene@orange.com
mardi 10 juillet 12
thanks to
                      • Hadoop - Apache                               (http://hadoop.apache.org/)


                      • Khiops - Orange                              (http://www.khiops.com)


                      • Shauwn Connoly - HortonWorks
                        (http://youtu.be/yPfysFAGv8s)


                      • Forbes - article
                        (http://www.forbes.com/sites/siliconangle/2012/02/17/big-data-is-big-market-big-business/)


                      • Living Social                   (sentence)


                      • Terradata             (Volumetry Graph)


                      • http://www.wordle.net/                                     (Words Cloud)




SophiaConf2012                                                                                                  olivier.varene@orange.com
mardi 10 juillet 12

Más contenido relacionado

Similar a Hadoop at Orange - SophiaConf2012

Talend - Collaboration IT et metiers autour de la donnee en libre-service - ...
Talend - Collaboration IT et metiers autour de la donnee en libre-service -  ...Talend - Collaboration IT et metiers autour de la donnee en libre-service -  ...
Talend - Collaboration IT et metiers autour de la donnee en libre-service - ...Micropole Group
 
Normandy JUG - Elasticsearch
Normandy JUG - ElasticsearchNormandy JUG - Elasticsearch
Normandy JUG - ElasticsearchDavid Pilato
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
DevOps à l'échelle: ce que l'on a fait, ce que l'on a appris chez Societe Gen...
DevOps à l'échelle: ce que l'on a fait, ce que l'on a appris chez Societe Gen...DevOps à l'échelle: ce que l'on a fait, ce que l'on a appris chez Societe Gen...
DevOps à l'échelle: ce que l'on a fait, ce que l'on a appris chez Societe Gen...Adrien Blind
 
IoT & JD Edwards (Oracle jde summit paris 10-12-2015 session fonctionnelle)
IoT & JD Edwards (Oracle jde summit paris   10-12-2015   session fonctionnelle) IoT & JD Edwards (Oracle jde summit paris   10-12-2015   session fonctionnelle)
IoT & JD Edwards (Oracle jde summit paris 10-12-2015 session fonctionnelle) Yohann GARCIA
 
Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016Synaltic Group
 
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !OCTO Technology
 
DATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLEDATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLEMicropole Group
 
Bi et partage des données financières en libre -service
Bi et partage des données financières en libre -serviceBi et partage des données financières en libre -service
Bi et partage des données financières en libre -serviceJean-Michel Franco
 
Petit Déjeuner Talend/SQLI
Petit Déjeuner Talend/SQLIPetit Déjeuner Talend/SQLI
Petit Déjeuner Talend/SQLICedric CARBONE
 
Gestion applicative des données, un REX du Ministère de l'Éducation Nationale
Gestion applicative des données, un REX du Ministère de l'Éducation NationaleGestion applicative des données, un REX du Ministère de l'Éducation Nationale
Gestion applicative des données, un REX du Ministère de l'Éducation NationaleObeo
 
Datalake de l'idée à la plateforme
Datalake de l'idée à la plateformeDatalake de l'idée à la plateforme
Datalake de l'idée à la plateformeNovencia Groupe
 
DEVOPS - La synthèse
DEVOPS - La synthèseDEVOPS - La synthèse
DEVOPS - La synthèseCOMPETENSIS
 
Infrastructure sémantique pour objets communicants
Infrastructure sémantique pour objets communicantsInfrastructure sémantique pour objets communicants
Infrastructure sémantique pour objets communicantsGabriel KEPEKLIAN
 
DataOps introduction : DataOps is not only DevOps applied to data!
DataOps introduction : DataOps is not only DevOps applied to data!DataOps introduction : DataOps is not only DevOps applied to data!
DataOps introduction : DataOps is not only DevOps applied to data!Adrien Blind
 
Etablir une collaboration durable entre les équipes informatiques et les méti...
Etablir une collaboration durable entre les équipes informatiques et les méti...Etablir une collaboration durable entre les équipes informatiques et les méti...
Etablir une collaboration durable entre les équipes informatiques et les méti...Jean-Michel Franco
 
Hadoop Ecosystème (2013-03) par Affini-Tech
Hadoop Ecosystème (2013-03) par Affini-TechHadoop Ecosystème (2013-03) par Affini-Tech
Hadoop Ecosystème (2013-03) par Affini-TechVincent Heuschling
 

Similar a Hadoop at Orange - SophiaConf2012 (20)

Talend - Collaboration IT et metiers autour de la donnee en libre-service - ...
Talend - Collaboration IT et metiers autour de la donnee en libre-service -  ...Talend - Collaboration IT et metiers autour de la donnee en libre-service -  ...
Talend - Collaboration IT et metiers autour de la donnee en libre-service - ...
 
Normandy JUG - Elasticsearch
Normandy JUG - ElasticsearchNormandy JUG - Elasticsearch
Normandy JUG - Elasticsearch
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
DevOps à l'échelle: ce que l'on a fait, ce que l'on a appris chez Societe Gen...
DevOps à l'échelle: ce que l'on a fait, ce que l'on a appris chez Societe Gen...DevOps à l'échelle: ce que l'on a fait, ce que l'on a appris chez Societe Gen...
DevOps à l'échelle: ce que l'on a fait, ce que l'on a appris chez Societe Gen...
 
IoT & JD Edwards (Oracle jde summit paris 10-12-2015 session fonctionnelle)
IoT & JD Edwards (Oracle jde summit paris   10-12-2015   session fonctionnelle) IoT & JD Edwards (Oracle jde summit paris   10-12-2015   session fonctionnelle)
IoT & JD Edwards (Oracle jde summit paris 10-12-2015 session fonctionnelle)
 
Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016
 
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !
 
DATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLEDATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLE
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
 
Bi et partage des données financières en libre -service
Bi et partage des données financières en libre -serviceBi et partage des données financières en libre -service
Bi et partage des données financières en libre -service
 
Powerbi 365
Powerbi 365Powerbi 365
Powerbi 365
 
Power BI 365
Power BI 365Power BI 365
Power BI 365
 
Petit Déjeuner Talend/SQLI
Petit Déjeuner Talend/SQLIPetit Déjeuner Talend/SQLI
Petit Déjeuner Talend/SQLI
 
Gestion applicative des données, un REX du Ministère de l'Éducation Nationale
Gestion applicative des données, un REX du Ministère de l'Éducation NationaleGestion applicative des données, un REX du Ministère de l'Éducation Nationale
Gestion applicative des données, un REX du Ministère de l'Éducation Nationale
 
Datalake de l'idée à la plateforme
Datalake de l'idée à la plateformeDatalake de l'idée à la plateforme
Datalake de l'idée à la plateforme
 
DEVOPS - La synthèse
DEVOPS - La synthèseDEVOPS - La synthèse
DEVOPS - La synthèse
 
Infrastructure sémantique pour objets communicants
Infrastructure sémantique pour objets communicantsInfrastructure sémantique pour objets communicants
Infrastructure sémantique pour objets communicants
 
DataOps introduction : DataOps is not only DevOps applied to data!
DataOps introduction : DataOps is not only DevOps applied to data!DataOps introduction : DataOps is not only DevOps applied to data!
DataOps introduction : DataOps is not only DevOps applied to data!
 
Etablir une collaboration durable entre les équipes informatiques et les méti...
Etablir une collaboration durable entre les équipes informatiques et les méti...Etablir une collaboration durable entre les équipes informatiques et les méti...
Etablir une collaboration durable entre les équipes informatiques et les méti...
 
Hadoop Ecosystème (2013-03) par Affini-Tech
Hadoop Ecosystème (2013-03) par Affini-TechHadoop Ecosystème (2013-03) par Affini-Tech
Hadoop Ecosystème (2013-03) par Affini-Tech
 

Hadoop at Orange - SophiaConf2012

  • 1. Distributed Calculus with Hadoop MapReduce inside Orange Search Engine SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 2. What is Big Data ? SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 3. $ 5 billions (2012) to $ 50 billions (by 2017) Forbes SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 4. «Big Data is the new definitive source of competitive advantage across all industries» Jeff Kelly SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 5. Product success «The days are over when you build a product once and it just works. You have to take ideas, test them, iterate them, use data and analytics to understand what works and what doesn’t in order to be successful» LivingSocial @PCWorld 2012 SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 6. Big Data SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 7. What about Hadoop ? SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 8. Beliefs « We believe that by 2015, more than half the world’s data will be processed by Apache Hadoop » HortonWorks @HadoopSummit 2012 SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 9. Actors SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 10. Hadoop eco-system SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 11. Context at Orange (more than 2 years ago) SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 12. Orange Search Engine http://www.orange.fr http://www.lemoteur.fr http://www.voila.fr SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 13. Search Engine Architecture Indexation Collecte du Infrastructure Internet WEB de Recherche 24/24 (Crawl) Pré-calcul de score PageRank 5 milliards 750 millions de de documents documents Français SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 14. Main issue • PageRank calculus on billions nodes and 10s billions edges • regularly failed ! (hardware ...) • 4 to 8 weeks calculus • unscalable • failure rate aroud 80% • One person full time to supervise SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 15. Answer SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 16. PageRank portable to Hadoop / MapReduce ? • Simple programing model: Map(in_k,in_v) => list(out_k,intermed_v) Reduce(out_k,intermed_v) => list(out_v) • Scalable • Batch Processing • YES ! SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 17. Hadoop Axioms • System shall manage and heal himself • Performance shall scale linearly • Compute shall move to data • Modular and extensible SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 18. Our install ? SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 19. Our install Oozie HIVE PIG ZooKeeper MapReduce Mahout Khiops HDFS SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 20. HDFS ? SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 21. Hadoop - HDFS 00110 10101 Master 11000 0111 Client Nœud Nœud Nœud données données Nœud données Nœud données données Read/Write Read Bloc ops replication COTS - replication - big blocks maximize throughput - Metadata in RAM SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 22. Map Reduce ? SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 23. MapReduce cat | «your map» | sort -u | «your reduce» Programming paradigm SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 24. MapReduce cat | «your map» | sort -u | «your reduce» FrameWork SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 25. MapReduce cat | «your map» | sort -u | «your reduce» your Job SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 26. MapReduce Insides SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 27. Interfaces • Java API • Pipes • Streaming (python, perl, C/C++, ...) SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 28. PIG • High level data analysis script language • extensible via UDF • Structure of a Pig script • load • filter • foreach | group by | join | your functions • order • store SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 29. HIVE • High level SQL-like query and analysis language • extensible via UDF • Structure of a Hive script • create table • load data • select ... from ... • insert | group by | join SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 30. Application domains ? SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 31. Projects • Scoring • User profiling • Log analysis and statistics • ... and many others to come SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 32. ROI ? SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 33. ROI • Lines Of Code 10X gain • Development Time 2X gain • IT cost 4X gain less bug, automatic, scalable ... SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 34. Perfect World ? ★ YES • Run cost • Development cost • Scalable • Stable • Heterogenity ★ NO • SPOF (almost solved) • Fastidious debugging • Localy non optimum • mono-site SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 35. Thank you Olivier Varene - Orange olivier.varene@orange.com @VareneO SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12
  • 36. thanks to • Hadoop - Apache (http://hadoop.apache.org/) • Khiops - Orange (http://www.khiops.com) • Shauwn Connoly - HortonWorks (http://youtu.be/yPfysFAGv8s) • Forbes - article (http://www.forbes.com/sites/siliconangle/2012/02/17/big-data-is-big-market-big-business/) • Living Social (sentence) • Terradata (Volumetry Graph) • http://www.wordle.net/ (Words Cloud) SophiaConf2012 olivier.varene@orange.com mardi 10 juillet 12