SlideShare une entreprise Scribd logo
1  sur  59
Télécharger pour lire hors ligne
Big Data
    Enjeux et technologies

© Datasio 2012
© Datasio 2012
Big Data et Data Science dans la presse




© Datasio 2012
Nous parlerons ...

     ad'opportunités de création de valeur
     ade retours d'expériences
     ade technologies “hot”
     ade mise en oeuvre et d'approches pratiques
     ad'aspects humains


© Datasio 2012
Nous éviterons ...

     rde casser l'existant
     rle catalogue d'outils
     rles aspects théoriques du Big Data




© Datasio 2012
Agenda

     1           Big Data & Data Mining – les enjeux

     2       Hadoop, poids lourd du Big Data

     3       Profession: Data Scientist

© Datasio 2012
Agenda


                 1   Big Data & Data Mining




© Datasio 2012
Données
métier


© Datasio 2012
Autres sources
                 de données
Données
                 intra-entreprise
métier
                 (logs web, CRM ...)

© Datasio 2012
Autres sources
                                       Données
Données
                 de données
                 intra-entreprise
                                       externes
métier
                 (logs web, CRM ...)

© Datasio 2012
Applications Big Data




© Datasio 2012
Applications Big Data



                 {
© Datasio 2012
Applications Big Data



                 {
© Datasio 2012
Applications Big Data



                 {
© Datasio 2012
                 {
Applications Big Data



                 {
                 {
Carte volée!



© Datasio 2012
Applications Big Data


Suivi d'e-reputation




© Datasio 2012
Applications Big Data

                                Estimer la production d'iPhones
                                d'après les numéros de série ...




© Datasio 2012
Déduplication de données


  2 rue de Grenelle
  2 rue de Grenelle                           75007
                                              75007     2 avenue du Lauragais
                                                        2 avenue du Lauragais                        31000
                                                                                                     31000

                          Paris
                          Paris                                                     Toulouse
                                                                                    Toulouse
  Avène
  Avène


              hasAddress        hasZipcode                          hasAddress        hasZipcode
            hasNom      hasCity               Maurice     Avène
                                                          Avène                 hasCity            Maurice
                                                                                                   Maurice
                                              Maurice

                                  hasPrenom                       hasNom             hasPrenom


           SAAS_clients_20120304_45lhsd
            SAAS_clients_20120304_45lhsd                              CRM_2012_72
                                                                       CRM_2012_72




© Datasio 2012
Déduplication de données


  2 rue de Grenelle
  2 rue de Grenelle                           75007
                                              75007              2 avenue du Lauragais
                                                                 2 avenue du Lauragais                        31000
                                                                                                              31000

                          Paris
                          Paris                                                              Toulouse
                                                                                             Toulouse
  Avène
  Avène


              hasAddress        hasZipcode                                   hasAddress        hasZipcode
            hasNom      hasCity               Maurice              Avène
                                                                   Avène                 hasCity            Maurice
                                                                                                            Maurice
                                              Maurice

                                  hasPrenom                                hasNom             hasPrenom

                                                        sameAs
           SAAS_clients_20120304_45lhsd
            SAAS_clients_20120304_45lhsd                                       CRM_2012_72
                                                                                CRM_2012_72




© Datasio 2012
Applications Big Data
                                    ●
                                      Optimisation A/B
                                    ●
                                      Corrélation usage du site web
                                      + transactions
                                    ●
                                      Suivi de l'engagement et
                                      monitoring du churn
                  Logs web server




                                                In-game events
© Datasio 2012
Quelles données, quelle croissance?
Logs                                  Graphes d'interaction




Croissance linéaire + paliers       Croissance exponentielle !!
© Datasio 2012
© Datasio 2012
Optimisation
                   Prédiction

                 Business insight
                   Analytique

                  Traitements
                   distribués

                    Stockage
                    distribué
© Datasio 2012
Verticaux Big Data


© Datasio 2012
Réseaux d'interaction                                 Influence entre utilisateurs
                                                                                     Affinité / réponse aux campagnes marketing
                                                                                     Sensibilité aux variations de prix

E-réputation
Monitoring de la satisfaction client                                                           Statistiques des vols et d'opérations au sol
(forums ...)                                                                                   historiques et temps réel
                                                                                               (retards, grèves, pertes de bagage ...)


                                                           FUSION DE DONNEES
                                                               Stats vols,
                                                               Prix billets
                                                                web logs
                                                            social networks...
           Monitoring WEB
                                                                                            Réponse de l'usager à la qualité de service

                                Données CRM et marketing
                               20100916          130748    Economy               Incoming                    18
                               20100916 client
                               Historique        131131    Economy               Outgoing                    99
                               20100916          131324    Economy               Incoming                   214
                               20100916          131735    Economy               Outgoing                    72
                               20100916          183403    Economy               Overbooked                   0



  © Datasio 2012
Flightcaster et la prédiction de retards
                                                  ●
                                                      Pourquoi ne pas utiliser les alertes de la
                                                      compagnie aérienne?
                                                  ●
                                                      Pourquoi attend-on si longtemps sur la
                                                      piste?
                                                  ●
                                                      Pourquoi y-a-t'il écrit “à l'heure” alors
                                                      que l'avion n'est toujours pas arrivé?
                                                  ●
                                                      Qu'est-ce qui cause les retards?
                                                  ●
                                                      Quelles les sont les compagnies les plus
                                                      ponctuelles?

                 Apprentissage machine – architecture sous Amazon Web Services
                           Basé sur l'historique des retards, la météo ...
© Datasio 2012
General Electrics et la maintenance prédictive
                             ●
                                 GE Aviations Integrated Vehicle Health
                                 Management
                             ●
                                 “Preventive maintenance” basée sur les
                                 mesures collectées en vol et au sol
                             ●
                                 Calcule les probabilités de panne avant
                                 leur occurrence et diminue les coûts de
                                 maintenance




© Datasio 2012
Point de départ
 Besoin business
 Entrepôt de données
© Datasio 2012
Agenda


                 2   Hadoop, poids lourd du Big Data
                          Qui l'utilise?
                          Comment ça marche?


© Datasio 2012
Qui utilise Hadoop?   Data mining sur click stream
                      Analyse d'image
                      Production d'index
                      Moteur d'enchères
                      Conversion de 11 millions
                      d'articles en PDF
                      Spam screening
                      (> 20 milliards de msg / jour)

                      Entrepôt de données
                      > 30 PetaOctets (2011)
© Datasio 2012
03
20




    Google Filesystem
© Datasio 2012
03
           04
20
         20




                 Publication de
                 MapReduce
    Google Filesystem
© Datasio 2012
06
   03
           04


                                  20
20
         20




                 Publication de
                 MapReduce
    Google Filesystem
© Datasio 2012                     Création du projet Apache
06
                                     08
   03
           04


                                  20
20
         20




                 Publication de   20
                 MapReduce                 10000 machines
                                           @ Yahoo!
    Google Filesystem
© Datasio 2012                     Création du projet Apache
06




                                                                12
   03
           04




                                     08
                                  20




                                                              20
20
         20




                 Publication de   20
                 MapReduce                10000 machines       Cluster 100 PB
                                          @ Yahoo!             @ Facebook
    Google Filesystem
© Datasio 2012                     Ouverture du code source
HDFS
                 (Hadoop Distributed Filesystem)

© Datasio 2012
(Resource management)
        Zookeeper




                                         Map/Reduce
                                  (Distributed processing)
                                       HDFS
                          (Hadoop Distributed Filesystem)

© Datasio 2012
Pig                              Hive
  (Resource management)



                          (Data DSL)                         (SQL)
        Zookeeper




                                         Cascading
                                        (Data flow)
                                         Map/Reduce
                                  (Distributed processing)
                                       HDFS
                          (Hadoop Distributed Filesystem)

© Datasio 2012
Cascalog
                                                                  (Data flow)
                          (Distributed Key Value)
                                                       Pig                              Hive
  (Resource management)



                                                    (Data DSL)                         (SQL)
                                   Hbase
        Zookeeper




                                                                   Cascading
                                                                  (Data flow)
                                                                   Map/Reduce
                                                            (Distributed processing)
                                                                 HDFS
                                                    (Hadoop Distributed Filesystem)

© Datasio 2012
HDFS = système de fichier distribué
   CLUSTER




       CPU                  Traitement
      DISK                   Stockage

© Datasio 2012
Rack-awareness + data locality
   CLUSTER

       Rack               Rack             Rack

        Noeud    Noeud     Noeud   Noeud    Noeud

       CPU                Traitement
      DISK                 Stockage

© Datasio 2012
Fichiers distribués en blocs, avec facteur de
                   réplication N (ici, N=3)
   CLUSTER

       Rack              Rack             Rack

        Noeud    Noeud    Noeud   Noeud    Noeud
        bloc1    bloc1            bloc1
        bloc2                     bloc2    bloc2
        bloc3             bloc3            bloc3

                 bloc4    bloc4   bloc4




© Datasio 2012
Map/Reduce = “diviser pour régner”
   CLUSTER

       Rack                 Rack              Rack

        Noeud       Noeud    Noeud    Noeud    Noeud

         Map        Map       Map     Map      Map



        Reduce     Reduce    Reduce




© Datasio 2012
Map/Reduce = “diviser pour régner”




© Datasio 2012
Map/Reduce = “diviser pour régner”




© Datasio 2012
Au-delà de Map/Reduce
                             ●
                                 Requête sur données structurées
                                 et semi-structurées
                             ●
                                 Jobs Map/Reduce à l'exécution
                             ●
                                 Syntaxe “SQL”
                             ●
                                 Extensible (types, UDFs)
                             ●
                                 Metadonnées en BD (MySQL)
                             ●
                                 Join, Group By, Nesting

hive> SELECT a.IP FROM logs a where a.tstamp = '<DATE>';
© Datasio 2012
Mahout – “intelligence artificielle” à grande échelle
                              ●
                                  Règles d'association et Frequent
                                  Itemsets
                              ●
                                  Recommendation d'articles
                              ●
                                  Clustering et K-means
                              ●
                                  Arbres de décision …
                              ●
                                  PageRank




© Datasio 2012
Mahout – “intelligence artificielle” à grande échelle
                                     ●
                                         Règles d'association et Frequent
                                         Itemsets
                                     ●
                                         Recommendation d'articles
                                     ●
                                         Clustering et K-means
                                     ●
                                         Arbres de décision …




                                 {
                                     ●
                                         PageRank



 Millions et + de transactions

© Datasio 2012
Agenda


                 3   Profession: Data Scientist
                          Son rôle dans l'entreprise
                          Comment le recruter? Comment le former?
                          Journée type d'un Data Scientist

© Datasio 2012
“The sexiest job in the next 10 years will be statistician”
                              Hal Varian, Chief Economist at Google




© Datasio 2012
Mesures

© Datasio 2012
Signal

  Mesures

© Datasio 2012
Information


                 Signal

  Mesures

© Datasio 2012
Connaissance

                          Information


                 Signal

  Mesures

© Datasio 2012
CV du Data Scientist

                    Docteur es-sciences ...
                    Informaticien ...
                    Consultant ...
                    Statisticien ...
                    “Data hacker” ...

                    Java, Scala, Clojure
                    Python, Perl
                    R, Matlab, SAS

                    Machine learning
© Datasio 2012
Boîte à outils


          Postgres
           MySQL                 Pig
           Logs
           Logs
           Logs       cascalog

                     Hadoop / HDFS
© Datasio 2012
Mode opératoire

      Nettoyage            Choix
                                                       Tuning
      de données         du modèle
  ●
    Scatterplots         ●
                           K-Means                 ●
                                                     Descente de gradient
  ●
    Kernel smoothing     ●
                           Clustering              ●
                                                     Maximum de vraisemblance
  ●
    Robust EM            ●
                           Régression logistique   ●
                                                     Meta-optimisation
                         ●
                           SVM                     ●
                                                     Méthodes d'ensemble
                         ●
                           Réseaux de neurones
                         ●
                           Naive Bayes
                         ●
                           Random Forest
                         ●
                           Survival modeling
© Datasio 2012
Data visualization




© Datasio 2012                        (Source: D3)
Merci
    froyer@datasio.com

© Datasio 2012

Contenu connexe

Similaire à Datasio - Big Data : Enjeux et technologies

Proposition Cortambert Consultants, en partenariat avec Mediatris, sur la tra...
Proposition Cortambert Consultants, en partenariat avec Mediatris, sur la tra...Proposition Cortambert Consultants, en partenariat avec Mediatris, sur la tra...
Proposition Cortambert Consultants, en partenariat avec Mediatris, sur la tra...Charles-Antoine d’HOOP - FINAXIM
 
Neuros Digital
Neuros DigitalNeuros Digital
Neuros Digitalneuros
 
Communiqué de presse breew 01-11-2012
Communiqué de presse breew 01-11-2012Communiqué de presse breew 01-11-2012
Communiqué de presse breew 01-11-2012Thierry Weber
 
Cci Innovation "Penser, concevoir et fabriquer autrement" - CCI Bordeaux 03/1...
Cci Innovation "Penser, concevoir et fabriquer autrement" - CCI Bordeaux 03/1...Cci Innovation "Penser, concevoir et fabriquer autrement" - CCI Bordeaux 03/1...
Cci Innovation "Penser, concevoir et fabriquer autrement" - CCI Bordeaux 03/1...polenumerique33
 
La déferlente BYOD
La déferlente BYOD La déferlente BYOD
La déferlente BYOD Herve Lourdin
 
Dossier Presse Ariase Group
Dossier Presse Ariase Group Dossier Presse Ariase Group
Dossier Presse Ariase Group Olivia LE GUYADER
 
6 tendances clés au cœur des strategies RH digitales d'ici 2020
6 tendances clés au cœur des strategies RH digitales d'ici 20206 tendances clés au cœur des strategies RH digitales d'ici 2020
6 tendances clés au cœur des strategies RH digitales d'ici 2020MARKESS
 
De l'Internet des Objets à l'Internet des Produits
De l'Internet des Objets à l'Internet des ProduitsDe l'Internet des Objets à l'Internet des Produits
De l'Internet des Objets à l'Internet des ProduitsRenaud Ménérat
 
Icade loue 1930m² à Numergy
Icade loue 1930m² à NumergyIcade loue 1930m² à Numergy
Icade loue 1930m² à NumergyICADE
 
CCC-ConneCtion avec Digital Bay le 14 juin 2016 à La Rochelle
CCC-ConneCtion avec Digital Bay le 14 juin 2016 à La RochelleCCC-ConneCtion avec Digital Bay le 14 juin 2016 à La Rochelle
CCC-ConneCtion avec Digital Bay le 14 juin 2016 à La RochelleEric Culnaert
 
Comment les médias sociaux s’intègrent-ils aux business models des (e)entrepr...
Comment les médias sociaux s’intègrent-ils aux business models des (e)entrepr...Comment les médias sociaux s’intègrent-ils aux business models des (e)entrepr...
Comment les médias sociaux s’intègrent-ils aux business models des (e)entrepr...Arnaud de Surirey
 
La Gazette du midi
La Gazette du midiLa Gazette du midi
La Gazette du midiIterop
 
TourTT étape de restitution 21 mars-AM
TourTT étape de restitution 21 mars-AMTourTT étape de restitution 21 mars-AM
TourTT étape de restitution 21 mars-AMEDSlbmg
 
TourTT étape de restitution 21 mars-AM
TourTT étape de restitution 21 mars-AMTourTT étape de restitution 21 mars-AM
TourTT étape de restitution 21 mars-AMtdfduteletravail
 

Similaire à Datasio - Big Data : Enjeux et technologies (20)

Proposition Cortambert Consultants, en partenariat avec Mediatris, sur la tra...
Proposition Cortambert Consultants, en partenariat avec Mediatris, sur la tra...Proposition Cortambert Consultants, en partenariat avec Mediatris, sur la tra...
Proposition Cortambert Consultants, en partenariat avec Mediatris, sur la tra...
 
Ils356
Ils356Ils356
Ils356
 
Matinée 01 SaaS
Matinée 01 SaaS Matinée 01 SaaS
Matinée 01 SaaS
 
Atol CD, une ESN aux valeurs fortes
Atol CD, une ESN aux valeurs fortesAtol CD, une ESN aux valeurs fortes
Atol CD, une ESN aux valeurs fortes
 
Neuros Digital
Neuros DigitalNeuros Digital
Neuros Digital
 
Communiqué de presse breew 01-11-2012
Communiqué de presse breew 01-11-2012Communiqué de presse breew 01-11-2012
Communiqué de presse breew 01-11-2012
 
Notre expertise Open Source
Notre expertise Open SourceNotre expertise Open Source
Notre expertise Open Source
 
Cci Innovation "Penser, concevoir et fabriquer autrement" - CCI Bordeaux 03/1...
Cci Innovation "Penser, concevoir et fabriquer autrement" - CCI Bordeaux 03/1...Cci Innovation "Penser, concevoir et fabriquer autrement" - CCI Bordeaux 03/1...
Cci Innovation "Penser, concevoir et fabriquer autrement" - CCI Bordeaux 03/1...
 
La déferlente BYOD
La déferlente BYOD La déferlente BYOD
La déferlente BYOD
 
Dossier Presse Ariase Group
Dossier Presse Ariase Group Dossier Presse Ariase Group
Dossier Presse Ariase Group
 
6 tendances clés au cœur des strategies RH digitales d'ici 2020
6 tendances clés au cœur des strategies RH digitales d'ici 20206 tendances clés au cœur des strategies RH digitales d'ici 2020
6 tendances clés au cœur des strategies RH digitales d'ici 2020
 
De l'Internet des Objets à l'Internet des Produits
De l'Internet des Objets à l'Internet des ProduitsDe l'Internet des Objets à l'Internet des Produits
De l'Internet des Objets à l'Internet des Produits
 
Petits Déjeuners du Marketing Mobile - 17 sept. 2013 -
Petits Déjeuners du Marketing Mobile - 17 sept. 2013 - Petits Déjeuners du Marketing Mobile - 17 sept. 2013 -
Petits Déjeuners du Marketing Mobile - 17 sept. 2013 -
 
DSI & Innovation
DSI & InnovationDSI & Innovation
DSI & Innovation
 
Icade loue 1930m² à Numergy
Icade loue 1930m² à NumergyIcade loue 1930m² à Numergy
Icade loue 1930m² à Numergy
 
CCC-ConneCtion avec Digital Bay le 14 juin 2016 à La Rochelle
CCC-ConneCtion avec Digital Bay le 14 juin 2016 à La RochelleCCC-ConneCtion avec Digital Bay le 14 juin 2016 à La Rochelle
CCC-ConneCtion avec Digital Bay le 14 juin 2016 à La Rochelle
 
Comment les médias sociaux s’intègrent-ils aux business models des (e)entrepr...
Comment les médias sociaux s’intègrent-ils aux business models des (e)entrepr...Comment les médias sociaux s’intègrent-ils aux business models des (e)entrepr...
Comment les médias sociaux s’intègrent-ils aux business models des (e)entrepr...
 
La Gazette du midi
La Gazette du midiLa Gazette du midi
La Gazette du midi
 
TourTT étape de restitution 21 mars-AM
TourTT étape de restitution 21 mars-AMTourTT étape de restitution 21 mars-AM
TourTT étape de restitution 21 mars-AM
 
TourTT étape de restitution 21 mars-AM
TourTT étape de restitution 21 mars-AMTourTT étape de restitution 21 mars-AM
TourTT étape de restitution 21 mars-AM
 

Plus de Valtech

Valtech - Réalité virtuelle : analyses, perspectives, démonstrations
Valtech - Réalité virtuelle : analyses, perspectives, démonstrationsValtech - Réalité virtuelle : analyses, perspectives, démonstrations
Valtech - Réalité virtuelle : analyses, perspectives, démonstrationsValtech
 
CES 2016 - Décryptage et revue des tendances
CES 2016 - Décryptage et revue des tendancesCES 2016 - Décryptage et revue des tendances
CES 2016 - Décryptage et revue des tendancesValtech
 
Stéphane Roche - Agilité en milieu multiculturel
Stéphane Roche - Agilité en milieu multiculturelStéphane Roche - Agilité en milieu multiculturel
Stéphane Roche - Agilité en milieu multiculturelValtech
 
Valtech - Internet of Things & Big Data : un mariage de raison
Valtech - Internet of Things & Big Data : un mariage de raisonValtech - Internet of Things & Big Data : un mariage de raison
Valtech - Internet of Things & Big Data : un mariage de raisonValtech
 
Tendances digitales et créatives // Cannes Lions 2015
Tendances digitales et créatives // Cannes Lions 2015Tendances digitales et créatives // Cannes Lions 2015
Tendances digitales et créatives // Cannes Lions 2015Valtech
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
 
Valtech / Adobe - Résultats du Baromètre Marketing Digital 2015
Valtech / Adobe - Résultats du Baromètre Marketing Digital 2015Valtech / Adobe - Résultats du Baromètre Marketing Digital 2015
Valtech / Adobe - Résultats du Baromètre Marketing Digital 2015Valtech
 
Valtech - Architecture Agile des SI
Valtech - Architecture Agile des SIValtech - Architecture Agile des SI
Valtech - Architecture Agile des SIValtech
 
Valtech - Big Data en action
Valtech - Big Data en actionValtech - Big Data en action
Valtech - Big Data en actionValtech
 
Tendances mobiles et digitales du MWC 2015
Tendances mobiles et digitales du MWC 2015Tendances mobiles et digitales du MWC 2015
Tendances mobiles et digitales du MWC 2015Valtech
 
CES 2015 : Décryptage et tendances / Objets connectés
CES 2015 : Décryptage et tendances / Objets connectésCES 2015 : Décryptage et tendances / Objets connectés
CES 2015 : Décryptage et tendances / Objets connectésValtech
 
Valtech - Big Data en action
Valtech - Big Data en actionValtech - Big Data en action
Valtech - Big Data en actionValtech
 
Valtech - Economie Collaborative
Valtech - Economie CollaborativeValtech - Economie Collaborative
Valtech - Economie CollaborativeValtech
 
Valtech - Adobe - Résultats du Baromètre Digital Marketing 2014
Valtech - Adobe - Résultats du Baromètre Digital Marketing 2014Valtech - Adobe - Résultats du Baromètre Digital Marketing 2014
Valtech - Adobe - Résultats du Baromètre Digital Marketing 2014Valtech
 
[Veille thématique et décryptage] Cannes Lions 2014
[Veille thématique et décryptage] Cannes Lions 2014[Veille thématique et décryptage] Cannes Lions 2014
[Veille thématique et décryptage] Cannes Lions 2014Valtech
 
Valtech - Usages et technologie SaaS
Valtech - Usages et technologie SaaSValtech - Usages et technologie SaaS
Valtech - Usages et technologie SaaSValtech
 
[ Revue Innovations ] Valtech - Mobile World Congress
[ Revue Innovations ] Valtech - Mobile World Congress[ Revue Innovations ] Valtech - Mobile World Congress
[ Revue Innovations ] Valtech - Mobile World CongressValtech
 
Valtech - Digitalisation du Point de Vente - Toulouse - Février 2014
Valtech - Digitalisation du Point de Vente - Toulouse - Février 2014Valtech - Digitalisation du Point de Vente - Toulouse - Février 2014
Valtech - Digitalisation du Point de Vente - Toulouse - Février 2014Valtech
 
[ Veille de tendances ] Valtech : Objets connectés
[ Veille de tendances ] Valtech : Objets connectés[ Veille de tendances ] Valtech : Objets connectés
[ Veille de tendances ] Valtech : Objets connectésValtech
 
Valtech - Sharepoint et le cloud Azure
Valtech - Sharepoint et le cloud AzureValtech - Sharepoint et le cloud Azure
Valtech - Sharepoint et le cloud AzureValtech
 

Plus de Valtech (20)

Valtech - Réalité virtuelle : analyses, perspectives, démonstrations
Valtech - Réalité virtuelle : analyses, perspectives, démonstrationsValtech - Réalité virtuelle : analyses, perspectives, démonstrations
Valtech - Réalité virtuelle : analyses, perspectives, démonstrations
 
CES 2016 - Décryptage et revue des tendances
CES 2016 - Décryptage et revue des tendancesCES 2016 - Décryptage et revue des tendances
CES 2016 - Décryptage et revue des tendances
 
Stéphane Roche - Agilité en milieu multiculturel
Stéphane Roche - Agilité en milieu multiculturelStéphane Roche - Agilité en milieu multiculturel
Stéphane Roche - Agilité en milieu multiculturel
 
Valtech - Internet of Things & Big Data : un mariage de raison
Valtech - Internet of Things & Big Data : un mariage de raisonValtech - Internet of Things & Big Data : un mariage de raison
Valtech - Internet of Things & Big Data : un mariage de raison
 
Tendances digitales et créatives // Cannes Lions 2015
Tendances digitales et créatives // Cannes Lions 2015Tendances digitales et créatives // Cannes Lions 2015
Tendances digitales et créatives // Cannes Lions 2015
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
Valtech / Adobe - Résultats du Baromètre Marketing Digital 2015
Valtech / Adobe - Résultats du Baromètre Marketing Digital 2015Valtech / Adobe - Résultats du Baromètre Marketing Digital 2015
Valtech / Adobe - Résultats du Baromètre Marketing Digital 2015
 
Valtech - Architecture Agile des SI
Valtech - Architecture Agile des SIValtech - Architecture Agile des SI
Valtech - Architecture Agile des SI
 
Valtech - Big Data en action
Valtech - Big Data en actionValtech - Big Data en action
Valtech - Big Data en action
 
Tendances mobiles et digitales du MWC 2015
Tendances mobiles et digitales du MWC 2015Tendances mobiles et digitales du MWC 2015
Tendances mobiles et digitales du MWC 2015
 
CES 2015 : Décryptage et tendances / Objets connectés
CES 2015 : Décryptage et tendances / Objets connectésCES 2015 : Décryptage et tendances / Objets connectés
CES 2015 : Décryptage et tendances / Objets connectés
 
Valtech - Big Data en action
Valtech - Big Data en actionValtech - Big Data en action
Valtech - Big Data en action
 
Valtech - Economie Collaborative
Valtech - Economie CollaborativeValtech - Economie Collaborative
Valtech - Economie Collaborative
 
Valtech - Adobe - Résultats du Baromètre Digital Marketing 2014
Valtech - Adobe - Résultats du Baromètre Digital Marketing 2014Valtech - Adobe - Résultats du Baromètre Digital Marketing 2014
Valtech - Adobe - Résultats du Baromètre Digital Marketing 2014
 
[Veille thématique et décryptage] Cannes Lions 2014
[Veille thématique et décryptage] Cannes Lions 2014[Veille thématique et décryptage] Cannes Lions 2014
[Veille thématique et décryptage] Cannes Lions 2014
 
Valtech - Usages et technologie SaaS
Valtech - Usages et technologie SaaSValtech - Usages et technologie SaaS
Valtech - Usages et technologie SaaS
 
[ Revue Innovations ] Valtech - Mobile World Congress
[ Revue Innovations ] Valtech - Mobile World Congress[ Revue Innovations ] Valtech - Mobile World Congress
[ Revue Innovations ] Valtech - Mobile World Congress
 
Valtech - Digitalisation du Point de Vente - Toulouse - Février 2014
Valtech - Digitalisation du Point de Vente - Toulouse - Février 2014Valtech - Digitalisation du Point de Vente - Toulouse - Février 2014
Valtech - Digitalisation du Point de Vente - Toulouse - Février 2014
 
[ Veille de tendances ] Valtech : Objets connectés
[ Veille de tendances ] Valtech : Objets connectés[ Veille de tendances ] Valtech : Objets connectés
[ Veille de tendances ] Valtech : Objets connectés
 
Valtech - Sharepoint et le cloud Azure
Valtech - Sharepoint et le cloud AzureValtech - Sharepoint et le cloud Azure
Valtech - Sharepoint et le cloud Azure
 

Datasio - Big Data : Enjeux et technologies

  • 1. Big Data Enjeux et technologies © Datasio 2012
  • 3. Big Data et Data Science dans la presse © Datasio 2012
  • 4. Nous parlerons ... ad'opportunités de création de valeur ade retours d'expériences ade technologies “hot” ade mise en oeuvre et d'approches pratiques ad'aspects humains © Datasio 2012
  • 5. Nous éviterons ... rde casser l'existant rle catalogue d'outils rles aspects théoriques du Big Data © Datasio 2012
  • 6. Agenda 1 Big Data & Data Mining – les enjeux 2 Hadoop, poids lourd du Big Data 3 Profession: Data Scientist © Datasio 2012
  • 7. Agenda 1 Big Data & Data Mining © Datasio 2012
  • 9. Autres sources de données Données intra-entreprise métier (logs web, CRM ...) © Datasio 2012
  • 10. Autres sources Données Données de données intra-entreprise externes métier (logs web, CRM ...) © Datasio 2012
  • 11. Applications Big Data © Datasio 2012
  • 12. Applications Big Data { © Datasio 2012
  • 13. Applications Big Data { © Datasio 2012
  • 14. Applications Big Data { © Datasio 2012 {
  • 15. Applications Big Data { { Carte volée! © Datasio 2012
  • 16. Applications Big Data Suivi d'e-reputation © Datasio 2012
  • 17. Applications Big Data Estimer la production d'iPhones d'après les numéros de série ... © Datasio 2012
  • 18. Déduplication de données 2 rue de Grenelle 2 rue de Grenelle 75007 75007 2 avenue du Lauragais 2 avenue du Lauragais 31000 31000 Paris Paris Toulouse Toulouse Avène Avène hasAddress hasZipcode hasAddress hasZipcode hasNom hasCity Maurice Avène Avène hasCity Maurice Maurice Maurice hasPrenom hasNom hasPrenom SAAS_clients_20120304_45lhsd SAAS_clients_20120304_45lhsd CRM_2012_72 CRM_2012_72 © Datasio 2012
  • 19. Déduplication de données 2 rue de Grenelle 2 rue de Grenelle 75007 75007 2 avenue du Lauragais 2 avenue du Lauragais 31000 31000 Paris Paris Toulouse Toulouse Avène Avène hasAddress hasZipcode hasAddress hasZipcode hasNom hasCity Maurice Avène Avène hasCity Maurice Maurice Maurice hasPrenom hasNom hasPrenom sameAs SAAS_clients_20120304_45lhsd SAAS_clients_20120304_45lhsd CRM_2012_72 CRM_2012_72 © Datasio 2012
  • 20. Applications Big Data ● Optimisation A/B ● Corrélation usage du site web + transactions ● Suivi de l'engagement et monitoring du churn Logs web server In-game events © Datasio 2012
  • 21. Quelles données, quelle croissance? Logs Graphes d'interaction Croissance linéaire + paliers Croissance exponentielle !! © Datasio 2012
  • 23. Optimisation Prédiction Business insight Analytique Traitements distribués Stockage distribué © Datasio 2012
  • 24. Verticaux Big Data © Datasio 2012
  • 25. Réseaux d'interaction Influence entre utilisateurs Affinité / réponse aux campagnes marketing Sensibilité aux variations de prix E-réputation Monitoring de la satisfaction client Statistiques des vols et d'opérations au sol (forums ...) historiques et temps réel (retards, grèves, pertes de bagage ...) FUSION DE DONNEES Stats vols, Prix billets web logs social networks... Monitoring WEB Réponse de l'usager à la qualité de service Données CRM et marketing 20100916 130748 Economy Incoming 18 20100916 client Historique 131131 Economy Outgoing 99 20100916 131324 Economy Incoming 214 20100916 131735 Economy Outgoing 72 20100916 183403 Economy Overbooked 0 © Datasio 2012
  • 26. Flightcaster et la prédiction de retards ● Pourquoi ne pas utiliser les alertes de la compagnie aérienne? ● Pourquoi attend-on si longtemps sur la piste? ● Pourquoi y-a-t'il écrit “à l'heure” alors que l'avion n'est toujours pas arrivé? ● Qu'est-ce qui cause les retards? ● Quelles les sont les compagnies les plus ponctuelles? Apprentissage machine – architecture sous Amazon Web Services Basé sur l'historique des retards, la météo ... © Datasio 2012
  • 27. General Electrics et la maintenance prédictive ● GE Aviations Integrated Vehicle Health Management ● “Preventive maintenance” basée sur les mesures collectées en vol et au sol ● Calcule les probabilités de panne avant leur occurrence et diminue les coûts de maintenance © Datasio 2012
  • 28. Point de départ Besoin business Entrepôt de données © Datasio 2012
  • 29. Agenda 2 Hadoop, poids lourd du Big Data Qui l'utilise? Comment ça marche? © Datasio 2012
  • 30. Qui utilise Hadoop? Data mining sur click stream Analyse d'image Production d'index Moteur d'enchères Conversion de 11 millions d'articles en PDF Spam screening (> 20 milliards de msg / jour) Entrepôt de données > 30 PetaOctets (2011) © Datasio 2012
  • 31. 03 20 Google Filesystem © Datasio 2012
  • 32. 03 04 20 20 Publication de MapReduce Google Filesystem © Datasio 2012
  • 33. 06 03 04 20 20 20 Publication de MapReduce Google Filesystem © Datasio 2012 Création du projet Apache
  • 34. 06 08 03 04 20 20 20 Publication de 20 MapReduce 10000 machines @ Yahoo! Google Filesystem © Datasio 2012 Création du projet Apache
  • 35. 06 12 03 04 08 20 20 20 20 Publication de 20 MapReduce 10000 machines Cluster 100 PB @ Yahoo! @ Facebook Google Filesystem © Datasio 2012 Ouverture du code source
  • 36. HDFS (Hadoop Distributed Filesystem) © Datasio 2012
  • 37. (Resource management) Zookeeper Map/Reduce (Distributed processing) HDFS (Hadoop Distributed Filesystem) © Datasio 2012
  • 38. Pig Hive (Resource management) (Data DSL) (SQL) Zookeeper Cascading (Data flow) Map/Reduce (Distributed processing) HDFS (Hadoop Distributed Filesystem) © Datasio 2012
  • 39. Cascalog (Data flow) (Distributed Key Value) Pig Hive (Resource management) (Data DSL) (SQL) Hbase Zookeeper Cascading (Data flow) Map/Reduce (Distributed processing) HDFS (Hadoop Distributed Filesystem) © Datasio 2012
  • 40. HDFS = système de fichier distribué CLUSTER CPU Traitement DISK Stockage © Datasio 2012
  • 41. Rack-awareness + data locality CLUSTER Rack Rack Rack Noeud Noeud Noeud Noeud Noeud CPU Traitement DISK Stockage © Datasio 2012
  • 42. Fichiers distribués en blocs, avec facteur de réplication N (ici, N=3) CLUSTER Rack Rack Rack Noeud Noeud Noeud Noeud Noeud bloc1 bloc1 bloc1 bloc2 bloc2 bloc2 bloc3 bloc3 bloc3 bloc4 bloc4 bloc4 © Datasio 2012
  • 43. Map/Reduce = “diviser pour régner” CLUSTER Rack Rack Rack Noeud Noeud Noeud Noeud Noeud Map Map Map Map Map Reduce Reduce Reduce © Datasio 2012
  • 44. Map/Reduce = “diviser pour régner” © Datasio 2012
  • 45. Map/Reduce = “diviser pour régner” © Datasio 2012
  • 46. Au-delà de Map/Reduce ● Requête sur données structurées et semi-structurées ● Jobs Map/Reduce à l'exécution ● Syntaxe “SQL” ● Extensible (types, UDFs) ● Metadonnées en BD (MySQL) ● Join, Group By, Nesting hive> SELECT a.IP FROM logs a where a.tstamp = '<DATE>'; © Datasio 2012
  • 47. Mahout – “intelligence artificielle” à grande échelle ● Règles d'association et Frequent Itemsets ● Recommendation d'articles ● Clustering et K-means ● Arbres de décision … ● PageRank © Datasio 2012
  • 48. Mahout – “intelligence artificielle” à grande échelle ● Règles d'association et Frequent Itemsets ● Recommendation d'articles ● Clustering et K-means ● Arbres de décision … { ● PageRank Millions et + de transactions © Datasio 2012
  • 49. Agenda 3 Profession: Data Scientist Son rôle dans l'entreprise Comment le recruter? Comment le former? Journée type d'un Data Scientist © Datasio 2012
  • 50. “The sexiest job in the next 10 years will be statistician” Hal Varian, Chief Economist at Google © Datasio 2012
  • 52. Signal Mesures © Datasio 2012
  • 53. Information Signal Mesures © Datasio 2012
  • 54. Connaissance Information Signal Mesures © Datasio 2012
  • 55. CV du Data Scientist Docteur es-sciences ... Informaticien ... Consultant ... Statisticien ... “Data hacker” ... Java, Scala, Clojure Python, Perl R, Matlab, SAS Machine learning © Datasio 2012
  • 56. Boîte à outils Postgres MySQL Pig Logs Logs Logs cascalog Hadoop / HDFS © Datasio 2012
  • 57. Mode opératoire Nettoyage Choix Tuning de données du modèle ● Scatterplots ● K-Means ● Descente de gradient ● Kernel smoothing ● Clustering ● Maximum de vraisemblance ● Robust EM ● Régression logistique ● Meta-optimisation ● SVM ● Méthodes d'ensemble ● Réseaux de neurones ● Naive Bayes ● Random Forest ● Survival modeling © Datasio 2012
  • 58. Data visualization © Datasio 2012 (Source: D3)
  • 59. Merci froyer@datasio.com © Datasio 2012