SlideShare una empresa de Scribd logo
1 de 15
Descargar para leer sin conexión
scikit-learn
                            Machine Learning in Python

                         Data Tuesday - Feb. 26 2013 - Paris




dimanche 24 février 13
• Library of Machine Learning models
                     • Simple fit / predict / transform API
                     • Python / NumPy / SciPy / Cython
                               & wrappers for libsvm / liblinear
                     • Model Assessment, Selection & Ensembles
                     • Some support for multi-core
dimanche 24 février 13
Possible Applications

                     • Text Classification / Sequence Tagging NLP
                     • Computer Vision / Robotics
                     • Learning To Rank - IR and advertisement
                     • Statistical Analysis of the Brain: fMRI / MEG
                     • Astronomy, Biology, Social Sciences...

dimanche 24 février 13
dimanche 24 février 13
dimanche 24 février 13
dimanche 24 février 13
Example:
                         Training a Model for
                          Face Recognition


dimanche 24 février 13
Total dataset size:
   n_samples: 1288, n_features: 1850, n_classes: 7

   Extracting the top 150 eigenfaces from 966 faces
   done in 0.466s

   Projecting the input data on the eigenfaces orthonormal basis
   done in 0.056s

   Fitting the SVM classifier to the training set
   done in 18.549s

   Predicting people's names on the test set
   done in 0.062s
                      precision    recall f1-score    support

        Ariel Sharon             0.90   0.75   0.82        12
        Colin Powell             0.78   0.94   0.85        62
     Donald Rumsfeld             0.86   0.72   0.78        25
       George W Bush             0.89   0.96   0.92       141
   Gerhard Schroeder             0.92   0.74   0.82        31
         Hugo Chavez             0.90   0.53   0.67        17
          Tony Blair             0.81   0.74   0.77        34

                   avg / total   0.86   0.86   0.86       322
dimanche 24 février 13
dimanche 24 février 13
Learned Eigen Faces




dimanche 24 février 13
Contributors
                     • GitHub-centric contribution workflow
                      • each pull request needs 2 x [+1] reviews
                      • code + tests + doc + example
                      • 92% test coverage / Continuous Integr.
                     • 4 major releases per years + 4 bugfix rel.
                     • 66 contributors for release 0.13
dimanche 24 février 13
Users
                     • We support users on                  & ML
                     • 200+ questions tagged with [scikit-learn]
                     • Many          competitors + benchmarks
                     • 500+ answers on ongoing user survey
                      • 60% academics / 40% from industry
                     • Some data-drive Startups use sklearn
dimanche 24 février 13
Thank you!

                     • http://scikit-learn.org - Main Project + doc
                     • @ogrisel on twitter
                     • http://ogrisel.com - ML Consultancy (soon)


dimanche 24 février 13
Backup Slides



dimanche 24 février 13
Caveat Emptor
                     • Domain specific tooling kept to a minimum
                      • Some feature extraction for Bag of
                           Words Text Analysis
                         • Some functions for extracting image
                           patches
                     • Domain integration is the responsibility of
                         the user or 3rd party libraries


dimanche 24 février 13

Más contenido relacionado

Similar a 6 scikit-learn - Data Tuesday 26 fev 2013

Découverte de la Graph Data Science
Découverte de la Graph Data ScienceDécouverte de la Graph Data Science
Découverte de la Graph Data ScienceNeo4j
 
#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013
#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013
#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013Rémi Bachelet
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyOxalide
 
BID CE Workshop 1 Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1   Session 09 - Biodiversity Data Management ToolsBID CE Workshop 1   Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1 Session 09 - Biodiversity Data Management ToolsAlberto González-Talaván
 
20110519 cara tests_agiles_grenoble_all
20110519 cara tests_agiles_grenoble_all20110519 cara tests_agiles_grenoble_all
20110519 cara tests_agiles_grenoble_allCARA_Lyon
 
Meetup Devops Geneve 06/17- EBU Feedbacks
Meetup Devops Geneve 06/17- EBU Feedbacks Meetup Devops Geneve 06/17- EBU Feedbacks
Meetup Devops Geneve 06/17- EBU Feedbacks Hidora
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentationrajiasellami
 
#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bachelet
#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bachelet#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bachelet
#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bacheletRémi Bachelet
 
Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013Vincent Heuschling
 
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 mars
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 marsCdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 mars
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 marsAgile Montréal
 
Veille professionnelle avec le web 2.0 mars 2010
Veille professionnelle avec le web 2.0   mars 2010Veille professionnelle avec le web 2.0   mars 2010
Veille professionnelle avec le web 2.0 mars 2010Jean-Michel Mermet
 
Communautés Drupal et WordPress : le choc des titans ?
Communautés Drupal et WordPress : le choc des titans ?Communautés Drupal et WordPress : le choc des titans ?
Communautés Drupal et WordPress : le choc des titans ?Thierry Pigot
 
Cours de topic modeling
Cours de topic modelingCours de topic modeling
Cours de topic modelingAlexis Perrier
 
Système de recommandations de films
Système de recommandations de filmsSystème de recommandations de films
Système de recommandations de filmsIbn Tofail University
 
CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022
CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022
CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022Agile Montréal
 

Similar a 6 scikit-learn - Data Tuesday 26 fev 2013 (20)

Découverte de la Graph Data Science
Découverte de la Graph Data ScienceDécouverte de la Graph Data Science
Découverte de la Graph Data Science
 
#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013
#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013
#MOOC GdP – 14 - Retour d'expérience sur deux MOOC 24-10-2013
 
BigData on change d'ère !
BigData on change d'ère ! BigData on change d'ère !
BigData on change d'ère !
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Nouveau site web pour bibliothèques ups
Nouveau site web pour bibliothèques upsNouveau site web pour bibliothèques ups
Nouveau site web pour bibliothèques ups
 
BID CE Workshop 1 Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1   Session 09 - Biodiversity Data Management ToolsBID CE Workshop 1   Session 09 - Biodiversity Data Management Tools
BID CE Workshop 1 Session 09 - Biodiversity Data Management Tools
 
Commencer avec Hadoop
Commencer avec HadoopCommencer avec Hadoop
Commencer avec Hadoop
 
20110519 cara tests_agiles_grenoble_all
20110519 cara tests_agiles_grenoble_all20110519 cara tests_agiles_grenoble_all
20110519 cara tests_agiles_grenoble_all
 
Meetup Devops Geneve 06/17- EBU Feedbacks
Meetup Devops Geneve 06/17- EBU Feedbacks Meetup Devops Geneve 06/17- EBU Feedbacks
Meetup Devops Geneve 06/17- EBU Feedbacks
 
P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
 
#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bachelet
#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bachelet#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bachelet
#MOOCGdP – 11 brest en biens communs -9-10-2013 - r bachelet
 
Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013
 
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 mars
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 marsCdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 mars
CdP QA - QA hackathon - Intelligence artificielle - Meetup du 9 mars
 
Veille professionnelle avec le web 2.0 mars 2010
Veille professionnelle avec le web 2.0   mars 2010Veille professionnelle avec le web 2.0   mars 2010
Veille professionnelle avec le web 2.0 mars 2010
 
Communautés Drupal et WordPress : le choc des titans ?
Communautés Drupal et WordPress : le choc des titans ?Communautés Drupal et WordPress : le choc des titans ?
Communautés Drupal et WordPress : le choc des titans ?
 
Cours de topic modeling
Cours de topic modelingCours de topic modeling
Cours de topic modeling
 
Système de recommandations de films
Système de recommandations de filmsSystème de recommandations de films
Système de recommandations de films
 
CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022
CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022
CdP QA - QA hackathon - Intelligence artificielle - 27 janvier 2022
 
Big data
Big dataBig data
Big data
 

Más de Data Tuesday

Data driven company
Data driven companyData driven company
Data driven companyData Tuesday
 
Bruno Van Haetsdaele - Data Tuesday - VRM
Bruno Van Haetsdaele - Data Tuesday - VRMBruno Van Haetsdaele - Data Tuesday - VRM
Bruno Van Haetsdaele - Data Tuesday - VRMData Tuesday
 
Bruno van haetsdaele_2013-09-vrm
Bruno van haetsdaele_2013-09-vrmBruno van haetsdaele_2013-09-vrm
Bruno van haetsdaele_2013-09-vrmData Tuesday
 
Daniel Kaplan - FING - Data Tuesday - VRM
Daniel Kaplan - FING -  Data Tuesday - VRMDaniel Kaplan - FING -  Data Tuesday - VRM
Daniel Kaplan - FING - Data Tuesday - VRMData Tuesday
 
Nicolas Rose - XANGE - VRM - Data Tuesday
Nicolas Rose - XANGE -  VRM - Data Tuesday Nicolas Rose - XANGE -  VRM - Data Tuesday
Nicolas Rose - XANGE - VRM - Data Tuesday Data Tuesday
 
Cozy Cloud - Data Tuesday - VRM
Cozy Cloud - Data Tuesday - VRMCozy Cloud - Data Tuesday - VRM
Cozy Cloud - Data Tuesday - VRMData Tuesday
 
Didier louvet - ADM - Data Tuesday - VRM - 08-10-2013
Didier louvet - ADM  -  Data Tuesday - VRM - 08-10-2013Didier louvet - ADM  -  Data Tuesday - VRM - 08-10-2013
Didier louvet - ADM - Data Tuesday - VRM - 08-10-2013Data Tuesday
 
Privowny - Data Tuesday VRM
Privowny - Data Tuesday VRMPrivowny - Data Tuesday VRM
Privowny - Data Tuesday VRMData Tuesday
 
Renaud Francou- FING - Datatuesday VRM
Renaud Francou- FING - Datatuesday VRMRenaud Francou- FING - Datatuesday VRM
Renaud Francou- FING - Datatuesday VRMData Tuesday
 
DATATUESDAY VRM - Onecub
DATATUESDAY VRM -  Onecub DATATUESDAY VRM -  Onecub
DATATUESDAY VRM - Onecub Data Tuesday
 
Cristal Festival, Timeline (EN)
Cristal Festival, Timeline (EN)Cristal Festival, Timeline (EN)
Cristal Festival, Timeline (EN)Data Tuesday
 
Cristal Festival, Timeline (FR)
Cristal Festival, Timeline (FR)Cristal Festival, Timeline (FR)
Cristal Festival, Timeline (FR)Data Tuesday
 
4 présentation mgdis open data - datatuesday v2
4   présentation mgdis open data - datatuesday v24   présentation mgdis open data - datatuesday v2
4 présentation mgdis open data - datatuesday v2Data Tuesday
 
Cristal Academy / Séminaire 4 juillet 2013
Cristal Academy / Séminaire 4 juillet 2013Cristal Academy / Séminaire 4 juillet 2013
Cristal Academy / Séminaire 4 juillet 2013Data Tuesday
 
10 jean-louis zimmermann - open streetmap france - lizmobility
10   jean-louis zimmermann - open streetmap france - lizmobility10   jean-louis zimmermann - open streetmap france - lizmobility
10 jean-louis zimmermann - open streetmap france - lizmobilityData Tuesday
 

Más de Data Tuesday (20)

Data Publica
Data PublicaData Publica
Data Publica
 
Bittle
BittleBittle
Bittle
 
Fruition sciences
Fruition sciencesFruition sciences
Fruition sciences
 
Xiko
XikoXiko
Xiko
 
Shift technology
Shift technologyShift technology
Shift technology
 
Data driven company
Data driven companyData driven company
Data driven company
 
Bruno Van Haetsdaele - Data Tuesday - VRM
Bruno Van Haetsdaele - Data Tuesday - VRMBruno Van Haetsdaele - Data Tuesday - VRM
Bruno Van Haetsdaele - Data Tuesday - VRM
 
Bruno van haetsdaele_2013-09-vrm
Bruno van haetsdaele_2013-09-vrmBruno van haetsdaele_2013-09-vrm
Bruno van haetsdaele_2013-09-vrm
 
Daniel Kaplan - FING - Data Tuesday - VRM
Daniel Kaplan - FING -  Data Tuesday - VRMDaniel Kaplan - FING -  Data Tuesday - VRM
Daniel Kaplan - FING - Data Tuesday - VRM
 
Nicolas Rose - XANGE - VRM - Data Tuesday
Nicolas Rose - XANGE -  VRM - Data Tuesday Nicolas Rose - XANGE -  VRM - Data Tuesday
Nicolas Rose - XANGE - VRM - Data Tuesday
 
Cozy Cloud - Data Tuesday - VRM
Cozy Cloud - Data Tuesday - VRMCozy Cloud - Data Tuesday - VRM
Cozy Cloud - Data Tuesday - VRM
 
Didier louvet - ADM - Data Tuesday - VRM - 08-10-2013
Didier louvet - ADM  -  Data Tuesday - VRM - 08-10-2013Didier louvet - ADM  -  Data Tuesday - VRM - 08-10-2013
Didier louvet - ADM - Data Tuesday - VRM - 08-10-2013
 
Privowny - Data Tuesday VRM
Privowny - Data Tuesday VRMPrivowny - Data Tuesday VRM
Privowny - Data Tuesday VRM
 
Renaud Francou- FING - Datatuesday VRM
Renaud Francou- FING - Datatuesday VRMRenaud Francou- FING - Datatuesday VRM
Renaud Francou- FING - Datatuesday VRM
 
DATATUESDAY VRM - Onecub
DATATUESDAY VRM -  Onecub DATATUESDAY VRM -  Onecub
DATATUESDAY VRM - Onecub
 
Cristal Festival, Timeline (EN)
Cristal Festival, Timeline (EN)Cristal Festival, Timeline (EN)
Cristal Festival, Timeline (EN)
 
Cristal Festival, Timeline (FR)
Cristal Festival, Timeline (FR)Cristal Festival, Timeline (FR)
Cristal Festival, Timeline (FR)
 
4 présentation mgdis open data - datatuesday v2
4   présentation mgdis open data - datatuesday v24   présentation mgdis open data - datatuesday v2
4 présentation mgdis open data - datatuesday v2
 
Cristal Academy / Séminaire 4 juillet 2013
Cristal Academy / Séminaire 4 juillet 2013Cristal Academy / Séminaire 4 juillet 2013
Cristal Academy / Séminaire 4 juillet 2013
 
10 jean-louis zimmermann - open streetmap france - lizmobility
10   jean-louis zimmermann - open streetmap france - lizmobility10   jean-louis zimmermann - open streetmap france - lizmobility
10 jean-louis zimmermann - open streetmap france - lizmobility
 

6 scikit-learn - Data Tuesday 26 fev 2013

  • 1. scikit-learn Machine Learning in Python Data Tuesday - Feb. 26 2013 - Paris dimanche 24 février 13
  • 2. • Library of Machine Learning models • Simple fit / predict / transform API • Python / NumPy / SciPy / Cython & wrappers for libsvm / liblinear • Model Assessment, Selection & Ensembles • Some support for multi-core dimanche 24 février 13
  • 3. Possible Applications • Text Classification / Sequence Tagging NLP • Computer Vision / Robotics • Learning To Rank - IR and advertisement • Statistical Analysis of the Brain: fMRI / MEG • Astronomy, Biology, Social Sciences... dimanche 24 février 13
  • 7. Example: Training a Model for Face Recognition dimanche 24 février 13
  • 8. Total dataset size: n_samples: 1288, n_features: 1850, n_classes: 7 Extracting the top 150 eigenfaces from 966 faces done in 0.466s Projecting the input data on the eigenfaces orthonormal basis done in 0.056s Fitting the SVM classifier to the training set done in 18.549s Predicting people's names on the test set done in 0.062s precision recall f1-score support Ariel Sharon 0.90 0.75 0.82 12 Colin Powell 0.78 0.94 0.85 62 Donald Rumsfeld 0.86 0.72 0.78 25 George W Bush 0.89 0.96 0.92 141 Gerhard Schroeder 0.92 0.74 0.82 31 Hugo Chavez 0.90 0.53 0.67 17 Tony Blair 0.81 0.74 0.77 34 avg / total 0.86 0.86 0.86 322 dimanche 24 février 13
  • 11. Contributors • GitHub-centric contribution workflow • each pull request needs 2 x [+1] reviews • code + tests + doc + example • 92% test coverage / Continuous Integr. • 4 major releases per years + 4 bugfix rel. • 66 contributors for release 0.13 dimanche 24 février 13
  • 12. Users • We support users on & ML • 200+ questions tagged with [scikit-learn] • Many competitors + benchmarks • 500+ answers on ongoing user survey • 60% academics / 40% from industry • Some data-drive Startups use sklearn dimanche 24 février 13
  • 13. Thank you! • http://scikit-learn.org - Main Project + doc • @ogrisel on twitter • http://ogrisel.com - ML Consultancy (soon) dimanche 24 février 13
  • 15. Caveat Emptor • Domain specific tooling kept to a minimum • Some feature extraction for Bag of Words Text Analysis • Some functions for extracting image patches • Domain integration is the responsibility of the user or 3rd party libraries dimanche 24 février 13