SlideShare una empresa de Scribd logo
1 de 15
Descargar para leer sin conexión
BIG DATA ET
SCIENCE DE DONNÉES
INTRODUCTION A LA SCIENCE DE
DONNEES
Master 1 Intelligence Artificielle
Université de M’sila, Département d’Informatique
Dr Mehenni Tahar
2020-2021
Les origines scientifiques de la
science des données
L’aide à la décision etles bases de données
décisionnelles (data warehouse)
Le processus d’extraction de connaissances
(KDD: Knowledge Discovery from Data
Qu’est-ce que le machine learning ?
• Arthur Samuel, 1959: « le machine learning est le champ
d’étude visant à donner la capacité à une machine d’apprendre
sans être explicitement programmée ».
• Tom Mitchell, 1997: « A computer program is said to learn from
experience E with respect to some class of tasks T and
performance measure P, if its performance at tasks in T, as
measured by P, improves with experience E ».
Algorithmes supervisés et non
supervisés
• Les algorithmes supervisés: Extraient de la connaissance à partir
d’un ensemble de données contenant des couples entrée-sortie.
• Ces couples sont déjà « connus », dans le sens où les sorties sont définies a
priori.
• La valeur de sortie peut être une indication fournie par un expert : par exemple,
des valeurs de vérité de type OUI/NON ou MALADE/SAIN.
• Ces algorithmes cherchent à définir une représentation compacte des
associations entrée-sortie, par l’intermédiaire d’une fonction de prédiction.
• les algorithmes non supervisés: n’intègrent pas la notion d’entrée-
sortie.
• Toutes les données sont équivalentes (on pourrait dire qu’il n’y a que des
entrées).
• les algorithmes cherchent à organiser les données en groupes.
• Chaque groupe doit comprendre des données similaires et les données
différentes doivent se retrouver dans des groupes distincts.
• L’apprentissage ne se fait plus à partir d’une indication qui peut être
préalablement fournie par un expert, mais uniquement à partir des fluctuations
observables dans les données.
Algorithmes de régression et de
classification
• La distinction régression/classification se fait au sujet des
algorithmes supervisés.
• Dans un problème de régression: Y peut prendre une
infinité de valeurs dans l’ensemble continu des réels (noté
Y ∈ ). Ce peut être des températures, des tailles, des PIB,
des taux de chômage, ou tout autre type de mesure
n’ayant pas de valeurs finies a priori.
• Dans un problème de classification: Y prend un
nombre fini k de valeurs (Y ={1, …, k}). On parle alors
d’étiquettes attribuées aux valeurs d’entrée. C’est le cas
des valeurs de vérité de type OUI/NON ou MALADE/SAIN
évoqués précédemment.
Algorithmes du Data Scientist
La validation croisée
• Créer un échantillon d’entraînement, sur lequel on va
constituer le modèle, et un échantillon de test, sur lequel on
va tester le modèle.
• le data scientist choisit généralement de diviser ses données
en trois :
• un jeu d’entraînement, bien sûr;
• un jeu dit de validation : celui-ci va être utilisé pour tester les différents
modèles paramétrés sur le jeu d’entraînement
• et un vrai jeu de test, qu’on garde de côté et qui ne sera utilisé que tout
à la fin du processus de modélisation, afin de tester le plus
honnêtement possible la capacité de généralisation du modèle retenu.
Principales Méthodes de validation
croisée
• La méthode LOOV (leave-one-out cross-validation): Sortir une
observation i de l’ensemble du jeu de données et à calculer le
modèle sur les m-1 données restantes. On utilise ce modèle pour
prédire i et on calcule l’erreur de prévision. On répète ce processus
pour toutes les valeurs de i = 1, …, m. Les m erreurs de prévision
peuvent alors être utilisés pour évaluer la performance du modèle
en validation croisée.
• La méthode LKOV (leave-k-out cross-validation): même principe
que LOOV, sauf que l’on sort non pas une, mais k observations à
prédire à chaque étape (donc LOOV est équivalent à LKOV pour k =
1). Le processus est répété de façon à avoir réalisé tous les
découpages possibles en données de modélisation/de prévision.
• La méthode k-fold cross-validation: les données sont
aléatoirement divisées en k sous-échantillons de tailles égales, dont
l’un est utilisé pour la prévision et les k-1 restants pour l’estimation
du modèle. Le processus n’est répété que k fois.
Choix de la métrique de performance
• Pour les problèmes de régression
• Nombreuses sont les mesures disponibles pour évaluer
la qualité d’un modèle de régression.
Choix de la métrique de performance
• Pour les problèmes de classification
• L’évaluation d’un problème de classification se base sur une
matrice de confusion, qui met en regard des données prédites et
des données observées
• Recall: VP/(VP + FN)
• Précision: VP/(VP + FP)
• F1 score: 2*(Recall*Precision)/(Recall+Precision)
La courbe ROC
• ROC signifie Receiver Operating Characteristic.
• La courbe ROC est tracée dans un espace de deux dimensions définies par α
(taux de Vrais Positifs VP) en ordonnée et 1-β (β taux de Vrais Négatifs VN) en
abscisse.
• À (0, 0) le classificateur déclare toujours
'négatif'
• À (1, 1) le classificateur déclare toujours
'positif'
• Un classificateur aléatoire tracera une droite
allant de (0, 0) à (1, 1).
• À (0, 1) le classificateur n’a aucun faux positif
ni aucun faux négatif, et est par conséquent
parfaitement exact, ne se trompant jamais.
• À (1, 0) le classificateur n’a aucun vrai négatif
ni aucun vrai positif.
• AUC indique la probabilité pour que la fonction SCORE place un positif devant
un négatif (dans le meilleur des cas AUC = 1).
• Si SCORE classe au hasard les individus (c.-à-d. le modèle de prédiction ne sert
à rien), AUC = 0.5 (droite en diagonal: au-dessus: meilleur que l’aléatoire, au-
dessous: moins bine que l’aléatoire)
Les espaces de grande dimension
• La dimension d’un problème de machine learning correspond
au nombre n de variables de la matrice X.
• Un n grand peut poser de nombreux pièges que le data
scientist doit savoir surmonter.
• En général, on cherche à sélectionner judicieusement un sous-
espace pertinent, pour améliorer la modélisation.
• L’objectif est de conserver le maximum de l’information
contenue dans les données, avec un minimum de variables.
• Deux approches sont envisageables:
• Sélectionner un nombre restreint des variables les plus importantes
(Exemple: feature selection).
• Créer des variables « synthétiques » à partir des variables initiales,
ensuite reconstruire un nouvel espace de dimension réduite (Exemple:
Analyse en Composantes Principales).
Les valeurs manquantes
• Deux grandes catégories de données manquantes:
• Lorsque l’on ne dispose d’aucune information sur un individu (c’est-
à-dire une ligne complètement vide dans une matrice).
• Lorsque l’on dispose d’une information incomplète sur un individu
(une ligne partiellement renseignée).
• Traitement des valeurs manquantes:
• Imputation par règle : si on la connaît, on peut définir une règle
métier qui permet de calculer la valeur manquante à partir des
autres données disponibles ;
• Replacement des valeurs manquantes par la valeur moyenne de
l’ensemble des réponses
• Imputation par régression.
• Méthode du plus proche voisin

Más contenido relacionado

La actualidad más candente

Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdfimane26
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data MiningTakfarinas KENOUCHE
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentationDonia Hammami
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfZizoAziz
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine LearningMathieu Goeminne
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionMohamed Heny SELMI
 
Les réseaux de neurones
Les réseaux de neuronesLes réseaux de neurones
Les réseaux de neuronesMariam Amchayd
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigFelipe Sanchez Garzon
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdfOuailChoukhairi
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIsmail CHAIB
 
SYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdf
SYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdfSYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdf
SYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdfDhiaeddineabdelli
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels Oussama Werfelli
 
Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleSoft Computing
 

La actualidad más candente (20)

Arbre de décision.pdf
Arbre de décision.pdfArbre de décision.pdf
Arbre de décision.pdf
 
Les systèmes de recommandations
Les systèmes de recommandationsLes systèmes de recommandations
Les systèmes de recommandations
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Exposé segmentation
Exposé segmentationExposé segmentation
Exposé segmentation
 
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdfChapitre 4-Apprentissage non supervisé (1) (1).pdf
Chapitre 4-Apprentissage non supervisé (1) (1).pdf
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 
Knn
KnnKnn
Knn
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine Learning
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Les réseaux de neurones
Les réseaux de neuronesLes réseaux de neurones
Les réseaux de neurones
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
5.5 Clustering
5.5 Clustering5.5 Clustering
5.5 Clustering
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
La méthode z
La méthode zLa méthode z
La méthode z
 
Introduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniquesIntroduction au datamining, concepts et techniques
Introduction au datamining, concepts et techniques
 
SYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdf
SYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdfSYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdf
SYSTEMES-INTERACTIFS-D-AIDE-A-LA-DECISION-SIAD-1.pdf
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels
 
Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence Artificielle
 

Similar a Ch6 Introduction à la Science de Données.pdf

Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...ENSET, Université Hassan II Casablanca
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 
Marketing et Big Data
Marketing et Big DataMarketing et Big Data
Marketing et Big DataJeremy Greze
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretjfeudeline
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdfOuailChoukhairi
 
resampling_evaluation.pdf
resampling_evaluation.pdfresampling_evaluation.pdf
resampling_evaluation.pdfSidiAbdallah1
 
présentation six sigma uptraining français
présentation six sigma uptraining françaisprésentation six sigma uptraining français
présentation six sigma uptraining françaissimon leclercq
 
IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015
IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015
IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015IBM France Lab
 
Owf 2013 rii panorama leroy
Owf 2013 rii panorama leroyOwf 2013 rii panorama leroy
Owf 2013 rii panorama leroyPatrick MOREAU
 
L’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 SigmaL’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 SigmaXL Formation
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Adad Med Chérif
 
Forêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISSForêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISSKezhan SHI
 
Machine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptxMachine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptxbely26
 
Etude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMEtude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMSamirAwad14
 
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016ibtissam el hassani
 

Similar a Ch6 Introduction à la Science de Données.pdf (20)

Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
Conférence: Catalyseurs de l'Intelligence Artificielle et Écosystème des Fram...
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
Marketing et Big Data
Marketing et Big DataMarketing et Big Data
Marketing et Big Data
 
Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1 Mise en oeuvre des framework de machines et deep learning v1
Mise en oeuvre des framework de machines et deep learning v1
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caret
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
Data Mining (Partie 3).pdf
Data Mining (Partie 3).pdfData Mining (Partie 3).pdf
Data Mining (Partie 3).pdf
 
resampling_evaluation.pdf
resampling_evaluation.pdfresampling_evaluation.pdf
resampling_evaluation.pdf
 
Algorithme knn
Algorithme knnAlgorithme knn
Algorithme knn
 
test
testtest
test
 
présentation six sigma uptraining français
présentation six sigma uptraining françaisprésentation six sigma uptraining français
présentation six sigma uptraining français
 
IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015
IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015
IBM Paris Bluemix Meetup #12 - Ecole 42 - 9 décembre 2015
 
Owf 2013 rii panorama leroy
Owf 2013 rii panorama leroyOwf 2013 rii panorama leroy
Owf 2013 rii panorama leroy
 
L’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 SigmaL’apport des techniques statistiques dans les projets Lean 6 Sigma
L’apport des techniques statistiques dans les projets Lean 6 Sigma
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
 
Forêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISSForêts uniformément aléatoires - Saïp CISS
Forêts uniformément aléatoires - Saïp CISS
 
Machine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptxMachine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptx
 
Analyzing a churn data set
Analyzing a churn data set Analyzing a churn data set
Analyzing a churn data set
 
Etude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVMEtude comparative des classifieurs Naïve Bayes et SVM
Etude comparative des classifieurs Naïve Bayes et SVM
 
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
Amélioration continue - 6 sigma - ibtissam el hassani-chapitre 2015-2016
 

Ch6 Introduction à la Science de Données.pdf

  • 1. BIG DATA ET SCIENCE DE DONNÉES INTRODUCTION A LA SCIENCE DE DONNEES Master 1 Intelligence Artificielle Université de M’sila, Département d’Informatique Dr Mehenni Tahar 2020-2021
  • 2. Les origines scientifiques de la science des données
  • 3. L’aide à la décision etles bases de données décisionnelles (data warehouse)
  • 4. Le processus d’extraction de connaissances (KDD: Knowledge Discovery from Data
  • 5. Qu’est-ce que le machine learning ? • Arthur Samuel, 1959: « le machine learning est le champ d’étude visant à donner la capacité à une machine d’apprendre sans être explicitement programmée ». • Tom Mitchell, 1997: « A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E ».
  • 6. Algorithmes supervisés et non supervisés • Les algorithmes supervisés: Extraient de la connaissance à partir d’un ensemble de données contenant des couples entrée-sortie. • Ces couples sont déjà « connus », dans le sens où les sorties sont définies a priori. • La valeur de sortie peut être une indication fournie par un expert : par exemple, des valeurs de vérité de type OUI/NON ou MALADE/SAIN. • Ces algorithmes cherchent à définir une représentation compacte des associations entrée-sortie, par l’intermédiaire d’une fonction de prédiction. • les algorithmes non supervisés: n’intègrent pas la notion d’entrée- sortie. • Toutes les données sont équivalentes (on pourrait dire qu’il n’y a que des entrées). • les algorithmes cherchent à organiser les données en groupes. • Chaque groupe doit comprendre des données similaires et les données différentes doivent se retrouver dans des groupes distincts. • L’apprentissage ne se fait plus à partir d’une indication qui peut être préalablement fournie par un expert, mais uniquement à partir des fluctuations observables dans les données.
  • 7. Algorithmes de régression et de classification • La distinction régression/classification se fait au sujet des algorithmes supervisés. • Dans un problème de régression: Y peut prendre une infinité de valeurs dans l’ensemble continu des réels (noté Y ∈ ). Ce peut être des températures, des tailles, des PIB, des taux de chômage, ou tout autre type de mesure n’ayant pas de valeurs finies a priori. • Dans un problème de classification: Y prend un nombre fini k de valeurs (Y ={1, …, k}). On parle alors d’étiquettes attribuées aux valeurs d’entrée. C’est le cas des valeurs de vérité de type OUI/NON ou MALADE/SAIN évoqués précédemment.
  • 9. La validation croisée • Créer un échantillon d’entraînement, sur lequel on va constituer le modèle, et un échantillon de test, sur lequel on va tester le modèle. • le data scientist choisit généralement de diviser ses données en trois : • un jeu d’entraînement, bien sûr; • un jeu dit de validation : celui-ci va être utilisé pour tester les différents modèles paramétrés sur le jeu d’entraînement • et un vrai jeu de test, qu’on garde de côté et qui ne sera utilisé que tout à la fin du processus de modélisation, afin de tester le plus honnêtement possible la capacité de généralisation du modèle retenu.
  • 10. Principales Méthodes de validation croisée • La méthode LOOV (leave-one-out cross-validation): Sortir une observation i de l’ensemble du jeu de données et à calculer le modèle sur les m-1 données restantes. On utilise ce modèle pour prédire i et on calcule l’erreur de prévision. On répète ce processus pour toutes les valeurs de i = 1, …, m. Les m erreurs de prévision peuvent alors être utilisés pour évaluer la performance du modèle en validation croisée. • La méthode LKOV (leave-k-out cross-validation): même principe que LOOV, sauf que l’on sort non pas une, mais k observations à prédire à chaque étape (donc LOOV est équivalent à LKOV pour k = 1). Le processus est répété de façon à avoir réalisé tous les découpages possibles en données de modélisation/de prévision. • La méthode k-fold cross-validation: les données sont aléatoirement divisées en k sous-échantillons de tailles égales, dont l’un est utilisé pour la prévision et les k-1 restants pour l’estimation du modèle. Le processus n’est répété que k fois.
  • 11. Choix de la métrique de performance • Pour les problèmes de régression • Nombreuses sont les mesures disponibles pour évaluer la qualité d’un modèle de régression.
  • 12. Choix de la métrique de performance • Pour les problèmes de classification • L’évaluation d’un problème de classification se base sur une matrice de confusion, qui met en regard des données prédites et des données observées • Recall: VP/(VP + FN) • Précision: VP/(VP + FP) • F1 score: 2*(Recall*Precision)/(Recall+Precision)
  • 13. La courbe ROC • ROC signifie Receiver Operating Characteristic. • La courbe ROC est tracée dans un espace de deux dimensions définies par α (taux de Vrais Positifs VP) en ordonnée et 1-β (β taux de Vrais Négatifs VN) en abscisse. • À (0, 0) le classificateur déclare toujours 'négatif' • À (1, 1) le classificateur déclare toujours 'positif' • Un classificateur aléatoire tracera une droite allant de (0, 0) à (1, 1). • À (0, 1) le classificateur n’a aucun faux positif ni aucun faux négatif, et est par conséquent parfaitement exact, ne se trompant jamais. • À (1, 0) le classificateur n’a aucun vrai négatif ni aucun vrai positif. • AUC indique la probabilité pour que la fonction SCORE place un positif devant un négatif (dans le meilleur des cas AUC = 1). • Si SCORE classe au hasard les individus (c.-à-d. le modèle de prédiction ne sert à rien), AUC = 0.5 (droite en diagonal: au-dessus: meilleur que l’aléatoire, au- dessous: moins bine que l’aléatoire)
  • 14. Les espaces de grande dimension • La dimension d’un problème de machine learning correspond au nombre n de variables de la matrice X. • Un n grand peut poser de nombreux pièges que le data scientist doit savoir surmonter. • En général, on cherche à sélectionner judicieusement un sous- espace pertinent, pour améliorer la modélisation. • L’objectif est de conserver le maximum de l’information contenue dans les données, avec un minimum de variables. • Deux approches sont envisageables: • Sélectionner un nombre restreint des variables les plus importantes (Exemple: feature selection). • Créer des variables « synthétiques » à partir des variables initiales, ensuite reconstruire un nouvel espace de dimension réduite (Exemple: Analyse en Composantes Principales).
  • 15. Les valeurs manquantes • Deux grandes catégories de données manquantes: • Lorsque l’on ne dispose d’aucune information sur un individu (c’est- à-dire une ligne complètement vide dans une matrice). • Lorsque l’on dispose d’une information incomplète sur un individu (une ligne partiellement renseignée). • Traitement des valeurs manquantes: • Imputation par règle : si on la connaît, on peut définir une règle métier qui permet de calculer la valeur manquante à partir des autres données disponibles ; • Replacement des valeurs manquantes par la valeur moyenne de l’ensemble des réponses • Imputation par régression. • Méthode du plus proche voisin