SlideShare una empresa de Scribd logo
1 de 14
Formation 
Actuaire Data-Scientist 
PROGRAMME 
15 Septembre 2014 
Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz
Programme 
1 
4 
9 
1 
2 
Séance inaugurale: 
révolution numérique; 
besoins des entreprises; 
cadre réglementaire; 
éthique et normes. 
3 blocs pédagogiques: 
cours et TD 
approfondissements et applications aux métiers de l’assurance 
réalisation d’un projet individuel sur un sujet actuariel 
Rythme: 2 jours par mois comportant à la fois cours et cas pratiques 
début du projet à mi-parcours
Programme 
A) Éléments logiciels et programmation Python ~ 18h 
B) Datamining et programmation R ~ 18h 
C) Algorithmique en Machine Learning et mise en situation ~ 24h 
D) Fondements théoriques de l’apprentissage statistique ~ 24h 
E) Machine Learning distribué et applications ~ 12h 
F) Extraction, utilisation et visualisation des données ~ 18h 
Approfondissements et études de cas pratiques ~ 40h 
* nombre d'heures à titre indicatif 
COURS ET TD 
APPLICATIONS AUX MÉTIERS DE L ’ASSURANCE
Programme 
A) Éléments logiciels et programmation Python ~ 18h 
Objectif : Introduction au langage Python et sensibilisation aux 
grandeurs informatiques pertinentes. 
Eléments de programme : 
Initiation à la programmation Python 
Programmation objet, classes, héritage 
Bibliothèque des méthodes statistiques usuelles 
Eléments logiciels pour grandes bases de donnée 
Hardware, performance machine et gestion de mémoire 
Efficacité d'un algorithme 
Complexité, accès mémoire, ordres de grandeur
Programme 
B) Datamining et programmation R ~ 18h 
Objectif : Présenter les outils classiques d'exploration de données, sous 
un angle essentiellement descriptif. Ces cours permettra une remise à 
niveau en R, en rappelant, durant les premières heures, les bases de la 
programmation en R. 
Eléments de programme : 
Manipuler des données sous R: données continues, facteurs 
(recodification), dates, heures 
Bases de la programmation avancée en R 
Méthodes non-supervisées 
Analyse factorielle et détection de clusters
Programme 
C) Algorithmique en machine learning et mise en situation ~ 24h 
Objectif : Approche par mise en situation via la participation à un 
concours type Kaggle. Présentation des différentes phases : exploration, 
sélection/transformation des données, algorithmes d’apprentissage, 
visualisation 
Eléments de programme : 
Etude de cas 
Exploration/ Sélection / Transformation / Nettoyage des données 
Principaux algorithmes de Machine Learning (contexte de Classification) 
K-NN, Régression Logistique, SVM 
Forêts aléatoires, Réseaux de Neurones 
Boosting, Bagging 
Procédures de validation / sélection de modèle 
Visualisation 
Retour d’expérience et analyse des résultats
Programme 
D) Fondements théoriques de l’apprentissage statistique ~ 24h 
Objectif : Présenter les fondements mathématiques des principales 
méthodes de Machine learning 
Eléments de programme : 
Théorie de la décision, Perte, risque, risque empirique 
Modèle statistique pour la classification binaire, Approches génératives 
vs. discriminantes 
Machine Learning, Méthodes paramétriques, perceptron, partitionnement 
Algorithmes de classification de données massives, Convexification du 
risque, boosting et SVM 
Méthodes ascendantes et descendantes, Critères AIC et BIC 
Régression linéaire: limites et améliorations : Parcimonie. Régression pas 
à pas Approche par pénalisation: ridge, lasso... Modèles linéaires 
généralisés, Méthodes de régression alternatives, Approche non linéaire: 
polynômes locaux, ondelettes Régression PLS et CART
Programme 
E) Machine Learning distribué et applications ~ 12h 
Objectif : Pour passer à l’échelle, les algorithmes de Machine Learning 
vus dans les cours précédents doivent être repensés. Un cadre efficace 
est celui des algorithmes distribués où on utilise plusieurs entités de 
calculs pour mener à bien l’objectif initial. L’objectif de ce cours sera de 
présenter différents exemples d’algorithmes de Machine Learning 
distribués 
Eléments de programme : 
Algorithmes distribués : généralités 
Le cas de Map-Reduce 
Applications en Machine Learning
Programme 
F) Extraction, utilisation et visualisation des données ~ 18h 
Objectif : Description des enjeux économiques et sociétaux de la 
révolution numérique du Big Data. Présentation des architectures de 
bases ou entrepôts de données, ainsi que des techniques d'exploration 
associées pour la récolte des données. Sensibilisation aux questions 
éthiques sous-jacentes, aux contraintes juridiques européennes et au 
rôle de la CNIL. Présentation des principales méthodes de visualisation 
des données complexes. 
Eléments de programme : 
Ecosystème des données massives 
SQL vs NoSQL 
Anonymisation de données, Protection des données personnelles, enjeux 
économiques 
Visualisation des données
Programme 
APPLICATIONS AUX MÉTIERS DE L’ASSURANCE 
Approfondissements et études de cas ~ 40h 
Objectif : Présentations de sujets « métier » et mises en situation via des 
interventions courtes, et techniques, (2 à 4 h) sur des thématiques 
précises. 
Exemple : 
Cartographie et GPS 
Géolocalisation et anonymisation 
Traitement de données textuelles 
Health monitoring 
Détection de fraude 
Applications en Génomique 
Investissement séquentiel en gestion de portefeuille 
...
Programme 
APPLICATIONS AUX MÉTIERS DE L’ASSURANCE 
Approfondissements et études de cas ~ 40h 
Objectif : Présentations de sujets « métier » et mises en situation via des 
interventions courtes, et techniques, (2 à 4 h) sur des thématiques 
précises. 
Exemples : 
... 
Enchère web 
Réseaux de neurone & e-commerce 
Calcul du capital économique en grande dimension 
Vente d’assurance en ligne 
Visualisation de données et réseaux sociaux 
Biosécurité 
Parallélisation massive pour la simulation Monte Carlo
Programme 
* calendrier donné à titre purement indicatif
Réalisation d’un projet 
Les participants à la formation réaliseront un projet visant à exhiber 
l'apport de ces nouvelles méthodologies statistiques et informatiques 
pour la modélisation d'un phénomène actuariel 
Projet réalisé sous le tutorat d’un membre du corps enseignant de la 
formation 
Projet réalisé sur la deuxième moitié de la formation 
Rédaction d’un rapport et soutenance devant un jury de membres du 
corps enseignant ainsi que l’ensemble de la promotion (sauf conflit trop 
important pour cause de confidentialité).
Validation de la formation 
Plusieurs examens ou QCMs au cours de la 
formation, pour valider l’acquisition de blocs précis 
de compétences en data science 
Réalisation et soutenance d’un projet mettant en 
application les compétences acquises à des 
problématiques actuarielles 
Obtention du diplôme Actuaire Data Scientist de 
l’Institut du Risk Management

Más contenido relacionado

Destacado

Android: Offene Plattform mit Hindernissen?
Android: Offene Plattform mit Hindernissen?Android: Offene Plattform mit Hindernissen?
Android: Offene Plattform mit Hindernissen?ltsavar
 
Automatisierungsprozesse bei der PoD-Produktion
Automatisierungsprozesse bei der PoD-ProduktionAutomatisierungsprozesse bei der PoD-Produktion
Automatisierungsprozesse bei der PoD-ProduktionNicole Royar
 
Concours 2016 des maisons et jardins fleuris - Ville d'Ergué-Gabéric
Concours 2016 des maisons et jardins fleuris - Ville d'Ergué-GabéricConcours 2016 des maisons et jardins fleuris - Ville d'Ergué-Gabéric
Concours 2016 des maisons et jardins fleuris - Ville d'Ergué-GabéricVille d'Ergué-Gabéric
 
Proyecto tic
Proyecto ticProyecto tic
Proyecto ticury234
 
Multa de la pfma a pemex por derrame de crudo
Multa de la pfma a pemex por derrame de crudoMulta de la pfma a pemex por derrame de crudo
Multa de la pfma a pemex por derrame de crudoWendyquiroz1103
 
actividad de informatica N°3
actividad de informatica N°3actividad de informatica N°3
actividad de informatica N°3katherineduita
 
Presentafrutadef
PresentafrutadefPresentafrutadef
PresentafrutadefCarmenSoca
 
Champagne
ChampagneChampagne
ChampagneRomain
 
Simulations paysagères de Trieu Collet
Simulations paysagères de Trieu ColletSimulations paysagères de Trieu Collet
Simulations paysagères de Trieu Colletarianewhyte
 
Desarrollo de competencias digitales
Desarrollo de competencias digitalesDesarrollo de competencias digitales
Desarrollo de competencias digitalesMarycarmen_ob
 
Artecontemporáneo anne leyniers_entrega2
Artecontemporáneo anne leyniers_entrega2Artecontemporáneo anne leyniers_entrega2
Artecontemporáneo anne leyniers_entrega2anneleyniers
 
Acc inc 2009_36_resolucion
Acc inc 2009_36_resolucionAcc inc 2009_36_resolucion
Acc inc 2009_36_resolucionWendyquiroz1103
 

Destacado (20)

Android: Offene Plattform mit Hindernissen?
Android: Offene Plattform mit Hindernissen?Android: Offene Plattform mit Hindernissen?
Android: Offene Plattform mit Hindernissen?
 
Automatisierungsprozesse bei der PoD-Produktion
Automatisierungsprozesse bei der PoD-ProduktionAutomatisierungsprozesse bei der PoD-Produktion
Automatisierungsprozesse bei der PoD-Produktion
 
Grønnsaker
GrønnsakerGrønnsaker
Grønnsaker
 
Concours 2016 des maisons et jardins fleuris - Ville d'Ergué-Gabéric
Concours 2016 des maisons et jardins fleuris - Ville d'Ergué-GabéricConcours 2016 des maisons et jardins fleuris - Ville d'Ergué-Gabéric
Concours 2016 des maisons et jardins fleuris - Ville d'Ergué-Gabéric
 
Linux modules d
Linux modules dLinux modules d
Linux modules d
 
Saumur
SaumurSaumur
Saumur
 
Proyecto tic
Proyecto ticProyecto tic
Proyecto tic
 
Multa de la pfma a pemex por derrame de crudo
Multa de la pfma a pemex por derrame de crudoMulta de la pfma a pemex por derrame de crudo
Multa de la pfma a pemex por derrame de crudo
 
Las tics
Las ticsLas tics
Las tics
 
actividad de informatica N°3
actividad de informatica N°3actividad de informatica N°3
actividad de informatica N°3
 
Etas
EtasEtas
Etas
 
Presentafrutadef
PresentafrutadefPresentafrutadef
Presentafrutadef
 
Champagne
ChampagneChampagne
Champagne
 
Simulations paysagères de Trieu Collet
Simulations paysagères de Trieu ColletSimulations paysagères de Trieu Collet
Simulations paysagères de Trieu Collet
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
 
Desarrollo de competencias digitales
Desarrollo de competencias digitalesDesarrollo de competencias digitales
Desarrollo de competencias digitales
 
Artecontemporáneo anne leyniers_entrega2
Artecontemporáneo anne leyniers_entrega2Artecontemporáneo anne leyniers_entrega2
Artecontemporáneo anne leyniers_entrega2
 
Acc inc 2009_36_resolucion
Acc inc 2009_36_resolucionAcc inc 2009_36_resolucion
Acc inc 2009_36_resolucion
 
Wlan und medizintechnik fbmt
Wlan und medizintechnik fbmtWlan und medizintechnik fbmt
Wlan und medizintechnik fbmt
 
Dossier de production
Dossier de productionDossier de production
Dossier de production
 

Similar a Big data f prez formation_datascience_14-sept

PE - Développeur d'applications multiplateformes-24 Juin-Final.pdf
PE - Développeur d'applications multiplateformes-24 Juin-Final.pdfPE - Développeur d'applications multiplateformes-24 Juin-Final.pdf
PE - Développeur d'applications multiplateformes-24 Juin-Final.pdfBinocheMf
 
PRESENTTION_DU_PROJET_DE_SUPER_021337.docx
PRESENTTION_DU_PROJET_DE_SUPER_021337.docxPRESENTTION_DU_PROJET_DE_SUPER_021337.docx
PRESENTTION_DU_PROJET_DE_SUPER_021337.docxAlbanHenovi
 
programme d'études.pdf
programme d'études.pdfprogramme d'études.pdf
programme d'études.pdfRoiduSilence
 
Programmation en technologie (C.Blin)
Programmation en technologie (C.Blin)Programmation en technologie (C.Blin)
Programmation en technologie (C.Blin)APMEPIledeFrance
 
Uml2 b formation-uml-2-les-bases-et-perfectionnement
Uml2 b formation-uml-2-les-bases-et-perfectionnementUml2 b formation-uml-2-les-bases-et-perfectionnement
Uml2 b formation-uml-2-les-bases-et-perfectionnementCERTyou Formation
 
Modélisation et simulation des réseaux L2 Info UKA 2024.pptx
Modélisation et simulation des réseaux L2 Info UKA 2024.pptxModélisation et simulation des réseaux L2 Info UKA 2024.pptx
Modélisation et simulation des réseaux L2 Info UKA 2024.pptxBernardKabuatila
 
Cyproj06 formation-projets-et-methodologies-si
Cyproj06 formation-projets-et-methodologies-siCyproj06 formation-projets-et-methodologies-si
Cyproj06 formation-projets-et-methodologies-siCERTyou Formation
 
Cy2819 formation-la-gestion-des-projets-informatiques-it-28-points-pdus
Cy2819 formation-la-gestion-des-projets-informatiques-it-28-points-pdusCy2819 formation-la-gestion-des-projets-informatiques-it-28-points-pdus
Cy2819 formation-la-gestion-des-projets-informatiques-it-28-points-pdusCERTyou Formation
 
Demarche methodologique de conduite d'un schema directeur Telecom
Demarche methodologique de conduite d'un schema directeur TelecomDemarche methodologique de conduite d'un schema directeur Telecom
Demarche methodologique de conduite d'un schema directeur Telecomtntresor
 
Resume theorique-m106-partie1-1401-620cd8a160396 (1)
Resume theorique-m106-partie1-1401-620cd8a160396 (1)Resume theorique-m106-partie1-1401-620cd8a160396 (1)
Resume theorique-m106-partie1-1401-620cd8a160396 (1)MounirAlaoui4
 
Cc Presentation Tsec Tri(31mai2010)
Cc Presentation Tsec Tri(31mai2010)Cc Presentation Tsec Tri(31mai2010)
Cc Presentation Tsec Tri(31mai2010)msinghlcc
 
Cacha formation-redaction-de-cahier-des-charges
Cacha formation-redaction-de-cahier-des-chargesCacha formation-redaction-de-cahier-des-charges
Cacha formation-redaction-de-cahier-des-chargesCERTyou Formation
 
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...M@rsouin
 
EIG Promo 2 - Présentation du défi CoachÉlève, AssistProf
EIG Promo 2 - Présentation du défi CoachÉlève, AssistProfEIG Promo 2 - Présentation du défi CoachÉlève, AssistProf
EIG Promo 2 - Présentation du défi CoachÉlève, AssistProfEtalab
 

Similar a Big data f prez formation_datascience_14-sept (20)

PE - Développeur d'applications multiplateformes-24 Juin-Final.pdf
PE - Développeur d'applications multiplateformes-24 Juin-Final.pdfPE - Développeur d'applications multiplateformes-24 Juin-Final.pdf
PE - Développeur d'applications multiplateformes-24 Juin-Final.pdf
 
PRESENTTION_DU_PROJET_DE_SUPER_021337.docx
PRESENTTION_DU_PROJET_DE_SUPER_021337.docxPRESENTTION_DU_PROJET_DE_SUPER_021337.docx
PRESENTTION_DU_PROJET_DE_SUPER_021337.docx
 
programme d'études.pdf
programme d'études.pdfprogramme d'études.pdf
programme d'études.pdf
 
Data scientist
Data scientistData scientist
Data scientist
 
Programmation en technologie (C.Blin)
Programmation en technologie (C.Blin)Programmation en technologie (C.Blin)
Programmation en technologie (C.Blin)
 
Uml2 b formation-uml-2-les-bases-et-perfectionnement
Uml2 b formation-uml-2-les-bases-et-perfectionnementUml2 b formation-uml-2-les-bases-et-perfectionnement
Uml2 b formation-uml-2-les-bases-et-perfectionnement
 
Modélisation et simulation des réseaux L2 Info UKA 2024.pptx
Modélisation et simulation des réseaux L2 Info UKA 2024.pptxModélisation et simulation des réseaux L2 Info UKA 2024.pptx
Modélisation et simulation des réseaux L2 Info UKA 2024.pptx
 
Cyproj06 formation-projets-et-methodologies-si
Cyproj06 formation-projets-et-methodologies-siCyproj06 formation-projets-et-methodologies-si
Cyproj06 formation-projets-et-methodologies-si
 
Cy2819 formation-la-gestion-des-projets-informatiques-it-28-points-pdus
Cy2819 formation-la-gestion-des-projets-informatiques-it-28-points-pdusCy2819 formation-la-gestion-des-projets-informatiques-it-28-points-pdus
Cy2819 formation-la-gestion-des-projets-informatiques-it-28-points-pdus
 
Demarche methodologique de conduite d'un schema directeur Telecom
Demarche methodologique de conduite d'un schema directeur TelecomDemarche methodologique de conduite d'un schema directeur Telecom
Demarche methodologique de conduite d'un schema directeur Telecom
 
Resume theorique-m106-partie1-1401-620cd8a160396 (1)
Resume theorique-m106-partie1-1401-620cd8a160396 (1)Resume theorique-m106-partie1-1401-620cd8a160396 (1)
Resume theorique-m106-partie1-1401-620cd8a160396 (1)
 
Cc Presentation Tsec Tri(31mai2010)
Cc Presentation Tsec Tri(31mai2010)Cc Presentation Tsec Tri(31mai2010)
Cc Presentation Tsec Tri(31mai2010)
 
Gti710
Gti710Gti710
Gti710
 
Cacha formation-redaction-de-cahier-des-charges
Cacha formation-redaction-de-cahier-des-chargesCacha formation-redaction-de-cahier-des-charges
Cacha formation-redaction-de-cahier-des-charges
 
Resume
ResumeResume
Resume
 
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
 
Data scientist
Data scientistData scientist
Data scientist
 
Cv kouadio kouame_olivier
Cv kouadio kouame_olivierCv kouadio kouame_olivier
Cv kouadio kouame_olivier
 
Debuteraveclesmls
DebuteraveclesmlsDebuteraveclesmls
Debuteraveclesmls
 
EIG Promo 2 - Présentation du défi CoachÉlève, AssistProf
EIG Promo 2 - Présentation du défi CoachÉlève, AssistProfEIG Promo 2 - Présentation du défi CoachÉlève, AssistProf
EIG Promo 2 - Présentation du défi CoachÉlève, AssistProf
 

Más de Kezhan SHI

Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Kezhan SHI
 
Big data ads gouvernance ads v2[
Big data ads   gouvernance ads v2[Big data ads   gouvernance ads v2[
Big data ads gouvernance ads v2[Kezhan SHI
 
B -technical_specification_for_the_preparatory_phase__part_ii_
B  -technical_specification_for_the_preparatory_phase__part_ii_B  -technical_specification_for_the_preparatory_phase__part_ii_
B -technical_specification_for_the_preparatory_phase__part_ii_Kezhan SHI
 
A -technical_specification_for_the_preparatory_phase__part_i_
A  -technical_specification_for_the_preparatory_phase__part_i_A  -technical_specification_for_the_preparatory_phase__part_i_
A -technical_specification_for_the_preparatory_phase__part_i_Kezhan SHI
 
20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standardKezhan SHI
 
20140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-201420140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-2014Kezhan SHI
 
20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilanKezhan SHI
 
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_Kezhan SHI
 
Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Kezhan SHI
 
Directive solvabilité 2
Directive solvabilité 2Directive solvabilité 2
Directive solvabilité 2Kezhan SHI
 
Directive omnibus 2
Directive omnibus 2Directive omnibus 2
Directive omnibus 2Kezhan SHI
 
Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Kezhan SHI
 
Optimal discretization of hedging strategies rosenbaum
Optimal discretization of hedging strategies   rosenbaumOptimal discretization of hedging strategies   rosenbaum
Optimal discretization of hedging strategies rosenbaumKezhan SHI
 
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Kezhan SHI
 
Détection de profils, application en santé et en économétrie geissler
Détection de profils, application en santé et en économétrie   geisslerDétection de profils, application en santé et en économétrie   geissler
Détection de profils, application en santé et en économétrie geisslerKezhan SHI
 
Loi hamon sébastien bachellier
Loi hamon sébastien bachellierLoi hamon sébastien bachellier
Loi hamon sébastien bachellierKezhan SHI
 
Eurocroissance arnaud cohen
Eurocroissance arnaud cohenEurocroissance arnaud cohen
Eurocroissance arnaud cohenKezhan SHI
 
From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...Kezhan SHI
 
Arbres de régression et modèles de durée
Arbres de régression et modèles de duréeArbres de régression et modèles de durée
Arbres de régression et modèles de duréeKezhan SHI
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesKezhan SHI
 

Más de Kezhan SHI (20)

Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Big data fiche data science 15 09 14
Big data fiche data science 15 09 14
 
Big data ads gouvernance ads v2[
Big data ads   gouvernance ads v2[Big data ads   gouvernance ads v2[
Big data ads gouvernance ads v2[
 
B -technical_specification_for_the_preparatory_phase__part_ii_
B  -technical_specification_for_the_preparatory_phase__part_ii_B  -technical_specification_for_the_preparatory_phase__part_ii_
B -technical_specification_for_the_preparatory_phase__part_ii_
 
A -technical_specification_for_the_preparatory_phase__part_i_
A  -technical_specification_for_the_preparatory_phase__part_i_A  -technical_specification_for_the_preparatory_phase__part_i_
A -technical_specification_for_the_preparatory_phase__part_i_
 
20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard
 
20140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-201420140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-2014
 
20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan
 
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
 
Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Qis5 technical specifications-20100706
Qis5 technical specifications-20100706
 
Directive solvabilité 2
Directive solvabilité 2Directive solvabilité 2
Directive solvabilité 2
 
Directive omnibus 2
Directive omnibus 2Directive omnibus 2
Directive omnibus 2
 
Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2
 
Optimal discretization of hedging strategies rosenbaum
Optimal discretization of hedging strategies   rosenbaumOptimal discretization of hedging strategies   rosenbaum
Optimal discretization of hedging strategies rosenbaum
 
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
 
Détection de profils, application en santé et en économétrie geissler
Détection de profils, application en santé et en économétrie   geisslerDétection de profils, application en santé et en économétrie   geissler
Détection de profils, application en santé et en économétrie geissler
 
Loi hamon sébastien bachellier
Loi hamon sébastien bachellierLoi hamon sébastien bachellier
Loi hamon sébastien bachellier
 
Eurocroissance arnaud cohen
Eurocroissance arnaud cohenEurocroissance arnaud cohen
Eurocroissance arnaud cohen
 
From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...
 
Arbres de régression et modèles de durée
Arbres de régression et modèles de duréeArbres de régression et modèles de durée
Arbres de régression et modèles de durée
 
Big data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuairesBig data analytics focus technique et nouvelles perspectives pour les actuaires
Big data analytics focus technique et nouvelles perspectives pour les actuaires
 

Último

Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaireTxaruka
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film françaisTxaruka
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfabatanebureau
 
Formation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxFormation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxrajaakiass01
 
Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfssuserc72852
 
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...Faga1939
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxikospam0
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxhamzagame
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfachrafbrahimi1
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...Nguyen Thanh Tu Collection
 
Chapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon CoursChapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon Coursebenezerngoran
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetJeanYvesMoine
 
Les roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxLes roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxShinyaHilalYamanaka
 
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Technologia Formation
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfAmgdoulHatim
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxRayane619450
 

Último (18)

Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaire
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
 
Formation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxFormation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptx
 
Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdf
 
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptx
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
 
Chapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon CoursChapitre 2 du cours de JavaScript. Bon Cours
Chapitre 2 du cours de JavaScript. Bon Cours
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
 
Les roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxLes roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptx
 
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptx
 

Big data f prez formation_datascience_14-sept

  • 1. Formation Actuaire Data-Scientist PROGRAMME 15 Septembre 2014 Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz
  • 2. Programme 1 4 9 1 2 Séance inaugurale: révolution numérique; besoins des entreprises; cadre réglementaire; éthique et normes. 3 blocs pédagogiques: cours et TD approfondissements et applications aux métiers de l’assurance réalisation d’un projet individuel sur un sujet actuariel Rythme: 2 jours par mois comportant à la fois cours et cas pratiques début du projet à mi-parcours
  • 3. Programme A) Éléments logiciels et programmation Python ~ 18h B) Datamining et programmation R ~ 18h C) Algorithmique en Machine Learning et mise en situation ~ 24h D) Fondements théoriques de l’apprentissage statistique ~ 24h E) Machine Learning distribué et applications ~ 12h F) Extraction, utilisation et visualisation des données ~ 18h Approfondissements et études de cas pratiques ~ 40h * nombre d'heures à titre indicatif COURS ET TD APPLICATIONS AUX MÉTIERS DE L ’ASSURANCE
  • 4. Programme A) Éléments logiciels et programmation Python ~ 18h Objectif : Introduction au langage Python et sensibilisation aux grandeurs informatiques pertinentes. Eléments de programme : Initiation à la programmation Python Programmation objet, classes, héritage Bibliothèque des méthodes statistiques usuelles Eléments logiciels pour grandes bases de donnée Hardware, performance machine et gestion de mémoire Efficacité d'un algorithme Complexité, accès mémoire, ordres de grandeur
  • 5. Programme B) Datamining et programmation R ~ 18h Objectif : Présenter les outils classiques d'exploration de données, sous un angle essentiellement descriptif. Ces cours permettra une remise à niveau en R, en rappelant, durant les premières heures, les bases de la programmation en R. Eléments de programme : Manipuler des données sous R: données continues, facteurs (recodification), dates, heures Bases de la programmation avancée en R Méthodes non-supervisées Analyse factorielle et détection de clusters
  • 6. Programme C) Algorithmique en machine learning et mise en situation ~ 24h Objectif : Approche par mise en situation via la participation à un concours type Kaggle. Présentation des différentes phases : exploration, sélection/transformation des données, algorithmes d’apprentissage, visualisation Eléments de programme : Etude de cas Exploration/ Sélection / Transformation / Nettoyage des données Principaux algorithmes de Machine Learning (contexte de Classification) K-NN, Régression Logistique, SVM Forêts aléatoires, Réseaux de Neurones Boosting, Bagging Procédures de validation / sélection de modèle Visualisation Retour d’expérience et analyse des résultats
  • 7. Programme D) Fondements théoriques de l’apprentissage statistique ~ 24h Objectif : Présenter les fondements mathématiques des principales méthodes de Machine learning Eléments de programme : Théorie de la décision, Perte, risque, risque empirique Modèle statistique pour la classification binaire, Approches génératives vs. discriminantes Machine Learning, Méthodes paramétriques, perceptron, partitionnement Algorithmes de classification de données massives, Convexification du risque, boosting et SVM Méthodes ascendantes et descendantes, Critères AIC et BIC Régression linéaire: limites et améliorations : Parcimonie. Régression pas à pas Approche par pénalisation: ridge, lasso... Modèles linéaires généralisés, Méthodes de régression alternatives, Approche non linéaire: polynômes locaux, ondelettes Régression PLS et CART
  • 8. Programme E) Machine Learning distribué et applications ~ 12h Objectif : Pour passer à l’échelle, les algorithmes de Machine Learning vus dans les cours précédents doivent être repensés. Un cadre efficace est celui des algorithmes distribués où on utilise plusieurs entités de calculs pour mener à bien l’objectif initial. L’objectif de ce cours sera de présenter différents exemples d’algorithmes de Machine Learning distribués Eléments de programme : Algorithmes distribués : généralités Le cas de Map-Reduce Applications en Machine Learning
  • 9. Programme F) Extraction, utilisation et visualisation des données ~ 18h Objectif : Description des enjeux économiques et sociétaux de la révolution numérique du Big Data. Présentation des architectures de bases ou entrepôts de données, ainsi que des techniques d'exploration associées pour la récolte des données. Sensibilisation aux questions éthiques sous-jacentes, aux contraintes juridiques européennes et au rôle de la CNIL. Présentation des principales méthodes de visualisation des données complexes. Eléments de programme : Ecosystème des données massives SQL vs NoSQL Anonymisation de données, Protection des données personnelles, enjeux économiques Visualisation des données
  • 10. Programme APPLICATIONS AUX MÉTIERS DE L’ASSURANCE Approfondissements et études de cas ~ 40h Objectif : Présentations de sujets « métier » et mises en situation via des interventions courtes, et techniques, (2 à 4 h) sur des thématiques précises. Exemple : Cartographie et GPS Géolocalisation et anonymisation Traitement de données textuelles Health monitoring Détection de fraude Applications en Génomique Investissement séquentiel en gestion de portefeuille ...
  • 11. Programme APPLICATIONS AUX MÉTIERS DE L’ASSURANCE Approfondissements et études de cas ~ 40h Objectif : Présentations de sujets « métier » et mises en situation via des interventions courtes, et techniques, (2 à 4 h) sur des thématiques précises. Exemples : ... Enchère web Réseaux de neurone & e-commerce Calcul du capital économique en grande dimension Vente d’assurance en ligne Visualisation de données et réseaux sociaux Biosécurité Parallélisation massive pour la simulation Monte Carlo
  • 12. Programme * calendrier donné à titre purement indicatif
  • 13. Réalisation d’un projet Les participants à la formation réaliseront un projet visant à exhiber l'apport de ces nouvelles méthodologies statistiques et informatiques pour la modélisation d'un phénomène actuariel Projet réalisé sous le tutorat d’un membre du corps enseignant de la formation Projet réalisé sur la deuxième moitié de la formation Rédaction d’un rapport et soutenance devant un jury de membres du corps enseignant ainsi que l’ensemble de la promotion (sauf conflit trop important pour cause de confidentialité).
  • 14. Validation de la formation Plusieurs examens ou QCMs au cours de la formation, pour valider l’acquisition de blocs précis de compétences en data science Réalisation et soutenance d’un projet mettant en application les compétences acquises à des problématiques actuarielles Obtention du diplôme Actuaire Data Scientist de l’Institut du Risk Management