Ces slides proviennent de la présentation de Jacques Wieczorek lors du Data News Business Forum 2013 sur le thème Big Data Big Opportunities? Jacques y a partagé le retour de nos premières expériences dans le développement de services Big Data à valeur ajoutée.
8. Bi Big Data
Degré
D’analyse
BI
Big Data
t
J.Wieczorek 17/10/2013
9. Un changement de paradigme et un fantasme
Paradigme
Prolifération des données
sous forme numérisée
Fantasme n’est pas de déterminer les contours
en formation d’un futur immédiat
MAIS
bien d’un accès direct , sans médiation,
à la réalité des phénomènes sociaux et
économiques.
J.Wieczorek 17/10/2013
11. La donnée : un faux ami
Multiples, hétérogènes
Répond :
à des principes
à des taxonomies
Valeurs
101101101
Champs
J.Wieczorek 17/10/2013
Devient:
intelligente par
recoupement
Hors contexte :
Perte de
signification
Perte de valeur
Cadre juridique :
Qui est propriétaire
de la donnée ?
Des droits rattachés ?
Qui est responsable
des conséquences
de son utilisation ?
12. Les POCS NRB en Big Data
Chaîne de valeur
CREER
COLLECTER
HEBERGER
ANALYSER
UTILISER
ACTEURS
NRB
Partenaire(s)
J.Wieczorek 17/10/2013
actif
THESAURUS
14. Quels rôles pour quels profils pour Big Data?
Association entre :
Entrée :
description d’un environnement, d’un
objet d’intérêt
Data scientist
J.Wieczorek 17/10/2013
* (1)
Sortie :
propriété que l’on veut prédire ou
déterminer
*(1) : Patil
15. Test d’échantillon
nous n’avions pas accès à toute
la population qui nous intéressait;
D’ importantes décisions ont été
prises sur une quantité faible de
données contenue dans un
échantillon afin de calculer une
quantité dénommée « statistique »
pour estimer une « caractéristique »
dans la population appelée
« paramètre ».
N =i
A
N=
Postulat :
Si N est trop petit, les résultats
seront imprécis et pas pertinents;
Si N est trop grand, des ressources et
du temps sont gaspillés pour un
gain minime.
J.Wieczorek 17/10/2013
16. Des données massives à disposition
A
Le N du Big Data est presque aussi grand ou égal au N =
N =i
Big
Big
Data Data
A
N=
Il faut :
accepter un nouveau savoir
abandonner les méthodes
traditionnelles
J.Wieczorek 17/10/2013
17. Informations lacunaires
On va devoir accepter plus « d’élasticité intellectuelle »
car dans le domaine du Big Data 2+2 =‘ 3,85 ’
J.Wieczorek 17/10/2013
20. Déterminer l’intensité de la liaison qui peut exister entre des variables
Constitution d’un échantillon
Corrélations potentielles mais :
Méthode probabiliste
Détecter une corrélation ne fait pas explication;
Méthode non-probabiliste
Les corrélations ne diront pas la vérité sur les
causalités. Elles exprimeront la vérité d’une
relation mais qui ne sera peut-être pas du tout
causale.
L’ère du Big Data
J.Wieczorek 17/10/2013
21. Types de risques statistiques
Sporadique
Répétitif
Statistiques
Inférence fallacieuse
erreur
faute
Biais de confirmation
Paradoxe de Simpson
J.Wieczorek 17/10/2013
22. Le paradoxe de Simpson
Homer
Edward
Un nom, deux prénoms, deux destinées…
J.Wieczorek 17/10/2013
23. Paradoxe statistique
Personnes blessées
Personnes malades
Explications
• Mathématique
• L’incidence du phénomène décès
est élevée dans la population blessée
mais l’hôpital A comporte plus de
patients de ce type
• L’incidence du phénomène décès
est rare dans la population malade
des 2 hôpitaux qui est nombreuse.
Mais l’hôpital B comporte plus de
patients de ce type.
Pour le phénomène étudié il n’est
pas pertinent de sommer
indistinctement les 2 types de
patients admis au service d’urgence.
• Statistiques – épidémiologique
• Les populations des patients des
urgences des 2 hôpitaux ne sont pas
similaires quant aux facteurs de
risque.
Il y a un effet de sélection quant aux
facteurs de risques, trop peu de
critères sont pris en compte. Une
correction préalable aurait du
intervenir.
?
J.Wieczorek 17/10/2013
24. Types de risques : l’apophénie
Sporadique
Répétitif
Statistiques
Inference fallacieuse
erreur
faute
Biais de confirmation
Paradoxe de Simpson
J.Wieczorek 17/10/2013
Cognitif
25. Types de risques : raisonnement intuitif
place de théâtre + parking = 1,1 €
J.Wieczorek 17/10/2013
(*) inspiré de D.Kahneman
27. Big Data et micro applications
Stratégie de résolutions de problèmes qui instaure
une approche massive de pilotage par les données
La valeur de l’information
est constante
Information valide
Ancien
modèle
Délibération
Décision possible
t1
t2
t3
Prise de conscience
Information valide
Décision
possible
t4
temps
Prise de décision
La valeur de l’information
diminue au cours du temps
et tend vers 0
Délibération
Modèle
actuel
t1 t2
t3
Prise de conscience Prise de décision
J.Wieczorek 17/10/2013
t4
temps
Traitement de
masse pour des
micro
utilisations
28. Le Graal du Big Data : interagir avec l’unité ultime : l’individu dans son instantanéité.
Environnement
Big DATA
J.Wieczorek 17/10/2013
29. Pilotage des données pour un individu acteur de son choix
J.Wieczorek 17/10/2013
30. Quel est le grain de sel qui rend le mets trop salé ?
J.Wieczorek 17/10/2013