Nous sommes actuellement dans l'ère du digital, grâce au progrès de la technologie où l'humanité est constamment entrain de produire des données dont la taille croît d'une manière exponentielle, créant ainsi le concept données massives «Big Data» ou «Méga-données». D'une part les individus grâce à l’explosion des réseaux sociaux produisent des données extrêmement variées et d’autre part grâce à Internet of Things (Internet des objets), les applications génèrent des données à partir de plusieurs capteurs.
Ainsi dans le domaine de la santé, il devient très simple de collecter des données et de les conserver avec tous les appareils de mesure et l’essor du génie biologique médical (appareils d’imagerie, automates d’analyse biologique, appareil d’analyses des signaux ou de traitement des pathologies, etc.). La majorité de ces outils sont pilotés par des ordinateurs et souvent connectés à des réseaux informatiques, stockant un nombre faramineux de données. Cependant ce serai une perte énorme en temps et en argent de collecter ces données massives sans aucune analyse approfondie qui pourrait être extrêmement utiles pour les décisions futures. Le but de notre projet est d'utiliser le modèle Knowledge Discovery in Databases avec une méthode d'analyse basée sur un algorithme de Clustering dans un environnement distribué tel que Hadoop sur une Big Data médicale.
Wilfreid AGBO et Gregoire J. MONEYENGONO - Présentation gestion de stocks
WIlfreid K. AGBO - Knowledge Discovery in Big Data : Healthcare application (Djillali Liabès University)
1. Knowledge Discovery in Big Data
(Healthcare Application)
Wilfreid K. AGBO
wilfried.agbo@univ-sba.dz
Supervised by: Mrs. Samah BOUAMAMA
University Djillali Liabes of Sidi Bel Abbes
Department of Computer Science
Master 2 ISI
June 12, 2018
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 1 / 26
2. Quotes
“There was 5 exabytes of information created between the dawn of
civilization through 2003,but that much information is now created
every 2 days, and the pace is increasing...People aren’t ready for
the technology revolution that’s going to happen to them.”
Eric Schmidt, former CEO of Google in 2010 at Lake Tahoe
Technomy Conference.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 2 / 26
3. Plan
1 Introduction
2 Problématiques et Solutions
3 Data Mining & Knowledge Discovery
4 Big Data et Data Mining en Healthcare
5 Notre Approche
6 DataSet
7 Conclusion
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 3 / 26
4. Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
5. Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
6. Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
7. Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
8. Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
9. Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
10. Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
11. Introduction
Introduction
Le monde est à l’ère du digital
La facilité d’acquisition des données ( capteurs, télescopes, cartes de
fidélité, traces sur les sites internet, simulations ...)
La baisse des prix des supports de stockage (Le prix du Go )
Social media explosion: 500M de tweets, 70M photos sur Instagram,
5M de videos sur Facebook [Grossman, 2015].
Internet of Things (IoT): Les objets connectés comme
smartphones,smartwatch, smartBasket, smartglass, glucomètre,
pacemaker . . .
2.5 quintillion bytes de données par jour (Data Explosion)
[Calude and Longo, 2017]
90% des données actuelles sont générées à partir seulement des deux
dernières années [Calude and Longo, 2017]
Ce phénomène de génération de trafic de données massifs est connu
sous le nom de Big Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26
12. Problématiques et Solutions
Problématiques et Solutions
Problématiques
Aujourd’hui les entreprises comme l’industrie du Healthcare, finances,
retails . . . coulent sous une énorme quantité de données, dû au progrès
de la Technologie.
Cependant un problème se pose: Comment stocker et traiter ces
méga-données en un temps raisonnable?
De plus les données proviennent de plusieurs sources, sous divers
formats et elles sont à l’état brut, dépourvu d’un quelconque sens:
Comment transformer et raffiner ces données en connaissances utiles
afin d’en faire une utilisation adéquate pour prendre une décision
intéressante?
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 5 / 26
13. Problématiques et Solutions
Problématiques et Solutions
Problématiques
Aujourd’hui les entreprises comme l’industrie du Healthcare, finances,
retails . . . coulent sous une énorme quantité de données, dû au progrès
de la Technologie.
Cependant un problème se pose: Comment stocker et traiter ces
méga-données en un temps raisonnable?
De plus les données proviennent de plusieurs sources, sous divers
formats et elles sont à l’état brut, dépourvu d’un quelconque sens:
Comment transformer et raffiner ces données en connaissances utiles
afin d’en faire une utilisation adéquate pour prendre une décision
intéressante?
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 5 / 26
14. Problématiques et Solutions
Problématiques et Solutions
Problématiques
Aujourd’hui les entreprises comme l’industrie du Healthcare, finances,
retails . . . coulent sous une énorme quantité de données, dû au progrès
de la Technologie.
Cependant un problème se pose: Comment stocker et traiter ces
méga-données en un temps raisonnable?
De plus les données proviennent de plusieurs sources, sous divers
formats et elles sont à l’état brut, dépourvu d’un quelconque sens:
Comment transformer et raffiner ces données en connaissances utiles
afin d’en faire une utilisation adéquate pour prendre une décision
intéressante?
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 5 / 26
15. Problématiques et Solutions
Problématiques et Solutions
Problématiques
Aujourd’hui les entreprises comme l’industrie du Healthcare, finances,
retails . . . coulent sous une énorme quantité de données, dû au progrès
de la Technologie.
Cependant un problème se pose: Comment stocker et traiter ces
méga-données en un temps raisonnable?
De plus les données proviennent de plusieurs sources, sous divers
formats et elles sont à l’état brut, dépourvu d’un quelconque sens:
Comment transformer et raffiner ces données en connaissances utiles
afin d’en faire une utilisation adéquate pour prendre une décision
intéressante?
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 5 / 26
16. Problématiques et Solutions
Problématiques et Solutions
Solutions
Pour Résoudre ces problèmes précédement cités, la solution idéale est
le Big Data Analytics. Une méthode dérivée du Big Data qui réflète les
défis des données très volumineuses, très non-structurées à évolution
rapide dont la gestion est difficile par les méthodes traditionnelles.
Elle consiste à appliquer un modèle d’extraction de connaissances basé
sur les techniques du Data Mining sur la Big Data.
Notre solution est d’utiliser le modèle KDD (Knowledge Discovery
in Databases) d’extraction de connaissances dans une Big Data
médicale en utilisant les outils adéquats au Big data (Apache
Hadoop,Mahout) et des algorithmes de Machine Learning non
supervisé comme le K-Means
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 6 / 26
17. Problématiques et Solutions
Problématiques et Solutions
Solutions
Pour Résoudre ces problèmes précédement cités, la solution idéale est
le Big Data Analytics. Une méthode dérivée du Big Data qui réflète les
défis des données très volumineuses, très non-structurées à évolution
rapide dont la gestion est difficile par les méthodes traditionnelles.
Elle consiste à appliquer un modèle d’extraction de connaissances basé
sur les techniques du Data Mining sur la Big Data.
Notre solution est d’utiliser le modèle KDD (Knowledge Discovery
in Databases) d’extraction de connaissances dans une Big Data
médicale en utilisant les outils adéquats au Big data (Apache
Hadoop,Mahout) et des algorithmes de Machine Learning non
supervisé comme le K-Means
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 6 / 26
18. Problématiques et Solutions
Problématiques et Solutions
Solutions
Pour Résoudre ces problèmes précédement cités, la solution idéale est
le Big Data Analytics. Une méthode dérivée du Big Data qui réflète les
défis des données très volumineuses, très non-structurées à évolution
rapide dont la gestion est difficile par les méthodes traditionnelles.
Elle consiste à appliquer un modèle d’extraction de connaissances basé
sur les techniques du Data Mining sur la Big Data.
Notre solution est d’utiliser le modèle KDD (Knowledge Discovery
in Databases) d’extraction de connaissances dans une Big Data
médicale en utilisant les outils adéquats au Big data (Apache
Hadoop,Mahout) et des algorithmes de Machine Learning non
supervisé comme le K-Means
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 6 / 26
19. Problématiques et Solutions
Big Data
Data Analytics
• Internal
• External
• Multiple Formats
• Multiple Locations
• Multiple Applications
Big Data Sources
Big Data
Transformation
Big Data
Platofrm & Tools
Big data Analytics
Applications
Data Warehouse
Middleware
Extract
Transform
Load
Traditional Format,
CSV, Tables
Queries
Reports
OLAP
Data Mining
Big Data
Analytics
• Hadoop
• Map/Reduce
• Pig
• Hive
• Jaql
• Zookeeper
• Hbase
• Cassandra
• Onzie
• Avro
• Mahout
• Others
Transformed
Data
Raw
Data
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 7 / 26
20. Data Mining & Knowledge Discovery
Data Mining & Knowledge Discovery
Le Data Mining consiste à analyser une quantité énorme de données et
à en extraire des informations utiles à des fins diverses
[Shafique and Qaiser, 2014].
Le terme Data Mining (DM) est fortement lié au concept de grande
base de données et revient à la définition de la recherche algorithmes
de modèles de connaissances [Martins et al., 2016]
La Knowledge Discovery in Database (KDD) est un processus
non-trivial,novateur,potentiellement utile et de compréhension de
modèles dans les données![Schmidt and Sun, 2016]
Le DM est aussi un sous-processus de KDD, qui consiste à identifier
des modèles intéressants grâce à l’application d’algorithmes
d’apprentissage automatique. [Schmidt and Sun, 2016]
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 8 / 26
21. Data Mining & Knowledge Discovery
Data Mining & Knowledge Discovery
Le Data Mining consiste à analyser une quantité énorme de données et
à en extraire des informations utiles à des fins diverses
[Shafique and Qaiser, 2014].
Le terme Data Mining (DM) est fortement lié au concept de grande
base de données et revient à la définition de la recherche algorithmes
de modèles de connaissances [Martins et al., 2016]
La Knowledge Discovery in Database (KDD) est un processus
non-trivial,novateur,potentiellement utile et de compréhension de
modèles dans les données![Schmidt and Sun, 2016]
Le DM est aussi un sous-processus de KDD, qui consiste à identifier
des modèles intéressants grâce à l’application d’algorithmes
d’apprentissage automatique. [Schmidt and Sun, 2016]
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 8 / 26
22. Data Mining & Knowledge Discovery
Data Mining & Knowledge Discovery
Le Data Mining consiste à analyser une quantité énorme de données et
à en extraire des informations utiles à des fins diverses
[Shafique and Qaiser, 2014].
Le terme Data Mining (DM) est fortement lié au concept de grande
base de données et revient à la définition de la recherche algorithmes
de modèles de connaissances [Martins et al., 2016]
La Knowledge Discovery in Database (KDD) est un processus
non-trivial,novateur,potentiellement utile et de compréhension de
modèles dans les données![Schmidt and Sun, 2016]
Le DM est aussi un sous-processus de KDD, qui consiste à identifier
des modèles intéressants grâce à l’application d’algorithmes
d’apprentissage automatique. [Schmidt and Sun, 2016]
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 8 / 26
23. Data Mining & Knowledge Discovery
Data Mining & Knowledge Discovery
Le Data Mining consiste à analyser une quantité énorme de données et
à en extraire des informations utiles à des fins diverses
[Shafique and Qaiser, 2014].
Le terme Data Mining (DM) est fortement lié au concept de grande
base de données et revient à la définition de la recherche algorithmes
de modèles de connaissances [Martins et al., 2016]
La Knowledge Discovery in Database (KDD) est un processus
non-trivial,novateur,potentiellement utile et de compréhension de
modèles dans les données![Schmidt and Sun, 2016]
Le DM est aussi un sous-processus de KDD, qui consiste à identifier
des modèles intéressants grâce à l’application d’algorithmes
d’apprentissage automatique. [Schmidt and Sun, 2016]
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 8 / 26
24. Data Mining & Knowledge Discovery
Data Mining & Knowledge Discovery
Principe du Data Mining (fig 2)
Model 1
Model 2
Model n
Dataset/Sample
ALGORITHM
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 9 / 26
25. Data Mining & Knowledge Discovery
Data Mining & Knowledge Discovery
Les Modèles de DM (fig 3)
Figure: L’évolution des modèles
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 10 / 26
26. Data Mining & Knowledge Discovery
Data Mining & Knowledge Discovery
Le Modèle KDD (fig 4) [Fayyal et Al, 1996]
Knowledge
Selection
Preprocessing
& Cleaning
Preprocessing
& Cleaning
Transformation
Data Mining
Interpretation /
Evaluation
Understanding
1. application domain
2. the goals of end-user
1. Manage Missing values
2. Outliers/noisy data
3. Correct inconsistent data
1. Dimension reduction
2. Data compression
3. Numerosity Reduction[]
1. Choose DM task: cl,re,as
2. Choose DM Algorithm
3. Employ DM Algorithm
1. Accuracy/Recall/Kappa
2. Support/Confidence
3. Similarity measures
1
3
6
5
4
Selecting
2
1. Lists/Trees
2. Semantic networks
3. Rules based represent.
4. Logic based rep.
7
Visualize/use
Disc. Knowledge
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 11 / 26
27. Data Mining & Knowledge Discovery
Clustering avec KMeans
Étant donné un ensemble de points (x1, x2, ..., xn), on cherche à
partitionner les n points en k ensembles S = S1, S2, ..., Sk(k ≤ n)
1 Partitionner les objets en K ensembles non vide
2 Calculer le barycentre de chaque partition
3 Assigner à chaque objet le Cluster dont le barycentre est le plus proche
4 Répéter l’étape 2 jusqu’à ce qu’il n’ y ait plus de changements:
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 12 / 26
28. Big Data et Data Mining en Healthcare
Big Data et Data Mining en Healthcare
Défini comme la prévention, le traitement et la prise en charge de la
maladie et la préservation du bien-être mental et physique grâce aux
services offerts par les professions médicales et paramédicales.
[Patel et al., 2011]
L’industrie du HC génère aujourd’hui une large quantité de données
complexes sur les patients, les ressources des hopitaux, les diagnostics,
Electronic Health Records (Données personnelles sur les patients),
Biomedical Databases, public health les équipements et gadgets
médicaux.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 13 / 26
29. Big Data et Data Mining en Healthcare
Big Data & Data Mining in Healthcare
Quel rôle le DM peut-il jouer?
Le rôle du DM
Cette énorme quantité de données est une clé pour le traitement et
l’analyse par la Knowledge Discovery en vue de réduire des frais et prendre
des décisions par exemple
Patients profiles analytics;
Genomic analytics;
Device Remote/Monitoring;
Research and Development [Raghupathi and Raghupathi, 2014];
. . .
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 14 / 26
31. Notre Approche
Apache Mahout
Framework de Apache conçu pour le ML distribué.
Classification
Clustering
Recommandation
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 16 / 26
32. Notre Approche
La virtualisation par les Containers
Figure: VMs vs Containers
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 17 / 26
33. Notre Approche
Difficultés
Matérielles (PC de 4Go de RAM Temps de chargement du DataSet
(40min))
Techniques (clé ssh, installation des clusters multinode Hadoop)
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 18 / 26
35. Notre Approche
Clustering sous MapReduce
Figure: MapReduce process
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 20 / 26
36. DataSet
DataSet
Provenance: Emrbots.org Auteur : [Kartoun, 2016]
La base numero 1 contient de 100 instances
La base numero 2 contient 10,000 instances
La base numero 3 contient 100,000 instances.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 21 / 26
37. Conclusion
Conclusion
En somme, Le Big Data est plus qu’une simple question de taille. C’est
l’occasion de trouver des idées sur des types de données et de contenu
nouveaux et émergents, d’extraire des connaissances extrêmement utiles
pour prendre des décisions de rendre votre entreprise plus agile et de
répondre à des questions qui étaient auparavant hors de votre portée.
Jusqu’à présent, il n’y avait aucun moyen pratique de récolter cette
opportunité. Aujourd’hui, beaucoup de sociétés optent pour le choix du Big
Data. Mais n’oublions pas que sans la partie analytique et extraction de
connaissance, Le Big Data ne servira à rien.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 22 / 26
38. Conclusion
Sélection par les méta-heuristique.
Echantillonnage, soit la Cross validation ou autre.
FuzzyKMeans, le Spectral KMeans, le Canopy Clustering et voir celui
qui est le plus performant.
Exécuter l’algorithme KMeans avec différentes mesures de distances
comme celle de Mahnhattan ou Euclidienne et voir les différences.
Exécuter l’algorithme KMeans avec différents nombre de Clusters K.
Augmenter le nombre de noeuds de Hadoop et voir le temps de
traitement.
Implémenter cet algorithme de Clustering sur un vrai Cluster Hadoop.
Extraire une connaissance palpable qui sera au profit du domaine de la
santé.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 23 / 26
39. Conclusion
Références I
Calude, C. S. and Longo, G. (2017).
The deluge of spurious correlations in big data.
Foundations of science, 22(3):595–612.
Grossman, L. (2015).
What’s this all about? the massive volume of data that humanity
generates is a new kind of problem. the solution is very old.
Time Magazine.
Kartoun, U. (2016).
A methodology to generate virtual patient repositories.
arXiv preprint arXiv:1608.00570.
Martins, S., Pesado, P., and García-Martínez, R. (2016).
Information mining projects management process.
In SEKE, pages 504–509.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 24 / 26
40. Conclusion
Références II
Patel, V. M., Ashrafian, H., Ahmed, K., Arora, S., Jiwan, S.,
Nicholson, J. K., Darzi, A., and Athanasiou, T. (2011).
How has healthcare research performance been assessed? a systematic
review.
Journal of the Royal Society of Medicine, 104(6):251–261.
Raghupathi, W. and Raghupathi, V. (2014).
Big data analytics in healthcare: promise and potential.
Health information science and systems, 2(1):3.
Schmidt, C. and Sun, W. N. (2016).
Synthesizing agile and knowledge discovery: Case study results.
Journal of Computer Information Systems, pages 1–9.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 25 / 26
41. Conclusion
Références III
Shafique, U. and Qaiser, H. (2014).
A comparative study of data mining process models (kdd, crisp-dm and
semma).
International Journal of Innovation and Scientific Research,
12(1):217–222.
Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 26 / 26