WIlfreid K. AGBO - Knowledge Discovery in Big Data : Healthcare application (Djillali Liabès University)

1. Knowledge Discovery in Big Data (Healthcare Application) Wilfreid K. AGBO wilfried.agbo@univ-sba.dz Supervised by: Mrs. Samah BOUAMAMA University Djillali Liabes of Sidi Bel Abbes Department of Computer Science Master 2 ISI June 12, 2018 Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 1 / 26

2. Quotes “There was 5 exabytes of information created between the dawn of civilization through 2003,but that much information is now created every 2 days, and the pace is increasing...People aren’t ready for the technology revolution that’s going to happen to them.” Eric Schmidt, former CEO of Google in 2010 at Lake Tahoe Technomy Conference. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 2 / 26

3. Plan 1 Introduction 2 Problématiques et Solutions 3 Data Mining & Knowledge Discovery 4 Big Data et Data Mining en Healthcare 5 Notre Approche 6 DataSet 7 Conclusion Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 3 / 26

4. Introduction Introduction Le monde est à l’ère du digital La facilité d’acquisition des données ( capteurs, télescopes, cartes de ﬁdélité, traces sur les sites internet, simulations ...) La baisse des prix des supports de stockage (Le prix du Go ) Social media explosion: 500M de tweets, 70M photos sur Instagram, 5M de videos sur Facebook [Grossman, 2015]. Internet of Things (IoT): Les objets connectés comme smartphones,smartwatch, smartBasket, smartglass, glucomètre, pacemaker . . . 2.5 quintillion bytes de données par jour (Data Explosion) [Calude and Longo, 2017] 90% des données actuelles sont générées à partir seulement des deux dernières années [Calude and Longo, 2017] Ce phénomène de génération de traﬁc de données massifs est connu sous le nom de Big Data Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 4 / 26

12. Problématiques et Solutions Problématiques et Solutions Problématiques Aujourd’hui les entreprises comme l’industrie du Healthcare, finances, retails . . . coulent sous une énorme quantité de données, dû au progrès de la Technologie. Cependant un problème se pose: Comment stocker et traiter ces méga-données en un temps raisonnable? De plus les données proviennent de plusieurs sources, sous divers formats et elles sont à l’état brut, dépourvu d’un quelconque sens: Comment transformer et raffiner ces données en connaissances utiles afin d’en faire une utilisation adéquate pour prendre une décision intéressante? Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 5 / 26

16. Problématiques et Solutions Problématiques et Solutions Solutions Pour Résoudre ces problèmes précédement cités, la solution idéale est le Big Data Analytics. Une méthode dérivée du Big Data qui réflète les défis des données très volumineuses, très non-structurées à évolution rapide dont la gestion est difficile par les méthodes traditionnelles. Elle consiste à appliquer un modèle d’extraction de connaissances basé sur les techniques du Data Mining sur la Big Data. Notre solution est d’utiliser le modèle KDD (Knowledge Discovery in Databases) d’extraction de connaissances dans une Big Data médicale en utilisant les outils adéquats au Big data (Apache Hadoop,Mahout) et des algorithmes de Machine Learning non supervisé comme le K-Means Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 6 / 26

19. Problématiques et Solutions Big Data Data Analytics • Internal • External • Multiple Formats • Multiple Locations • Multiple Applications Big Data Sources Big Data Transformation Big Data Platofrm & Tools Big data Analytics Applications Data Warehouse Middleware Extract Transform Load Traditional Format, CSV, Tables Queries Reports OLAP Data Mining Big Data Analytics • Hadoop • Map/Reduce • Pig • Hive • Jaql • Zookeeper • Hbase • Cassandra • Onzie • Avro • Mahout • Others Transformed Data Raw Data Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 7 / 26

20. Data Mining & Knowledge Discovery Data Mining & Knowledge Discovery Le Data Mining consiste à analyser une quantité énorme de données et à en extraire des informations utiles à des fins diverses [Shafique and Qaiser, 2014]. Le terme Data Mining (DM) est fortement lié au concept de grande base de données et revient à la définition de la recherche algorithmes de modèles de connaissances [Martins et al., 2016] La Knowledge Discovery in Database (KDD) est un processus non-trivial,novateur,potentiellement utile et de compréhension de modèles dans les données![Schmidt and Sun, 2016] Le DM est aussi un sous-processus de KDD, qui consiste à identifier des modèles intéressants grâce à l’application d’algorithmes d’apprentissage automatique. [Schmidt and Sun, 2016] Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 8 / 26

24. Data Mining & Knowledge Discovery Data Mining & Knowledge Discovery Principe du Data Mining (ﬁg 2) Model 1 Model 2 Model n Dataset/Sample ALGORITHM Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 9 / 26

25. Data Mining & Knowledge Discovery Data Mining & Knowledge Discovery Les Modèles de DM (ﬁg 3) Figure: L’évolution des modèles Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 10 / 26

26. Data Mining & Knowledge Discovery Data Mining & Knowledge Discovery Le Modèle KDD (ﬁg 4) [Fayyal et Al, 1996] Knowledge Selection Preprocessing & Cleaning Preprocessing & Cleaning Transformation Data Mining Interpretation / Evaluation Understanding 1. application domain 2. the goals of end-user 1. Manage Missing values 2. Outliers/noisy data 3. Correct inconsistent data 1. Dimension reduction 2. Data compression 3. Numerosity Reduction[] 1. Choose DM task: cl,re,as 2. Choose DM Algorithm 3. Employ DM Algorithm 1. Accuracy/Recall/Kappa 2. Support/Confidence 3. Similarity measures 1 3 6 5 4 Selecting 2 1. Lists/Trees 2. Semantic networks 3. Rules based represent. 4. Logic based rep. 7 Visualize/use Disc. Knowledge Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 11 / 26

27. Data Mining & Knowledge Discovery Clustering avec KMeans Étant donné un ensemble de points (x1, x2, ..., xn), on cherche à partitionner les n points en k ensembles S = S1, S2, ..., Sk(k ≤ n) 1 Partitionner les objets en K ensembles non vide 2 Calculer le barycentre de chaque partition 3 Assigner à chaque objet le Cluster dont le barycentre est le plus proche 4 Répéter l’étape 2 jusqu’à ce qu’il n’ y ait plus de changements: Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 12 / 26

28. Big Data et Data Mining en Healthcare Big Data et Data Mining en Healthcare Déﬁni comme la prévention, le traitement et la prise en charge de la maladie et la préservation du bien-être mental et physique grâce aux services oﬀerts par les professions médicales et paramédicales. [Patel et al., 2011] L’industrie du HC génère aujourd’hui une large quantité de données complexes sur les patients, les ressources des hopitaux, les diagnostics, Electronic Health Records (Données personnelles sur les patients), Biomedical Databases, public health les équipements et gadgets médicaux. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 13 / 26

29. Big Data et Data Mining en Healthcare Big Data & Data Mining in Healthcare Quel rôle le DM peut-il jouer? Le rôle du DM Cette énorme quantité de données est une clé pour le traitement et l’analyse par la Knowledge Discovery en vue de réduire des frais et prendre des décisions par exemple Patients proﬁles analytics; Genomic analytics; Device Remote/Monitoring; Research and Development [Raghupathi and Raghupathi, 2014]; . . . Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 14 / 26

30. Notre Approche Apache Hadoop Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 15 / 26

31. Notre Approche Apache Mahout Framework de Apache conçu pour le ML distribué. Classiﬁcation Clustering Recommandation Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 16 / 26

32. Notre Approche La virtualisation par les Containers Figure: VMs vs Containers Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 17 / 26

33. Notre Approche Diﬃcultés Matérielles (PC de 4Go de RAM Temps de chargement du DataSet (40min)) Techniques (clé ssh, installation des clusters multinode Hadoop) Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 18 / 26

34. Notre Approche Map Reduce Figure: MapReduce process Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 19 / 26

35. Notre Approche Clustering sous MapReduce Figure: MapReduce process Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 20 / 26

36. DataSet DataSet Provenance: Emrbots.org Auteur : [Kartoun, 2016] La base numero 1 contient de 100 instances La base numero 2 contient 10,000 instances La base numero 3 contient 100,000 instances. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 21 / 26

37. Conclusion Conclusion En somme, Le Big Data est plus qu’une simple question de taille. C’est l’occasion de trouver des idées sur des types de données et de contenu nouveaux et émergents, d’extraire des connaissances extrêmement utiles pour prendre des décisions de rendre votre entreprise plus agile et de répondre à des questions qui étaient auparavant hors de votre portée. Jusqu’à présent, il n’y avait aucun moyen pratique de récolter cette opportunité. Aujourd’hui, beaucoup de sociétés optent pour le choix du Big Data. Mais n’oublions pas que sans la partie analytique et extraction de connaissance, Le Big Data ne servira à rien. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 22 / 26

38. Conclusion Sélection par les méta-heuristique. Echantillonnage, soit la Cross validation ou autre. FuzzyKMeans, le Spectral KMeans, le Canopy Clustering et voir celui qui est le plus performant. Exécuter l’algorithme KMeans avec différentes mesures de distances comme celle de Mahnhattan ou Euclidienne et voir les différences. Exécuter l’algorithme KMeans avec différents nombre de Clusters K. Augmenter le nombre de noeuds de Hadoop et voir le temps de traitement. Implémenter cet algorithme de Clustering sur un vrai Cluster Hadoop. Extraire une connaissance palpable qui sera au profit du domaine de la santé. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 23 / 26

39. Conclusion Références I Calude, C. S. and Longo, G. (2017). The deluge of spurious correlations in big data. Foundations of science, 22(3):595–612. Grossman, L. (2015). What’s this all about? the massive volume of data that humanity generates is a new kind of problem. the solution is very old. Time Magazine. Kartoun, U. (2016). A methodology to generate virtual patient repositories. arXiv preprint arXiv:1608.00570. Martins, S., Pesado, P., and García-Martínez, R. (2016). Information mining projects management process. In SEKE, pages 504–509. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 24 / 26

40. Conclusion Références II Patel, V. M., Ashraﬁan, H., Ahmed, K., Arora, S., Jiwan, S., Nicholson, J. K., Darzi, A., and Athanasiou, T. (2011). How has healthcare research performance been assessed? a systematic review. Journal of the Royal Society of Medicine, 104(6):251–261. Raghupathi, W. and Raghupathi, V. (2014). Big data analytics in healthcare: promise and potential. Health information science and systems, 2(1):3. Schmidt, C. and Sun, W. N. (2016). Synthesizing agile and knowledge discovery: Case study results. Journal of Computer Information Systems, pages 1–9. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 25 / 26

41. Conclusion Références III Shaﬁque, U. and Qaiser, H. (2014). A comparative study of data mining process models (kdd, crisp-dm and semma). International Journal of Innovation and Scientiﬁc Research, 12(1):217–222. Wilfreid K. AGBO (UDL) Knowledge Discovery in Big Data June 12, 2018 26 / 26

WIlfreid K. AGBO - Knowledge Discovery in Big Data : Healthcare application (Djillali Liabès University)

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (16)

Similar a WIlfreid K. AGBO - Knowledge Discovery in Big Data : Healthcare application (Djillali Liabès University)

Similar a WIlfreid K. AGBO - Knowledge Discovery in Big Data : Healthcare application (Djillali Liabès University) (20)

Más de Wilfreid AGBO

Más de Wilfreid AGBO (7)

WIlfreid K. AGBO - Knowledge Discovery in Big Data : Healthcare application (Djillali Liabès University)