SlideShare una empresa de Scribd logo
1 de 27
Descargar para leer sin conexión
Abstract<br />Face à l’importance grandissante que prend l’information, le datamining offre une solution pour maitriser la complexité et synthétiser les amas de données pour faire jaillir de la connaissance.<br />Cet exposé introduit la notion de datamining dans son ensemble à travers ses concepts et ses principes, et survole quelques techniques utilisées lors de ce processus.<br />Mots-clefs: datamining, techniques de datamining, text mining.<br />Abstract<br />Given the growing importance of the information, data mining offers a way to master the complexity, and synthesize data in order to spring knowledge. <br />            This presentation introduces the concept of data mining as a whole, through its concepts and principles, and flew over some techniques used during this process.<br />Keywords: data mining, data mining techniques, text mining.<br />Table des matières TOC  quot;
1-3quot;
    Introduction PAGEREF _Toc223641372  4I. Qu'est ce que le datamining?I.1. Définition PAGEREF _Toc223641373  5I.2. Pourquoi le datamining ? PAGEREF _Toc223641374  6I.3. Objectif du Datamining PAGEREF _Toc223641375  6I.4. Applications du datamining PAGEREF _Toc223641376  7I.5. Avantages du datamining PAGEREF _Toc223641379  8II. Processus de dataminingII.1. Formaliser le problème PAGEREF _Toc223641380  9II.2. Collecter les données PAGEREF _Toc223641381  9II.3. Prétraitement des données PAGEREF _Toc223641382  10II. 4. Estimer le modèle PAGEREF _Toc223641383  10II.5. Interpréter le modèle et tirer les conclusions PAGEREF _Toc223641384  11III. Quelques techniques de datamingIII.1. Les réseaux de neurones PAGEREF _Toc223641385  13III.2. Réseaux Bayésiens PAGEREF _Toc223641389  15III.3. Support Vector Machine (SVM) PAGEREF _Toc223641392  16III.4. Ensembles flous et logique floue PAGEREF _Toc223641395  17IV. Le text miningIV.1. Présentation PAGEREF _Toc223641399  20IV.2.  Pourquoi faire du text mining ? PAGEREF _Toc223641400  20IV.3. Principe de fonctionnement PAGEREF _Toc223641401  20IV.4. Domaine d’application PAGEREF _Toc223641402  21IV.5. Limites du texte mining PAGEREF _Toc223641403  23V. Limites et perspectives du dataminingV.1. Limites PAGEREF _Toc223641405  24V.2. Perspectives PAGEREF _Toc223641406  24Conclusion PAGEREF _Toc223641407  25Bibliographie PAGEREF _Toc223641408  26<br />Introduction<br />         « The best way to predict the future is to invent it».<br />Alan C. Kay<br />Les vingt dernières années en vue exploser l’importance de l’information et la quantité de données stockée sur les ordinateurs, grâce à des périphériques d’entrée de plus en plus évolués et  surtout à des supports de stockage toujours plus grands et toujours moins chers (loi de Moore oblige !).<br />Paradoxalement, on devient de plus en plus ‘pauvre’ en information, d’ou l’importance et l’urgence d’une solution pour ‘profiter’ de cette ressource, de plus en plus précieuse, qu’est l’information.<br />Le Datamining contribue à cette solution, en tirant le maximum de valeurs de l’information contenues dans les données ; il concourt ainsi à prévoir les tendances et comportements futurs offrant un meilleur support à la décision.<br />Nous allons tenter d’introduire ce vaste sujet à travers ce petit exposé, nous commencerons par définir ce qu’est le datamining, ensuite nous allons présenter les différentes étapes du processus de datamining, puis nous survolerons qu’elle que techniques misent en œuvre lors de ce processus, puis nous nous arrêterons sur le text mining et enfin, nous aborderons les limites et perspectives de cette technologies.<br />I. Qu’est-ce que le datamining ?<br />I.1. Définition<br />Traduit par « fouille de données » ou plus exactement  « forage de  données » pour signifier l’exploitation des données comme on exploite des mines, le datamining est ,d’après le Gartner Group, « un  processus non élémentaire de mises à jour de relations, corrélations,  dépendance, associations, modèles, structures, tendances, classes, facteurs obtenus en navigant à travers de grands ensembles de données, généralement consignés dans des base de données,  navigation réalisée au moyen de méthodes mathématiques, statistiques ou algorithmique. Ce processus peut être itératif et/ou interactif selon les objectifs à atteindre.<br />Ainsi, « Le datamining est un outil qui permet la sélection, l’exploration et la modélisation de volumes important de données afin de mettre en évidence des schémas inconnus et en tirer avantage » [Rom 95].<br />Ces « schémas » seront validés par un analyste qui déterminera ainsi leur pertinence et utilité.<br />Par rapport à l’analyse de données classique, le datamining se présente comme un  processus dynamique qui automatise l’utilisation des méthodes d’analyse de données et qui surtout ne présuppose aucune hypothèse mais fait émerger les inférences.<br />Le datamining à notamment pu croitre grâce aux avancées dans le domaine du datawarehouse, en effet, les datawarehouses, c’est « entrepôts de données d’une entreprise contenant à la fois  les données opérationnelles enregistrées au fil de l’eau, les données agrégées selon toutes dimensions, les données historicisées, les données de pilotage, et éventuellement toutes données externes à l’entreprise mais ayant une relation possible avec les activités de l’entreprise »(d’après Telecom Business), représente, à coté de l’internet et de l’intranet, une source  de choix pour le  processus de datamining.<br />I.2. Pourquoi le datamining ?<br />Parmi les facteurs-clefs qui ont contribués à l’émergence du datamining, on peut citer :<br />Existence de valeurs « cachées » dans les grandes bases de données ;<br />Arrivée des datawarehouses ;<br />Accentuation de la compétition sur le marché et saturation croissante de celui-ci ;<br />Mouvement des entreprises vers la personnalisation de l’offre<br />I.3. Objectif du Datamining<br />Schématiquement, six objectifs non exclusifs motivent le processus de datamining:<br />1. Classification - découverte d'une fonction d'apprentissage prédictive qui  classe un élément dans une des classes prédéfinies. <br />2. Régression - découverte d'une fonction d'apprentissage prédictive, qui fait correspondre à une variable prédictive une valeur réelle.<br />3. Clustering - tâche descriptive ou l'on cherche à identifier un ensemble fini de segments décrivant les données.<br />4. Summarization - tâche descriptive qui implique des méthodes pour trouver une description compacte d'un ensemble de données. <br />5. Modélisation de la dépendance -  découverte d’un modèle qui décrit les dépendances entre des variables ou entre les valeurs d'un élément dans un ensemble de données.<br />6. Détection de changement et de déviation -  découvrir les changements les plus significatifs/atypiques dans l'ensemble des données.<br />Il parait clair de cette énumération, que le datamining à principalement deux types de tâches : <br />Prédictives : qui tendent à approximer l’état du système dans le futur<br />Descriptives : qui font ressortir (sous une autre forme) des informations qui existaient déjà.<br />I.4. Applications du datamining<br />I.4.1 Exemples d'applications <br />Le concept de datamining inclut une orientation forte vers l’utilisateur final et plus particulièrement le décideur. Il s’agit donc de faire abstraction de la technologie pour se concentrer sur les résultats-clef du datamining et ainsi pouvoir dégager des politiques efficientes.<br />On peut relever, parmi les utilisations du datamining, les exemples suivants :<br />Segmentation des clients : Classer et grouper les clients selon des caractéristiques et/ou comportements communs permettant ainsi d’avoir une relation privilégiée avec ceux-ci.<br />Fidélisation : il est plus avantageux pour une entreprise de fidéliser ses clients que d’on recruter de nouveaux, aussi, le datamining permet de proposer des offres ciblées et  personnalisées selon le type de client et contribuent ainsi à le fidéliser.<br />Déterminer le panier de la ménagère : il s’agit d’identifier les corrélations entre produits achetés par un client, l’analyse, ainsi faites, pourra déceler des opportunités (tel produit est susceptible d’intéresser tel client) et particulièrement de  proposer des offres de cross-selling efficaces.<br />Détection de Fraude, d’erreurs (fautes de frappe…etc.) ou tout autre comportement anormal.<br />I.4.2 Champ d’application<br />Le datamining peut être utilisé pour :<br />- La grande distribution avec analyse des comportements des consommateurs, recherche de similarités des consommateurs en fonction des critères géographiques, et prédiction des taux de réponse en marketing direct ; <br />- Les laboratoires pharmaceutiques avec identification des meilleures thérapies pour différentes maladies, optimisation des plans d’action des visiteurs médicaux pour le lancement de nouveaux produits ; <br />- Les banques avec recherche de forme d’utilisation de cartes caractéristiques d’une fraude et modélisations prédictives des clients partants ; <br />- Les assurances avec analyse des sinistres et recherche des critères explicatifs du risque ou de fraude ; <br />- L’aéronautique et l’automobile avec prévision des ventes et dépouillements d’enquête de satisfaction ; <br />- Les télécommunications avec détection des formes de consommation frauduleuses, classification des clients selon la forme d’utilisation des services et prévision du départ des clients. <br />Ces applications sont loin d’être exhaustives puisque le datamining s’illustre dans les disciplines scientifiques confrontées à la détection de motifs (patterns) dans des volumes de données considérables : génomique, astrophysique. <br />I.5. Avantages <br />Le datamining contribue à renforcer la position compétitive de l’entreprise, il permet une meilleure prise de décision et est particulièrement efficace pour le marketing.<br />D’autres avantages pour l’entreprise :<br />Transformer des masses de données en information utile ;<br />Identifier les facteurs qui déterminent le comportement du client ;<br />Identifier les investissements les plus profitables et les moins couteux.<br />II. Le  processus de datamining<br />Le datamining est un  processus itératif complexe, ou intervient diverses méthodes et  techniques, au travers de plusieurs étapes, en effet, il s’agit d’abord, d’étudier les données récoltées et  de les examiner à l’aide d’outils analytiques, en les modifiant éventuellement, puis, de recommencer depuis le début, en appliquant éventuellement un nouvel outil à chaque fois, les résultats sont ainsi affinés à chaque itération.<br />Pour chaque technique, et à chaque itération,  de nouvelles données sont donc mises à jour, cependant,  ce  processus n’est jamais aléatoire, loin de la, il s’agit plutôt d’un  processus parfaitement planifier ou il faudra décider à chaque étapes, quelles sont les techniques et les données les plus utiles, et surtout les plus prometteuses. [Kan 2003]<br />Néanmoins, il est communément admis, que pour implémenter un  processus de datamining, et pouvoir tirer des conclusions à partir des données, il faudra suivre les étapes suivantes :<br />II.1. Formaliser le problème<br />A l’instar de la modélisation de systèmes d’information, la connaissance dite « métiers » est primordiale dans un  processus de datamining, ainsi dans cette étapes, l’expert en datamining travaillera conjointement avec l’expert métiers, afin d’identifier les variables pertinentes et de formuler éventuellement les « bonnes » hypothèses, et ainsi, pouvoir formaliser une problématique « qui à du sens ».<br />II.2. Collecter les données<br />Il s’agit de savoir comment les données sont collectées et générées. On distingue, en général, deux approches [Kan 2003]:<br />Approche par expérience préconçus : la génération de données est sous control de l’expert.<br />Approche par observations : le processus de génération de données n’est pas influencé par l’expert.<br />Dans la plus part des cas, la génération de données est aléatoire, on procédera donc par « observations », en effet, la distribution des échantillons est généralement inconnue après la collecte de données.<br />II.3. Prétraitement des données<br />Dans une approche par observation, Les données sont souvent collecter à partir de base de données, de datawarehouses ou de datamarts, ainsi, elles ne sont pas toujours exploitables tel quelles, d’où la nécessité d’une phase de prétraitement en amont.<br />Le prétraitement des données inclue généralement deux taches :<br />Atténuation du bruit : <br />Par bruit, en entend les données inhabituelle et/ou non consistantes,  Qui peuvent altérer la pertinence des résultats.<br />Il existe deux stratégies pour atténuer le bruit :<br />Détecter et supprimer (autant que possible) le bruit lors de la phase de prétraitement<br />Développer des méthodes de modélisation robustes insensible au bruit.<br />Sélections des données utiles :<br /> Il s’agit de ne sélectionner que les données qui se rapportent à l’objectif à atteindre ;<br />Par données en entend : l’ensemble des individus, des variables, des dimensions du domaine, et des périodes associées au domaine. [Jam 99]<br />Ainsi, pour sélectionner les individus on pourra procéder par échantillonnage selon le domaine, <br />Et Pour sélectionner les variables et les dimensions, on pourra utiliser le diagramme de Ishikawa [Ish 1985]<br />Toutefois, ces deux méthodes ne sont pas les seules, il existe un large spectre d’activités de prétraitement qu’on pourra mettre en œuvre lors d’un  processus de datamining, notamment les différentes méthodes de l’analyse de données. <br />II. 4. Estimer le modèle<br />Cette phase, particulièrement ardue,  consiste principalement dans le choix et l’implémentation de la technique de datamining appropriée, et cela selon les objectifs attendus. Il s’agira soit de sélectionner le modèle le plus adéquat parmi une collection de modèles, soit de découvrir carrément  celui-ci par apprentissage.<br />On pourra citer parmi ces techniques : les arbres de décisions, réseaux neuronaux, réseaux bayésiens…etc.<br />II.5. Interpréter le modèle et tirer les conclusions<br />L’information dérivée des modèles devra être  analysée par un expert métier, elle devra donc être pertinente et surtout facilement “interprétable”.<br />Par ailleurs, Le datamining étant une technologie d’aide à la décision, donc fortement orienté vers les décideurs, les résultats obtenus via datamining devront être présenté sous formes adéquates (tableaux de bord, histogrammes, graphes...etc.) pour pouvoir être exploitable par les décideur (des non informaticiens qui compte sur l’informatique pour leur faire économiser du temps et non pour en gaspiller d’avantage).<br />Il en ressort que le  processus de datamining, si on veut qu’il puisse être efficace, doit être conduit conjointement avec un expert du domaine du début jusqu'à la fin, bien plus, ce  processus ne pourra être couronné de succès a moins qu’il soit  hautement itératif.<br />      Processus de datamining [Kan 2003]<br />III. Quelques techniques de datamining<br />Nous avons vu, dans la partie précédente, que le datamining reposait notamment sur un ensemble d’outils et de techniques analytiques, mis en œuvres pendant la phase d’estimation du modèle.<br />Nous proposons, dans cette partie, d’introduire les techniques les plus utilisées <br />III.1. Les réseaux de neurones<br />Conçu au départ pour étudier le cerveau humain, les réseaux de neurones sont aujourd’hui largement utilisés dans le domaine de l’intelligence artificielle.<br />L’idée de base : modéliser l’unité du cerveau humain ‘le neurone’ sur une machine et assembler plusieurs unités entre elles, afin d’approcher (par analogie) le raisonnement humain.<br />III.1.1. Présentation :<br />Le modèle du neurone formel, conçu par MacCulloch et Pitts, est un modèle mathématique simple issue du neurone biologique, il s’agit d’un modèle de calcul, qui fait la somme de signaux entrant, puis l’a compare à un certain seuil (via une fonction dite d’ « activation »), ensuite, il donne en sortie un ‘1’ si le seuil est atteint, un ‘0’ sinon. <br />Mais l’intérêt des neurones formels est bien plus leurs capacité (et la simplicité) à se regrouper en « réseaux », en effet, pris tout seul un neurone « ne vaut rien », mais constitués en réseau, ils développent une capacité très intéressante en terme « d’apprentissage ».<br />Structure d'un neurone artificiel. Le neurone calcule la somme de ses entrées puis cette valeur passe à travers la fonction d'activation <br />(Source : wikipedia.fr)<br />III.1.2. Principe de fonctionnement :<br />Les réseaux de neurones sont généralement structurés en couches successives, chacune prenant ses entrées dans les sorties de la précédente.<br />En effet, chaque couche ‘i’ est composée de Ni neurones, chacun puisant ces entrées sur les ‘Ni-1’ neurones de la couche ‘i-1’, ainsi de suite, jusqu'à traversé toutes les couches.<br />En outre, chaque synapse (connexion entre neurones) est valué par un poids, l’apprentissage consistant à modifier ce poids [Jam 1999], ainsi pour être efficace les réseaux de neurones doivent pouvoir maitriser ces valeurs, d’où l’importance de la fonction de seuillage, une fonction qui n’introduit pas de non-linéarité rends le réseau inutile.<br />Dans la majorité des réseaux, l’apprentissage est dit supervisé c'est-à-dire qu'on teste le réseau dans des situations connues et on cherche à obtenir la sortie voulue. On effectue alors la modification des poids pour retrouver cette sortie imposée. Il existe aussi des réseaux à apprentissage non-supervisé qui sont capable de quot;
mémorisationquot;
 c'est à dire qu’ils raisonnent par analogie avec ce qu'ils ont déjà effectué. Enfin certains réseaux associent les deux types d’apprentissage.<br />Cependant plus il y a de couche, plus il est difficile de les manipuler, de plus, la plupart des réseaux neuronaux contiennent des boucle ou des mécanismes de rétropropagation, certes indispensables à l’apprentissage, mais qui augmentent encore plus la complexité.<br />III.1.3. Avantages et inconvénients :<br />L'avantage des réseaux de neurones est qu'ils acceptent des données incomplètes, incertaines ou bruitées, bien plus, ils s'enrichissent de leurs expériences. En revanche, leur architecture parallèle nécessite des processeurs spécialisés, et enfin, il est nécessaire de passer par la phase d'apprentissage avant d'utiliser le réseau. <br />III.2. Réseaux Bayésiens<br />III.2.1. Présentation<br />Un réseau bayésien « est un modèle graphique pour des relations probabilistes enfouie dans un ensemble de variables » [Hec]. Il s’agit  « d’acquérir, de capitaliser et d’exploiter des connaissances », cela est notamment possible grâce à un socle mathématique solide et un modèle à base de règles.<br />Ainsi, les réseaux bayésien se présente sous la forme de  graphes, ou les relations de causes à effets entre les variables ne sont pas déterministes, mais probabilisées : l'observation d'une cause ou de plusieurs causes n'entraîne pas systématiquement l'effet ou les effets qui en dépendent, mais modifie seulement la probabilité de les observer.<br />Largement appréciés dans les systèmes ou l’incertitude est forte, les réseaux bayésien peuvent être décrit manuellement par les experts du domaine ou bien être générés automatiquement par apprentissage, ainsi, un réseau bayésien permet soit de représenter une connaissance qu’on a, soit de découvrir de nouvelles.<br />III.2.2. Principe de fonctionnement<br />Les Réseaux bayésiens sont un savant mariage entre les probabilités et la théorie des graphes, en effet, un réseau bayésien est constitué d’un ensemble de  parties « simples » associées entre elles (un graphe) à l’aide de probabilités.<br />A partir de ce graphe, on pourra faire de l’inférence, ainsi on pourra naviguer dans ce graphe, soit à partir des « évidences » et déterminer les causes (l’herbe est humide, il à donc dû pleuvoir) ce qu’on appelle « diagnostique » (approche bottom-up), soit à partir des causes ou des « croyances » et  inférer les effets (approche top-down) [Mur 2001].<br />Une autre utilisation des réseaux bayésiens, dite « par apprentissage », consiste à découvrir les paramètres et la structure du réseau, et ce sans connaissances préalables du domaine,  afin d’inférer des résultats pertinents ; elle peut être misent en œuvres via des techniques supervisées ou non supervisées.<br />III.3. Support Vector Machine (SVM)<br />III.3.1 Présentation<br />Techniques assez récentes, apparu vers 1998, Les machines à vecteur de support ou séparateurs à vaste marge (Support Vector Machine, SVM) sont un ensemble de techniques d’apprentissage supervisé conçus principalement pour résoudre les problèmes de classification.<br />S’appuyant sur une théorie statistique solide (théorie de Vapnik-Chervonenkis.), les SVM ont rapidement conquis la sphère du datamining [Wri 2009], elles sont notamment prisées pour la « précision de leurs prédictions ». [Tuf 2007]<br />On utilise généralement les SVM pour de la classification et de la régression, cependant, une utilisation lors de la phase de sélection et de prétraitement des données, pour le « nettoyage » des celles-ci, commence à être considérée [Guy & al.].<br />Toutefois, les SVM ont été brevetées au Etats-Unis par les inventeurs originels.<br />III.3.2. Principe de fonctionnement<br />Pour faire simple, la technique des SVM consiste à séparer les  données en entrées via une frontière linéaire (un hyperplan).<br />Les SVM reposent sur deux concepts clefs [Tuf] :<br />Marge maximale : il s’agit de maximiser la distance entre la frontière de séparation (l’hyperplan) et les échantillons (données en entrée) les plus proches, dit vecteurs supports.<br />Transformer l’espace d’origine de représentation des données en un espace de plus grande dimension (éventuellement infini) pourvu d’un produit scalaire tel qu’il existe un séparateur linéaire dans cette espace. La transformation est effectuée grâce à une fonction dite noyau.<br />Il s’agira donc de trouver le séparateur linéaire optimal qui maximise la marge et ainsi rendre le problème initial un problème d’optimisation.<br />L'hyperplan optimal (en rouge) avec la marge maximale. Les échantillons entourés sont des vecteurs supports.<br />(Source : Wikipedia.org)<br />III.4. Ensembles flous et logique floue<br />III.4.1. Présentation :<br />Le concept de logique floue à été formalisé  par Lotfi A. Zadegh (Actuellement Professeur à l’université de Berkeley) en 1965,  il étend la théorie mathématique des ensembles, mais part principalement de considérations du monde réelle, en effet, là ou la logique « classique » considère une proposition comme soit vrai soit fausse, la logique floue distingue une infinité de valeurs entre ces deux « bornes », ainsi en logique classique l’eau ne peut être que chaude ou bien froide, en fonction d’une valeur seuil,  en revanche, la logique floue contourne cette aberration, l’eau peut être au même moment chaude et froide mais à des degrés différents : l’eau est tiède !<br />En réalité, la valeur seuil de la logique classique devient une fonction seuil dans la logique floue, fonction qui va déterminer le degré d’appartenance à chaque catégorie.<br />°C°CFroid<br />Chaud<br />Logique classiqueLogique floueChaudFroid  <br />tt<br />III.4.2. Principe de fonctionnement :<br />Pour implémenter une logique floue, il faudra passer par les étapes suivantes :<br />fuzzification (quantification floue)<br />A partir des variables d'entrée et des fonctions d'appartenance, le système commence par déterminer le degré d'appartenance de chaque variable à chaque état. On constate qu'une variable peut être simultanément dans chaque état (l’eau est chaude et froide). <br />Application des règles. <br />La logique flou procède aussi par règles d’inférence (si … alors …)<br />Par exemple, Si la température est faible alors chauffer plus fort.<br />A l’instar aussi de la logique classique, on peut utiliser des connecteurs ‘et’, ‘ou’ et ‘non’ ; mais aussi, des connecteurs de précision du type ‘environ’, ‘exactement’…etc. <br />En appliquant les règles, on obtient le degré d'appartenance des variables de sortie à chaque état (appartenance à l’ensemble flou).<br />Defuzzification<br />Il s’agit du  processus de production de résultat quantifiable, ainsi, les variables en sortie de ce  processus auront des valeurs précises déduites à partir des degrés d’appartenance, pour ce faire, il existe différentes algorithmes notamment celui du maxima. [Lee & al]<br />La logique floue est particulièrement pertinente pour le datamining , en effet, les données collectées, de par leur taille importante, sont souvent imprécises et/ou incertaines, en outre, cette techniques est plus facile à mettre en œuvre que les autres techniques de datamining, bien plus, il est plus  aisé de trouver automatiquement des modèles « floues » à partir des données que d’autres modèles. [Kan 2003]<br />III.5.  Conclusions sur les techniques de datamining<br />La liste présentée ici est loin d’être exhaustive, nous pouvons aisément rajouter d’autres techniques telles que les arbres de décision, les algorithmes génétiques et autres heuristiques.<br />Il reste que toutes ces techniques sont de plus en plus puissantes, cependant qu’elle que soit leur puissance, le datamining reste un  processus itératif ou, pour réussir, il faudra connaitre et maitriser chaque maillon de la chaine, en effet, quel que soit la technique utilisée lors de l’estimation du modèle, le résultat ne sera pas valide si les données ne sont pas collecter et traiter convenablement, ou pire, si la formalisation du problème est fausse.<br />IV. Le Text Mining <br />IV.1. Présentation<br />Le text mining n’est autre que du datamining appliqué à des données textuelles, c’est donc un   processus automatisé qui produit, à partir d’un texte, une information  initialement inconnu mais de grande qualité(en terme de pertinence et d’actualité); il s’agira donc dans un premier temps de structurer le texte, ensuite, de le traiter afin de faire apparaitre des modèles dans les données structurer obtenues,  et enfin, d’interpréter les résultats.<br />Contrairement à la Recherche d’Information (principalement utilisée dans les moteurs de recherches), Le text mining classe l’information, crée des liens entre des documents non connectés et affiche (à l’instar du datamining), sous formes appropriées, des résultats qui auraient été ignorés sinon.<br />IV.2.  Pourquoi faire du text mining ?<br />Principalement pour :<br />classifier automatiquement des documents.<br />avoir un aperçu sur le contenu d’un document sans le lire.<br />alimenter automatiquement des bases de données.<br />faire de la veille sur des corpus documentaires importants.<br />enrichir l’index d’un moteur de recherche.<br />IV.3. Principe de fonctionnement<br />Le processus de text mining passe essentiellement par deux étapes :<br />L’analyse du texte et l’extraction d’information : <br />Cette étape consiste, via des méthodes linguistiques, à appliquer successivement sur une phrase :<br />Une analyse lexicale : découpage en mot et identification de la langue<br />Analyse morphosyntaxique : association de chaque mot avec sa catégorie syntaxique<br />Analyse syntaxique : analyse de la structure de la phrase<br />Analyse sémantique : compréhension du sens de la phrase<br />Classification : <br />Il s’agit, ici, d’identifier et de classer les différentes thématiques abordées dans un corpus, on peut attaquer cette phase avec  une approche statistique, sémantique ou les deux on même temps. [Fau 2007] <br />Approche statistique : elle s’attache à révéler le texte sous l’angle des chiffres, nombre d’occurrence et  de cooccurrence sont entre autres les outils généralement adopté sous cette approche ; cependant, parce qu’elle ne tient pas compte des spécificités et du contexte des documents, elle est souvent considérée comme moins performante qu’une approche sémantique.<br />Approche sémantique : la démarche ici consiste à confronter les données avec un « référentiel », une base ou sont consignés divers informations sur un domaine précis (liste de mots clefs, thésaurus, ontologies…etc.), et ainsi tirer des informations qui viendront enrichir le document initial, par exemple, grâce à cette approche l’application déduira que « Kateb Yacine» , trouvé tel quel dans un document, est un écrivain algérien, car le moteur de text mining aura cherché et trouvé ce nom dans un référentiel des auteurs connus, sous la catégorie « écrivain algérien ».<br /> En outre, Les lois bibliométrique peuvent contribuer à optimiser les résultats de la phase de classification [Gri 2006].<br />IV.4. Domaine d’applications<br />Dans le monde réel, et au-delà de l’activité dans le domaine de la recherche universitaire, <br />le text mining creuse son chemin et s’émancipe de plus en plus, notamment en entreprise.<br />On peut rencontrer le text mining en:<br />Sécurité et Intelligence économique <br />Identifier les actions ou les faits susceptibles de présenter une menace, et  identifier les leaders d’opinion et les suiveurs afin de préparer des actions efficaces d’influence ou de contre-influence ;<br />Nous pouvons citer dans cette catégorie, le système de surveillance « ECHELON », l’un des plus grand logiciel de text mining au monde, qui vise l’interception et l’analyses des communications mondiales privées et publiques.<br />Marketing et CRM :<br />Mieux comprendre les besoins de ces clients via l’analyse de leurs réclamations, et l’analyse de sentiments, afin d’anticiper un départ chez un concurrent, de proposer de nouvelle offres…etc.<br />Knowledge Management, ou gestion des connaissances en entreprise :<br />Le text mining pourra contribuer à identifier et classer automatiquement les documents pertinents pour l’entreprise, les travailleurs les plus actifs mais aussi à faire des résumés automatiques de CV.<br />Logiciels<br />Les départements R&D des plus grandes entreprises en informatiques, travaillent activement dans le domaine du text mining notamment dans la recherche et l’indexation de contenus.<br />Media Online<br />Le texte mining de contenu online, ne cesse d’intéresser, notamment du fait de la « meilleure » indexation qu’il offre, mais surtout grâce la possibilité de monétiser les résultats obtenus (comme le fait déjà le système AdSend de Google) ; le text mining peut aussi présenter une solution efficace contre le spam.<br />Applications biomédical<br />Il s’agit d’un domaine assez récent mais très porteur, en effet, face à l’abondance de textes en matière de biosciences,  notamment sous formats électroniques, le text mining peut apporter des solutions efficaces par la constitution automatique de résumés, et surtout par la possibilité   et la facilité de suivi qu’il offre, ainsi on pourra synthétiser les données relatives à un domaine précis mais aussi, et surtout, celles relatives à toutes les implications et les interactions qu’il entretien avec  les autres domaines scientifiques, pour n’en garder que l’essentielle. [Gue 2003].<br />IV.5. Limite du texte mining<br />Il existe principalement deux limites aux pratiques de text mining [Hea 2003]<br />L’impossibilité, pour l’instant,  de compréhension et d’interprétation (comme un cerveau humain) d’un texte par une machine<br />Tout n’est pas textuel ! En particulier, les plus grandes décisions, négociations et autres activités stratégiques sont le plus souvent orales ou du moins sous formats non numérisés. <br />Conclusion<br />Avec plus 80% des données actuellement enregistrées dans le monde sous forme textuelle, le text mining est amener inévitablement à  se développer, toutefois, ce développement devra être multi-linguiste pour être efficace.<br />D’autre part, le plus grand défi du text mining dans les années à venir sera certainement sa capacité a ce démocratiser et à offrir des solutions intéressantes, notamment pour le grand public, pour le traitement des informations disponible publiquement.<br />V. Limites et perspectives du datamining<br />V.1. Limites<br />On relève généralement deux écueils qui limitent l’utilisation du datamining : l’effort important pour développer chaque application ; et l’état inapproprié des données.<br />En effet, le datamining souffre (plus que d’autres ?) des affres de l’ingénierie logicielle, il s’agit d’un  processus complexe et difficile à gérer, bien plus, son caractère transversale (le datamining concerne les fonctions de manager, analyste, développeur…etc.) requière un large éventail de compétences, autant technique que métier, qui viennent le plus souvent à manquer, conséquemment, le datamining pose beaucoup  de problèmes en terme de coût, délai, qualité et organisation. <br />En outre, et même si les datawarehouses tendent à atténuer ce problème, les données qui alimentent le  processus de datamining sont souvent réparties sur plusieurs base de données, dans différents formats (souvent incompatible), pire, les données sont souvent incomplètes ou même erronées.<br /> V.2. Perspectives<br />La découverte automatique de schémas et l’analyse des tendances promettent beaucoup aux entreprises, et avec la montée en puissance des systèmes de traitement parallèle, le Datamining promet l’analyse de base de données plus importantes dans un minimum de temps, mais surtout, il promet l’exploration plus approfondie de ces base de données (toutes les combinaisons de variables pour toutes les lignes) et ainsi produire des informations largement plus pertinentes. <br />Aussi, le datamining est amener à se développer et  a être plus simple à mettre en œuvre et ainsi, il pourra être adopté plus facilement notamment par les PME.<br />Une autre utilisation qui pourrai s’élargir, c’est le datamining « domestique », utilisé le datamining dans des applications aussi diverse qu’un lecteur multimédia, web browser et autres logiciel pour ordinateurs personnel pourrai être le prochain grand champ d’application du datamining.<br />Conclusion<br />Le datamining est un  processus très puissant qui permet de faire ressortir des informations cachées auparavant. Utilisé surtout en entreprise ou il procure de nombreux avantages concurrentielles, il exploite des données en entrées pour produire des informations et surtout de la connaissance qui est à l’origine de ces fameux avantages. Il s’agit d’un formidable outil appelé à ce démocratisé et à ce développé, un outil  apte à nous assister pour faire face aux défis, toujours plus complexe, qui nous attendent dans cette « âge d’or » de l’information.<br />Enfin, Ce travail ne représente qu’une infirme particule dans un corpus immense, il ne vise nullement l’exhaustivité et n’ambitionne qu’introduire ce très intéressant sujet qu’est le datamining.<br />Aussi, il semble judicieux, en complément de ce travail, d’envisager les quelques points suivants :<br /> Se pencher un peu plus sur les théories mathématiques et statistiques derrières les concepts énoncés ici.<br />Détailler les tâches du datamining : clustering, régression…etc.<br />Explorer d’autres techniques pour le datamining tels que les algorithmes génétiques.<br />Explorer le web mining<br />Mettre cette partie théorique en pratique, au sein d’une entreprise.<br />Bibliographie & Webographie<br />DataMining<br /> [Ish 1985] Ishikawa K., quot;
What is total quality control?  The Japanese wayquot;
, Prentice Hall, 1985.<br />[Kan 2003] Kantardzic M., quot;
Data Mining: Concepts, Models, Methods, and Algorithmsquot;
, John Wiley & Sons, 2003.<br />[Jam 1999] Jambu M., quot;
Introduction au datamining, Analyse intelligente des donnéesquot;
, Eyrolles, 1999.<br />Reseaux Bayésiens<br />[Hec 1997] Heckerman D., quot;
Bayesian Networks for Data Miningquot;
, Juin 1997, <http://www.springerlink.com/content/l582u1n1061g7qh7/fulltext.pdf>.<br />[Mur 2001] Murphy K., quot;
A Brief Introduction to Graphical Models and Bayesian quot;
,  <br />3 October 2001, <http://www.cs.berkeley.edu/~murphyk/Bayes/bayes.html>.<br />SVM<br />[Guy & al.] Guyon I., Vapnik V., quot;
Discovering Informative Patterns and Data Cleaning quot;
, <http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=D54574EAA4F8AEADCB1909D17F6EC82D?doi=10.1.1.21.6479&rep=rep1&type=pdf>, consulté le: 28 fevrier 2009.<br /> [Man 2001] Mangasarian Olvi L., quot;
Data Mining via Support Vector Machinesquot;
, Juillet 2001, <http://www.google.com/url?sa=t&source=web&ct=res&cd=3&url=http%3A%2F%2Fftp.cs.wisc.edu%2Fmath-prog%2Ftalks%2Fifip3tt.ppt&ei=pHCoSYybHJKv-AaOqdC4Ag&usg=AFQjCNFuGzuxQaUBCcNug9OF687L28mICw&sig2=6tD-a-JHyl0WbmV_uRRO9w>.<br />[Tuf 2007] Tufféry S., quot;
Techniques prédictives de data mining 2 : réseax de neurones, SVM et algorithmes génétiquesquot;
, 01 mai 2007, <http://data.mining.free.fr/cours/Neurones.PDF>.<br />[Wri 2009] Wright M ., quot;
SVM Application Listquot;
, <br /><http://www.clopinet.com/isabelle/Projects/SVM/applist.html>, consulté le: 28 fevrier 2009.<br />Logique Floue<br />[Lee & al] Van Leekwijck W.,  Kerre E., quot;
Defuzzification: criteria and classification quot;
, 1 Septembre 1999, <http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6V05-3X9JJS7-3&_user=10&_coverDate=12%2F01%2F1999&_alid=698262587&_rdoc=2&_fmt=summary&_orig=search&_cdi=5637&_sort=d&_docanchor=&view=c&_ct=2&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=210a113d102941da62cfdaa0cb37d9b6>, consulté le: 28 fevrier 2009 .<br />Text Mining<br />[Fau 2007] Fauré C., quot;
Introduction au Text-miningquot;
, 30 mai 2007, <http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/>.<br />[Gri 2006] Grivel L., quot;
Comment faire face à l'explosion des volumes d'information, le text mining et ses applicationsquot;
, janvier 2006, quot;
La revue trimestrielle du reseau Ecrinquot;
, N° 62.<br />[Gue 2003] GUERNSEY L., quot;
Digging for Nuggets of Wisdom quot;
, 16 October 2003, <http://query.nytimes.com/gst/fullpage.html?res=950CE5DD173EF935A25753C1A9659C8B63>.<br /> [Hea 2003] Marti Hearst., quot;
What Is Text Mining?” 17 October 2003 , <http://people.ischool.berkeley.edu/~hearst/text-mining.html>.<br />
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final
Final

Más contenido relacionado

La actualidad más candente

L'utilisation du Big Data en entreprise
L'utilisation du Big Data en entrepriseL'utilisation du Big Data en entreprise
L'utilisation du Big Data en entrepriseMathieu Lahaye
 
24900879 veille-mkg
24900879 veille-mkg24900879 veille-mkg
24900879 veille-mkgsuccube
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayetKezhan SHI
 
Competitic big data et commerce
Competitic   big data et commerceCompetitic   big data et commerce
Competitic big data et commerceCOMPETITIC
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesJean-Michel Franco
 
Machine intelligente d’analyse financiere
Machine intelligente d’analyse financiereMachine intelligente d’analyse financiere
Machine intelligente d’analyse financiereSabrine MASTOURA
 
Du Data Mining à la Data Science
Du Data Mining à la Data ScienceDu Data Mining à la Data Science
Du Data Mining à la Data ScienceSoft Computing
 
Data Visualisation, Business Intelligence et Big Data
Data Visualisation, Business Intelligence et Big DataData Visualisation, Business Intelligence et Big Data
Data Visualisation, Business Intelligence et Big DataVincent Lagorce
 
Livre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligenceLivre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligenceHélène Etienne
 
[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big DataYann Gourvennec
 
Workshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesWorkshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesConverteo
 
Le Big Data au coeur de la stratégie des PME par où commencer ?
Le Big Data au coeur de la stratégie des PME par où commencer ? Le Big Data au coeur de la stratégie des PME par où commencer ?
Le Big Data au coeur de la stratégie des PME par où commencer ? Silicon Salad
 
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILVMastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILVRomain Jouin
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesSAS FRANCE
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012datasio
 
La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applicationsAffinity Engine
 

La actualidad más candente (20)

L'utilisation du Big Data en entreprise
L'utilisation du Big Data en entrepriseL'utilisation du Big Data en entreprise
L'utilisation du Big Data en entreprise
 
Datamining damien-jubeau
Datamining damien-jubeauDatamining damien-jubeau
Datamining damien-jubeau
 
24900879 veille-mkg
24900879 veille-mkg24900879 veille-mkg
24900879 veille-mkg
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayet
 
Competitic big data et commerce
Competitic   big data et commerceCompetitic   big data et commerce
Competitic big data et commerce
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
Machine intelligente d’analyse financiere
Machine intelligente d’analyse financiereMachine intelligente d’analyse financiere
Machine intelligente d’analyse financiere
 
Programme Big Data
Programme Big DataProgramme Big Data
Programme Big Data
 
Du Data Mining à la Data Science
Du Data Mining à la Data ScienceDu Data Mining à la Data Science
Du Data Mining à la Data Science
 
Data Visualisation, Business Intelligence et Big Data
Data Visualisation, Business Intelligence et Big DataData Visualisation, Business Intelligence et Big Data
Data Visualisation, Business Intelligence et Big Data
 
Livre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligenceLivre blanc big data et data lake le duo gagnant extrait_itelligence
Livre blanc big data et data lake le duo gagnant extrait_itelligence
 
[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data
 
Workshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & ExemplesWorkshop - Monétisation de la Donnée : Process & Exemples
Workshop - Monétisation de la Donnée : Process & Exemples
 
Le Big Data au coeur de la stratégie des PME par où commencer ?
Le Big Data au coeur de la stratégie des PME par où commencer ? Le Big Data au coeur de la stratégie des PME par où commencer ?
Le Big Data au coeur de la stratégie des PME par où commencer ?
 
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILVMastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
 
Data Mining
Data MiningData Mining
Data Mining
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012
 
La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applications
 

Similar a Final

Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfamarasidibeavm
 
Etude Apec - Les métiers de la data
Etude Apec - Les métiers de la dataEtude Apec - Les métiers de la data
Etude Apec - Les métiers de la dataApec
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdfOuailChoukhairi
 
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...Touria Engohan
 
25/01/18 Matinale Data Science
25/01/18 Matinale Data Science25/01/18 Matinale Data Science
25/01/18 Matinale Data ScienceSoft Computing
 
DATA FORUM MICROPOLE 2015 - Information Builders
 DATA FORUM MICROPOLE 2015 -  Information Builders DATA FORUM MICROPOLE 2015 -  Information Builders
DATA FORUM MICROPOLE 2015 - Information BuildersMicropole Group
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
Big data et le marketing
Big data et le marketingBig data et le marketing
Big data et le marketingKhaled Fayala
 
Dossier presse chaire-big-data-market-insights
Dossier presse chaire-big-data-market-insightsDossier presse chaire-big-data-market-insights
Dossier presse chaire-big-data-market-insightsTélécom Paris
 
Big data et marketing digital
Big data et marketing digital Big data et marketing digital
Big data et marketing digital Hamza Sossey
 
Cio insight-article-2015-l'informatique cherche à se simplifier pour mieux ré...
Cio insight-article-2015-l'informatique cherche à se simplifier pour mieux ré...Cio insight-article-2015-l'informatique cherche à se simplifier pour mieux ré...
Cio insight-article-2015-l'informatique cherche à se simplifier pour mieux ré...Bertille Laudoux
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Big data telecom-evolution
Big data telecom-evolutionBig data telecom-evolution
Big data telecom-evolutionTélécom Paris
 

Similar a Final (20)

Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdf
 
Etude Apec - Les métiers de la data
Etude Apec - Les métiers de la dataEtude Apec - Les métiers de la data
Etude Apec - Les métiers de la data
 
Data Science
Data ScienceData Science
Data Science
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Data Mining (Partie 1).pdf
Data Mining (Partie 1).pdfData Mining (Partie 1).pdf
Data Mining (Partie 1).pdf
 
La datavisualisation
La datavisualisationLa datavisualisation
La datavisualisation
 
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
 
IBM Data lake
IBM Data lakeIBM Data lake
IBM Data lake
 
Big data & scm
Big data & scmBig data & scm
Big data & scm
 
25/01/18 Matinale Data Science
25/01/18 Matinale Data Science25/01/18 Matinale Data Science
25/01/18 Matinale Data Science
 
DATA FORUM MICROPOLE 2015 - Information Builders
 DATA FORUM MICROPOLE 2015 -  Information Builders DATA FORUM MICROPOLE 2015 -  Information Builders
DATA FORUM MICROPOLE 2015 - Information Builders
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Big data et le marketing
Big data et le marketingBig data et le marketing
Big data et le marketing
 
Dossier presse chaire-big-data-market-insights
Dossier presse chaire-big-data-market-insightsDossier presse chaire-big-data-market-insights
Dossier presse chaire-big-data-market-insights
 
Big data et marketing digital
Big data et marketing digital Big data et marketing digital
Big data et marketing digital
 
Cio insight-article-2015-l'informatique cherche à se simplifier pour mieux ré...
Cio insight-article-2015-l'informatique cherche à se simplifier pour mieux ré...Cio insight-article-2015-l'informatique cherche à se simplifier pour mieux ré...
Cio insight-article-2015-l'informatique cherche à se simplifier pour mieux ré...
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Big data telecom-evolution
Big data telecom-evolutionBig data telecom-evolution
Big data telecom-evolution
 
bgi-data-1 (1).pptx
bgi-data-1 (1).pptxbgi-data-1 (1).pptx
bgi-data-1 (1).pptx
 

Más de Ismail CHAIB

The TAO of Banking APIs - Open Bank Project
The TAO of Banking APIs - Open Bank ProjectThe TAO of Banking APIs - Open Bank Project
The TAO of Banking APIs - Open Bank ProjectIsmail CHAIB
 
Open bank project api days-presentation-dec2013
Open bank project api days-presentation-dec2013Open bank project api days-presentation-dec2013
Open bank project api days-presentation-dec2013Ismail CHAIB
 
How mobile is changing everything for NGOs
How mobile is changing everything for NGOsHow mobile is changing everything for NGOs
How mobile is changing everything for NGOsIsmail CHAIB
 
Make sense pecha kucha
Make sense pecha kuchaMake sense pecha kucha
Make sense pecha kuchaIsmail CHAIB
 
Open Learning Initiative
Open Learning InitiativeOpen Learning Initiative
Open Learning InitiativeIsmail CHAIB
 
The Road to Open Data
The Road to Open DataThe Road to Open Data
The Road to Open DataIsmail CHAIB
 
A tale of social entrepreneurship
A tale of social entrepreneurshipA tale of social entrepreneurship
A tale of social entrepreneurshipIsmail CHAIB
 
Presentation soutenance-tesobe
Presentation soutenance-tesobePresentation soutenance-tesobe
Presentation soutenance-tesobeIsmail CHAIB
 
Ouverture te dx alger - ismail
Ouverture te dx alger - ismailOuverture te dx alger - ismail
Ouverture te dx alger - ismailIsmail CHAIB
 
ERP, ecueils à éviter
ERP, ecueils à éviterERP, ecueils à éviter
ERP, ecueils à éviterIsmail CHAIB
 
Management de projet web
Management de projet webManagement de projet web
Management de projet webIsmail CHAIB
 
#1 Best Place to Work In
#1 Best Place to Work In#1 Best Place to Work In
#1 Best Place to Work InIsmail CHAIB
 

Más de Ismail CHAIB (14)

The TAO of Banking APIs - Open Bank Project
The TAO of Banking APIs - Open Bank ProjectThe TAO of Banking APIs - Open Bank Project
The TAO of Banking APIs - Open Bank Project
 
Open bank project api days-presentation-dec2013
Open bank project api days-presentation-dec2013Open bank project api days-presentation-dec2013
Open bank project api days-presentation-dec2013
 
How mobile is changing everything for NGOs
How mobile is changing everything for NGOsHow mobile is changing everything for NGOs
How mobile is changing everything for NGOs
 
Make sense pecha kucha
Make sense pecha kuchaMake sense pecha kucha
Make sense pecha kucha
 
Open Learning Initiative
Open Learning InitiativeOpen Learning Initiative
Open Learning Initiative
 
The Road to Open Data
The Road to Open DataThe Road to Open Data
The Road to Open Data
 
TEDxCasbah Talk
TEDxCasbah TalkTEDxCasbah Talk
TEDxCasbah Talk
 
A tale of social entrepreneurship
A tale of social entrepreneurshipA tale of social entrepreneurship
A tale of social entrepreneurship
 
Sense combinator
Sense combinatorSense combinator
Sense combinator
 
Presentation soutenance-tesobe
Presentation soutenance-tesobePresentation soutenance-tesobe
Presentation soutenance-tesobe
 
Ouverture te dx alger - ismail
Ouverture te dx alger - ismailOuverture te dx alger - ismail
Ouverture te dx alger - ismail
 
ERP, ecueils à éviter
ERP, ecueils à éviterERP, ecueils à éviter
ERP, ecueils à éviter
 
Management de projet web
Management de projet webManagement de projet web
Management de projet web
 
#1 Best Place to Work In
#1 Best Place to Work In#1 Best Place to Work In
#1 Best Place to Work In
 

Final

  • 1. Abstract<br />Face à l’importance grandissante que prend l’information, le datamining offre une solution pour maitriser la complexité et synthétiser les amas de données pour faire jaillir de la connaissance.<br />Cet exposé introduit la notion de datamining dans son ensemble à travers ses concepts et ses principes, et survole quelques techniques utilisées lors de ce processus.<br />Mots-clefs: datamining, techniques de datamining, text mining.<br />Abstract<br />Given the growing importance of the information, data mining offers a way to master the complexity, and synthesize data in order to spring knowledge. <br /> This presentation introduces the concept of data mining as a whole, through its concepts and principles, and flew over some techniques used during this process.<br />Keywords: data mining, data mining techniques, text mining.<br />Table des matières TOC quot; 1-3quot; Introduction PAGEREF _Toc223641372 4I. Qu'est ce que le datamining?I.1. Définition PAGEREF _Toc223641373 5I.2. Pourquoi le datamining ? PAGEREF _Toc223641374 6I.3. Objectif du Datamining PAGEREF _Toc223641375 6I.4. Applications du datamining PAGEREF _Toc223641376 7I.5. Avantages du datamining PAGEREF _Toc223641379 8II. Processus de dataminingII.1. Formaliser le problème PAGEREF _Toc223641380 9II.2. Collecter les données PAGEREF _Toc223641381 9II.3. Prétraitement des données PAGEREF _Toc223641382 10II. 4. Estimer le modèle PAGEREF _Toc223641383 10II.5. Interpréter le modèle et tirer les conclusions PAGEREF _Toc223641384 11III. Quelques techniques de datamingIII.1. Les réseaux de neurones PAGEREF _Toc223641385 13III.2. Réseaux Bayésiens PAGEREF _Toc223641389 15III.3. Support Vector Machine (SVM) PAGEREF _Toc223641392 16III.4. Ensembles flous et logique floue PAGEREF _Toc223641395 17IV. Le text miningIV.1. Présentation PAGEREF _Toc223641399 20IV.2. Pourquoi faire du text mining ? PAGEREF _Toc223641400 20IV.3. Principe de fonctionnement PAGEREF _Toc223641401 20IV.4. Domaine d’application PAGEREF _Toc223641402 21IV.5. Limites du texte mining PAGEREF _Toc223641403 23V. Limites et perspectives du dataminingV.1. Limites PAGEREF _Toc223641405 24V.2. Perspectives PAGEREF _Toc223641406 24Conclusion PAGEREF _Toc223641407 25Bibliographie PAGEREF _Toc223641408 26<br />Introduction<br /> « The best way to predict the future is to invent it».<br />Alan C. Kay<br />Les vingt dernières années en vue exploser l’importance de l’information et la quantité de données stockée sur les ordinateurs, grâce à des périphériques d’entrée de plus en plus évolués et surtout à des supports de stockage toujours plus grands et toujours moins chers (loi de Moore oblige !).<br />Paradoxalement, on devient de plus en plus ‘pauvre’ en information, d’ou l’importance et l’urgence d’une solution pour ‘profiter’ de cette ressource, de plus en plus précieuse, qu’est l’information.<br />Le Datamining contribue à cette solution, en tirant le maximum de valeurs de l’information contenues dans les données ; il concourt ainsi à prévoir les tendances et comportements futurs offrant un meilleur support à la décision.<br />Nous allons tenter d’introduire ce vaste sujet à travers ce petit exposé, nous commencerons par définir ce qu’est le datamining, ensuite nous allons présenter les différentes étapes du processus de datamining, puis nous survolerons qu’elle que techniques misent en œuvre lors de ce processus, puis nous nous arrêterons sur le text mining et enfin, nous aborderons les limites et perspectives de cette technologies.<br />I. Qu’est-ce que le datamining ?<br />I.1. Définition<br />Traduit par « fouille de données » ou plus exactement « forage de  données » pour signifier l’exploitation des données comme on exploite des mines, le datamining est ,d’après le Gartner Group, « un processus non élémentaire de mises à jour de relations, corrélations, dépendance, associations, modèles, structures, tendances, classes, facteurs obtenus en navigant à travers de grands ensembles de données, généralement consignés dans des base de données, navigation réalisée au moyen de méthodes mathématiques, statistiques ou algorithmique. Ce processus peut être itératif et/ou interactif selon les objectifs à atteindre.<br />Ainsi, « Le datamining est un outil qui permet la sélection, l’exploration et la modélisation de volumes important de données afin de mettre en évidence des schémas inconnus et en tirer avantage » [Rom 95].<br />Ces « schémas » seront validés par un analyste qui déterminera ainsi leur pertinence et utilité.<br />Par rapport à l’analyse de données classique, le datamining se présente comme un processus dynamique qui automatise l’utilisation des méthodes d’analyse de données et qui surtout ne présuppose aucune hypothèse mais fait émerger les inférences.<br />Le datamining à notamment pu croitre grâce aux avancées dans le domaine du datawarehouse, en effet, les datawarehouses, c’est « entrepôts de données d’une entreprise contenant à la fois les données opérationnelles enregistrées au fil de l’eau, les données agrégées selon toutes dimensions, les données historicisées, les données de pilotage, et éventuellement toutes données externes à l’entreprise mais ayant une relation possible avec les activités de l’entreprise »(d’après Telecom Business), représente, à coté de l’internet et de l’intranet, une source de choix pour le processus de datamining.<br />I.2. Pourquoi le datamining ?<br />Parmi les facteurs-clefs qui ont contribués à l’émergence du datamining, on peut citer :<br />Existence de valeurs « cachées » dans les grandes bases de données ;<br />Arrivée des datawarehouses ;<br />Accentuation de la compétition sur le marché et saturation croissante de celui-ci ;<br />Mouvement des entreprises vers la personnalisation de l’offre<br />I.3. Objectif du Datamining<br />Schématiquement, six objectifs non exclusifs motivent le processus de datamining:<br />1. Classification - découverte d'une fonction d'apprentissage prédictive qui classe un élément dans une des classes prédéfinies. <br />2. Régression - découverte d'une fonction d'apprentissage prédictive, qui fait correspondre à une variable prédictive une valeur réelle.<br />3. Clustering - tâche descriptive ou l'on cherche à identifier un ensemble fini de segments décrivant les données.<br />4. Summarization - tâche descriptive qui implique des méthodes pour trouver une description compacte d'un ensemble de données. <br />5. Modélisation de la dépendance - découverte d’un modèle qui décrit les dépendances entre des variables ou entre les valeurs d'un élément dans un ensemble de données.<br />6. Détection de changement et de déviation - découvrir les changements les plus significatifs/atypiques dans l'ensemble des données.<br />Il parait clair de cette énumération, que le datamining à principalement deux types de tâches : <br />Prédictives : qui tendent à approximer l’état du système dans le futur<br />Descriptives : qui font ressortir (sous une autre forme) des informations qui existaient déjà.<br />I.4. Applications du datamining<br />I.4.1 Exemples d'applications <br />Le concept de datamining inclut une orientation forte vers l’utilisateur final et plus particulièrement le décideur. Il s’agit donc de faire abstraction de la technologie pour se concentrer sur les résultats-clef du datamining et ainsi pouvoir dégager des politiques efficientes.<br />On peut relever, parmi les utilisations du datamining, les exemples suivants :<br />Segmentation des clients : Classer et grouper les clients selon des caractéristiques et/ou comportements communs permettant ainsi d’avoir une relation privilégiée avec ceux-ci.<br />Fidélisation : il est plus avantageux pour une entreprise de fidéliser ses clients que d’on recruter de nouveaux, aussi, le datamining permet de proposer des offres ciblées et personnalisées selon le type de client et contribuent ainsi à le fidéliser.<br />Déterminer le panier de la ménagère : il s’agit d’identifier les corrélations entre produits achetés par un client, l’analyse, ainsi faites, pourra déceler des opportunités (tel produit est susceptible d’intéresser tel client) et particulièrement de proposer des offres de cross-selling efficaces.<br />Détection de Fraude, d’erreurs (fautes de frappe…etc.) ou tout autre comportement anormal.<br />I.4.2 Champ d’application<br />Le datamining peut être utilisé pour :<br />- La grande distribution avec analyse des comportements des consommateurs, recherche de similarités des consommateurs en fonction des critères géographiques, et prédiction des taux de réponse en marketing direct ; <br />- Les laboratoires pharmaceutiques avec identification des meilleures thérapies pour différentes maladies, optimisation des plans d’action des visiteurs médicaux pour le lancement de nouveaux produits ; <br />- Les banques avec recherche de forme d’utilisation de cartes caractéristiques d’une fraude et modélisations prédictives des clients partants ; <br />- Les assurances avec analyse des sinistres et recherche des critères explicatifs du risque ou de fraude ; <br />- L’aéronautique et l’automobile avec prévision des ventes et dépouillements d’enquête de satisfaction ; <br />- Les télécommunications avec détection des formes de consommation frauduleuses, classification des clients selon la forme d’utilisation des services et prévision du départ des clients. <br />Ces applications sont loin d’être exhaustives puisque le datamining s’illustre dans les disciplines scientifiques confrontées à la détection de motifs (patterns) dans des volumes de données considérables : génomique, astrophysique. <br />I.5. Avantages <br />Le datamining contribue à renforcer la position compétitive de l’entreprise, il permet une meilleure prise de décision et est particulièrement efficace pour le marketing.<br />D’autres avantages pour l’entreprise :<br />Transformer des masses de données en information utile ;<br />Identifier les facteurs qui déterminent le comportement du client ;<br />Identifier les investissements les plus profitables et les moins couteux.<br />II. Le processus de datamining<br />Le datamining est un processus itératif complexe, ou intervient diverses méthodes et techniques, au travers de plusieurs étapes, en effet, il s’agit d’abord, d’étudier les données récoltées et de les examiner à l’aide d’outils analytiques, en les modifiant éventuellement, puis, de recommencer depuis le début, en appliquant éventuellement un nouvel outil à chaque fois, les résultats sont ainsi affinés à chaque itération.<br />Pour chaque technique, et à chaque itération, de nouvelles données sont donc mises à jour, cependant, ce processus n’est jamais aléatoire, loin de la, il s’agit plutôt d’un processus parfaitement planifier ou il faudra décider à chaque étapes, quelles sont les techniques et les données les plus utiles, et surtout les plus prometteuses. [Kan 2003]<br />Néanmoins, il est communément admis, que pour implémenter un processus de datamining, et pouvoir tirer des conclusions à partir des données, il faudra suivre les étapes suivantes :<br />II.1. Formaliser le problème<br />A l’instar de la modélisation de systèmes d’information, la connaissance dite « métiers » est primordiale dans un processus de datamining, ainsi dans cette étapes, l’expert en datamining travaillera conjointement avec l’expert métiers, afin d’identifier les variables pertinentes et de formuler éventuellement les « bonnes » hypothèses, et ainsi, pouvoir formaliser une problématique « qui à du sens ».<br />II.2. Collecter les données<br />Il s’agit de savoir comment les données sont collectées et générées. On distingue, en général, deux approches [Kan 2003]:<br />Approche par expérience préconçus : la génération de données est sous control de l’expert.<br />Approche par observations : le processus de génération de données n’est pas influencé par l’expert.<br />Dans la plus part des cas, la génération de données est aléatoire, on procédera donc par « observations », en effet, la distribution des échantillons est généralement inconnue après la collecte de données.<br />II.3. Prétraitement des données<br />Dans une approche par observation, Les données sont souvent collecter à partir de base de données, de datawarehouses ou de datamarts, ainsi, elles ne sont pas toujours exploitables tel quelles, d’où la nécessité d’une phase de prétraitement en amont.<br />Le prétraitement des données inclue généralement deux taches :<br />Atténuation du bruit : <br />Par bruit, en entend les données inhabituelle et/ou non consistantes, Qui peuvent altérer la pertinence des résultats.<br />Il existe deux stratégies pour atténuer le bruit :<br />Détecter et supprimer (autant que possible) le bruit lors de la phase de prétraitement<br />Développer des méthodes de modélisation robustes insensible au bruit.<br />Sélections des données utiles :<br /> Il s’agit de ne sélectionner que les données qui se rapportent à l’objectif à atteindre ;<br />Par données en entend : l’ensemble des individus, des variables, des dimensions du domaine, et des périodes associées au domaine. [Jam 99]<br />Ainsi, pour sélectionner les individus on pourra procéder par échantillonnage selon le domaine, <br />Et Pour sélectionner les variables et les dimensions, on pourra utiliser le diagramme de Ishikawa [Ish 1985]<br />Toutefois, ces deux méthodes ne sont pas les seules, il existe un large spectre d’activités de prétraitement qu’on pourra mettre en œuvre lors d’un processus de datamining, notamment les différentes méthodes de l’analyse de données. <br />II. 4. Estimer le modèle<br />Cette phase, particulièrement ardue, consiste principalement dans le choix et l’implémentation de la technique de datamining appropriée, et cela selon les objectifs attendus. Il s’agira soit de sélectionner le modèle le plus adéquat parmi une collection de modèles, soit de découvrir carrément celui-ci par apprentissage.<br />On pourra citer parmi ces techniques : les arbres de décisions, réseaux neuronaux, réseaux bayésiens…etc.<br />II.5. Interpréter le modèle et tirer les conclusions<br />L’information dérivée des modèles devra être analysée par un expert métier, elle devra donc être pertinente et surtout facilement “interprétable”.<br />Par ailleurs, Le datamining étant une technologie d’aide à la décision, donc fortement orienté vers les décideurs, les résultats obtenus via datamining devront être présenté sous formes adéquates (tableaux de bord, histogrammes, graphes...etc.) pour pouvoir être exploitable par les décideur (des non informaticiens qui compte sur l’informatique pour leur faire économiser du temps et non pour en gaspiller d’avantage).<br />Il en ressort que le processus de datamining, si on veut qu’il puisse être efficace, doit être conduit conjointement avec un expert du domaine du début jusqu'à la fin, bien plus, ce processus ne pourra être couronné de succès a moins qu’il soit hautement itératif.<br /> Processus de datamining [Kan 2003]<br />III. Quelques techniques de datamining<br />Nous avons vu, dans la partie précédente, que le datamining reposait notamment sur un ensemble d’outils et de techniques analytiques, mis en œuvres pendant la phase d’estimation du modèle.<br />Nous proposons, dans cette partie, d’introduire les techniques les plus utilisées <br />III.1. Les réseaux de neurones<br />Conçu au départ pour étudier le cerveau humain, les réseaux de neurones sont aujourd’hui largement utilisés dans le domaine de l’intelligence artificielle.<br />L’idée de base : modéliser l’unité du cerveau humain ‘le neurone’ sur une machine et assembler plusieurs unités entre elles, afin d’approcher (par analogie) le raisonnement humain.<br />III.1.1. Présentation :<br />Le modèle du neurone formel, conçu par MacCulloch et Pitts, est un modèle mathématique simple issue du neurone biologique, il s’agit d’un modèle de calcul, qui fait la somme de signaux entrant, puis l’a compare à un certain seuil (via une fonction dite d’ « activation »), ensuite, il donne en sortie un ‘1’ si le seuil est atteint, un ‘0’ sinon. <br />Mais l’intérêt des neurones formels est bien plus leurs capacité (et la simplicité) à se regrouper en « réseaux », en effet, pris tout seul un neurone « ne vaut rien », mais constitués en réseau, ils développent une capacité très intéressante en terme « d’apprentissage ».<br />Structure d'un neurone artificiel. Le neurone calcule la somme de ses entrées puis cette valeur passe à travers la fonction d'activation <br />(Source : wikipedia.fr)<br />III.1.2. Principe de fonctionnement :<br />Les réseaux de neurones sont généralement structurés en couches successives, chacune prenant ses entrées dans les sorties de la précédente.<br />En effet, chaque couche ‘i’ est composée de Ni neurones, chacun puisant ces entrées sur les ‘Ni-1’ neurones de la couche ‘i-1’, ainsi de suite, jusqu'à traversé toutes les couches.<br />En outre, chaque synapse (connexion entre neurones) est valué par un poids, l’apprentissage consistant à modifier ce poids [Jam 1999], ainsi pour être efficace les réseaux de neurones doivent pouvoir maitriser ces valeurs, d’où l’importance de la fonction de seuillage, une fonction qui n’introduit pas de non-linéarité rends le réseau inutile.<br />Dans la majorité des réseaux, l’apprentissage est dit supervisé c'est-à-dire qu'on teste le réseau dans des situations connues et on cherche à obtenir la sortie voulue. On effectue alors la modification des poids pour retrouver cette sortie imposée. Il existe aussi des réseaux à apprentissage non-supervisé qui sont capable de quot; mémorisationquot; c'est à dire qu’ils raisonnent par analogie avec ce qu'ils ont déjà effectué. Enfin certains réseaux associent les deux types d’apprentissage.<br />Cependant plus il y a de couche, plus il est difficile de les manipuler, de plus, la plupart des réseaux neuronaux contiennent des boucle ou des mécanismes de rétropropagation, certes indispensables à l’apprentissage, mais qui augmentent encore plus la complexité.<br />III.1.3. Avantages et inconvénients :<br />L'avantage des réseaux de neurones est qu'ils acceptent des données incomplètes, incertaines ou bruitées, bien plus, ils s'enrichissent de leurs expériences. En revanche, leur architecture parallèle nécessite des processeurs spécialisés, et enfin, il est nécessaire de passer par la phase d'apprentissage avant d'utiliser le réseau. <br />III.2. Réseaux Bayésiens<br />III.2.1. Présentation<br />Un réseau bayésien « est un modèle graphique pour des relations probabilistes enfouie dans un ensemble de variables » [Hec]. Il s’agit « d’acquérir, de capitaliser et d’exploiter des connaissances », cela est notamment possible grâce à un socle mathématique solide et un modèle à base de règles.<br />Ainsi, les réseaux bayésien se présente sous la forme de graphes, ou les relations de causes à effets entre les variables ne sont pas déterministes, mais probabilisées : l'observation d'une cause ou de plusieurs causes n'entraîne pas systématiquement l'effet ou les effets qui en dépendent, mais modifie seulement la probabilité de les observer.<br />Largement appréciés dans les systèmes ou l’incertitude est forte, les réseaux bayésien peuvent être décrit manuellement par les experts du domaine ou bien être générés automatiquement par apprentissage, ainsi, un réseau bayésien permet soit de représenter une connaissance qu’on a, soit de découvrir de nouvelles.<br />III.2.2. Principe de fonctionnement<br />Les Réseaux bayésiens sont un savant mariage entre les probabilités et la théorie des graphes, en effet, un réseau bayésien est constitué d’un ensemble de parties « simples » associées entre elles (un graphe) à l’aide de probabilités.<br />A partir de ce graphe, on pourra faire de l’inférence, ainsi on pourra naviguer dans ce graphe, soit à partir des « évidences » et déterminer les causes (l’herbe est humide, il à donc dû pleuvoir) ce qu’on appelle « diagnostique » (approche bottom-up), soit à partir des causes ou des « croyances » et inférer les effets (approche top-down) [Mur 2001].<br />Une autre utilisation des réseaux bayésiens, dite « par apprentissage », consiste à découvrir les paramètres et la structure du réseau, et ce sans connaissances préalables du domaine, afin d’inférer des résultats pertinents ; elle peut être misent en œuvres via des techniques supervisées ou non supervisées.<br />III.3. Support Vector Machine (SVM)<br />III.3.1 Présentation<br />Techniques assez récentes, apparu vers 1998, Les machines à vecteur de support ou séparateurs à vaste marge (Support Vector Machine, SVM) sont un ensemble de techniques d’apprentissage supervisé conçus principalement pour résoudre les problèmes de classification.<br />S’appuyant sur une théorie statistique solide (théorie de Vapnik-Chervonenkis.), les SVM ont rapidement conquis la sphère du datamining [Wri 2009], elles sont notamment prisées pour la « précision de leurs prédictions ». [Tuf 2007]<br />On utilise généralement les SVM pour de la classification et de la régression, cependant, une utilisation lors de la phase de sélection et de prétraitement des données, pour le « nettoyage » des celles-ci, commence à être considérée [Guy & al.].<br />Toutefois, les SVM ont été brevetées au Etats-Unis par les inventeurs originels.<br />III.3.2. Principe de fonctionnement<br />Pour faire simple, la technique des SVM consiste à séparer les données en entrées via une frontière linéaire (un hyperplan).<br />Les SVM reposent sur deux concepts clefs [Tuf] :<br />Marge maximale : il s’agit de maximiser la distance entre la frontière de séparation (l’hyperplan) et les échantillons (données en entrée) les plus proches, dit vecteurs supports.<br />Transformer l’espace d’origine de représentation des données en un espace de plus grande dimension (éventuellement infini) pourvu d’un produit scalaire tel qu’il existe un séparateur linéaire dans cette espace. La transformation est effectuée grâce à une fonction dite noyau.<br />Il s’agira donc de trouver le séparateur linéaire optimal qui maximise la marge et ainsi rendre le problème initial un problème d’optimisation.<br />L'hyperplan optimal (en rouge) avec la marge maximale. Les échantillons entourés sont des vecteurs supports.<br />(Source : Wikipedia.org)<br />III.4. Ensembles flous et logique floue<br />III.4.1. Présentation :<br />Le concept de logique floue à été formalisé par Lotfi A. Zadegh (Actuellement Professeur à l’université de Berkeley) en 1965, il étend la théorie mathématique des ensembles, mais part principalement de considérations du monde réelle, en effet, là ou la logique « classique » considère une proposition comme soit vrai soit fausse, la logique floue distingue une infinité de valeurs entre ces deux « bornes », ainsi en logique classique l’eau ne peut être que chaude ou bien froide, en fonction d’une valeur seuil, en revanche, la logique floue contourne cette aberration, l’eau peut être au même moment chaude et froide mais à des degrés différents : l’eau est tiède !<br />En réalité, la valeur seuil de la logique classique devient une fonction seuil dans la logique floue, fonction qui va déterminer le degré d’appartenance à chaque catégorie.<br />°C°CFroid<br />Chaud<br />Logique classiqueLogique floueChaudFroid <br />tt<br />III.4.2. Principe de fonctionnement :<br />Pour implémenter une logique floue, il faudra passer par les étapes suivantes :<br />fuzzification (quantification floue)<br />A partir des variables d'entrée et des fonctions d'appartenance, le système commence par déterminer le degré d'appartenance de chaque variable à chaque état. On constate qu'une variable peut être simultanément dans chaque état (l’eau est chaude et froide). <br />Application des règles. <br />La logique flou procède aussi par règles d’inférence (si … alors …)<br />Par exemple, Si la température est faible alors chauffer plus fort.<br />A l’instar aussi de la logique classique, on peut utiliser des connecteurs ‘et’, ‘ou’ et ‘non’ ; mais aussi, des connecteurs de précision du type ‘environ’, ‘exactement’…etc. <br />En appliquant les règles, on obtient le degré d'appartenance des variables de sortie à chaque état (appartenance à l’ensemble flou).<br />Defuzzification<br />Il s’agit du processus de production de résultat quantifiable, ainsi, les variables en sortie de ce processus auront des valeurs précises déduites à partir des degrés d’appartenance, pour ce faire, il existe différentes algorithmes notamment celui du maxima. [Lee & al]<br />La logique floue est particulièrement pertinente pour le datamining , en effet, les données collectées, de par leur taille importante, sont souvent imprécises et/ou incertaines, en outre, cette techniques est plus facile à mettre en œuvre que les autres techniques de datamining, bien plus, il est plus aisé de trouver automatiquement des modèles « floues » à partir des données que d’autres modèles. [Kan 2003]<br />III.5. Conclusions sur les techniques de datamining<br />La liste présentée ici est loin d’être exhaustive, nous pouvons aisément rajouter d’autres techniques telles que les arbres de décision, les algorithmes génétiques et autres heuristiques.<br />Il reste que toutes ces techniques sont de plus en plus puissantes, cependant qu’elle que soit leur puissance, le datamining reste un processus itératif ou, pour réussir, il faudra connaitre et maitriser chaque maillon de la chaine, en effet, quel que soit la technique utilisée lors de l’estimation du modèle, le résultat ne sera pas valide si les données ne sont pas collecter et traiter convenablement, ou pire, si la formalisation du problème est fausse.<br />IV. Le Text Mining <br />IV.1. Présentation<br />Le text mining n’est autre que du datamining appliqué à des données textuelles, c’est donc un processus automatisé qui produit, à partir d’un texte, une information initialement inconnu mais de grande qualité(en terme de pertinence et d’actualité); il s’agira donc dans un premier temps de structurer le texte, ensuite, de le traiter afin de faire apparaitre des modèles dans les données structurer obtenues, et enfin, d’interpréter les résultats.<br />Contrairement à la Recherche d’Information (principalement utilisée dans les moteurs de recherches), Le text mining classe l’information, crée des liens entre des documents non connectés et affiche (à l’instar du datamining), sous formes appropriées, des résultats qui auraient été ignorés sinon.<br />IV.2. Pourquoi faire du text mining ?<br />Principalement pour :<br />classifier automatiquement des documents.<br />avoir un aperçu sur le contenu d’un document sans le lire.<br />alimenter automatiquement des bases de données.<br />faire de la veille sur des corpus documentaires importants.<br />enrichir l’index d’un moteur de recherche.<br />IV.3. Principe de fonctionnement<br />Le processus de text mining passe essentiellement par deux étapes :<br />L’analyse du texte et l’extraction d’information : <br />Cette étape consiste, via des méthodes linguistiques, à appliquer successivement sur une phrase :<br />Une analyse lexicale : découpage en mot et identification de la langue<br />Analyse morphosyntaxique : association de chaque mot avec sa catégorie syntaxique<br />Analyse syntaxique : analyse de la structure de la phrase<br />Analyse sémantique : compréhension du sens de la phrase<br />Classification : <br />Il s’agit, ici, d’identifier et de classer les différentes thématiques abordées dans un corpus, on peut attaquer cette phase avec  une approche statistique, sémantique ou les deux on même temps. [Fau 2007] <br />Approche statistique : elle s’attache à révéler le texte sous l’angle des chiffres, nombre d’occurrence et de cooccurrence sont entre autres les outils généralement adopté sous cette approche ; cependant, parce qu’elle ne tient pas compte des spécificités et du contexte des documents, elle est souvent considérée comme moins performante qu’une approche sémantique.<br />Approche sémantique : la démarche ici consiste à confronter les données avec un « référentiel », une base ou sont consignés divers informations sur un domaine précis (liste de mots clefs, thésaurus, ontologies…etc.), et ainsi tirer des informations qui viendront enrichir le document initial, par exemple, grâce à cette approche l’application déduira que « Kateb Yacine» , trouvé tel quel dans un document, est un écrivain algérien, car le moteur de text mining aura cherché et trouvé ce nom dans un référentiel des auteurs connus, sous la catégorie « écrivain algérien ».<br /> En outre, Les lois bibliométrique peuvent contribuer à optimiser les résultats de la phase de classification [Gri 2006].<br />IV.4. Domaine d’applications<br />Dans le monde réel, et au-delà de l’activité dans le domaine de la recherche universitaire, <br />le text mining creuse son chemin et s’émancipe de plus en plus, notamment en entreprise.<br />On peut rencontrer le text mining en:<br />Sécurité et Intelligence économique <br />Identifier les actions ou les faits susceptibles de présenter une menace, et identifier les leaders d’opinion et les suiveurs afin de préparer des actions efficaces d’influence ou de contre-influence ;<br />Nous pouvons citer dans cette catégorie, le système de surveillance « ECHELON », l’un des plus grand logiciel de text mining au monde, qui vise l’interception et l’analyses des communications mondiales privées et publiques.<br />Marketing et CRM :<br />Mieux comprendre les besoins de ces clients via l’analyse de leurs réclamations, et l’analyse de sentiments, afin d’anticiper un départ chez un concurrent, de proposer de nouvelle offres…etc.<br />Knowledge Management, ou gestion des connaissances en entreprise :<br />Le text mining pourra contribuer à identifier et classer automatiquement les documents pertinents pour l’entreprise, les travailleurs les plus actifs mais aussi à faire des résumés automatiques de CV.<br />Logiciels<br />Les départements R&D des plus grandes entreprises en informatiques, travaillent activement dans le domaine du text mining notamment dans la recherche et l’indexation de contenus.<br />Media Online<br />Le texte mining de contenu online, ne cesse d’intéresser, notamment du fait de la « meilleure » indexation qu’il offre, mais surtout grâce la possibilité de monétiser les résultats obtenus (comme le fait déjà le système AdSend de Google) ; le text mining peut aussi présenter une solution efficace contre le spam.<br />Applications biomédical<br />Il s’agit d’un domaine assez récent mais très porteur, en effet, face à l’abondance de textes en matière de biosciences, notamment sous formats électroniques, le text mining peut apporter des solutions efficaces par la constitution automatique de résumés, et surtout par la possibilité et la facilité de suivi qu’il offre, ainsi on pourra synthétiser les données relatives à un domaine précis mais aussi, et surtout, celles relatives à toutes les implications et les interactions qu’il entretien avec les autres domaines scientifiques, pour n’en garder que l’essentielle. [Gue 2003].<br />IV.5. Limite du texte mining<br />Il existe principalement deux limites aux pratiques de text mining [Hea 2003]<br />L’impossibilité, pour l’instant, de compréhension et d’interprétation (comme un cerveau humain) d’un texte par une machine<br />Tout n’est pas textuel ! En particulier, les plus grandes décisions, négociations et autres activités stratégiques sont le plus souvent orales ou du moins sous formats non numérisés. <br />Conclusion<br />Avec plus 80% des données actuellement enregistrées dans le monde sous forme textuelle, le text mining est amener inévitablement à se développer, toutefois, ce développement devra être multi-linguiste pour être efficace.<br />D’autre part, le plus grand défi du text mining dans les années à venir sera certainement sa capacité a ce démocratiser et à offrir des solutions intéressantes, notamment pour le grand public, pour le traitement des informations disponible publiquement.<br />V. Limites et perspectives du datamining<br />V.1. Limites<br />On relève généralement deux écueils qui limitent l’utilisation du datamining : l’effort important pour développer chaque application ; et l’état inapproprié des données.<br />En effet, le datamining souffre (plus que d’autres ?) des affres de l’ingénierie logicielle, il s’agit d’un processus complexe et difficile à gérer, bien plus, son caractère transversale (le datamining concerne les fonctions de manager, analyste, développeur…etc.) requière un large éventail de compétences, autant technique que métier, qui viennent le plus souvent à manquer, conséquemment, le datamining pose beaucoup de problèmes en terme de coût, délai, qualité et organisation. <br />En outre, et même si les datawarehouses tendent à atténuer ce problème, les données qui alimentent le processus de datamining sont souvent réparties sur plusieurs base de données, dans différents formats (souvent incompatible), pire, les données sont souvent incomplètes ou même erronées.<br /> V.2. Perspectives<br />La découverte automatique de schémas et l’analyse des tendances promettent beaucoup aux entreprises, et avec la montée en puissance des systèmes de traitement parallèle, le Datamining promet l’analyse de base de données plus importantes dans un minimum de temps, mais surtout, il promet l’exploration plus approfondie de ces base de données (toutes les combinaisons de variables pour toutes les lignes) et ainsi produire des informations largement plus pertinentes. <br />Aussi, le datamining est amener à se développer et a être plus simple à mettre en œuvre et ainsi, il pourra être adopté plus facilement notamment par les PME.<br />Une autre utilisation qui pourrai s’élargir, c’est le datamining « domestique », utilisé le datamining dans des applications aussi diverse qu’un lecteur multimédia, web browser et autres logiciel pour ordinateurs personnel pourrai être le prochain grand champ d’application du datamining.<br />Conclusion<br />Le datamining est un processus très puissant qui permet de faire ressortir des informations cachées auparavant. Utilisé surtout en entreprise ou il procure de nombreux avantages concurrentielles, il exploite des données en entrées pour produire des informations et surtout de la connaissance qui est à l’origine de ces fameux avantages. Il s’agit d’un formidable outil appelé à ce démocratisé et à ce développé, un outil apte à nous assister pour faire face aux défis, toujours plus complexe, qui nous attendent dans cette « âge d’or » de l’information.<br />Enfin, Ce travail ne représente qu’une infirme particule dans un corpus immense, il ne vise nullement l’exhaustivité et n’ambitionne qu’introduire ce très intéressant sujet qu’est le datamining.<br />Aussi, il semble judicieux, en complément de ce travail, d’envisager les quelques points suivants :<br /> Se pencher un peu plus sur les théories mathématiques et statistiques derrières les concepts énoncés ici.<br />Détailler les tâches du datamining : clustering, régression…etc.<br />Explorer d’autres techniques pour le datamining tels que les algorithmes génétiques.<br />Explorer le web mining<br />Mettre cette partie théorique en pratique, au sein d’une entreprise.<br />Bibliographie & Webographie<br />DataMining<br /> [Ish 1985] Ishikawa K., quot; What is total quality control? The Japanese wayquot; , Prentice Hall, 1985.<br />[Kan 2003] Kantardzic M., quot; Data Mining: Concepts, Models, Methods, and Algorithmsquot; , John Wiley & Sons, 2003.<br />[Jam 1999] Jambu M., quot; Introduction au datamining, Analyse intelligente des donnéesquot; , Eyrolles, 1999.<br />Reseaux Bayésiens<br />[Hec 1997] Heckerman D., quot; Bayesian Networks for Data Miningquot; , Juin 1997, <http://www.springerlink.com/content/l582u1n1061g7qh7/fulltext.pdf>.<br />[Mur 2001] Murphy K., quot; A Brief Introduction to Graphical Models and Bayesian quot; , <br />3 October 2001, <http://www.cs.berkeley.edu/~murphyk/Bayes/bayes.html>.<br />SVM<br />[Guy & al.] Guyon I., Vapnik V., quot; Discovering Informative Patterns and Data Cleaning quot; , <http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=D54574EAA4F8AEADCB1909D17F6EC82D?doi=10.1.1.21.6479&rep=rep1&type=pdf>, consulté le: 28 fevrier 2009.<br /> [Man 2001] Mangasarian Olvi L., quot; Data Mining via Support Vector Machinesquot; , Juillet 2001, <http://www.google.com/url?sa=t&source=web&ct=res&cd=3&url=http%3A%2F%2Fftp.cs.wisc.edu%2Fmath-prog%2Ftalks%2Fifip3tt.ppt&ei=pHCoSYybHJKv-AaOqdC4Ag&usg=AFQjCNFuGzuxQaUBCcNug9OF687L28mICw&sig2=6tD-a-JHyl0WbmV_uRRO9w>.<br />[Tuf 2007] Tufféry S., quot; Techniques prédictives de data mining 2 : réseax de neurones, SVM et algorithmes génétiquesquot; , 01 mai 2007, <http://data.mining.free.fr/cours/Neurones.PDF>.<br />[Wri 2009] Wright M ., quot; SVM Application Listquot; , <br /><http://www.clopinet.com/isabelle/Projects/SVM/applist.html>, consulté le: 28 fevrier 2009.<br />Logique Floue<br />[Lee & al] Van Leekwijck W., Kerre E., quot; Defuzzification: criteria and classification quot; , 1 Septembre 1999, <http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6V05-3X9JJS7-3&_user=10&_coverDate=12%2F01%2F1999&_alid=698262587&_rdoc=2&_fmt=summary&_orig=search&_cdi=5637&_sort=d&_docanchor=&view=c&_ct=2&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=210a113d102941da62cfdaa0cb37d9b6>, consulté le: 28 fevrier 2009 .<br />Text Mining<br />[Fau 2007] Fauré C., quot; Introduction au Text-miningquot; , 30 mai 2007, <http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/>.<br />[Gri 2006] Grivel L., quot; Comment faire face à l'explosion des volumes d'information, le text mining et ses applicationsquot; , janvier 2006, quot; La revue trimestrielle du reseau Ecrinquot; , N° 62.<br />[Gue 2003] GUERNSEY L., quot; Digging for Nuggets of Wisdom quot; , 16 October 2003, <http://query.nytimes.com/gst/fullpage.html?res=950CE5DD173EF935A25753C1A9659C8B63>.<br /> [Hea 2003] Marti Hearst., quot; What Is Text Mining?” 17 October 2003 , <http://people.ischool.berkeley.edu/~hearst/text-mining.html>.<br />