SlideShare una empresa de Scribd logo
1 de 8
Descargar para leer sin conexión
30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.
Page 1 sur 8http://lecercle.lesechos.fr/print/69745
Publié sur Le Cercle Les Echos (http://lecercle.lesechos.fr)
Text Mining, Sentiment Analysis, Big Data.
Espaces vectoriels et sémantique distributionnelle…
Introduction
A l’ère du digital et de la société de l’information nous conjuguons deux phénomènes
auxquels les entreprises sont confrontées et doivent faire faces: le déluge informationnel «
Big Data » et le déluge publicitaire que j’ai désigné par l’expression « Big Ads » dans un
article précédent. Avec l’évolution du web 2.0 vers ce que l’on appelle désormais le web 3.0
ou web sémantique, on assiste à une explosion des données textuelles, données non
structurées par excellence et qui soulèvent nombre de questions et de potentialités pour les
entreprises qui ne peuvent en ignorer l’existence et les impacts sur leur écosystème :
collaborateurs, fournisseurs, image de marque, notoriété, tous les composants du mix-
marketing, concurrents, prospects et clients…
Le passage du Web 2.0 au Web 3.0 a eu pour conséquence de créer la diffusion d’une
communication sociale sans limite dans l’espace et le temps, une conversation sociale
ubiquitaire qui se traduit par l’émergence des plates-formes de blogging, d’espaces
d’expression tels que les forums, les sites acceptant les commentaires, et surtout les
échanges conversationnels via les réseaux sociaux tels que Facebook, Twitter, Foursquare,
Linkedin, Viadeo, Pinterest, Slideshare pour former une réunion de moyen de communication
sociale et pervasive (omniprésence) entre individus à distance et sans précédent.
Tout ce contenu textuel généré par les internautes s’appelle « User Generated Content ». Ce
nouvel espace d’expression représente une gigantesque manne et mine d’informations,
notamment en termes d’avis, d’idées, de jugements, de commentaires, d’opinions
susceptibles d’être exploitées à des fins diverses. Les données textuelles, notamment,
peuvent être analysées dans différents buts. Par exemple, dans le domaine de la fouille
d’opinion (Opinion Mining), les textes sont utilisées afin de permettre à des entreprises de
connaître automatiquement l’image que les consommateurs ont de leur marque, de leurs
produits, de leurs services, de leurs concurrents, d’un marché, de même pour les projets et
les personnalités politiques, réaliser des sondages, détecter des rumeurs, anticiper des crises
etc. En effet, les textes rédigés par les internautes sont en général plus subjectifs que les
articles rédigés par des professionnels et sont donc beaucoup plus porteurs d’opinion.
Dès lors, toutes les initiatives en matière de recherche d’information (Information Retrieval),
30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.
Page 2 sur 8http://lecercle.lesechos.fr/print/69745
d’indexation et d’analyse du langage automatisé via le web font appel à des techniques de
plus en plus sophistiquées, mais qui reposent sur des bases algorithmiques souvent simples
empruntées à la logique booléenne, aux statistiques et/ou à une approche probabiliste qui
finalement en limite l’efficience. Nous verrons qu’il existe une voie inexploitée en France qui
fait référence à l’algèbre linéaire et aux bons vieux espaces vectoriels : au recours à la
fonction cosinus, aux produits scalaires et autres souvenirs en mathématiques que nos
confrères américains n’ont pas manqués d’utiliser pour développer les Lucene, Yahoo !,
Google ou encore Bing… Les technologies utilisées aujourd’hui en Text et Opinion Mining
mais aussi en Search ont évoluées considérablement depuis 10 ans et font références aux
dernières avancées en Intelligence Artificielle et en Linguistique Computationnelle pour
permettre à de nouveaux acteurs du Web Semantic d’utiliser le modèle vectoriel dans la
fouille, l’analyse et la clustérisation des data afin de contribuer au traitement du déluge
informationnel (Big Data).
Nous verrons notamment avec l’apparition de la Sémantique Distributionnelle (Distributional
Semantic) l’utilisation de l’analyse sémantique fondée sur le modèle vectoriel se propose de
réduire les dimensions de l’espace linguistique investigué, d’optimiser les calculs, d’affiner les
résultats obtenus le tout par la maximisation des capacités computationnelles au service du
sens, d’une meilleure interprétation des data textuelles (data non structurées)...
1/ Du Text Mining au Sentiment Analysis…
La fouille d’opinion (Opinion Mining) est un sous-domaine de la fouille de textes (Text Mining) qui consiste à analyser des
textes afin d’en extraire des informations liées aux opinions et aux sentiments (Sentiment Analysis). Le terme Opinion Mining
apparaît dans un article de Dave en 2003 qui a été publié dans l’acte de conférence WWW 2003. Selon Dave, l’Opinion
Mining devrait « traiter un ensemble de résultats de recherche pour un cas donné, générer une liste des attributs (qualité,
caractéristiques, etc.) et agréger des avis sur chacun d’entre eux (mauvais, modéré, de bonne qualité) ». Toutefois, l’Opinion
Mining a récemment été interprétée de manière plus générale pour inclure de nombreux types d’analyse d’évaluation de
texte.
Le terme « Analyse des Sentiments » est utilisé pour décrire l’analyse automatique de texte évaluatif et pour la recherche de
valeur prédictive des jugements. Elle a été introduite dans les travaux de Das et Chen en 2001 afin d’analyser des
sentiments dans le cadre de l’économie de marché. Depuis 2002, un nombre important d’articles citant l’Analyse des
Sentiments ont vus le jour, ces travaux se concentrent sur la classification des commentaires et à leur polarité (positif ou
négatif). Aujourd’hui, l’Opinion Mining et l’Analyse des Sentiments font partie du même domaine de recherche. L’une des
tâches de la fouille d’opinion, appelée classification d’opinion et a pour objectif de classer les textes suivant l’opinion qu’ils
expriment. Cette classification peut se faire sur deux classes (positif ou négatif), sur trois classes (positif, négatif ou neutre)
ou sur plus de classes encore. Ces classes sont ordonnées et peuvent donc être assimilées à des notes.
Ainsi, les internautes ont à leur disposition une tribune sans précédent, de portée et de
puissance, permettant de partager leurs expériences et de marquer leur avis (positifs ou
négatifs) sur n’importe quel sujet, sur n’importe quelle marque, sur n’importe quel produit ou
service. Les entreprises peuvent répondre aux besoins des consommateurs en effectuant de
la surveillance et de l’analyse des opinions pour améliorer leurs produits et leurs services.
Malheureusement le risque de modification des opinions est important. De ce fait, il est
nécessaire d’avoir un système capable d’analyser automatiquement les comportements
généraux liés à la consommation, afin de mieux comprendre comment les différents produits
et les services sont perçus par les clients. Un tel système devrait premièrement collecter les
opinions des consommateurs et des utilisateurs dans des documents qui montrent les
opinions et les phrases subjectives. Parfois, cela est relativement facile, comme dans les cas
de grands sites où les opinions des utilisateurs sont bien structurées comme par exemple
30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.
Page 3 sur 8http://lecercle.lesechos.fr/print/69745
Amazon.com, Allociné.com.
Le problème devient plus complexe dans le cas des blogs ou de sites à forte audience avec
une grande partie dédiée au blogging tels que Doctissimo.com, Auféminin.com, pour n’en
citer que deux et qui contiennent aussi bien des parties de texte de fonds rédigées par des
journalistes professionnels et des parties plus subjectives, qui peuvent varier assez largement
dans le contenu, le style, la présentation, la structure syntaxique et la grammaticalité. Il est
très intéressant de travailler sur des commentaires venant des blogs car ils sont plus
pertinents que sur les sites de vente, car plus détaillés, plus détachés de « l’opinion des
autres » et de la modération supposée du site ; enfin ils sont généralement plus expressifs
quant à l’intensité des opinions exprimées elles-mêmes.
Une fois que les documents intéressants sont collectés, nous sommes confrontés au
problème d’identification de l’ensemble des avis et sentiments exprimés par ces documents.
Pour résoudre cette tâche, il faut préciser le domaine d’intérêt, car si par exemple nous
notons les opinions sur un produit de grande consommation ou sur un produit bancaire nous
remarquons que la langue est spécifique à un secteur, cette spécificité linguistique tient à la
technicité et à la richesses du vocabulaire utilisé dans un secteur donné : c’est pourquoi ces
mêmes attributs linguistiques peuvent être groupés dans des ensembles prédéfinis ce qui
facilitera l’analyse automatique. La dernière étape est de présenter les résultats de sa
notation en précisant l’intensité de chaque opinion, car la simple polarité (positif/négatif) ne
suffit plus.
Comme nous l’avons rappelé précédemment, depuis l’avènement d’Internet et par
conséquent l’explosion de l’information disponible, la recherche d’information ou « information
retrieval » s’est vue confrontée à de nouveaux problèmes comme par exemple la
surabondance d’information, la redondance, le problème de la qualification de l’information...
La recherche d’information ne concerne plus seulement la documentation : des techniques de
recherche d’information apparaissent dans de nombreux domaines tels que l’analyse de
données, la bio-informatique, la linguistique, les statistiques, l’optimisation de grandes bases
de données, l’intelligence artificielle... La grande variété des méthodes souligne la diversité
des communautés qui travaillent sur le domaine de la recherche d’information. Le terme «
recherche d’information » ou « information retrieval » est employé pour la première fois par
Moers pour désigner le processus d’indexation automatique et de recherche d’information.
Les premiers projets de recherche d’information portaient sur l’indexation de documents
(projet Cranfield, projet SMART...).
2/ Les modèles mathématiques sous-tendant le Text Mining : dépassement de la logique booléenne par l’algèbre linéaire…
Nous présentons ici deux modèles de systèmes de recherche d’informations qui sont utilisés par différents types de sociétés
: d’une côté des entreprises récentes positionnées sur le marché de l’e-réputation et de l’autre des éditeurs de logiciel en «
open source » de type Lucene, SolR ou encore les fameux « moteurs de recherche » tels que Yahoo ! Google ou Bing.
Le premier modèle dit « modèle booléen » est plutôt classique et limité mais encore utilisé par
des start-ups françaises spécialisées dans la e-réputation. En effet, ce modèle issu de la
logique classique est très limité, peu opérant dans un environnement Big Data du fait de sa
conception théorique (mathématique). Dans le modèle Booléen, chaque document Di est
représenté par un ensemble de descripteurs {d1,..,dj,...,dn}. Tous les descripteurs des
documents sont rangés dans un fichier appelé dictionnaire. Une requête est composée d’un
ensemble de descripteurs et un ou des opérateurs logiques comme « ET », « OU » ou « NON
». Par exemple, je recherche un document en français sur le modèle booléen en recherche
30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.
Page 4 sur 8http://lecercle.lesechos.fr/print/69745
d’information, ma requête pourra s’écrire : « modèle ET booléen ET recherche ET information
». Le système évalue chaque document en fonction de la requête : ainsi tous les documents
dont la liste des descripteurs correspond à la requête seront fournis à l’utilisateur. Sur notre
exemple, tous les documents ayant exactement dans leur liste « modèle », « booléen », «
recherche » et « information » nous seront présentés. Les documents auxquels il manquerait
un descripteur ne seront pas fournis. Les principaux avantages de ce modèle sont :
– sa transparence : l’outil restitue les documents qui répondent exactement à la 
requête de
l’utilisateur,
– sa facilité de mise en œuvre. 

Il présente néanmoins des limites sérieuses et rédhibitoires:
– la nécessité d’une bonne maîtrise des opérateurs pour obtenir exactement ce 
que l’on
cherche,
– les documents ne sont pas classés et leur nombre pas maîtrisé,
– raisonnement et fonctionnement binaires,
– un document qui ne correspond pas à la requête sur un seul point sera rejeté.
Le second modèle qu’est le « modèle vectoriel » nous paraît beaucoup pertinent, beaucoup
plus actuel et très efficace. En effet, ce modèle à rapidement été décrit dans la littérature
spécialisée comme extrêmement innovant et opérant dans un environnement flou, complexe
et de déluge informationnel (Big Data). En effet, contrairement au modèle booléen, l’utilisateur
n’a pas besoin d’exprimer sa requête à l’aide d’opérateurs. Les documents et les requêtes
sont représentés par des vecteurs : à chaque composante du vecteur est associé un
descripteur issu de l’indexation. La valeur de la composante est le poids attribué au
descripteur par rapport au document. Le modèle le plus simple est : 

– on met la composante à 1 si le descripteur est attribué au document, 

– 0 sinon.

Un document est d’autant plus pertinent à une requête que le vecteur associé est similaire à
celui de la requête. Ainsi, on va utiliser un calcul de similarité pour obtenir une liste ordonnée
de documents pertinents. Dans un espace de mot, les divers sens d'un terme se distinguent
par des valeurs différentes d'un certain nombre de paramètres (informations sur le contexte
du mot, lexicales, syntaxiques, sémantiques, etc.). Chaque sens (ou emploi) du mot est donc
représenté par une région de son espace sémantique, plus ou moins grande dans une
dimension donnée, et les proximités de sens entre acceptions se traduisent dans l'espace par
des relations de voisinage ou de recouvrement. La représentation en espaces vectoriels
sémantiques est donc particulièrement adaptée pour rendre compte des phénomènes
sémantiques tels que la polysémie car ils permettent de déterminer avec précision le sens de
chaque acception d'un terme ambigu tout en conservant la notion de proximité, essentielle,
dans la définition-même de la polysémie.
La désambiguïsation consiste alors à étudier la position du vecteur représentant une
acception donnée à désambiguïser dans l'espace sémantique du mot et à lui assigner le sens
le plus proche. L'idée de base de la clustérisation est de regrouper ensemble des objets qui
se ressemblent dans une ou plusieurs dimensions données, en l'occurrence des mots
regroupés en classes de voisins/co- occurrents. En analyse des données, le but de la
clustérisation est de créer un partitionnement d'un ensemble de données (mots, documents)
en un ensemble de sous-classes pertinentes, appelées « clusters » (grappes), représentées
par un « centroïd » ou barycentre (élément le plus représentatif ou moyenne de tout ou partie
de leurs membres).
30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.
Page 5 sur 8http://lecercle.lesechos.fr/print/69745
Le choix de la méthode de calcul de la similarité entre les objets du modèle (mots,
documents) dépend du choix du modèle de représentation (espaces vectoriels, graphes,
arbres de décision, etc.). Dans le cas de notre modèle vectoriel, le point de départ de cette
méthode est un espace vectoriel sémantique de grande dimension construit à partir d'un
corpus et dont la dimensionnalité est souvent réduite à l’aide de divers procédés de réduction
matricielle, notamment la décomposition en valeur singulière on parle de Latent Semantic
Analysis (LSA).
3/ De la sémantique distributionnelle…
C’est en 1968 que Gérard Salton définit pour la première sa fonction Cosinus Similarité : le Cosinus de Salton est l'analyse
de la pertinence d'une page (=un document) par rapport à un requête. Il présente pour la première fois le modèle vectoriel.
Cette technique était principalement utilisée par les renseignements généraux et autres agences d’espionnage à l’époque.
Elle permet aujourd’hui de prendre un texte et de le transformer en un vecteur, ainsi l'ensemble d'un texte peut faire ressortir
une idée, un concept. Cette approche va se propager dans tous les milieux de la linguistique et de l’intelligence artificielle
durant près de 20 ans et pour finalement produire en 1990 un nouveau type d’analyse la Latent Semantic Analysis qui
s'appuie sur la matrice utilisée par Salton pour y appliquer des méthodes de réduction matricielle via la Décomposition en
Valeur Singulière (SVD).
En effet c’est en 1990, dans un article fondateur pour la sémantique vectorielle que
Deerwester, Dumais, Landauer et al (Indexing by Latent Semantic Analysis, Journal of The
American society for Information Science, sept.1990 ; 41, 6) définissent les bases de Latent
Semantic Analysis (LSA) en mettant au point une méthode de représentation sous la forme
d’un espace sémantique de très grande dimension, du sens contextuel des mots à l'aide de
calculs statistiques sur un large corpus qui leur permettent d'inférer des relations profondes
entre mots ou ensembles de mots. L'information de base utilisée par cette technique est la
distribution des mots dans la somme de leurs contextes. L'idée sous-jacente est que la
somme de tous les contextes d'apparition ou non d'un mot fournit un ensemble de contraintes
mutuelles qui déterminent largement la similarité sémantique entre mots et ensembles de
mots.
Le point de départ de la Latent Semantic Analysis est une matrice de cooccurrences dont les
dimensions sont les mots et leurs contextes d'apparition à laquelle on applique une
décomposition en valeurs singulières, cette technique s’appelle la (SVD) qui produit une
sorte de lissage des associations mot-à-mot. La matrice de cooccurrences est ainsi
transformée en une matrice plus petite contenant la partie la plus pertinente de l'information
contenues dans les cooccurrences initiales. Ceci permet de résoudre le problème de la
disparité des fréquences de cooccurrence (probabilités nulles) entre mots entraînée par le fait
que, même dans un grand corpus de textes, la plupart des mots sont relativement rares. Cela
permet non seulement d'améliorer la complexité en temps (pour le calcul des distances ou
des plus proches voisins) mais aussi en espace puisque la caractérisation d'un mot devient
plus petite. Le positionnement des mots et de leurs sens, représentés par des vecteurs, dans
l'espace sémantique ainsi obtenu permet toujours de mesurer leur proximité par le cosinus.
Les clusters peuvent ensuite être construits à partir des vecteurs des mots proches dans
l'espace. Le cosinus permet de calculer l'angle entre deux vecteurs, soit comparer leur
direction. Comme les documents et les requêtes sont des vecteurs, on peut calculer leur
proximité par leur cosinus. La valeur du cosinus est normée (entre 0 et 1, car les
composantes sont positives) :
- si le cosinus tend vers 1 => les deux documents sont proches
- si le cosinus tend vers 0 => les deux documents sont éloignés
30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.
Page 6 sur 8http://lecercle.lesechos.fr/print/69745
La pertinence d'une requête par rapport à un document n'est pas binaire (ex. cosinus entre
vecteurs) par opposition au modèle booléen. On constante une très nette amélioration de la
précision de la réponse du système, auxquels on peut ajouter la grande simplicité et la
popularité du modèle issu de l’algèbre linéaire. On parle de Similarité Cosinus (ou mesure
cosinus) permet de calculer la similarité entre deux vecteurs à n dimensions en déterminant
l'angle entre eux. Elle est représentée par la formule ci-dessous :
cos(thêta) = A . B / ||A|| ||B||
Soient deux vecteurs A et B, l'angle s'obtient par le produit scalaire et la norme des vecteurs.
Les valeurs, et donc les objets qu’elles représentent, peuvent alors être interprétées comme
des vecteurs formant un espace vectoriel. L’avantage de cette représentation est que l’on sait
faire certaines opérations assez facilement dans de tels espaces, notamment des calculs de
distance/similarité très rapides. Dans le cas des data textuelles, ces représentations
consistent souvent à considérer le document (ou n’importe quelle donnée textuelle) comme
un sac-de-mots, c’est-à-dire un ensemble non structuré, sans information sur la séquentialité
des mots dans le texte. Usuellement, on calcule pour chaque mot présent dans le document
une valeur reflétant son importance comme descripteur du document.
Les mots du vocabulaire (ou de la collection de documents traitée) absents du document ont
une valeur nulle. Finalement, le texte est donc décrit comme un vecteur d’un espace ayant
pour dimensions tous les mots du vocabulaire. Certains auteurs évoquent les limites de la
Latent Semantic Analysis en se référant à l’approche Harrissienne de la sémantique. Dans
son œuvre magistrale datée de 1951, Zellig Harris définit la méthode distributionnelle qui sera
la première tentative de traitement formel de la langue. La formalisation est poussée, et elle
refuse toute utilisation du sens comme critère de définition formelle de la langue. Harris
remplace les sens par le critère formel de la somme totale des environnements (la
distribution) des éléments abstraits. Il réussit ainsi à axiomatiser entièrement l'analyse de la
langue, avec une rigueur poussée à l’extrême.
La Sémantique Distributionnelle suppose l’existence d’une forte corrélation entre les
caractéristiques distributionnelles observables des mots et leur sens : la sémantique d’un mot
est reliée à l’ensemble des contextes dans lesquels il apparaît. La sémantique
distributionnelle fait l’hypothèse qu’il est possible de déterminer, de déduire automatiquement
la sémantique d’un mot à partir de l’ensemble de ses contextes dans un corpus. C’est ce qui
conduit Cohen et Widdows dans un article de 2009 intitulé Empirical distributional semantics :
methods and biomedical applications (in Journal of Biomedical Informatics) à considérer qu’en
recherche d’information on atteint vite les limites de l’exercice si on se base uniquement sur
un système qui ne prend en compte que l’exacte correspondance entre la requête par mots-
clés et la parfaite pertinence des résultats dans une logique booléenne.
C’est justement pour les auteurs la première motivation à l'utilisation de la méthode
distributionnelle. Bien que prometteuse, l’indexation sémantique latente (Latent Semantic
Indexing) pour les moteurs de recherche ne s'est pas révélée être une « killing application ».
Cela s'explique en partie parce qu’en dépit de quelques bons résultats, la précision n'a pas
été améliorée de manière fiable lorsqu’il s’agit d’appréhender des masses de données (Big
Data). Il est également devenu peu à peu évident que le moteur de recherche « sémantique »
(au sens de langage naturel) doit être beaucoup plus efficace qu'un simple moteur de
recherche par « mot-clé » (booléen), même si les utilisateurs ont pris l'habitude de rechercher
par mots clés et ont tendance à préférer les outils qu'ils peuvent manipuler facilement et de
manière prévisible ». C’est ainsi qu’a germé à l’Université de Technologie de Pittsburgh, le
premier projet de moteur de recherche utilisant la sémantique distributionnelle pour une
30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.
Page 7 sur 8http://lecercle.lesechos.fr/print/69745
communauté universitaire spécifique et donnant naissance à une solution permettant de
traiter en langage naturel et donc de modéliser la signification des mots, des phrases et des
documents à partir de la distribution et de l'utilisation des mots dans un large corpus de texte.
Ce projet est détaillé dans un second article « The Semantic Vectors Package: New
Algorithms and Public Tools for Distributional Semantics » toujours publié par Trevor Cohen
(University of Texas) et Dominic Widdows (Google Inc) en 2010 à l’Université Carnegie
Mellon lors d’une conférence sur les derniers développements en Sémantique
Computationnelle. Les auteurs rappellent qu’en 2007 l’Université de Pittsburg a décidé de
développer en open source (Apache Lucene) une librairie en java portant le nom de «
Semantic Vector Package ». L’accès à cette plateforme évolutive et stable se fait via le site de
Project Hosting de Google à l’adresse suivante :
http://code.google.com/p/semanticvectors/
Package for creating and searching semantic vector indexes by wrapping Apache Lucene.
Conclusion
Par conséquent, on peut affirmer que le modèle théorique (mathématique) de base des moteurs de recherche tels que
Lucene, Yahoo !, Google ou encore Bing est bien vectoriel. Il peut se résumer ainsi: un index géant contient tous les mots du
vocabulaire contenu dans les documents indexés, un fichier dit inverse recense pour chaque mot de cet index sa présence
dans les documents indexés (les pages html pour le web), et pour retrouver ces pages en fonction d’une requête, il est
réalisé un calcul de similarité (notre fameuse fonction Similarité Cosinus héritée de Gérard Salton) entre un vecteur de poids
de mot correspondants à la requête et un autre correspondant au poids des mots contenus dans un document. Les scores
obtenus pour chaque mesure de similarité servent ensuite à ordonner la liste de résultat. Le modèle vectoriel exploite
généralement des espaces avec de très nombreuses dimensions, par exemple lorsqu’il est utilisé pour l’étiquetage
sémantique. Ce modèle est en effet applicable à toutes les activités de recherche d’information et pas seulement aux
moteurs de recherche.
Le problème intrinsèque de ce modèle est qu’il n’est pas sémantique: si votre requête affiche
en résultat les pages contenant les mots Ordinateur ou Tablette, vous ne pourrez pas recevoir
les documents qui contiennent les mots Apple, Dell, Sony, Samsung ou bien iPad, Galaxy
Tab, Surface qui sont pourtant pertinents.
Pour introduire de la sémantique dans un système de recherche d’information, plusieurs
techniques ont été proposées. Et notamment Latent Semantic Analysis (LSA) qui permet
d’identifier automatiquement quels mots sont « sémantiquement proches ». Cette méthode
réalise nous l’avons vu un processus d'abstraction des relations sémantiques latentes entre
les termes via la méthode Singular Value Decomposition (SVD). Une des critiques que l'on
peut faire du modèle LSA avec SVD est qu'il est couteux d'un point de vue computationnel.
Cependant, il a ouvert la voie dans le domaine de l'analyse sémantique « latente ». Les
modèles qui arrivent après la Latent Semantic Analysis pallie au problème du traitement
computationnel en optimisant les calculs par des méthodes de projections aléatoires. Le
modèle en question a été révélé par une équipe de chercheurs suédois en « computer
sciences » en 1998 (Kanerva et al) : ils ont élaborés ce qui s’appelle « Random Indexing »
(RI) qui s’impose comme l’alternative au modèle LSA classique.
C’est sans aucun doute le modèle RI est bien celui à utiliser aujourd’hui: car avec la méthode
SVD et sa modélisation mathématique encore complexe et trop gourmande sur un plan
computationnel fait place à une approche beaucoup plus efficace en matière de Text Mining.
Les travaux de Kanerva ont ouvert une nouvelle dimension en mettant en place un modèle
30/06/13 10:08Text Mining, Sentiment Analysis, Big Data.
Page 8 sur 8http://lecercle.lesechos.fr/print/69745
porteur d’avenir pour la sémantique computationnelle. Le Random Indexing (RI) en
s’appuyant non plus sur les formules mathématiques habituelles de réduction que l’on a décrit
plus haut dans notre article (SVD dans LSA), mais sur des méthodes de projection aléatoire
rend possible le text mining massif voire exhaustif, en accélérant le traitement de l’information
tout en préservant la pertinence des résultats : pour appréhender le déluge informationnel
d’origine textuel...
Cette magnifique perspective offrent aux entreprises françaises désireuses de traiter le
tsunami de données non structurées (Big Data) une occasion rare et unique de profiter des
derniers développements et algorithmes produits par la sémantique computationnelle, dans le
but de rattraper le retard et la distance pris avec nos voisins américains, pour qui le Big Data
n’est pas un « buzz word » mais une priorité à traiter…
J’en suis convaincu, le champ académique français est très fécond, j’en veux pour preuve les
nombreuses publications scientifiques de doctorants et docteurs en Sciences Cognitives et en
Intelligence Artificielle spécialisée en Linguistique Computationnelle qui traitent de ces mêmes
sujets et s’imposent progressivement sur la scène de la recherche mondiale. Aussi, je ne
doute pas un seul instant que ces avancées scientifiques et techniques donneront naissance
à quelques jeunes pousses issues de la recherche-développement qui deviendront très vite
des usines à transformer les data non structurées en information pertinentes et actionnables
et non pas en ressource fossile (allusion au fameux « Data is new oil » qui me paraît
galvaudé et déjà dépassé) mais à l’énergie digitale nouvelle et durable dont toutes les
entreprises ont besoin pour se développer et se transformer grâce à l’ingéniosité de quelques
entrepreneurs spécialisés dans le traitement du Big Data et qui deviendront peut-être les
Lucene, Yahoo !, Google ou Bing de demain…
Bruno Teboul
Bruno TEBOUL
URL source: http://lecercle.lesechos.fr/entrepreneur/internet/221169745/text-mining-sentiment-analysis-big-data

Más contenido relacionado

Destacado

Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTESPetit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTESPhilippe YONNET
 
Analyse des Sentiments -cas twitter- "Opinion Detection with Machine Lerning "
Analyse des Sentiments  -cas twitter- "Opinion Detection with Machine Lerning "Analyse des Sentiments  -cas twitter- "Opinion Detection with Machine Lerning "
Analyse des Sentiments -cas twitter- "Opinion Detection with Machine Lerning "Soumia Elyakote HERMA
 
Aspect Level Sentiment Analysis for Arabic Language
Aspect Level Sentiment Analysis for Arabic LanguageAspect Level Sentiment Analysis for Arabic Language
Aspect Level Sentiment Analysis for Arabic LanguageMido Razaz
 
E book Content-Mining l SocialShare la veille par l'analyse des partages sociaux
E book Content-Mining l SocialShare la veille par l'analyse des partages sociauxE book Content-Mining l SocialShare la veille par l'analyse des partages sociaux
E book Content-Mining l SocialShare la veille par l'analyse des partages sociauxYouSeeMii
 
Elements of Text Mining Part - I
Elements of Text Mining Part - IElements of Text Mining Part - I
Elements of Text Mining Part - IJaganadh Gopinadhan
 
Sentiment Analysis and Social Media: How and Why
Sentiment Analysis and Social Media: How and WhySentiment Analysis and Social Media: How and Why
Sentiment Analysis and Social Media: How and WhyDavide Feltoni Gurini
 
Introduction to Sentiment Analysis
Introduction to Sentiment AnalysisIntroduction to Sentiment Analysis
Introduction to Sentiment AnalysisJaganadh Gopinadhan
 
Twitter sentiment-analysis Jiit2013-14
Twitter sentiment-analysis Jiit2013-14Twitter sentiment-analysis Jiit2013-14
Twitter sentiment-analysis Jiit2013-14Rachit Goel
 
Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)Kavita Ganesan
 
Opinion mining: où en est-on ?
Opinion mining: où en est-on ?Opinion mining: où en est-on ?
Opinion mining: où en est-on ?bnc77510
 
Sentiment Analysis of Twitter Data
Sentiment Analysis of Twitter DataSentiment Analysis of Twitter Data
Sentiment Analysis of Twitter DataSumit Raj
 
Status and future of arabic language
Status and future of arabic languageStatus and future of arabic language
Status and future of arabic languageNur Khalidah
 
8 syllabs - data tuesday toursisme - v2
8   syllabs - data tuesday toursisme - v28   syllabs - data tuesday toursisme - v2
8 syllabs - data tuesday toursisme - v2Data Tuesday
 
Sentiment Analysis in Twitter
Sentiment Analysis in TwitterSentiment Analysis in Twitter
Sentiment Analysis in TwitterAyushi Dalmia
 

Destacado (20)

Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTESPetit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES
 
Mining vocabulary
Mining vocabularyMining vocabulary
Mining vocabulary
 
Image mining
Image miningImage mining
Image mining
 
Analyse des Sentiments -cas twitter- "Opinion Detection with Machine Lerning "
Analyse des Sentiments  -cas twitter- "Opinion Detection with Machine Lerning "Analyse des Sentiments  -cas twitter- "Opinion Detection with Machine Lerning "
Analyse des Sentiments -cas twitter- "Opinion Detection with Machine Lerning "
 
Image Mining
Image MiningImage Mining
Image Mining
 
Aspect Level Sentiment Analysis for Arabic Language
Aspect Level Sentiment Analysis for Arabic LanguageAspect Level Sentiment Analysis for Arabic Language
Aspect Level Sentiment Analysis for Arabic Language
 
Opinion Mining
Opinion Mining Opinion Mining
Opinion Mining
 
E book Content-Mining l SocialShare la veille par l'analyse des partages sociaux
E book Content-Mining l SocialShare la veille par l'analyse des partages sociauxE book Content-Mining l SocialShare la veille par l'analyse des partages sociaux
E book Content-Mining l SocialShare la veille par l'analyse des partages sociaux
 
Datamining damien-jubeau
Datamining damien-jubeauDatamining damien-jubeau
Datamining damien-jubeau
 
Data Mining
Data MiningData Mining
Data Mining
 
Elements of Text Mining Part - I
Elements of Text Mining Part - IElements of Text Mining Part - I
Elements of Text Mining Part - I
 
Sentiment Analysis and Social Media: How and Why
Sentiment Analysis and Social Media: How and WhySentiment Analysis and Social Media: How and Why
Sentiment Analysis and Social Media: How and Why
 
Introduction to Sentiment Analysis
Introduction to Sentiment AnalysisIntroduction to Sentiment Analysis
Introduction to Sentiment Analysis
 
Twitter sentiment-analysis Jiit2013-14
Twitter sentiment-analysis Jiit2013-14Twitter sentiment-analysis Jiit2013-14
Twitter sentiment-analysis Jiit2013-14
 
Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)
 
Opinion mining: où en est-on ?
Opinion mining: où en est-on ?Opinion mining: où en est-on ?
Opinion mining: où en est-on ?
 
Sentiment Analysis of Twitter Data
Sentiment Analysis of Twitter DataSentiment Analysis of Twitter Data
Sentiment Analysis of Twitter Data
 
Status and future of arabic language
Status and future of arabic languageStatus and future of arabic language
Status and future of arabic language
 
8 syllabs - data tuesday toursisme - v2
8   syllabs - data tuesday toursisme - v28   syllabs - data tuesday toursisme - v2
8 syllabs - data tuesday toursisme - v2
 
Sentiment Analysis in Twitter
Sentiment Analysis in TwitterSentiment Analysis in Twitter
Sentiment Analysis in Twitter
 

Similar a Text mining, sentiment analysis, big data.

AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoirenoucher
 
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociauxAnalyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociauxYacine Yakoubi
 
La collaboration pour quoi faire
La collaboration pour quoi faireLa collaboration pour quoi faire
La collaboration pour quoi faireJean-Luc ABELIN
 
Livre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre IIILivre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre IIIAproged
 
Pdj pharma partie lingway
Pdj pharma partie lingwayPdj pharma partie lingway
Pdj pharma partie lingwayLingway
 
Veille analyse-des-reseaux-sociaux-livre-blanc
Veille analyse-des-reseaux-sociaux-livre-blancVeille analyse-des-reseaux-sociaux-livre-blanc
Veille analyse-des-reseaux-sociaux-livre-blancAlex Suter
 
Image&dialogue/lingway Reputation day
Image&dialogue/lingway Reputation dayImage&dialogue/lingway Reputation day
Image&dialogue/lingway Reputation dayLingway
 
Content analytics slideshare aproged
Content analytics slideshare aprogedContent analytics slideshare aproged
Content analytics slideshare aprogedAproged
 
Agences de Communication et outils de veille et d’e-Réputation : quelle métho...
Agences de Communication et outils de veille et d’e-Réputation : quelle métho...Agences de Communication et outils de veille et d’e-Réputation : quelle métho...
Agences de Communication et outils de veille et d’e-Réputation : quelle métho...image(&)dialogue
 
4 pages Content Analytics
4 pages Content Analytics 4 pages Content Analytics
4 pages Content Analytics Aproged
 
Presentation 2009 offre Social Computing
Presentation 2009 offre Social ComputingPresentation 2009 offre Social Computing
Presentation 2009 offre Social ComputingSocial Computing
 
Mémoire de recherche - Le comportement du consommateur sur le web
Mémoire de recherche - Le comportement du consommateur sur le webMémoire de recherche - Le comportement du consommateur sur le web
Mémoire de recherche - Le comportement du consommateur sur le webJérôme Lacoste
 
Mesurer les publics numériques ?
Mesurer les publics numériques ?Mesurer les publics numériques ?
Mesurer les publics numériques ?Camille A
 
LINGWAY forum e-marketing/ e-réputation
LINGWAY forum e-marketing/ e-réputationLINGWAY forum e-marketing/ e-réputation
LINGWAY forum e-marketing/ e-réputationLingway
 
Semo 2.0 atelier lingway
Semo 2.0 atelier lingwaySemo 2.0 atelier lingway
Semo 2.0 atelier lingwayLingway
 
Analyser les données Analytics de mon site
Analyser les données Analytics de mon siteAnalyser les données Analytics de mon site
Analyser les données Analytics de mon siteConcept Image
 
Ergonomie des IHM web - Notes de cours (3/3)
Ergonomie des IHM web - Notes de cours (3/3)Ergonomie des IHM web - Notes de cours (3/3)
Ergonomie des IHM web - Notes de cours (3/3)ElodieDescharmes
 

Similar a Text mining, sentiment analysis, big data. (20)

Opinion Mining
Opinion MiningOpinion Mining
Opinion Mining
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoire
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 
Analyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociauxAnalyse de sentiments dans les médias sociaux
Analyse de sentiments dans les médias sociaux
 
La collaboration pour quoi faire
La collaboration pour quoi faireLa collaboration pour quoi faire
La collaboration pour quoi faire
 
Livre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre IIILivre Blanc Big Data et Marketing - Chapitre III
Livre Blanc Big Data et Marketing - Chapitre III
 
Pdj pharma partie lingway
Pdj pharma partie lingwayPdj pharma partie lingway
Pdj pharma partie lingway
 
Veille analyse-des-reseaux-sociaux-livre-blanc
Veille analyse-des-reseaux-sociaux-livre-blancVeille analyse-des-reseaux-sociaux-livre-blanc
Veille analyse-des-reseaux-sociaux-livre-blanc
 
Image&dialogue/lingway Reputation day
Image&dialogue/lingway Reputation dayImage&dialogue/lingway Reputation day
Image&dialogue/lingway Reputation day
 
Presentation uqam
Presentation uqamPresentation uqam
Presentation uqam
 
Content analytics slideshare aproged
Content analytics slideshare aprogedContent analytics slideshare aproged
Content analytics slideshare aproged
 
Agences de Communication et outils de veille et d’e-Réputation : quelle métho...
Agences de Communication et outils de veille et d’e-Réputation : quelle métho...Agences de Communication et outils de veille et d’e-Réputation : quelle métho...
Agences de Communication et outils de veille et d’e-Réputation : quelle métho...
 
4 pages Content Analytics
4 pages Content Analytics 4 pages Content Analytics
4 pages Content Analytics
 
Presentation 2009 offre Social Computing
Presentation 2009 offre Social ComputingPresentation 2009 offre Social Computing
Presentation 2009 offre Social Computing
 
Mémoire de recherche - Le comportement du consommateur sur le web
Mémoire de recherche - Le comportement du consommateur sur le webMémoire de recherche - Le comportement du consommateur sur le web
Mémoire de recherche - Le comportement du consommateur sur le web
 
Mesurer les publics numériques ?
Mesurer les publics numériques ?Mesurer les publics numériques ?
Mesurer les publics numériques ?
 
LINGWAY forum e-marketing/ e-réputation
LINGWAY forum e-marketing/ e-réputationLINGWAY forum e-marketing/ e-réputation
LINGWAY forum e-marketing/ e-réputation
 
Semo 2.0 atelier lingway
Semo 2.0 atelier lingwaySemo 2.0 atelier lingway
Semo 2.0 atelier lingway
 
Analyser les données Analytics de mon site
Analyser les données Analytics de mon siteAnalyser les données Analytics de mon site
Analyser les données Analytics de mon site
 
Ergonomie des IHM web - Notes de cours (3/3)
Ergonomie des IHM web - Notes de cours (3/3)Ergonomie des IHM web - Notes de cours (3/3)
Ergonomie des IHM web - Notes de cours (3/3)
 

Más de Bruno Teboul

Les systèmes complexes face au tsunami exponentiel du numérique. Valeur et vé...
Les systèmes complexes face au tsunami exponentiel du numérique. Valeur et vé...Les systèmes complexes face au tsunami exponentiel du numérique. Valeur et vé...
Les systèmes complexes face au tsunami exponentiel du numérique. Valeur et vé...Bruno Teboul
 
Conférence Uberisation = Economie déchirée ESCP Europe_Bruno Teboul
Conférence Uberisation = Economie déchirée ESCP Europe_Bruno TeboulConférence Uberisation = Economie déchirée ESCP Europe_Bruno Teboul
Conférence Uberisation = Economie déchirée ESCP Europe_Bruno TeboulBruno Teboul
 
Colloque Ecole Militaire Datanomics 23 mars 2015 Bruno Teboul
Colloque Ecole Militaire Datanomics  23 mars 2015 Bruno TeboulColloque Ecole Militaire Datanomics  23 mars 2015 Bruno Teboul
Colloque Ecole Militaire Datanomics 23 mars 2015 Bruno TeboulBruno Teboul
 
Datanomics january 2015 Bruno Teboul
Datanomics january 2015 Bruno TeboulDatanomics january 2015 Bruno Teboul
Datanomics january 2015 Bruno TeboulBruno Teboul
 
Conférence Bruno Teboul & Thierry Berthier du jeudi 19 mars 2015 Data Intelli...
Conférence Bruno Teboul & Thierry Berthier du jeudi 19 mars 2015 Data Intelli...Conférence Bruno Teboul & Thierry Berthier du jeudi 19 mars 2015 Data Intelli...
Conférence Bruno Teboul & Thierry Berthier du jeudi 19 mars 2015 Data Intelli...Bruno Teboul
 
Press_release_Chaire_Data_Scientists_X_Orange_Thales_Oct_2014_V1
Press_release_Chaire_Data_Scientists_X_Orange_Thales_Oct_2014_V1Press_release_Chaire_Data_Scientists_X_Orange_Thales_Oct_2014_V1
Press_release_Chaire_Data_Scientists_X_Orange_Thales_Oct_2014_V1Bruno Teboul
 
Les fondamentaux du big data !
Les fondamentaux du big data !Les fondamentaux du big data !
Les fondamentaux du big data !Bruno Teboul
 
Data scientist: le job le plus sexy du 21ème siècle
Data scientist: le job le plus sexy du 21ème siècleData scientist: le job le plus sexy du 21ème siècle
Data scientist: le job le plus sexy du 21ème siècleBruno Teboul
 
The New Fundamentals of Marketing 20120606 slide_share7
The New Fundamentals of Marketing 20120606 slide_share7The New Fundamentals of Marketing 20120606 slide_share7
The New Fundamentals of Marketing 20120606 slide_share7Bruno Teboul
 
The 7th Revolution Marketing the Chaosian Paradox bt20120606_slide_share6
The 7th Revolution Marketing the Chaosian Paradox bt20120606_slide_share6The 7th Revolution Marketing the Chaosian Paradox bt20120606_slide_share6
The 7th Revolution Marketing the Chaosian Paradox bt20120606_slide_share6Bruno Teboul
 
The 6th Marketing Revolution the chaos marketing bt20120606_slide_share5
The 6th Marketing Revolution the chaos marketing bt20120606_slide_share5The 6th Marketing Revolution the chaos marketing bt20120606_slide_share5
The 6th Marketing Revolution the chaos marketing bt20120606_slide_share5Bruno Teboul
 
The 4th and 5th Marketing Revolutions data scientist age and bayesian paradox...
The 4th and 5th Marketing Revolutions data scientist age and bayesian paradox...The 4th and 5th Marketing Revolutions data scientist age and bayesian paradox...
The 4th and 5th Marketing Revolutions data scientist age and bayesian paradox...Bruno Teboul
 
The 2nd and 3rd marketing revolutions darwinian revolution and neuroscientist...
The 2nd and 3rd marketing revolutions darwinian revolution and neuroscientist...The 2nd and 3rd marketing revolutions darwinian revolution and neuroscientist...
The 2nd and 3rd marketing revolutions darwinian revolution and neuroscientist...Bruno Teboul
 
The 1st revolution marketing the digital revolution bt.20120606_slide_share2
The 1st revolution marketing the digital revolution bt.20120606_slide_share2The 1st revolution marketing the digital revolution bt.20120606_slide_share2
The 1st revolution marketing the digital revolution bt.20120606_slide_share2Bruno Teboul
 
The end of traditional marketing bt.20120606 slide_share1
The end of traditional marketing bt.20120606 slide_share1The end of traditional marketing bt.20120606 slide_share1
The end of traditional marketing bt.20120606 slide_share1Bruno Teboul
 

Más de Bruno Teboul (15)

Les systèmes complexes face au tsunami exponentiel du numérique. Valeur et vé...
Les systèmes complexes face au tsunami exponentiel du numérique. Valeur et vé...Les systèmes complexes face au tsunami exponentiel du numérique. Valeur et vé...
Les systèmes complexes face au tsunami exponentiel du numérique. Valeur et vé...
 
Conférence Uberisation = Economie déchirée ESCP Europe_Bruno Teboul
Conférence Uberisation = Economie déchirée ESCP Europe_Bruno TeboulConférence Uberisation = Economie déchirée ESCP Europe_Bruno Teboul
Conférence Uberisation = Economie déchirée ESCP Europe_Bruno Teboul
 
Colloque Ecole Militaire Datanomics 23 mars 2015 Bruno Teboul
Colloque Ecole Militaire Datanomics  23 mars 2015 Bruno TeboulColloque Ecole Militaire Datanomics  23 mars 2015 Bruno Teboul
Colloque Ecole Militaire Datanomics 23 mars 2015 Bruno Teboul
 
Datanomics january 2015 Bruno Teboul
Datanomics january 2015 Bruno TeboulDatanomics january 2015 Bruno Teboul
Datanomics january 2015 Bruno Teboul
 
Conférence Bruno Teboul & Thierry Berthier du jeudi 19 mars 2015 Data Intelli...
Conférence Bruno Teboul & Thierry Berthier du jeudi 19 mars 2015 Data Intelli...Conférence Bruno Teboul & Thierry Berthier du jeudi 19 mars 2015 Data Intelli...
Conférence Bruno Teboul & Thierry Berthier du jeudi 19 mars 2015 Data Intelli...
 
Press_release_Chaire_Data_Scientists_X_Orange_Thales_Oct_2014_V1
Press_release_Chaire_Data_Scientists_X_Orange_Thales_Oct_2014_V1Press_release_Chaire_Data_Scientists_X_Orange_Thales_Oct_2014_V1
Press_release_Chaire_Data_Scientists_X_Orange_Thales_Oct_2014_V1
 
Les fondamentaux du big data !
Les fondamentaux du big data !Les fondamentaux du big data !
Les fondamentaux du big data !
 
Data scientist: le job le plus sexy du 21ème siècle
Data scientist: le job le plus sexy du 21ème siècleData scientist: le job le plus sexy du 21ème siècle
Data scientist: le job le plus sexy du 21ème siècle
 
The New Fundamentals of Marketing 20120606 slide_share7
The New Fundamentals of Marketing 20120606 slide_share7The New Fundamentals of Marketing 20120606 slide_share7
The New Fundamentals of Marketing 20120606 slide_share7
 
The 7th Revolution Marketing the Chaosian Paradox bt20120606_slide_share6
The 7th Revolution Marketing the Chaosian Paradox bt20120606_slide_share6The 7th Revolution Marketing the Chaosian Paradox bt20120606_slide_share6
The 7th Revolution Marketing the Chaosian Paradox bt20120606_slide_share6
 
The 6th Marketing Revolution the chaos marketing bt20120606_slide_share5
The 6th Marketing Revolution the chaos marketing bt20120606_slide_share5The 6th Marketing Revolution the chaos marketing bt20120606_slide_share5
The 6th Marketing Revolution the chaos marketing bt20120606_slide_share5
 
The 4th and 5th Marketing Revolutions data scientist age and bayesian paradox...
The 4th and 5th Marketing Revolutions data scientist age and bayesian paradox...The 4th and 5th Marketing Revolutions data scientist age and bayesian paradox...
The 4th and 5th Marketing Revolutions data scientist age and bayesian paradox...
 
The 2nd and 3rd marketing revolutions darwinian revolution and neuroscientist...
The 2nd and 3rd marketing revolutions darwinian revolution and neuroscientist...The 2nd and 3rd marketing revolutions darwinian revolution and neuroscientist...
The 2nd and 3rd marketing revolutions darwinian revolution and neuroscientist...
 
The 1st revolution marketing the digital revolution bt.20120606_slide_share2
The 1st revolution marketing the digital revolution bt.20120606_slide_share2The 1st revolution marketing the digital revolution bt.20120606_slide_share2
The 1st revolution marketing the digital revolution bt.20120606_slide_share2
 
The end of traditional marketing bt.20120606 slide_share1
The end of traditional marketing bt.20120606 slide_share1The end of traditional marketing bt.20120606 slide_share1
The end of traditional marketing bt.20120606 slide_share1
 

Text mining, sentiment analysis, big data.

  • 1. 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 1 sur 8http://lecercle.lesechos.fr/print/69745 Publié sur Le Cercle Les Echos (http://lecercle.lesechos.fr) Text Mining, Sentiment Analysis, Big Data. Espaces vectoriels et sémantique distributionnelle… Introduction A l’ère du digital et de la société de l’information nous conjuguons deux phénomènes auxquels les entreprises sont confrontées et doivent faire faces: le déluge informationnel « Big Data » et le déluge publicitaire que j’ai désigné par l’expression « Big Ads » dans un article précédent. Avec l’évolution du web 2.0 vers ce que l’on appelle désormais le web 3.0 ou web sémantique, on assiste à une explosion des données textuelles, données non structurées par excellence et qui soulèvent nombre de questions et de potentialités pour les entreprises qui ne peuvent en ignorer l’existence et les impacts sur leur écosystème : collaborateurs, fournisseurs, image de marque, notoriété, tous les composants du mix- marketing, concurrents, prospects et clients… Le passage du Web 2.0 au Web 3.0 a eu pour conséquence de créer la diffusion d’une communication sociale sans limite dans l’espace et le temps, une conversation sociale ubiquitaire qui se traduit par l’émergence des plates-formes de blogging, d’espaces d’expression tels que les forums, les sites acceptant les commentaires, et surtout les échanges conversationnels via les réseaux sociaux tels que Facebook, Twitter, Foursquare, Linkedin, Viadeo, Pinterest, Slideshare pour former une réunion de moyen de communication sociale et pervasive (omniprésence) entre individus à distance et sans précédent. Tout ce contenu textuel généré par les internautes s’appelle « User Generated Content ». Ce nouvel espace d’expression représente une gigantesque manne et mine d’informations, notamment en termes d’avis, d’idées, de jugements, de commentaires, d’opinions susceptibles d’être exploitées à des fins diverses. Les données textuelles, notamment, peuvent être analysées dans différents buts. Par exemple, dans le domaine de la fouille d’opinion (Opinion Mining), les textes sont utilisées afin de permettre à des entreprises de connaître automatiquement l’image que les consommateurs ont de leur marque, de leurs produits, de leurs services, de leurs concurrents, d’un marché, de même pour les projets et les personnalités politiques, réaliser des sondages, détecter des rumeurs, anticiper des crises etc. En effet, les textes rédigés par les internautes sont en général plus subjectifs que les articles rédigés par des professionnels et sont donc beaucoup plus porteurs d’opinion. Dès lors, toutes les initiatives en matière de recherche d’information (Information Retrieval),
  • 2. 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 2 sur 8http://lecercle.lesechos.fr/print/69745 d’indexation et d’analyse du langage automatisé via le web font appel à des techniques de plus en plus sophistiquées, mais qui reposent sur des bases algorithmiques souvent simples empruntées à la logique booléenne, aux statistiques et/ou à une approche probabiliste qui finalement en limite l’efficience. Nous verrons qu’il existe une voie inexploitée en France qui fait référence à l’algèbre linéaire et aux bons vieux espaces vectoriels : au recours à la fonction cosinus, aux produits scalaires et autres souvenirs en mathématiques que nos confrères américains n’ont pas manqués d’utiliser pour développer les Lucene, Yahoo !, Google ou encore Bing… Les technologies utilisées aujourd’hui en Text et Opinion Mining mais aussi en Search ont évoluées considérablement depuis 10 ans et font références aux dernières avancées en Intelligence Artificielle et en Linguistique Computationnelle pour permettre à de nouveaux acteurs du Web Semantic d’utiliser le modèle vectoriel dans la fouille, l’analyse et la clustérisation des data afin de contribuer au traitement du déluge informationnel (Big Data). Nous verrons notamment avec l’apparition de la Sémantique Distributionnelle (Distributional Semantic) l’utilisation de l’analyse sémantique fondée sur le modèle vectoriel se propose de réduire les dimensions de l’espace linguistique investigué, d’optimiser les calculs, d’affiner les résultats obtenus le tout par la maximisation des capacités computationnelles au service du sens, d’une meilleure interprétation des data textuelles (data non structurées)... 1/ Du Text Mining au Sentiment Analysis… La fouille d’opinion (Opinion Mining) est un sous-domaine de la fouille de textes (Text Mining) qui consiste à analyser des textes afin d’en extraire des informations liées aux opinions et aux sentiments (Sentiment Analysis). Le terme Opinion Mining apparaît dans un article de Dave en 2003 qui a été publié dans l’acte de conférence WWW 2003. Selon Dave, l’Opinion Mining devrait « traiter un ensemble de résultats de recherche pour un cas donné, générer une liste des attributs (qualité, caractéristiques, etc.) et agréger des avis sur chacun d’entre eux (mauvais, modéré, de bonne qualité) ». Toutefois, l’Opinion Mining a récemment été interprétée de manière plus générale pour inclure de nombreux types d’analyse d’évaluation de texte. Le terme « Analyse des Sentiments » est utilisé pour décrire l’analyse automatique de texte évaluatif et pour la recherche de valeur prédictive des jugements. Elle a été introduite dans les travaux de Das et Chen en 2001 afin d’analyser des sentiments dans le cadre de l’économie de marché. Depuis 2002, un nombre important d’articles citant l’Analyse des Sentiments ont vus le jour, ces travaux se concentrent sur la classification des commentaires et à leur polarité (positif ou négatif). Aujourd’hui, l’Opinion Mining et l’Analyse des Sentiments font partie du même domaine de recherche. L’une des tâches de la fouille d’opinion, appelée classification d’opinion et a pour objectif de classer les textes suivant l’opinion qu’ils expriment. Cette classification peut se faire sur deux classes (positif ou négatif), sur trois classes (positif, négatif ou neutre) ou sur plus de classes encore. Ces classes sont ordonnées et peuvent donc être assimilées à des notes. Ainsi, les internautes ont à leur disposition une tribune sans précédent, de portée et de puissance, permettant de partager leurs expériences et de marquer leur avis (positifs ou négatifs) sur n’importe quel sujet, sur n’importe quelle marque, sur n’importe quel produit ou service. Les entreprises peuvent répondre aux besoins des consommateurs en effectuant de la surveillance et de l’analyse des opinions pour améliorer leurs produits et leurs services. Malheureusement le risque de modification des opinions est important. De ce fait, il est nécessaire d’avoir un système capable d’analyser automatiquement les comportements généraux liés à la consommation, afin de mieux comprendre comment les différents produits et les services sont perçus par les clients. Un tel système devrait premièrement collecter les opinions des consommateurs et des utilisateurs dans des documents qui montrent les opinions et les phrases subjectives. Parfois, cela est relativement facile, comme dans les cas de grands sites où les opinions des utilisateurs sont bien structurées comme par exemple
  • 3. 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 3 sur 8http://lecercle.lesechos.fr/print/69745 Amazon.com, Allociné.com. Le problème devient plus complexe dans le cas des blogs ou de sites à forte audience avec une grande partie dédiée au blogging tels que Doctissimo.com, Auféminin.com, pour n’en citer que deux et qui contiennent aussi bien des parties de texte de fonds rédigées par des journalistes professionnels et des parties plus subjectives, qui peuvent varier assez largement dans le contenu, le style, la présentation, la structure syntaxique et la grammaticalité. Il est très intéressant de travailler sur des commentaires venant des blogs car ils sont plus pertinents que sur les sites de vente, car plus détaillés, plus détachés de « l’opinion des autres » et de la modération supposée du site ; enfin ils sont généralement plus expressifs quant à l’intensité des opinions exprimées elles-mêmes. Une fois que les documents intéressants sont collectés, nous sommes confrontés au problème d’identification de l’ensemble des avis et sentiments exprimés par ces documents. Pour résoudre cette tâche, il faut préciser le domaine d’intérêt, car si par exemple nous notons les opinions sur un produit de grande consommation ou sur un produit bancaire nous remarquons que la langue est spécifique à un secteur, cette spécificité linguistique tient à la technicité et à la richesses du vocabulaire utilisé dans un secteur donné : c’est pourquoi ces mêmes attributs linguistiques peuvent être groupés dans des ensembles prédéfinis ce qui facilitera l’analyse automatique. La dernière étape est de présenter les résultats de sa notation en précisant l’intensité de chaque opinion, car la simple polarité (positif/négatif) ne suffit plus. Comme nous l’avons rappelé précédemment, depuis l’avènement d’Internet et par conséquent l’explosion de l’information disponible, la recherche d’information ou « information retrieval » s’est vue confrontée à de nouveaux problèmes comme par exemple la surabondance d’information, la redondance, le problème de la qualification de l’information... La recherche d’information ne concerne plus seulement la documentation : des techniques de recherche d’information apparaissent dans de nombreux domaines tels que l’analyse de données, la bio-informatique, la linguistique, les statistiques, l’optimisation de grandes bases de données, l’intelligence artificielle... La grande variété des méthodes souligne la diversité des communautés qui travaillent sur le domaine de la recherche d’information. Le terme « recherche d’information » ou « information retrieval » est employé pour la première fois par Moers pour désigner le processus d’indexation automatique et de recherche d’information. Les premiers projets de recherche d’information portaient sur l’indexation de documents (projet Cranfield, projet SMART...). 2/ Les modèles mathématiques sous-tendant le Text Mining : dépassement de la logique booléenne par l’algèbre linéaire… Nous présentons ici deux modèles de systèmes de recherche d’informations qui sont utilisés par différents types de sociétés : d’une côté des entreprises récentes positionnées sur le marché de l’e-réputation et de l’autre des éditeurs de logiciel en « open source » de type Lucene, SolR ou encore les fameux « moteurs de recherche » tels que Yahoo ! Google ou Bing. Le premier modèle dit « modèle booléen » est plutôt classique et limité mais encore utilisé par des start-ups françaises spécialisées dans la e-réputation. En effet, ce modèle issu de la logique classique est très limité, peu opérant dans un environnement Big Data du fait de sa conception théorique (mathématique). Dans le modèle Booléen, chaque document Di est représenté par un ensemble de descripteurs {d1,..,dj,...,dn}. Tous les descripteurs des documents sont rangés dans un fichier appelé dictionnaire. Une requête est composée d’un ensemble de descripteurs et un ou des opérateurs logiques comme « ET », « OU » ou « NON ». Par exemple, je recherche un document en français sur le modèle booléen en recherche
  • 4. 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 4 sur 8http://lecercle.lesechos.fr/print/69745 d’information, ma requête pourra s’écrire : « modèle ET booléen ET recherche ET information ». Le système évalue chaque document en fonction de la requête : ainsi tous les documents dont la liste des descripteurs correspond à la requête seront fournis à l’utilisateur. Sur notre exemple, tous les documents ayant exactement dans leur liste « modèle », « booléen », « recherche » et « information » nous seront présentés. Les documents auxquels il manquerait un descripteur ne seront pas fournis. Les principaux avantages de ce modèle sont : – sa transparence : l’outil restitue les documents qui répondent exactement à la 
requête de l’utilisateur, – sa facilité de mise en œuvre. 
 Il présente néanmoins des limites sérieuses et rédhibitoires: – la nécessité d’une bonne maîtrise des opérateurs pour obtenir exactement ce 
que l’on cherche, – les documents ne sont pas classés et leur nombre pas maîtrisé, – raisonnement et fonctionnement binaires, – un document qui ne correspond pas à la requête sur un seul point sera rejeté. Le second modèle qu’est le « modèle vectoriel » nous paraît beaucoup pertinent, beaucoup plus actuel et très efficace. En effet, ce modèle à rapidement été décrit dans la littérature spécialisée comme extrêmement innovant et opérant dans un environnement flou, complexe et de déluge informationnel (Big Data). En effet, contrairement au modèle booléen, l’utilisateur n’a pas besoin d’exprimer sa requête à l’aide d’opérateurs. Les documents et les requêtes sont représentés par des vecteurs : à chaque composante du vecteur est associé un descripteur issu de l’indexation. La valeur de la composante est le poids attribué au descripteur par rapport au document. Le modèle le plus simple est : 
 – on met la composante à 1 si le descripteur est attribué au document, 
 – 0 sinon.
 Un document est d’autant plus pertinent à une requête que le vecteur associé est similaire à celui de la requête. Ainsi, on va utiliser un calcul de similarité pour obtenir une liste ordonnée de documents pertinents. Dans un espace de mot, les divers sens d'un terme se distinguent par des valeurs différentes d'un certain nombre de paramètres (informations sur le contexte du mot, lexicales, syntaxiques, sémantiques, etc.). Chaque sens (ou emploi) du mot est donc représenté par une région de son espace sémantique, plus ou moins grande dans une dimension donnée, et les proximités de sens entre acceptions se traduisent dans l'espace par des relations de voisinage ou de recouvrement. La représentation en espaces vectoriels sémantiques est donc particulièrement adaptée pour rendre compte des phénomènes sémantiques tels que la polysémie car ils permettent de déterminer avec précision le sens de chaque acception d'un terme ambigu tout en conservant la notion de proximité, essentielle, dans la définition-même de la polysémie. La désambiguïsation consiste alors à étudier la position du vecteur représentant une acception donnée à désambiguïser dans l'espace sémantique du mot et à lui assigner le sens le plus proche. L'idée de base de la clustérisation est de regrouper ensemble des objets qui se ressemblent dans une ou plusieurs dimensions données, en l'occurrence des mots regroupés en classes de voisins/co- occurrents. En analyse des données, le but de la clustérisation est de créer un partitionnement d'un ensemble de données (mots, documents) en un ensemble de sous-classes pertinentes, appelées « clusters » (grappes), représentées par un « centroïd » ou barycentre (élément le plus représentatif ou moyenne de tout ou partie de leurs membres).
  • 5. 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 5 sur 8http://lecercle.lesechos.fr/print/69745 Le choix de la méthode de calcul de la similarité entre les objets du modèle (mots, documents) dépend du choix du modèle de représentation (espaces vectoriels, graphes, arbres de décision, etc.). Dans le cas de notre modèle vectoriel, le point de départ de cette méthode est un espace vectoriel sémantique de grande dimension construit à partir d'un corpus et dont la dimensionnalité est souvent réduite à l’aide de divers procédés de réduction matricielle, notamment la décomposition en valeur singulière on parle de Latent Semantic Analysis (LSA). 3/ De la sémantique distributionnelle… C’est en 1968 que Gérard Salton définit pour la première sa fonction Cosinus Similarité : le Cosinus de Salton est l'analyse de la pertinence d'une page (=un document) par rapport à un requête. Il présente pour la première fois le modèle vectoriel. Cette technique était principalement utilisée par les renseignements généraux et autres agences d’espionnage à l’époque. Elle permet aujourd’hui de prendre un texte et de le transformer en un vecteur, ainsi l'ensemble d'un texte peut faire ressortir une idée, un concept. Cette approche va se propager dans tous les milieux de la linguistique et de l’intelligence artificielle durant près de 20 ans et pour finalement produire en 1990 un nouveau type d’analyse la Latent Semantic Analysis qui s'appuie sur la matrice utilisée par Salton pour y appliquer des méthodes de réduction matricielle via la Décomposition en Valeur Singulière (SVD). En effet c’est en 1990, dans un article fondateur pour la sémantique vectorielle que Deerwester, Dumais, Landauer et al (Indexing by Latent Semantic Analysis, Journal of The American society for Information Science, sept.1990 ; 41, 6) définissent les bases de Latent Semantic Analysis (LSA) en mettant au point une méthode de représentation sous la forme d’un espace sémantique de très grande dimension, du sens contextuel des mots à l'aide de calculs statistiques sur un large corpus qui leur permettent d'inférer des relations profondes entre mots ou ensembles de mots. L'information de base utilisée par cette technique est la distribution des mots dans la somme de leurs contextes. L'idée sous-jacente est que la somme de tous les contextes d'apparition ou non d'un mot fournit un ensemble de contraintes mutuelles qui déterminent largement la similarité sémantique entre mots et ensembles de mots. Le point de départ de la Latent Semantic Analysis est une matrice de cooccurrences dont les dimensions sont les mots et leurs contextes d'apparition à laquelle on applique une décomposition en valeurs singulières, cette technique s’appelle la (SVD) qui produit une sorte de lissage des associations mot-à-mot. La matrice de cooccurrences est ainsi transformée en une matrice plus petite contenant la partie la plus pertinente de l'information contenues dans les cooccurrences initiales. Ceci permet de résoudre le problème de la disparité des fréquences de cooccurrence (probabilités nulles) entre mots entraînée par le fait que, même dans un grand corpus de textes, la plupart des mots sont relativement rares. Cela permet non seulement d'améliorer la complexité en temps (pour le calcul des distances ou des plus proches voisins) mais aussi en espace puisque la caractérisation d'un mot devient plus petite. Le positionnement des mots et de leurs sens, représentés par des vecteurs, dans l'espace sémantique ainsi obtenu permet toujours de mesurer leur proximité par le cosinus. Les clusters peuvent ensuite être construits à partir des vecteurs des mots proches dans l'espace. Le cosinus permet de calculer l'angle entre deux vecteurs, soit comparer leur direction. Comme les documents et les requêtes sont des vecteurs, on peut calculer leur proximité par leur cosinus. La valeur du cosinus est normée (entre 0 et 1, car les composantes sont positives) : - si le cosinus tend vers 1 => les deux documents sont proches - si le cosinus tend vers 0 => les deux documents sont éloignés
  • 6. 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 6 sur 8http://lecercle.lesechos.fr/print/69745 La pertinence d'une requête par rapport à un document n'est pas binaire (ex. cosinus entre vecteurs) par opposition au modèle booléen. On constante une très nette amélioration de la précision de la réponse du système, auxquels on peut ajouter la grande simplicité et la popularité du modèle issu de l’algèbre linéaire. On parle de Similarité Cosinus (ou mesure cosinus) permet de calculer la similarité entre deux vecteurs à n dimensions en déterminant l'angle entre eux. Elle est représentée par la formule ci-dessous : cos(thêta) = A . B / ||A|| ||B|| Soient deux vecteurs A et B, l'angle s'obtient par le produit scalaire et la norme des vecteurs. Les valeurs, et donc les objets qu’elles représentent, peuvent alors être interprétées comme des vecteurs formant un espace vectoriel. L’avantage de cette représentation est que l’on sait faire certaines opérations assez facilement dans de tels espaces, notamment des calculs de distance/similarité très rapides. Dans le cas des data textuelles, ces représentations consistent souvent à considérer le document (ou n’importe quelle donnée textuelle) comme un sac-de-mots, c’est-à-dire un ensemble non structuré, sans information sur la séquentialité des mots dans le texte. Usuellement, on calcule pour chaque mot présent dans le document une valeur reflétant son importance comme descripteur du document. Les mots du vocabulaire (ou de la collection de documents traitée) absents du document ont une valeur nulle. Finalement, le texte est donc décrit comme un vecteur d’un espace ayant pour dimensions tous les mots du vocabulaire. Certains auteurs évoquent les limites de la Latent Semantic Analysis en se référant à l’approche Harrissienne de la sémantique. Dans son œuvre magistrale datée de 1951, Zellig Harris définit la méthode distributionnelle qui sera la première tentative de traitement formel de la langue. La formalisation est poussée, et elle refuse toute utilisation du sens comme critère de définition formelle de la langue. Harris remplace les sens par le critère formel de la somme totale des environnements (la distribution) des éléments abstraits. Il réussit ainsi à axiomatiser entièrement l'analyse de la langue, avec une rigueur poussée à l’extrême. La Sémantique Distributionnelle suppose l’existence d’une forte corrélation entre les caractéristiques distributionnelles observables des mots et leur sens : la sémantique d’un mot est reliée à l’ensemble des contextes dans lesquels il apparaît. La sémantique distributionnelle fait l’hypothèse qu’il est possible de déterminer, de déduire automatiquement la sémantique d’un mot à partir de l’ensemble de ses contextes dans un corpus. C’est ce qui conduit Cohen et Widdows dans un article de 2009 intitulé Empirical distributional semantics : methods and biomedical applications (in Journal of Biomedical Informatics) à considérer qu’en recherche d’information on atteint vite les limites de l’exercice si on se base uniquement sur un système qui ne prend en compte que l’exacte correspondance entre la requête par mots- clés et la parfaite pertinence des résultats dans une logique booléenne. C’est justement pour les auteurs la première motivation à l'utilisation de la méthode distributionnelle. Bien que prometteuse, l’indexation sémantique latente (Latent Semantic Indexing) pour les moteurs de recherche ne s'est pas révélée être une « killing application ». Cela s'explique en partie parce qu’en dépit de quelques bons résultats, la précision n'a pas été améliorée de manière fiable lorsqu’il s’agit d’appréhender des masses de données (Big Data). Il est également devenu peu à peu évident que le moteur de recherche « sémantique » (au sens de langage naturel) doit être beaucoup plus efficace qu'un simple moteur de recherche par « mot-clé » (booléen), même si les utilisateurs ont pris l'habitude de rechercher par mots clés et ont tendance à préférer les outils qu'ils peuvent manipuler facilement et de manière prévisible ». C’est ainsi qu’a germé à l’Université de Technologie de Pittsburgh, le premier projet de moteur de recherche utilisant la sémantique distributionnelle pour une
  • 7. 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 7 sur 8http://lecercle.lesechos.fr/print/69745 communauté universitaire spécifique et donnant naissance à une solution permettant de traiter en langage naturel et donc de modéliser la signification des mots, des phrases et des documents à partir de la distribution et de l'utilisation des mots dans un large corpus de texte. Ce projet est détaillé dans un second article « The Semantic Vectors Package: New Algorithms and Public Tools for Distributional Semantics » toujours publié par Trevor Cohen (University of Texas) et Dominic Widdows (Google Inc) en 2010 à l’Université Carnegie Mellon lors d’une conférence sur les derniers développements en Sémantique Computationnelle. Les auteurs rappellent qu’en 2007 l’Université de Pittsburg a décidé de développer en open source (Apache Lucene) une librairie en java portant le nom de « Semantic Vector Package ». L’accès à cette plateforme évolutive et stable se fait via le site de Project Hosting de Google à l’adresse suivante : http://code.google.com/p/semanticvectors/ Package for creating and searching semantic vector indexes by wrapping Apache Lucene. Conclusion Par conséquent, on peut affirmer que le modèle théorique (mathématique) de base des moteurs de recherche tels que Lucene, Yahoo !, Google ou encore Bing est bien vectoriel. Il peut se résumer ainsi: un index géant contient tous les mots du vocabulaire contenu dans les documents indexés, un fichier dit inverse recense pour chaque mot de cet index sa présence dans les documents indexés (les pages html pour le web), et pour retrouver ces pages en fonction d’une requête, il est réalisé un calcul de similarité (notre fameuse fonction Similarité Cosinus héritée de Gérard Salton) entre un vecteur de poids de mot correspondants à la requête et un autre correspondant au poids des mots contenus dans un document. Les scores obtenus pour chaque mesure de similarité servent ensuite à ordonner la liste de résultat. Le modèle vectoriel exploite généralement des espaces avec de très nombreuses dimensions, par exemple lorsqu’il est utilisé pour l’étiquetage sémantique. Ce modèle est en effet applicable à toutes les activités de recherche d’information et pas seulement aux moteurs de recherche. Le problème intrinsèque de ce modèle est qu’il n’est pas sémantique: si votre requête affiche en résultat les pages contenant les mots Ordinateur ou Tablette, vous ne pourrez pas recevoir les documents qui contiennent les mots Apple, Dell, Sony, Samsung ou bien iPad, Galaxy Tab, Surface qui sont pourtant pertinents. Pour introduire de la sémantique dans un système de recherche d’information, plusieurs techniques ont été proposées. Et notamment Latent Semantic Analysis (LSA) qui permet d’identifier automatiquement quels mots sont « sémantiquement proches ». Cette méthode réalise nous l’avons vu un processus d'abstraction des relations sémantiques latentes entre les termes via la méthode Singular Value Decomposition (SVD). Une des critiques que l'on peut faire du modèle LSA avec SVD est qu'il est couteux d'un point de vue computationnel. Cependant, il a ouvert la voie dans le domaine de l'analyse sémantique « latente ». Les modèles qui arrivent après la Latent Semantic Analysis pallie au problème du traitement computationnel en optimisant les calculs par des méthodes de projections aléatoires. Le modèle en question a été révélé par une équipe de chercheurs suédois en « computer sciences » en 1998 (Kanerva et al) : ils ont élaborés ce qui s’appelle « Random Indexing » (RI) qui s’impose comme l’alternative au modèle LSA classique. C’est sans aucun doute le modèle RI est bien celui à utiliser aujourd’hui: car avec la méthode SVD et sa modélisation mathématique encore complexe et trop gourmande sur un plan computationnel fait place à une approche beaucoup plus efficace en matière de Text Mining. Les travaux de Kanerva ont ouvert une nouvelle dimension en mettant en place un modèle
  • 8. 30/06/13 10:08Text Mining, Sentiment Analysis, Big Data. Page 8 sur 8http://lecercle.lesechos.fr/print/69745 porteur d’avenir pour la sémantique computationnelle. Le Random Indexing (RI) en s’appuyant non plus sur les formules mathématiques habituelles de réduction que l’on a décrit plus haut dans notre article (SVD dans LSA), mais sur des méthodes de projection aléatoire rend possible le text mining massif voire exhaustif, en accélérant le traitement de l’information tout en préservant la pertinence des résultats : pour appréhender le déluge informationnel d’origine textuel... Cette magnifique perspective offrent aux entreprises françaises désireuses de traiter le tsunami de données non structurées (Big Data) une occasion rare et unique de profiter des derniers développements et algorithmes produits par la sémantique computationnelle, dans le but de rattraper le retard et la distance pris avec nos voisins américains, pour qui le Big Data n’est pas un « buzz word » mais une priorité à traiter… J’en suis convaincu, le champ académique français est très fécond, j’en veux pour preuve les nombreuses publications scientifiques de doctorants et docteurs en Sciences Cognitives et en Intelligence Artificielle spécialisée en Linguistique Computationnelle qui traitent de ces mêmes sujets et s’imposent progressivement sur la scène de la recherche mondiale. Aussi, je ne doute pas un seul instant que ces avancées scientifiques et techniques donneront naissance à quelques jeunes pousses issues de la recherche-développement qui deviendront très vite des usines à transformer les data non structurées en information pertinentes et actionnables et non pas en ressource fossile (allusion au fameux « Data is new oil » qui me paraît galvaudé et déjà dépassé) mais à l’énergie digitale nouvelle et durable dont toutes les entreprises ont besoin pour se développer et se transformer grâce à l’ingéniosité de quelques entrepreneurs spécialisés dans le traitement du Big Data et qui deviendront peut-être les Lucene, Yahoo !, Google ou Bing de demain… Bruno Teboul Bruno TEBOUL URL source: http://lecercle.lesechos.fr/entrepreneur/internet/221169745/text-mining-sentiment-analysis-big-data