Vsst 2010 le_semiopole_26102010

mleenhardt@le-semiopole.fr
rdelaplace@le-semiopole.fr
www.le-semiopole.fr
Tel : +33 (0) 141 585 636
Fax : +33 (0) 148 593 532
66, rue Marceau - 93100 Montreuil - France
lcwu@le-semiopole.fr
SYLED/CLA2T - ILPGA Paris 3
CRIM/ERTIM - INaLCO
SYLED/CLA2T - ILPGA Paris 3
Marguerite Leenhardt
Richard Delaplace
Li-Chi Wu
26 octobre 2010
Méthode de conception d’une application de veille
et d’Analyse Linguistique Assistée par Ordinateur
Colloque international VSST‘2010 - Université Paul Sabatier - Toulouse
‘Veille stratégique, scientiﬁque et technologique - Systèmes d’information élaborée, bibliométrie, linguistique, intelligence économique’
1mercredi 27 octobre 2010

PLAN
1. Introduction : contexte, problématiques
2. Objectifs : apports opérationnels et qualitatifs de la solution
3. Verrous technologiques : multilinguisme, hétérogénéité, analyse
- Gestion du multilinguisme
- Hétérogénéité des supports
- Prise en compte du contexte, rôle de l’analyste et gain qualitatif
4. Etudes de cas
5. Pour conclure...
RAPPELS
- Les traitements Textométriques opèrent à partir d’une trame de contenants dans lesquels le ﬁl textuel est segmenté en unités :
la problématique de la segmentation du ﬁl textuel est donc centrale.
- Les technologies de TAL (Traitement Automatique des Langues) visent à appliquer les méthodologies d’analyses, notamment issues de la
Linguistique Appliquée et de la Sémantique Textuelle, à l’aide d’une chaîne de traitement informatisée.
- Le principe de résonance textuelle : «variations conjointes des différentes unités textuelles dans [plusieurs volets] du corpus» (Salem, 2004)

1. INTRODUCTION : CONTEXTE, PROBLÉMATIQUES
CONTEXTE MÉTIER
- Veille sociétale, en particulier analyse des retombées médiatiques et des opinions exprimées par les
internautes sur une marque, une institution, un produit et des thématiques sur lesquelles elles portent et des
arguments auxquelles elles sont liées.
- Veille multilingue et multisupports, pour répondre aux évolutions du web et de la demande client.
- Solutions techniques existantes exploitant encore peu les innovations technologiques en TAL et les méthodes
d’analyse de données textuelles développées en Textométrie.
CONTEXTE R&D
- Conception d’un système d’agrégation et d’analyse de données web.
- Modulable, opérationnel en contexte multilingue (langues européennes et asiatiques).
- Enrichissement ﬂexible de corpus : trames d’annotation dédiées à des besoins d’analyse particuliers.
- Problématiques : Linguistique Appliquée, TAL (multilingue), Textométrie, analyse de la CMO.
- Focus particulier : Analyse des conversations et analyse des opinions.

2. OBJECTIFS : APPORTS OPÉRATIONNELS ET QUALITATIFS DE LA SOLUTION
Web hétérogène et multilingue
Moteur d'extraction Grilles d'analyse
Interface Analyste Serveur de données
Heuristics
Interface Client
Avec l’objectif d’optimiser les systèmes d’analyse qualitative de données web utilisés en veille stratégique sociétale, notre
contribution vise à :
- opérationnaliser la tâche de récolte d’informations textuelles à partir de structures erratiques, en contexte multilingue ;
- développer des séquences de traitement génériques pour fluidifier les étapes de traitement, depuis l’extraction d’informations
identifiées comme pertinentes, jusqu’à l’analyse proprement dite.
Export de résultats
Web service dédié à la veille, intégration des résultats d’analyses linguistiques et Textométriques

OpinionsCorpus
Module
d’agrégation
de données
Choix format du corpus
Extraction
Décomptes sur les
données agrégées
Analyses Textométriques
Trames
d’annotation
structurelleDescription XPath
Création de
corpus structuré
standard XML
Résonance (inter)textuelle
Thématiques
2. OBJECTIFS : APPORTS OPÉRATIONNELS ET QUALITATIFS DE LA SOLUTION
Trames d’annotation analytiques
Web bruité, supports hétérogènes,
données multilingues
Statistiques Textuelles Cartographie Textuelle riche
IDENTIFICATION ACQUISITION ANALYSE
Data Table
Mixed Graphs
Exports dans des
formats standard
(.csv, .xml, .jpg, ...)
Prétraitements
Statistiques Textuelles
Supervision et validation qualité à chaque étape par l’analyste - veilleur
Processus métier centré sur l’analyste : l’ALAO (Analyse Linguistique Assistée par Ordinateur)

3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE
CONTEXTE
- Fort accroissement du multilinguisme sur internet depuis 2000.
- Depuis 2004, développement de l’effort de recherche pour l’adaptation des technologies de TAL aux langues
peu présentes sur le web.
- Depuis 2008, les besoins du marché de la veille sociétale se globalisent.
- Un facteur de complexité supplémentaire pour l’acquisition d’informations.
- Un critère incontournable dans un outil de veille qui répond aux besoins actuels du marché.
LA SEGMENTATION, UNE PROBLÉMATIQUE MAJEURE EN CONTEXTE MULTILINGUE
- Ambiguïtés sémantiques importantes pour certaines langues agglutinantes (japonais et coréen) et isolantes
(chinois), car la notion de mot graphique n’existe pas. Un exemple en chinois :
乒乓球_拍卖 les balles de ping-pong (n)_vendre aux enchères (v)
乒乓球拍_卖_Les raquettes de ping-pong (n)_vendre (v)

HÉTÉROGÉNÉITÉ DES SUPPORTS
- Grande variété des types de support et métalangages utilisés pour décrire l’afﬁchage des textes faiblement contraints :
des difﬁcultés importantes pour repérer les données pertinentes.
STRATÉGIE DE RÉCUPÉRATION FONDÉE SUR XPATH
- XPath est un langage d’indication de chemin dans une structure de type XML : il permet d’exprimer une requête pour
extraire le contenu d’un ou plusieurs éléments estimés pertinents au sein de cette structure.
- Approche semi-automatique économe : description des contenants de données pertinentes pour minimiser la récolte de
données bruitées et conserver la structuration textuelle.
! ! !
Exemple de page d’article à extraire : LeFigaro.fr Exemple de description XPath de la structure à extraire Exemple de structure XML de l’article extrait
Tableau 1 - Etapes de l'extraction appliquée à une page de journal en ligne en français

Développer une passerelle pour fluidifier les étapes de traitement, depuis l’extraction de données signifiantes jusqu’à
l’analyse proprement dite, implique une gestion robuste de la segmentation dans les différentes langues traitées.
A ce niveau de l’applicatif, on communique avec un moteur de traitement Textométrique, pour analyser les textes dans
des strates de contenants homogènes.
ETABLIR DES TRAMES DE CONTENANTS HOMOGÈNES
Les informations récupérées à partir de différents supports de production en ligne doivent avoir une structure
commune, pour effectuer des analyses sur corpus dans des contenants comparables : cela est un prérequis pour
mettre en oeuvre le principe de résonance textuelle.
Résultat d’extraction structurée à partir d’un journal français Résultat d’extraction structurée à partir d’un journal coréen
!
Tableau 2 - Résultats du module d’extraction de données en français et en coréen : définir des trames de contenants homogènes

PRISE EN COMPTE DU CONTEXTE ET GAIN QUALITATIF
L’application du principe de résonance textuelle permet de contextualiser les productions linguistiques.
Il s’agit d’étudier la distribution de segments textuels (sèmes, Entités Nommées, segments textuels, ...) dans
différents volets de corpus, monolingues ou multilingues.
On peut déﬁnir, typer les relations de résonance textuelle et ainsi obtenir une strate complémentaire d’analyse
qui permet un meilleur accès au contexte (ancrage textuel des Entités Nommées, des opinions, analyse
distributionnelle sur un plan synchronique ou diachronique).
<Article>
<Commentaires>
LEGENDE
relation de résonance 1
relation de résonance 2
hors résonance
Figure 1 – Principe de la résonance textuelle : cas d’application
entre un article et la série de commentaires qui lui correspondent.

OUTILS ET RÔLE DE L’ANALYSTE
- Quatre fonctions d’exploration Textométrique sont particulièrement adaptées à l’analyse de corpus de veille :
1) Calcul des Spécificités : méthode statistique visant à projeter pour un sous-ensemble donné d’un corpus,
les objets dont la présence est représentative ou sous-représentative de celui-ci.
2) Analyse Factorielle des Correspondances (AFC) : représentation graphique de la distance des objets
comparés sur la base d’algorithme de similarités.
3) Calcul des Segments Répétés (SR) : ensemble d’objets ordonnés dont les occurrences dans le co-texte d’un
corpus lui suppose un signifié particulier.
4) (Poly)cooccurrence : ensemble d’objets non ordonnés dont la cooccurrence contextuelle indique l’existence
d’un réseau sémantique.
Ces outils, entre autres, constituent l’ « équipement » de l’analyste veilleur et lui permettent de mettre en valeur
son expertise du domaine et sa compréhension des méthodes d’analyse linguistique.
En effet, celui-ci, sur la base des résultats fournis par les outils d’exploration Textométrique, peut enrichir le corpus
en définissant des grilles d’analyse complémentaires, voire des Ressources Linguistiques et taxinomiques.

- Corpus PS : 4,8 millions de mots, monolingue (FR) - polémiques autour de l’élection de M. Aubry à la tête du PS et de sa
légitimité à ce poste - données récoltées entre novembre 2008 et août 2009.
- Décomptes volumétriques produits à l’issue de l’étape d’extraction de données : on compare les effectifs de différents contenants
textuels, i.e. les «Articles», les «Commentaires» ; on met ces volumes en regard du nombre de contributeurs auteurs des
commentaires. (Figure 2)
- Analyses distributionnelles sur le vocabulaire spécifique, résultant du moteur Textométrique : on observe la mise en place du
vocabulaire spécifique employé par les internautes dans les commentaires, au fil du temps. Cela permet d’aborder les
problématiques de fouille de données pour la détection d’arguments (argument mining) en contexte de débat social. (Figure 3)
4. ETUDES DE CAS (1/4)
!
Figure 2 – Volumétries des publications, des commentaires et des contributeurs
dans le corpus. Les courbes sont générées par un logiciel de tableur informatique,
à partir de l’export de résultats volumétriques fournis par le système au format .csv
!
Figure 3 – Graphique de ventilation du vocabulaire spécifique des articles (bleu) et des
commentaires (rouge), fondé sur le calcul des Spécificités et permet d’observer la mise en
place du vocabulaire distinctif des commentaires d’un point de vue diachronique.

- Corpus Cocoon : analyse d’opinion en contexte bilingue (FR/EN) suite à un lancement produit - corpus de 40 000 mots -
résultats obtenus à l’issue de l’étape d’analyse des données (résultat du moteur Textométrique)
- Exploitation de l’AFC pour apprécier le positionnement des discours selon la proximité linguistique des textes
- On remarque que les supports qui entretiennent de fortes proximités ont eu tendance à reprendre textuellement le
communiqué de presse (Portail, Webzine, Presse, Forum). L’ensemble des blogs ont abondamment cité les entités nommées
liées au produit et à la marque, mais sans reprendre les éléments du communiqué.
!
Figure 4 – Résultat d’une AFC pour positionner les commentaires d’internautes produits sur des
supports différents ; corpus français, analyse des retombées autour d’un lancement produit.

- Corpus Cocoon : on effectue des calculs volumétriques à partir des discours annotés en fonction des opinions exprimées,
dont la détection est fondée sur une grille adaptant le modèle de l’Appraisal Theory.
- Ces éléments sont produits à l’issue des calculs effectués à partir des grilles d’analyse des opinions.
- On remarque que les opinions exprimées dans les supports de type Webzine sont liées à une évaluation négative du
produit et/ou de la marque et n’ont recueilli que peu de contributions des internautes.
- A l’inverse, si les blogs ont suscité un nombre d’opinions plus important, la majorité d’entre elles sont non pertinentes,
c’est-à-dire ne portent ni sur la marque, ni sur le produit, mais sur les blogueuses partenaires de la marque qui sont
félicitées par leur audience.
! !
Figure 5 – Répartition des évaluations (opinions) dans les commentaires d’internautes dans différents supports du web français. A
gauche, la répartition par orientation des opinions dans les supports de type webzine (rouge) ; à droite, dans les supports blog (bleu).

- Corpus Affiliation : 1 700 sources web analysées en fonction de leur thématique dans différents domaines ciblés par la stratégie
d’affiliation du client. L’objectif est d’identifier les sources les plus pertinentes par rapport à ces thématiques, en vue de lancer des
campagnes d’affiliation web.
- Ces résultats sont obtenus à l’issue des calculs effectués à partir des grilles d’analyse des thématiques.
- Nous exploitons la carte des sections pour ventiler des Entités Nommées et ainsi observer la façon dont elles sont réparties dans
un type de contenant particulier, en l’occurrence dans les différents supports du corpus.
Figure 6 – Répartition des textes du corpus en fonction de leur thématique de
prédilection - analyse de sources francophones dans le cadre d’une étude de
support à la stratégie d’affiliation web sur le domaine de la Musique Classique.
Figure 7 – Répartition des Entités Nommées de noms d’auteurs en
fonction des différents supports pris en compte dans la récolte du corpus,
sur le domaine Musique Classique.

POUR CONCLURE...
La solution conçue associe les technologies de récolte de données textuelles et les moteurs de traitements
Textométriques.
Outres les bénéfices opérationnels qui en découlent (flexibilité du système, gain de temps, enrichissement
de corpus avec trames d’annotation dédiées), cette solution remet l’analyste expert au coeur du système.
La fluidification des étapes de traitement jusqu’à l’analyse en elle-même permet de tirer un profit
nettement plus élevée de l’expertise du linguiste.
Ce flux de travail correspond au processus d’Analyse Linguistique Assistée par Ordinateur (ALAO).
PERSPECTIVES
Dans la suite de ce travail, on s’intéressera en particulier à :
- la détection semi-automatisée des structures conversationnelles en ligne ;
- l’optimisation des processus de constitution de Ressources Linguistiques multilingues ;
- la mise en place d’un système de prédiction de l’évolution des opinions, à long terme.

Merci !
Le Sémiopôle 66 rue Marceau 93100 Montreuil ~ tél. 00 33 (1) 41 585 636 Fax 00 33 (1) 48 593 532
Contacts Frédéric Pierron fpierron@le-semiopole.fr 00 33 (6) 16 331 810 Marguerite Leenhardt mleenhardt@le-semiopole.fr 00 33 (6) 79 741 152
www.le-semiopole.fr

Vsst 2010 le_semiopole_26102010

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (8)

Similar a Vsst 2010 le_semiopole_26102010

Similar a Vsst 2010 le_semiopole_26102010 (20)

Vsst 2010 le_semiopole_26102010

Notas del editor