SlideShare una empresa de Scribd logo
1 de 16
mleenhardt@le-semiopole.fr
rdelaplace@le-semiopole.fr
www.le-semiopole.fr
Tel : +33 (0) 141 585 636
Fax : +33 (0) 148 593 532
66, rue Marceau - 93100 Montreuil - France
lcwu@le-semiopole.fr
SYLED/CLA2T - ILPGA Paris 3
CRIM/ERTIM - INaLCO
SYLED/CLA2T - ILPGA Paris 3
Marguerite Leenhardt
Richard Delaplace
Li-Chi Wu
26 octobre 2010
Méthode de conception d’une application de veille
et d’Analyse Linguistique Assistée par Ordinateur
Colloque international VSST‘2010 - Université Paul Sabatier - Toulouse
‘Veille stratégique, scientifique et technologique - Systèmes d’information élaborée, bibliométrie, linguistique, intelligence économique’
1mercredi 27 octobre 2010
PLAN
1. Introduction : contexte, problématiques
2. Objectifs : apports opérationnels et qualitatifs de la solution
3. Verrous technologiques : multilinguisme, hétérogénéité, analyse
- Gestion du multilinguisme
- Hétérogénéité des supports
- Prise en compte du contexte, rôle de l’analyste et gain qualitatif
4. Etudes de cas
5. Pour conclure...
RAPPELS
- Les traitements Textométriques opèrent à partir d’une trame de contenants dans lesquels le fil textuel est segmenté en unités :
la problématique de la segmentation du fil textuel est donc centrale.
- Les technologies de TAL (Traitement Automatique des Langues) visent à appliquer les méthodologies d’analyses, notamment issues de la
Linguistique Appliquée et de la Sémantique Textuelle, à l’aide d’une chaîne de traitement informatisée.
- Le principe de résonance textuelle : «variations conjointes des différentes unités textuelles dans [plusieurs volets] du corpus» (Salem, 2004)
2mercredi 27 octobre 2010
1. INTRODUCTION : CONTEXTE, PROBLÉMATIQUES
CONTEXTE MÉTIER
- Veille sociétale, en particulier analyse des retombées médiatiques et des opinions exprimées par les
internautes sur une marque, une institution, un produit et des thématiques sur lesquelles elles portent et des
arguments auxquelles elles sont liées.
- Veille multilingue et multisupports, pour répondre aux évolutions du web et de la demande client.
- Solutions techniques existantes exploitant encore peu les innovations technologiques en TAL et les méthodes
d’analyse de données textuelles développées en Textométrie.
CONTEXTE R&D
- Conception d’un système d’agrégation et d’analyse de données web.
- Modulable, opérationnel en contexte multilingue (langues européennes et asiatiques).
- Enrichissement flexible de corpus : trames d’annotation dédiées à des besoins d’analyse particuliers.
- Problématiques : Linguistique Appliquée, TAL (multilingue), Textométrie, analyse de la CMO.
- Focus particulier : Analyse des conversations et analyse des opinions.
3mercredi 27 octobre 2010
2. OBJECTIFS : APPORTS OPÉRATIONNELS ET QUALITATIFS DE LA SOLUTION
Web hétérogène et multilingue
Moteur d'extraction Grilles d'analyse
Interface Analyste Serveur de données
Heuristics
Interface Client
Avec l’objectif d’optimiser les systèmes d’analyse qualitative de données web utilisés en veille stratégique sociétale, notre
contribution vise à :
- opérationnaliser la tâche de récolte d’informations textuelles à partir de structures erratiques, en contexte multilingue ;
- développer des séquences de traitement génériques pour fluidifier les étapes de traitement, depuis l’extraction d’informations
identifiées comme pertinentes, jusqu’à l’analyse proprement dite.
Export de résultats
Web service dédié à la veille, intégration des résultats d’analyses linguistiques et Textométriques
4mercredi 27 octobre 2010
OpinionsCorpus
Module
d’agrégation
de données
Choix format du corpus
Extraction
Décomptes sur les
données agrégées
Analyses Textométriques
Trames
d’annotation
structurelleDescription XPath
Création de
corpus structuré
standard XML
Résonance (inter)textuelle
Thématiques
2. OBJECTIFS : APPORTS OPÉRATIONNELS ET QUALITATIFS DE LA SOLUTION
Trames d’annotation analytiques
Web bruité, supports hétérogènes,
données multilingues
Statistiques Textuelles Cartographie Textuelle riche
IDENTIFICATION ACQUISITION ANALYSE
Data Table
Mixed Graphs
Exports dans des
formats standard
(.csv, .xml, .jpg, ...)
Prétraitements
Statistiques Textuelles
Supervision et validation qualité à chaque étape par l’analyste - veilleur
Processus métier centré sur l’analyste : l’ALAO (Analyse Linguistique Assistée par Ordinateur)
5mercredi 27 octobre 2010
3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE
CONTEXTE
- Fort accroissement du multilinguisme sur internet depuis 2000.
- Depuis 2004, développement de l’effort de recherche pour l’adaptation des technologies de TAL aux langues
peu présentes sur le web.
- Depuis 2008, les besoins du marché de la veille sociétale se globalisent.
- Un facteur de complexité supplémentaire pour l’acquisition d’informations.
- Un critère incontournable dans un outil de veille qui répond aux besoins actuels du marché.
LA SEGMENTATION, UNE PROBLÉMATIQUE MAJEURE EN CONTEXTE MULTILINGUE
- Ambiguïtés sémantiques importantes pour certaines langues agglutinantes (japonais et coréen) et isolantes
(chinois), car la notion de mot graphique n’existe pas. Un exemple en chinois :
乒乓球_拍卖 les balles de ping-pong (n)_vendre aux enchères (v)
乒乓球拍_卖_Les raquettes de ping-pong (n)_vendre (v)
6mercredi 27 octobre 2010
3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE
HÉTÉROGÉNÉITÉ DES SUPPORTS
- Grande variété des types de support et métalangages utilisés pour décrire l’affichage des textes faiblement contraints :
des difficultés importantes pour repérer les données pertinentes.
STRATÉGIE DE RÉCUPÉRATION FONDÉE SUR XPATH
- XPath est un langage d’indication de chemin dans une structure de type XML : il permet d’exprimer une requête pour
extraire le contenu d’un ou plusieurs éléments estimés pertinents au sein de cette structure.
- Approche semi-automatique économe : description des contenants de données pertinentes pour minimiser la récolte de
données bruitées et conserver la structuration textuelle.
! ! !
Exemple de page d’article à extraire : LeFigaro.fr Exemple de description XPath de la structure à extraire Exemple de structure XML de l’article extrait
Tableau 1 - Etapes de l'extraction appliquée à une page de journal en ligne en français
7mercredi 27 octobre 2010
Développer une passerelle pour fluidifier les étapes de traitement, depuis l’extraction de données signifiantes jusqu’à
l’analyse proprement dite, implique une gestion robuste de la segmentation dans les différentes langues traitées.
A ce niveau de l’applicatif, on communique avec un moteur de traitement Textométrique, pour analyser les textes dans
des strates de contenants homogènes.
ETABLIR DES TRAMES DE CONTENANTS HOMOGÈNES
Les informations récupérées à partir de différents supports de production en ligne doivent avoir une structure
commune, pour effectuer des analyses sur corpus dans des contenants comparables : cela est un prérequis pour
mettre en oeuvre le principe de résonance textuelle.
Résultat d’extraction structurée à partir d’un journal français Résultat d’extraction structurée à partir d’un journal coréen
3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE
!
Tableau 2 - Résultats du module d’extraction de données en français et en coréen : définir des trames de contenants homogènes
8mercredi 27 octobre 2010
PRISE EN COMPTE DU CONTEXTE ET GAIN QUALITATIF
L’application du principe de résonance textuelle permet de contextualiser les productions linguistiques.
Il s’agit d’étudier la distribution de segments textuels (sèmes, Entités Nommées, segments textuels, ...) dans
différents volets de corpus, monolingues ou multilingues.
On peut définir, typer les relations de résonance textuelle et ainsi obtenir une strate complémentaire d’analyse
qui permet un meilleur accès au contexte (ancrage textuel des Entités Nommées, des opinions, analyse
distributionnelle sur un plan synchronique ou diachronique).
3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE
<Article>
<Commentaires>
LEGENDE
relation de résonance 1
relation de résonance 2
hors résonance
Figure 1 – Principe de la résonance textuelle : cas d’application
entre un article et la série de commentaires qui lui correspondent.
9mercredi 27 octobre 2010
3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE
OUTILS ET RÔLE DE L’ANALYSTE
- Quatre fonctions d’exploration Textométrique sont particulièrement adaptées à l’analyse de corpus de veille :
1) Calcul des Spécificités : méthode statistique visant à projeter pour un sous-ensemble donné d’un corpus,
les objets dont la présence est représentative ou sous-représentative de celui-ci.
2) Analyse Factorielle des Correspondances (AFC) : représentation graphique de la distance des objets
comparés sur la base d’algorithme de similarités.
3) Calcul des Segments Répétés (SR) : ensemble d’objets ordonnés dont les occurrences dans le co-texte d’un
corpus lui suppose un signifié particulier.
4) (Poly)cooccurrence : ensemble d’objets non ordonnés dont la cooccurrence contextuelle indique l’existence
d’un réseau sémantique.
Ces outils, entre autres, constituent l’ « équipement » de l’analyste veilleur et lui permettent de mettre en valeur
son expertise du domaine et sa compréhension des méthodes d’analyse linguistique.
En effet, celui-ci, sur la base des résultats fournis par les outils d’exploration Textométrique, peut enrichir le corpus
en définissant des grilles d’analyse complémentaires, voire des Ressources Linguistiques et taxinomiques.
10mercredi 27 octobre 2010
- Corpus PS : 4,8 millions de mots, monolingue (FR) - polémiques autour de l’élection de M. Aubry à la tête du PS et de sa
légitimité à ce poste - données récoltées entre novembre 2008 et août 2009.
- Décomptes volumétriques produits à l’issue de l’étape d’extraction de données : on compare les effectifs de différents contenants
textuels, i.e. les «Articles», les «Commentaires» ; on met ces volumes en regard du nombre de contributeurs auteurs des
commentaires. (Figure 2)
- Analyses distributionnelles sur le vocabulaire spécifique, résultant du moteur Textométrique : on observe la mise en place du
vocabulaire spécifique employé par les internautes dans les commentaires, au fil du temps. Cela permet d’aborder les
problématiques de fouille de données pour la détection d’arguments (argument mining) en contexte de débat social. (Figure 3)
4. ETUDES DE CAS (1/4)
!
Figure 2 – Volumétries des publications, des commentaires et des contributeurs
dans le corpus. Les courbes sont générées par un logiciel de tableur informatique,
à partir de l’export de résultats volumétriques fournis par le système au format .csv
!
Figure 3 – Graphique de ventilation du vocabulaire spécifique des articles (bleu) et des
commentaires (rouge), fondé sur le calcul des Spécificités et permet d’observer la mise en
place du vocabulaire distinctif des commentaires d’un point de vue diachronique.
11mercredi 27 octobre 2010
- Corpus Cocoon : analyse d’opinion en contexte bilingue (FR/EN) suite à un lancement produit - corpus de 40 000 mots -
résultats obtenus à l’issue de l’étape d’analyse des données (résultat du moteur Textométrique)
- Exploitation de l’AFC pour apprécier le positionnement des discours selon la proximité linguistique des textes
- On remarque que les supports qui entretiennent de fortes proximités ont eu tendance à reprendre textuellement le
communiqué de presse (Portail, Webzine, Presse, Forum). L’ensemble des blogs ont abondamment cité les entités nommées
liées au produit et à la marque, mais sans reprendre les éléments du communiqué.
4. ETUDES DE CAS (2/4)
!
Figure 4 – Résultat d’une AFC pour positionner les commentaires d’internautes produits sur des
supports différents ; corpus français, analyse des retombées autour d’un lancement produit.
12mercredi 27 octobre 2010
- Corpus Cocoon : on effectue des calculs volumétriques à partir des discours annotés en fonction des opinions exprimées,
dont la détection est fondée sur une grille adaptant le modèle de l’Appraisal Theory.
- Ces éléments sont produits à l’issue des calculs effectués à partir des grilles d’analyse des opinions.
- On remarque que les opinions exprimées dans les supports de type Webzine sont liées à une évaluation négative du
produit et/ou de la marque et n’ont recueilli que peu de contributions des internautes.
- A l’inverse, si les blogs ont suscité un nombre d’opinions plus important, la majorité d’entre elles sont non pertinentes,
c’est-à-dire ne portent ni sur la marque, ni sur le produit, mais sur les blogueuses partenaires de la marque qui sont
félicitées par leur audience.
4. ETUDES DE CAS (3/4)
! !
Figure 5 – Répartition des évaluations (opinions) dans les commentaires d’internautes dans différents supports du web français. A
gauche, la répartition par orientation des opinions dans les supports de type webzine (rouge) ; à droite, dans les supports blog (bleu).
13mercredi 27 octobre 2010
- Corpus Affiliation : 1 700 sources web analysées en fonction de leur thématique dans différents domaines ciblés par la stratégie
d’affiliation du client. L’objectif est d’identifier les sources les plus pertinentes par rapport à ces thématiques, en vue de lancer des
campagnes d’affiliation web.
- Ces résultats sont obtenus à l’issue des calculs effectués à partir des grilles d’analyse des thématiques.
- Nous exploitons la carte des sections pour ventiler des Entités Nommées et ainsi observer la façon dont elles sont réparties dans
un type de contenant particulier, en l’occurrence dans les différents supports du corpus.
4. ETUDES DE CAS (4/4)
Figure 6 – Répartition des textes du corpus en fonction de leur thématique de
prédilection - analyse de sources francophones dans le cadre d’une étude de
support à la stratégie d’affiliation web sur le domaine de la Musique Classique.
Figure 7 – Répartition des Entités Nommées de noms d’auteurs en
fonction des différents supports pris en compte dans la récolte du corpus,
sur le domaine Musique Classique.
14mercredi 27 octobre 2010
POUR CONCLURE...
La solution conçue associe les technologies de récolte de données textuelles et les moteurs de traitements
Textométriques.
Outres les bénéfices opérationnels qui en découlent (flexibilité du système, gain de temps, enrichissement
de corpus avec trames d’annotation dédiées), cette solution remet l’analyste expert au coeur du système.
La fluidification des étapes de traitement jusqu’à l’analyse en elle-même permet de tirer un profit
nettement plus élevée de l’expertise du linguiste.
Ce flux de travail correspond au processus d’Analyse Linguistique Assistée par Ordinateur (ALAO).
PERSPECTIVES
Dans la suite de ce travail, on s’intéressera en particulier à :
- la détection semi-automatisée des structures conversationnelles en ligne ;
- l’optimisation des processus de constitution de Ressources Linguistiques multilingues ;
- la mise en place d’un système de prédiction de l’évolution des opinions, à long terme.
15mercredi 27 octobre 2010
Merci !
Le Sémiopôle 66 rue Marceau 93100 Montreuil ~ tél. 00 33 (1) 41 585 636 Fax 00 33 (1) 48 593 532
Contacts Frédéric Pierron fpierron@le-semiopole.fr 00 33 (6) 16 331 810 Marguerite Leenhardt mleenhardt@le-semiopole.fr 00 33 (6) 79 741 152
www.le-semiopole.fr
16mercredi 27 octobre 2010

Más contenido relacionado

Destacado

Time Manager Vortrag vom QGIS-DE Anwendertreffen 2015
Time Manager Vortrag vom QGIS-DE Anwendertreffen 2015Time Manager Vortrag vom QGIS-DE Anwendertreffen 2015
Time Manager Vortrag vom QGIS-DE Anwendertreffen 2015Anita Graser
 
Ellie W & Ellie C Customer & Keeper
Ellie W & Ellie C Customer & KeeperEllie W & Ellie C Customer & Keeper
Ellie W & Ellie C Customer & KeeperS Green
 
Mieux ConnaîTre L Islam
Mieux ConnaîTre L IslamMieux ConnaîTre L Islam
Mieux ConnaîTre L Islamguest5c03c60f
 
Der 30u30-Wettbewerb. Hoffmann-Petzold: Kommunikation. Eine Branche, so vielf...
Der 30u30-Wettbewerb. Hoffmann-Petzold: Kommunikation. Eine Branche, so vielf...Der 30u30-Wettbewerb. Hoffmann-Petzold: Kommunikation. Eine Branche, so vielf...
Der 30u30-Wettbewerb. Hoffmann-Petzold: Kommunikation. Eine Branche, so vielf...#30u30 by PR Report
 
Der 30u30-Wettbewerb. Neumann-Quanz: bePRoud.
Der 30u30-Wettbewerb. Neumann-Quanz: bePRoud.Der 30u30-Wettbewerb. Neumann-Quanz: bePRoud.
Der 30u30-Wettbewerb. Neumann-Quanz: bePRoud.#30u30 by PR Report
 
Birds high fashion_show___1
Birds high fashion_show___1Birds high fashion_show___1
Birds high fashion_show___1baseandromeda1
 

Destacado (8)

Time Manager Vortrag vom QGIS-DE Anwendertreffen 2015
Time Manager Vortrag vom QGIS-DE Anwendertreffen 2015Time Manager Vortrag vom QGIS-DE Anwendertreffen 2015
Time Manager Vortrag vom QGIS-DE Anwendertreffen 2015
 
Ebber Cc Republica
Ebber Cc RepublicaEbber Cc Republica
Ebber Cc Republica
 
Ellie W & Ellie C Customer & Keeper
Ellie W & Ellie C Customer & KeeperEllie W & Ellie C Customer & Keeper
Ellie W & Ellie C Customer & Keeper
 
Mieux ConnaîTre L Islam
Mieux ConnaîTre L IslamMieux ConnaîTre L Islam
Mieux ConnaîTre L Islam
 
Der 30u30-Wettbewerb. Hoffmann-Petzold: Kommunikation. Eine Branche, so vielf...
Der 30u30-Wettbewerb. Hoffmann-Petzold: Kommunikation. Eine Branche, so vielf...Der 30u30-Wettbewerb. Hoffmann-Petzold: Kommunikation. Eine Branche, so vielf...
Der 30u30-Wettbewerb. Hoffmann-Petzold: Kommunikation. Eine Branche, so vielf...
 
Services for Realtors
Services for RealtorsServices for Realtors
Services for Realtors
 
Der 30u30-Wettbewerb. Neumann-Quanz: bePRoud.
Der 30u30-Wettbewerb. Neumann-Quanz: bePRoud.Der 30u30-Wettbewerb. Neumann-Quanz: bePRoud.
Der 30u30-Wettbewerb. Neumann-Quanz: bePRoud.
 
Birds high fashion_show___1
Birds high fashion_show___1Birds high fashion_show___1
Birds high fashion_show___1
 

Similar a Vsst 2010 le_semiopole_26102010

OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...Michel Héon PhD
 
Les outils de veille sur internet
Les outils de veille sur internetLes outils de veille sur internet
Les outils de veille sur internetAref Jdey
 
Atelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAAtelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAADBSAquidoc
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICStuxette
 
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...M@rsouin
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICStuxette
 
Liege2011 Sylvie DAMY Bénédicte HERRMANN Jean-Jacques Girardot
Liege2011 Sylvie DAMY Bénédicte HERRMANN Jean-Jacques GirardotLiege2011 Sylvie DAMY Bénédicte HERRMANN Jean-Jacques Girardot
Liege2011 Sylvie DAMY Bénédicte HERRMANN Jean-Jacques GirardotTerritorial Intelligence
 
Présentation de Génériques
Présentation de GénériquesPrésentation de Génériques
Présentation de GénériquesAssociationAF
 
L'ingénierie des ENA fondée sur le web des données ouvertes et liées
L'ingénierie des ENA fondée sur le web des données ouvertes et liéesL'ingénierie des ENA fondée sur le web des données ouvertes et liées
L'ingénierie des ENA fondée sur le web des données ouvertes et liéesGilbert Paquette
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifiquelazoumi ouarfli
 
Panorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesPanorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesURFIST de Paris
 
Priows présentation des résultats
Priows présentation des résultats Priows présentation des résultats
Priows présentation des résultats Gilbert Paquette
 
Hamonic generiques hope
Hamonic generiques hopeHamonic generiques hope
Hamonic generiques hopeAssociationAF
 
Nouvelles méthodes de développement web avec les technologies centrées doc...
Nouvelles méthodes de développement web avec les technologies centrées doc...Nouvelles méthodes de développement web avec les technologies centrées doc...
Nouvelles méthodes de développement web avec les technologies centrées doc...stsire
 
Jabes 2011 - Actualités et projets de l'Abes "Les thèses"
Jabes 2011 - Actualités et projets de l'Abes "Les thèses"Jabes 2011 - Actualités et projets de l'Abes "Les thèses"
Jabes 2011 - Actualités et projets de l'Abes "Les thèses"ABES
 

Similar a Vsst 2010 le_semiopole_26102010 (20)

OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
 
Les outils de veille sur internet
Les outils de veille sur internetLes outils de veille sur internet
Les outils de veille sur internet
 
Présentation cice telos
Présentation cice   telosPrésentation cice   telos
Présentation cice telos
 
Atelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIAAtelier documentaire du chercheur à l'INRIA
Atelier documentaire du chercheur à l'INRIA
 
formation URFIST Rennes 2009
formation URFIST Rennes 2009formation URFIST Rennes 2009
formation URFIST Rennes 2009
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICS
 
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
Histoire des Sciences et des techniques, TIC et Inquiry Based Science Teachin...
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICS
 
Liege2011 Sylvie DAMY Bénédicte HERRMANN Jean-Jacques Girardot
Liege2011 Sylvie DAMY Bénédicte HERRMANN Jean-Jacques GirardotLiege2011 Sylvie DAMY Bénédicte HERRMANN Jean-Jacques Girardot
Liege2011 Sylvie DAMY Bénédicte HERRMANN Jean-Jacques Girardot
 
Présentation de Génériques
Présentation de GénériquesPrésentation de Génériques
Présentation de Génériques
 
L'ingénierie des ENA fondée sur le web des données ouvertes et liées
L'ingénierie des ENA fondée sur le web des données ouvertes et liéesL'ingénierie des ENA fondée sur le web des données ouvertes et liées
L'ingénierie des ENA fondée sur le web des données ouvertes et liées
 
Tic recherche-scientifique
Tic recherche-scientifiqueTic recherche-scientifique
Tic recherche-scientifique
 
Panorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesPanorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiques
 
Priows présentation des résultats
Priows présentation des résultats Priows présentation des résultats
Priows présentation des résultats
 
Hamonic generiques hope
Hamonic generiques hopeHamonic generiques hope
Hamonic generiques hope
 
L'Atelier de cartographie
L'Atelier de cartographieL'Atelier de cartographie
L'Atelier de cartographie
 
Nouvelles méthodes de développement web avec les technologies centrées doc...
Nouvelles méthodes de développement web avec les technologies centrées doc...Nouvelles méthodes de développement web avec les technologies centrées doc...
Nouvelles méthodes de développement web avec les technologies centrées doc...
 
Pole TI - UMons - Lab'InSight Artificial Intelligence
Pole TI - UMons - Lab'InSight Artificial IntelligencePole TI - UMons - Lab'InSight Artificial Intelligence
Pole TI - UMons - Lab'InSight Artificial Intelligence
 
les techniques TALN
les techniques TALNles techniques TALN
les techniques TALN
 
Jabes 2011 - Actualités et projets de l'Abes "Les thèses"
Jabes 2011 - Actualités et projets de l'Abes "Les thèses"Jabes 2011 - Actualités et projets de l'Abes "Les thèses"
Jabes 2011 - Actualités et projets de l'Abes "Les thèses"
 

Vsst 2010 le_semiopole_26102010

  • 1. mleenhardt@le-semiopole.fr rdelaplace@le-semiopole.fr www.le-semiopole.fr Tel : +33 (0) 141 585 636 Fax : +33 (0) 148 593 532 66, rue Marceau - 93100 Montreuil - France lcwu@le-semiopole.fr SYLED/CLA2T - ILPGA Paris 3 CRIM/ERTIM - INaLCO SYLED/CLA2T - ILPGA Paris 3 Marguerite Leenhardt Richard Delaplace Li-Chi Wu 26 octobre 2010 Méthode de conception d’une application de veille et d’Analyse Linguistique Assistée par Ordinateur Colloque international VSST‘2010 - Université Paul Sabatier - Toulouse ‘Veille stratégique, scientifique et technologique - Systèmes d’information élaborée, bibliométrie, linguistique, intelligence économique’ 1mercredi 27 octobre 2010
  • 2. PLAN 1. Introduction : contexte, problématiques 2. Objectifs : apports opérationnels et qualitatifs de la solution 3. Verrous technologiques : multilinguisme, hétérogénéité, analyse - Gestion du multilinguisme - Hétérogénéité des supports - Prise en compte du contexte, rôle de l’analyste et gain qualitatif 4. Etudes de cas 5. Pour conclure... RAPPELS - Les traitements Textométriques opèrent à partir d’une trame de contenants dans lesquels le fil textuel est segmenté en unités : la problématique de la segmentation du fil textuel est donc centrale. - Les technologies de TAL (Traitement Automatique des Langues) visent à appliquer les méthodologies d’analyses, notamment issues de la Linguistique Appliquée et de la Sémantique Textuelle, à l’aide d’une chaîne de traitement informatisée. - Le principe de résonance textuelle : «variations conjointes des différentes unités textuelles dans [plusieurs volets] du corpus» (Salem, 2004) 2mercredi 27 octobre 2010
  • 3. 1. INTRODUCTION : CONTEXTE, PROBLÉMATIQUES CONTEXTE MÉTIER - Veille sociétale, en particulier analyse des retombées médiatiques et des opinions exprimées par les internautes sur une marque, une institution, un produit et des thématiques sur lesquelles elles portent et des arguments auxquelles elles sont liées. - Veille multilingue et multisupports, pour répondre aux évolutions du web et de la demande client. - Solutions techniques existantes exploitant encore peu les innovations technologiques en TAL et les méthodes d’analyse de données textuelles développées en Textométrie. CONTEXTE R&D - Conception d’un système d’agrégation et d’analyse de données web. - Modulable, opérationnel en contexte multilingue (langues européennes et asiatiques). - Enrichissement flexible de corpus : trames d’annotation dédiées à des besoins d’analyse particuliers. - Problématiques : Linguistique Appliquée, TAL (multilingue), Textométrie, analyse de la CMO. - Focus particulier : Analyse des conversations et analyse des opinions. 3mercredi 27 octobre 2010
  • 4. 2. OBJECTIFS : APPORTS OPÉRATIONNELS ET QUALITATIFS DE LA SOLUTION Web hétérogène et multilingue Moteur d'extraction Grilles d'analyse Interface Analyste Serveur de données Heuristics Interface Client Avec l’objectif d’optimiser les systèmes d’analyse qualitative de données web utilisés en veille stratégique sociétale, notre contribution vise à : - opérationnaliser la tâche de récolte d’informations textuelles à partir de structures erratiques, en contexte multilingue ; - développer des séquences de traitement génériques pour fluidifier les étapes de traitement, depuis l’extraction d’informations identifiées comme pertinentes, jusqu’à l’analyse proprement dite. Export de résultats Web service dédié à la veille, intégration des résultats d’analyses linguistiques et Textométriques 4mercredi 27 octobre 2010
  • 5. OpinionsCorpus Module d’agrégation de données Choix format du corpus Extraction Décomptes sur les données agrégées Analyses Textométriques Trames d’annotation structurelleDescription XPath Création de corpus structuré standard XML Résonance (inter)textuelle Thématiques 2. OBJECTIFS : APPORTS OPÉRATIONNELS ET QUALITATIFS DE LA SOLUTION Trames d’annotation analytiques Web bruité, supports hétérogènes, données multilingues Statistiques Textuelles Cartographie Textuelle riche IDENTIFICATION ACQUISITION ANALYSE Data Table Mixed Graphs Exports dans des formats standard (.csv, .xml, .jpg, ...) Prétraitements Statistiques Textuelles Supervision et validation qualité à chaque étape par l’analyste - veilleur Processus métier centré sur l’analyste : l’ALAO (Analyse Linguistique Assistée par Ordinateur) 5mercredi 27 octobre 2010
  • 6. 3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE CONTEXTE - Fort accroissement du multilinguisme sur internet depuis 2000. - Depuis 2004, développement de l’effort de recherche pour l’adaptation des technologies de TAL aux langues peu présentes sur le web. - Depuis 2008, les besoins du marché de la veille sociétale se globalisent. - Un facteur de complexité supplémentaire pour l’acquisition d’informations. - Un critère incontournable dans un outil de veille qui répond aux besoins actuels du marché. LA SEGMENTATION, UNE PROBLÉMATIQUE MAJEURE EN CONTEXTE MULTILINGUE - Ambiguïtés sémantiques importantes pour certaines langues agglutinantes (japonais et coréen) et isolantes (chinois), car la notion de mot graphique n’existe pas. Un exemple en chinois : 乒乓球_拍卖 les balles de ping-pong (n)_vendre aux enchères (v) 乒乓球拍_卖_Les raquettes de ping-pong (n)_vendre (v) 6mercredi 27 octobre 2010
  • 7. 3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE HÉTÉROGÉNÉITÉ DES SUPPORTS - Grande variété des types de support et métalangages utilisés pour décrire l’affichage des textes faiblement contraints : des difficultés importantes pour repérer les données pertinentes. STRATÉGIE DE RÉCUPÉRATION FONDÉE SUR XPATH - XPath est un langage d’indication de chemin dans une structure de type XML : il permet d’exprimer une requête pour extraire le contenu d’un ou plusieurs éléments estimés pertinents au sein de cette structure. - Approche semi-automatique économe : description des contenants de données pertinentes pour minimiser la récolte de données bruitées et conserver la structuration textuelle. ! ! ! Exemple de page d’article à extraire : LeFigaro.fr Exemple de description XPath de la structure à extraire Exemple de structure XML de l’article extrait Tableau 1 - Etapes de l'extraction appliquée à une page de journal en ligne en français 7mercredi 27 octobre 2010
  • 8. Développer une passerelle pour fluidifier les étapes de traitement, depuis l’extraction de données signifiantes jusqu’à l’analyse proprement dite, implique une gestion robuste de la segmentation dans les différentes langues traitées. A ce niveau de l’applicatif, on communique avec un moteur de traitement Textométrique, pour analyser les textes dans des strates de contenants homogènes. ETABLIR DES TRAMES DE CONTENANTS HOMOGÈNES Les informations récupérées à partir de différents supports de production en ligne doivent avoir une structure commune, pour effectuer des analyses sur corpus dans des contenants comparables : cela est un prérequis pour mettre en oeuvre le principe de résonance textuelle. Résultat d’extraction structurée à partir d’un journal français Résultat d’extraction structurée à partir d’un journal coréen 3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE ! Tableau 2 - Résultats du module d’extraction de données en français et en coréen : définir des trames de contenants homogènes 8mercredi 27 octobre 2010
  • 9. PRISE EN COMPTE DU CONTEXTE ET GAIN QUALITATIF L’application du principe de résonance textuelle permet de contextualiser les productions linguistiques. Il s’agit d’étudier la distribution de segments textuels (sèmes, Entités Nommées, segments textuels, ...) dans différents volets de corpus, monolingues ou multilingues. On peut définir, typer les relations de résonance textuelle et ainsi obtenir une strate complémentaire d’analyse qui permet un meilleur accès au contexte (ancrage textuel des Entités Nommées, des opinions, analyse distributionnelle sur un plan synchronique ou diachronique). 3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE <Article> <Commentaires> LEGENDE relation de résonance 1 relation de résonance 2 hors résonance Figure 1 – Principe de la résonance textuelle : cas d’application entre un article et la série de commentaires qui lui correspondent. 9mercredi 27 octobre 2010
  • 10. 3. VERROUS TECHNOLOGIQUES : MULTILINGUISME, HÉTÉROGÉNÉITÉ, ANALYSE OUTILS ET RÔLE DE L’ANALYSTE - Quatre fonctions d’exploration Textométrique sont particulièrement adaptées à l’analyse de corpus de veille : 1) Calcul des Spécificités : méthode statistique visant à projeter pour un sous-ensemble donné d’un corpus, les objets dont la présence est représentative ou sous-représentative de celui-ci. 2) Analyse Factorielle des Correspondances (AFC) : représentation graphique de la distance des objets comparés sur la base d’algorithme de similarités. 3) Calcul des Segments Répétés (SR) : ensemble d’objets ordonnés dont les occurrences dans le co-texte d’un corpus lui suppose un signifié particulier. 4) (Poly)cooccurrence : ensemble d’objets non ordonnés dont la cooccurrence contextuelle indique l’existence d’un réseau sémantique. Ces outils, entre autres, constituent l’ « équipement » de l’analyste veilleur et lui permettent de mettre en valeur son expertise du domaine et sa compréhension des méthodes d’analyse linguistique. En effet, celui-ci, sur la base des résultats fournis par les outils d’exploration Textométrique, peut enrichir le corpus en définissant des grilles d’analyse complémentaires, voire des Ressources Linguistiques et taxinomiques. 10mercredi 27 octobre 2010
  • 11. - Corpus PS : 4,8 millions de mots, monolingue (FR) - polémiques autour de l’élection de M. Aubry à la tête du PS et de sa légitimité à ce poste - données récoltées entre novembre 2008 et août 2009. - Décomptes volumétriques produits à l’issue de l’étape d’extraction de données : on compare les effectifs de différents contenants textuels, i.e. les «Articles», les «Commentaires» ; on met ces volumes en regard du nombre de contributeurs auteurs des commentaires. (Figure 2) - Analyses distributionnelles sur le vocabulaire spécifique, résultant du moteur Textométrique : on observe la mise en place du vocabulaire spécifique employé par les internautes dans les commentaires, au fil du temps. Cela permet d’aborder les problématiques de fouille de données pour la détection d’arguments (argument mining) en contexte de débat social. (Figure 3) 4. ETUDES DE CAS (1/4) ! Figure 2 – Volumétries des publications, des commentaires et des contributeurs dans le corpus. Les courbes sont générées par un logiciel de tableur informatique, à partir de l’export de résultats volumétriques fournis par le système au format .csv ! Figure 3 – Graphique de ventilation du vocabulaire spécifique des articles (bleu) et des commentaires (rouge), fondé sur le calcul des Spécificités et permet d’observer la mise en place du vocabulaire distinctif des commentaires d’un point de vue diachronique. 11mercredi 27 octobre 2010
  • 12. - Corpus Cocoon : analyse d’opinion en contexte bilingue (FR/EN) suite à un lancement produit - corpus de 40 000 mots - résultats obtenus à l’issue de l’étape d’analyse des données (résultat du moteur Textométrique) - Exploitation de l’AFC pour apprécier le positionnement des discours selon la proximité linguistique des textes - On remarque que les supports qui entretiennent de fortes proximités ont eu tendance à reprendre textuellement le communiqué de presse (Portail, Webzine, Presse, Forum). L’ensemble des blogs ont abondamment cité les entités nommées liées au produit et à la marque, mais sans reprendre les éléments du communiqué. 4. ETUDES DE CAS (2/4) ! Figure 4 – Résultat d’une AFC pour positionner les commentaires d’internautes produits sur des supports différents ; corpus français, analyse des retombées autour d’un lancement produit. 12mercredi 27 octobre 2010
  • 13. - Corpus Cocoon : on effectue des calculs volumétriques à partir des discours annotés en fonction des opinions exprimées, dont la détection est fondée sur une grille adaptant le modèle de l’Appraisal Theory. - Ces éléments sont produits à l’issue des calculs effectués à partir des grilles d’analyse des opinions. - On remarque que les opinions exprimées dans les supports de type Webzine sont liées à une évaluation négative du produit et/ou de la marque et n’ont recueilli que peu de contributions des internautes. - A l’inverse, si les blogs ont suscité un nombre d’opinions plus important, la majorité d’entre elles sont non pertinentes, c’est-à-dire ne portent ni sur la marque, ni sur le produit, mais sur les blogueuses partenaires de la marque qui sont félicitées par leur audience. 4. ETUDES DE CAS (3/4) ! ! Figure 5 – Répartition des évaluations (opinions) dans les commentaires d’internautes dans différents supports du web français. A gauche, la répartition par orientation des opinions dans les supports de type webzine (rouge) ; à droite, dans les supports blog (bleu). 13mercredi 27 octobre 2010
  • 14. - Corpus Affiliation : 1 700 sources web analysées en fonction de leur thématique dans différents domaines ciblés par la stratégie d’affiliation du client. L’objectif est d’identifier les sources les plus pertinentes par rapport à ces thématiques, en vue de lancer des campagnes d’affiliation web. - Ces résultats sont obtenus à l’issue des calculs effectués à partir des grilles d’analyse des thématiques. - Nous exploitons la carte des sections pour ventiler des Entités Nommées et ainsi observer la façon dont elles sont réparties dans un type de contenant particulier, en l’occurrence dans les différents supports du corpus. 4. ETUDES DE CAS (4/4) Figure 6 – Répartition des textes du corpus en fonction de leur thématique de prédilection - analyse de sources francophones dans le cadre d’une étude de support à la stratégie d’affiliation web sur le domaine de la Musique Classique. Figure 7 – Répartition des Entités Nommées de noms d’auteurs en fonction des différents supports pris en compte dans la récolte du corpus, sur le domaine Musique Classique. 14mercredi 27 octobre 2010
  • 15. POUR CONCLURE... La solution conçue associe les technologies de récolte de données textuelles et les moteurs de traitements Textométriques. Outres les bénéfices opérationnels qui en découlent (flexibilité du système, gain de temps, enrichissement de corpus avec trames d’annotation dédiées), cette solution remet l’analyste expert au coeur du système. La fluidification des étapes de traitement jusqu’à l’analyse en elle-même permet de tirer un profit nettement plus élevée de l’expertise du linguiste. Ce flux de travail correspond au processus d’Analyse Linguistique Assistée par Ordinateur (ALAO). PERSPECTIVES Dans la suite de ce travail, on s’intéressera en particulier à : - la détection semi-automatisée des structures conversationnelles en ligne ; - l’optimisation des processus de constitution de Ressources Linguistiques multilingues ; - la mise en place d’un système de prédiction de l’évolution des opinions, à long terme. 15mercredi 27 octobre 2010
  • 16. Merci ! Le Sémiopôle 66 rue Marceau 93100 Montreuil ~ tél. 00 33 (1) 41 585 636 Fax 00 33 (1) 48 593 532 Contacts Frédéric Pierron fpierron@le-semiopole.fr 00 33 (6) 16 331 810 Marguerite Leenhardt mleenhardt@le-semiopole.fr 00 33 (6) 79 741 152 www.le-semiopole.fr 16mercredi 27 octobre 2010

Notas del editor