Dans cette presentation, nous introduisons des concepts-clés du domaine du traitement automatique de langues (TAL): qu'est-ce qu'un texte pour une machine? comment identifier des unités linguistiques à plusieurs niveaux? la segmentation et l'analyse lexicale; la disambiguation automatique; comment relier les mots entre elles? les structures syntaxiques minimales (chunks) et les relations syntaxique d'haute niveau (SUJET, OBJECT DIRECT, etc.); des relations ou rôles sémantiques entre les constituants de la phrase; l'unité sémantique à travers des categories morphosyntaxiques et sa representation dans les lexiques électroniques.
1. Les défis des langues
au traitement automatique
du langage (TAL)
Jorge Baptista
U. Algarve - FCHS/CECL et INESC-ID Lisboa/L2T
jbaptis@ualg.pt
Université Nationale de Taurida, Departement de Philologie Romane et Classique, 16-septembre-2014
BMU-MID Eramus+ Programme
Terça-feira, 16 de Setembro de 14 1
2. resumé
Dans cette présentation, nous introduisons des concepts-clés du
domaine du traitement automatique de langues (TAL):
• qu'est-ce qu'un texte pour une machine?
• comment identifier des unités linguistiques à plusieurs niveaux?
• la segmentation et l'analyse lexicale;
• la désambiguation automatique;
• comment relier les mots entre elles?
• les structures syntaxiques minimales (chunks) et les relations
syntaxique d'haute niveau (SUJET, OBJECT DIRECT, etc.);
• des relations ou rôles sémantiques entre les constituants de la
phrase;
• l'unité sémantique à travers des catégories morphosyntaxiques
et sa représentation dans les lexiques électroniques.
Terça-feira, 16 de Setembro de 14 2
6. qu'est-ce qu'un texte pour une machine?
• un texte n’est qu’une suite de
caractères entre en début et
un fin de fichier
• il faut le diviser (=analiser) en
morceaux pour qu’on puisse
faire en sorte que l’ordinateur
le “comprends” son contenu
Terça-feira, 16 de Setembro de 14 6
8. segmentation de textes
Au commencement, Dieu créa les cieux et la terre.
/à_le/
et il sépara les eaux qui sont au-dessous de
l'étendue d'avec les eaux qui sont au-dessus de
l'étendue.
au/-/dessous/ /de
Terça-feira, 16 de Setembro de 14 8
11. comment relier les mots entre elles?
Au commencement, Dieu créa les cieux et la terre.
Au commencement , Dieu créa
les cieux et la terre .
Terça-feira, 16 de Setembro de 14 11
12. les structures syntaxiques minimales (chunks)
Au commencement , Dieu créa
adv pnc n v
les cieux et la terre .
det n det n pnc
Terça-feira, 16 de Setembro de 14 12
13. Au commencement , Dieu créa
adv pnc n v
les cieux et la terre .
det n cnj
det n pnc
det det
coord-g coord-d
sujet
TOP
cod
cod
mod-P
Terça-feira, 16 de Setembro de 14 13
14. les relation (rôles) semantiques
Au commencement ,
adv
agent obj
Dieu créa les cieux et la terre .
n
pnc
v det n det n pnc
m-tmps
Terça-feira, 16 de Setembro de 14 14
15. l'unité sémantique à travers des catégories morphosyntaxiques
voler
Luc a volé un stylo
vol
Luc a commis un vol
voler
L’avion vole
<sur l’Atlantique>
vol
L’avion fait un vol
<sur l’Atlantique
Terça-feira, 16 de Setembro de 14 15
16. l'unité sémantique à travers des catégories morphosyntaxiques
voler
32C 36DT
Luc a volé un stylo
vol
F2 F1L
Luc a commis un vol
voler
L’avion vole
<sur l’Atlantique>
vol
L’avion fait un vol
<sur l’Atlantique
voleur
Luc est un voleur
Nprf1 volante
Anh0
une machine volante
Terça-feira, 16 de Setembro de 14 16
22. bionote
Jorge Baptista est “Professor Associado” à l'Université de l'Algarve, à Faro, Portugal, où il est
enseignant de Linguistique (Syntaxe, Phonologie, Morphologie et Histoire du Portugais) et
Linguistique-Informatique, depuis 1992. Il fait aussi partie du Laboratoire du Language (L2F) du
centre de recherche INESC-ID Lisboa, dès 2005.
Il s'est dédié à la construction de resources linguistiques, notamment des dictionaire et des
grammaires électroniques pour le TAL, depuis 1990. En Linguistique même, ses travaux couvrent
plusieurs aspects du lexique et la grammaire du Portugais: les constructions à verb-suport, le
figement, la determination et la syntaxe de l'adverbe. Du coté TAL, il a développé des dictionnaires
de mots composés et des dictionnaires syntaxiques (ou lexiques-grammaires) de noms prédicatifs,
de verbs distributionnels, d'adverbes (simples et composés) et de phrases verbales figées (ou
expressions idiomatiques), qui comptent dans son ensemble, plusieurs milliers d’expressions/mots.
Au Laboratoire de Language, il coordonne les aspects linguistique pour le développement d'un
système hybride (statistique et avec règles) de traitement automatique du Portugais, appellé
STRING(**). Ce système est pourvue de toutes les fonctionnalités essentielles d'un system de TAL
(segmentation, analyse lexicale et levée d'ambiguïté (hybride) automatiques, analyse syntaxique de
surface (chunking) et profonde (deep parsing). Les plus récents développements sont la
reconnaissance des entités nommées (NER), l'identification des événements, leurs participants et
circumstances (rôles sémantiques), l'ordination relative des événements
D'autre part, il est aussi engagé dans la construction d'un système tutoriel d'apprentissage du
Portugais Langue Etrangère - REAP.PT (***), ciblé sur le lexique, mais aussi avec des enjeux dans la
grammaire. Il s'agit des exercices générés et corrigés automatiquement, à partir de textes réels,
sélectionnés en fonction du niveau de competence langagière de l’étudiant.
(*)
Furhter details at : https://www.researchgate.net/profile/Jorge_Baptista
(**)
string.l2f.inesc-id.pt/
(***)
www.l2f.inesc-id.pt/wiki/index.php/REAP.PT_(Computer_Aided_Language_Learning_-_Reading_Practice)
Terça-feira, 16 de Setembro de 14 22