1. Stratégies d’analyse
pour la
Compréhension de la parole
Vers une approche
à base de Grammaires
d’Arbres Adjoints Lexicalisées
Soutenance de thèse
Ariane Halber
ENST
7 décembre 1999
2. Objectif
Traitement de l’écrit parole
reconnaissance / compréhension
de parole
Grammaires techniques
LTAG d’intégration
techniques
d’analyse
Instanciations
linguistiques
2
Position État de l’art Contribution Expérimentation Evaluation Conclusion
3. Cheminement
Analyse
squelette
Unification
de traits
Analyse TAG
Couplage RP-TALN
Interfaces Vocales
3
Position État de l’art Contribution Expérimentation Evaluation Conclusion
4. Interfaces Vocales…
Cadres applicatifs
Développer une interface vocale
2 expérimentations
Conclusions
4
Position État de l’art Contribution Expérimentation Evaluation Conclusion
5. Cadres Applicatifs
Dialogue finalisé: Virtual Speaker 2 (+Coven)
aide au choix de programme TV
800 mots / énoncés libres / domaine bien décrit / dialogue fin
Requêtes à une base de textes: THISL
recherche d’archives audiovisuelles BBC
40 000 mots / énoncés libres / domaine non décrit / interaction faible
5
Position État de l’art Contribution Expérimentation Evaluation Conclusion
6. Une interface vocale?
Quels composants?
Le problème de la reconnaissance
L’intégration
6
Position État de l’art Contribution Expérimentation Evaluation Conclusion
7. Composants
Reconnaissance de Parole
réponse
RP TALN système
Traitement Automatique
du Langage Naturel
composant
application
7
Position État de l’art Contribution Expérimentation Evaluation Conclusion
8. Pb de la reconnaissance
RP Explosion combinatoire
modèle
acoustiqu
e
do you hum.. have
information on this election ?
8
Position État de l’art Contribution Expérimentation Evaluation Conclusion
9. Intégration TALN «léger»
RP do you and an half
in four mention on this election ?
modèle langage stat.
acoustiqu (ngram)
e
règles de
grammaire
do you hum.. have
information on this election ?
9
Position État de l’art Contribution Expérimentation Evaluation Conclusion
10. Sorties de reconnaissance
Graphe de mots /
N-meilleures hypothèses
RP 100 do you and an half
in four mention on this election
94 do the sum in have
information on this election
80 the you sum and have
modèle langage stat. a for mention and is ale action ?
acoustiqu (ngram)
e
règles de
grammaire
do you hum.. have do you and an half
information on this election ? in four mention on this election ?
10
Position État de l’art Contribution Expérimentation Evaluation Conclusion
11. Graphe de mots
Holliwood
Mike a nice
good is and Anna
die suede
in
I like a video Diana’s
would on wedding
hi-fi
my the
Woody hormon
11
Position État de l’art Contribution Expérimentation Evaluation Conclusion
12. Composants
meilleures réponse
RP hypothèses TALN système
Traitement Automatique
du Langage Naturel
composant
application
12
Position État de l’art Contribution Expérimentation Evaluation Conclusion
13. Traitement des énoncés
enoncé oral réponse
TALN système
Do you hum.. have
information on this film? analyse interaction
interprétation dialogue
No, not that one…
composant
I mean, Spielberg’s,
application
you bummer!
13
Position État de l’art Contribution Expérimentation Evaluation Conclusion
14. Couplage RP > TALN
meilleures réponse
RP hypothèses TALN système
modèle analyse interaction
langage stat. interprétation dialogue
acoustiqu (ngram)
e
règles de
grammaire
do you hum.. have do you and an half
information on this election ? in four mention on this election ?
14
Position État de l’art Contribution Expérimentation Evaluation Conclusion
15. Interfaces Vocales…
Cadres applicatifs
Développer une interface vocale
2 expérimentations
Conclusions
15
Position État de l’art Contribution Expérimentation Evaluation Conclusion
16. Analyse fine
does-N0-deal-with-N1
S
VP
V V PP
N
Prep
it does N0 deal with N1
[type : film-entity] [type : film-topic]
16
Position État de l’art Contribution Expérimentation Evaluation Conclusion
17. Boucle de prédiction
?
RP hyp
dialogue..
filtre
parseur
paramètres
grammaire
acquis
17
Position État de l’art Contribution Expérimentation Evaluation Conclusion
18. Boucle de prédiction (exemple)
whom was the film wh-aux-N0-shot-(by)
shot (die/by/bye/..) ? Does it deal with ? does-N0-deal-with-(N1)
(you foes/UFOs/..) ?
what time does it
(smart/art/start/..) at?
dialogue..
filtre
parseur
paramètres
grammaire
acquis
18
Position État de l’art Contribution Expérimentation Evaluation Conclusion
19. Boucle de prédiction (avantages)
prédictions
retour vers la ? contextuelles
reconnaissance
analyse partielle
(robuste)
dialogue..
filtre
parseur
paramètres
grammaire
grammaire fine
acquis du domaine
19
Position État de l’art Contribution Expérimentation Evaluation Conclusion
20. Boucle de prédiction (problèmes)
ambiguïté
lexicale surgénération
?
dialogue..
filtre
parseur
paramètres
grammaire
acquis (développement)
(insuffisant)
20
Position État de l’art Contribution Expérimentation Evaluation Conclusion
21. Analyse légère
S
VP
NP
Vaux NP
NP PP
Aux V
Det N Prep
KW
I would like a video on Diana’s wedding
Formulation KW
21
Position État de l’art Contribution Expérimentation Evaluation Conclusion
22. Graphe de mots
hi-fi
Holliwood hormon
the a nice
Mike
good is and Anna
die
suede
in
I like a video Diana’s
would on wedding
my
Woody
22
Position État de l’art Contribution Expérimentation Evaluation Conclusion
23. Filtrage progressif
ngram filtre
RP graphe
moteur de
parseur recherche..
grammaire
règles sous-règles
mots-clefs robustes
23
Position État de l’art Contribution Expérimentation Evaluation Conclusion
24. Filtrage progressif (exemple)
I would like a video ngram filtre
on Diana’s wedding
I would like a video on <>
Diana’s wedding
moteur de
parseur recherche..
24
Position État de l’art Contribution Expérimentation Evaluation Conclusion
25. Filtrage progressif (avantages)
fusion de ngram filtre
connaissances
moteur de
parseur
recherche..
grammaire
légère
analyses partielles
(robustes)
25
Position État de l’art Contribution Expérimentation Evaluation Conclusion
26. Filtrage progressif (problèmes)
combinaison des ngram filtre
critères ?
moteur de
parseur
recherche..
rapidité / efficacité du
statut et parsage parcours
de ces règles ? (descendant)
26
Position État de l’art Contribution Expérimentation Evaluation Conclusion
27. Interfaces Vocales…
Cadres applicatifs
Couplage RP-TALN
2 expérimentations
Conclusions
27
Position État de l’art Contribution Expérimentation Evaluation Conclusion
28. Cahier des Charges
Une analyse à la fois...
filtrante fine
hypothèses de reconnaissance interprétation
robuste
oralité, erreurs RP,
couverture grammaire
rapide
contrainte temps réel
La quadrature du
cercle? 28
Position État de l’art Contribution Expérimentation Evaluation Conclusion
29. Adéquation des LTAG?
lexicalisation
schémas unités
syntaxiques sémantiques
filtrante fine
analyse lexicale finesse syntaxique +
sémantique
robuste
schémas oraux /
analyse partielle /
dépendances heuristiques rapide
C’est par ici
29
Position État de l’art Contribution Expérimentation Evaluation Conclusion
30. Analyse TAG efficace...
Introduction aux grammaires LTAG
Analyser un énoncé...
Trois techniques
Un cadre pour les unifier
Applications
30
Position État de l’art Contribution Expérimentation Evaluation Conclusion
31. Grammaire de la langue
Substitution - argument
S
V
Paul aime le bon pain N0 aime N1
N
N
N Det Adj
Paul le bon pain
31
Position État de l’art Contribution Expérimentation Evaluation Conclusion
32. Formalisme TAG
X
substitution
X X
32
Position État de l’art Contribution Expérimentation Evaluation Conclusion
33. Grammaire de la langue
Adjonction - modifieurs
N le bon petit pain
N
N Det N
N
Adj
Adj N
bon N* Det
le petit pain Adj N
Adj N
le bon
petit pain
33
Position État de l’art Contribution Expérimentation Evaluation Conclusion
34. Formalisme TAG
X X adjonction
X
X
X*
34
Position État de l’art Contribution Expérimentation Evaluation Conclusion
35. Grammaire de la langue
Adjonction prédicative
S Paul pourrait manger ce pain
V
V N0 V N1 S
pourrait V* Det N
Paul manger ce pain
N0 V N1
V V Det N
Paul pourrait manger ce pain
35
Position État de l’art Contribution Expérimentation Evaluation Conclusion
36. Propriétés TAG
Adjonction englobante
Paul ne mange pas ce pain
S
V
N0 V N1
Det N
Conj Conj
ne V* pas Paul mange ce pain
36
Position État de l’art Contribution Expérimentation Evaluation Conclusion
37. Propriétés TAG
Localisation des dépendances
Quel pain pensez-vous que Paul pourrait
manger?
quN
S
Qu N
V
quel pain S
quN1 N0 manger
V V
N C N
Conj V
pensez vous que S* Paul pourrait V*
37
Position État de l’art Contribution Expérimentation Evaluation Conclusion
38. Propriétés TAG
Factorisation des récursions
S Marie pense que Jean
pense que .. Paul mange le
S bon petit .. pain noir
.. N0 V N1
V
N C
Det N
S N
Conj
Paul mange le pain Adj
Marie pense que S* N V
C N
.. N* noir
N
Conj Adj
Jean pense que S* Adj
bon N*
petit 38N*
Position État de l’art Contribution Expérimentation Evaluation Conclusion
39. Analyse TAG efficace...
Introduction aux grammaires LTAG
Analyser un énoncé...
Trois techniques
Un cadre pour les unifier
Application
39
Position État de l’art Contribution Expérimentation Evaluation Conclusion
40. Enoncés reconnus
feature
a
at this
this
what end
film and
that
is
on
is
the
if done
graphe de mots hypothèses
40
Position État de l’art Contribution Expérimentation Evaluation Conclusion
41. Ambiguïté lexicale
...
N
α17
...
...
N* C
...
α15 Conj Conj V N N β34
α2 S α3 S
V N N Wh V PP
α14 N N β16 PP
Pron N* Prep N1
N1 N*
α1 S α4 S N PP α34
β14 α16 α35
V N Adj N V PP Det N* N Adj Prep N1
is that film on ?
(ce film est-il en cours [de diffusion]?)
41
Position État de l’art Contribution Expérimentation Evaluation Conclusion
42. Trois approches graduelles
N
Parsage Tabulaire
factorisation des analyses
is really that film on
Parsage probabiliste N 0.3 C 0.04
sélection dynamique des items
dérivés
is that film on
Superétiquetage
0.02
pré-sélection des arbres
élémentaires is that film on
42
Position État de l’art Contribution Expérimentation Evaluation Conclusion
43. Parsage tabulaire
Mémorisation / factorisation
• garder les sous-analyses trouvées
• # exponentiel de dérivations mais parsage polynomial
Heuristiques de parcours
np vp
s-conj-...
comp-……. vp sp
s
det n
adj adv
wh conj v v
prep n
tell me when that film is on tomorrow
43
Position État de l’art Contribution Expérimentation Evaluation Conclusion
44. Parsage probabiliste
Probabilité incrémentale « interne »
Critère d’élagage
• cohérence interne + capacité de combinaison future ?
np 0.03
vp
s-conj-...
comp-…….
0.02 sp
s
det n
wh v adj adv
conj v prep n
tell me when that film is on tomorrow
44
Position État de l’art Contribution Expérimentation Evaluation Conclusion
45. Superétiquetage
...
α4
...
...
...
α3 α4 α17 α34 prédiction
α2 α14 β16 β34 contextuelle
(bigram)
α1 β14 α16 α35
émission
<s> is that film on </s>
lexicale
45
Position État de l’art Contribution Expérimentation Evaluation Conclusion
46. Ambiguïté lexicale
...
N
α17
...
...
N* C
...
α15 Conj Conj V N N β34
α2 S α3 S
V N N Wh V PP
α14 N N β16 PP
Pron N* Prep N1
N1 N*
α1 S α4 S N PP α34
β14 α16 α35
V N Adj N V PP Det N* N Adj Prep N1
is that film on ?
(ce film est-il en cours [de diffusion]?)
46
Position État de l’art Contribution Expérimentation Evaluation Conclusion
47. Prédiction contextuelle
α1 α14 α16 α34
S N PP
V N Adj Pron N Prep N1
is that film on
47
Position État de l’art Contribution Expérimentation Evaluation Conclusion
48. Prédiction contextuelle
α1 α14 α16 α34
S N PP
V N Adj Pron N Prep N1
<(V) N Adj> <(N)> <(N)> <(Prep) N>
<(V) N N> <(Det) N*> <(Adj)>
<N (V) PP> <(Conj)> <Conj (V) N> <N* (Prep) N>
48
Position État de l’art Contribution Expérimentation Evaluation Conclusion
49. Analyse TAG efficace...
Introduction aux grammaires LTAG
Analyser un énoncé...
Trois techniques
Un cadre pour les unifier
Application
49
Position État de l’art Contribution Expérimentation Evaluation Conclusion
50. Type linéaire d’arbre (ltt)
S N
Det N
V N Adj
Forme finale:
(that) (film)
(is)
S (S <> S )
(S °V<>N Adj S° S ) (N <> N )
V N Adj
S (S °V<> Adj S° S )
V N Adj Det N
(is) (that) (film) (on)
Det N
(is) (that) (film)
50
Position État de l’art Contribution Expérimentation Evaluation Conclusion
51. Superétiquetage étendu
prédiction
contextuelle
α2 α14 α17 β34 (bigram)
α1 β14 α16 α35
émission
<s> is that film on </s>
lexicale
51
Position État de l’art Contribution Expérimentation Evaluation Conclusion
52. Prédiction contextuelle de ltt
<[S] Adj>
<[S] N>
<[*N] N>
<[S] N Adj>
<°V [S] V° N Adj> <°N [N] N°> <[Adj]>
<°V [S] V° N N> <°N [N*]> <°N [N] N°>
<[PP] N>
<N °V [S] V° PP> <[Conj]> <Conj °V [*N] V° N> <[N*] °PP N PP°>
<s> is that film on </s>
52
Position État de l’art Contribution Expérimentation Evaluation Conclusion
53. Localité croissante
Dépendances de plus en plus locales
S V N
N Adj
V Adv Det
(is) N Adj V* (really) (that) N* (film) (violent)
53
Position État de l’art Contribution Expérimentation Evaluation Conclusion
54. Localité croissante
Dépendances de plus en plus locales
S
N
V
N Adj
V Adv Det
(is) (really) N Adj (that) N* (film) (violent)
54
Position État de l’art Contribution Expérimentation Evaluation Conclusion
55. Localité croissante
Dépendances de plus en plus locales
S
N
V
Adj
V Adv Det N
(is) (really) N Adj (that) (film) (violent)
55
Position État de l’art Contribution Expérimentation Evaluation Conclusion
56. Localité croissante
Dépendances de plus en plus locales
S
V N
Adj
V Adv Det N
(is) (really) (that) (film) Adj (violent)
56
Position État de l’art Contribution Expérimentation Evaluation Conclusion
57. Localité croissante
Dépendances de plus en plus locales
S
V N Adj
V Adv Det N
(is) (really) (that) (film) (violent)
57
Position État de l’art Contribution Expérimentation Evaluation Conclusion
58. Généralisation contextuelle
Comportements contextuels
S S
V V
(is) N Adj N (is) Adj
58
Position État de l’art Contribution Expérimentation Evaluation Conclusion
59. Généralisation contextuelle
Comportements contextuels analogues
après dérivation
S S
V V
(is) N Adj N (is) Adj
S S
N N
V Det N Det N V
(is) (that) (film) Adj (that) (film) (is) Adj
59
Position État de l’art Contribution Expérimentation Evaluation Conclusion
60. Généralisation contextuelle
Comportements contextuels analogues
après dérivation
S S
V V
(is) N Adj N (is) Adj
S S
N Adj N Adj
V Det N Det N V
(is) (that) (film) Adj (on) (that) (film) (is) Adj (on)
60
Position État de l’art Contribution Expérimentation Evaluation Conclusion
61. Généralisation contextuelle
Comportements contextuels
S
V
V
N0 (give) N2 N1
S
V
V
N0 (watch) N1
61
Position État de l’art Contribution Expérimentation Evaluation Conclusion
62. Généralisation contextuelle
Comportements contextuels analogues
après dérivation S
V
V
N0 (give) N2 N1
S S
V V
V V N2
N0 (watch) N1 N0 (give) (me) N1
62
Position État de l’art Contribution Expérimentation Evaluation Conclusion
63. Généralisation contextuelle
Comportements contextuels analogues
après dérivation S
V
V
N0 (give) N2 N1
S S
N V N
V
N N
V Det N V N2 Det N
(they) N0 (watch) N1 (the) (program) (they) N0 (give) (me) N1 (the) (program)
63
Position État de l’art Contribution Expérimentation Evaluation Conclusion
64. Un modèle «tout-terrain»
Améliore superétiquetage
• ajouter 1 ou 2 étapes de parsage
Intermédiaire étiquetage/parsage
• arbres élémentaires + qques dépendances
Intègre étiquetage dans parsage
• choix avant/pendant parsage ratio tp/précis.
Optimise parsage probabiliste
• apporte facteur contextuel «outside»
64
Position État de l’art Contribution Expérimentation Evaluation Conclusion
65. Implémentation
parseur tabulaire LTAG bidirectionel
• fondé sur le ltt
• algo correct & complet
• complexité O(n6) + distinction CF / CS
• codé en PROLOG
Modèle statistique
• probabilités internes dans le parseur tabulaire
• calcul de lissage pour le modèle contextuel
• apprentissage et élagage encore à valider
65
Position État de l’art Contribution Expérimentation Evaluation Conclusion
66. Perspectives
Tests en grandeur réelle
Intégration dans des stratégies de rattrapage
recherche de dépendances
prise en compte de l’oralité
Outil paramétrable pour interfaces vocales
66
Position État de l’art Contribution Expérimentation Evaluation Conclusion
67. Conclusion
Traitement de l’écrit parole
reconnaissance / compréhension
de parole
Grammaires
unifications LTAG
de traits oralité
élagage
statistique sémantique
techniques linguistique
d’analyse
67
Position État de l’art Contribution Expérimentation Evaluation Conclusion
Notas del editor
Notre travail s’inscrit d ’abord dans une problématique applicative, celle des interfaces vocales, qui va occuper la première partie de notre exposé. Le développement d ’une interface vocale passe par ce que j ’ai appelé ici le couplage RP-TALN, c ’est à dire le couplage entre reconnaissance de la parole et traitement du langage naturel. Nous expliquerons les modalités et les stratégies d ’un tel couplage. Cela nous amènera à un certain type de grammaire, qui présente, comme nous le verrons, de bonnes propriétés vis-à-vis de ce couplage: les grammaire TAG, pour Tree Adjoining Grammar, i.e grammaires d ’arbres adjoints (en fait nous nous intéressons aux LTAG, cad leur version lexicalisée, nous reviendrons sur tout cela bien sûr). D ’où une seconde problématique: comment mener une analyse efficace avec ces grammaires, qui, si elles ont nombre de qualités, souffrent aussi d’une certaine lourdeur d’analyse? Et oui on ne peut pas tout avoir.. Nous développons dans notre thèse deux techniques distinctes et complémentaires pour répondre à ce problème: d ’une part une technique qui vise l ’analyse du squelette syntaxique, c ’est elle que nous présenterons en détail, d ’autre part une technique pour gérer efficacement les équations de traits --d ’accord, de mode etc.-- entre les constituants syntaxiques, mais nous ne nous étendrons sur cette seconde technique, pour respecter la contrainte de temps de cet exposé.
Les interfaces vocales donc.. Nous allons présenter les deux applications principales sur lesquelles nous avons travaillé. Après une introduction générale au problème de couplage rp-taln, nous l’illustrons par deux stratégies que nous avons mises en œuvre. Nous passerons alors aux conclusions de cette partie expérimentale de la thèse.
Voici deux applications assez différentes, et qui illustrent bien le type d ’interfaces vocales que l’on cherche à développer aujourd’hui. Virtual Speaker est un projet qui a été conduit pour Thomson Multimédia. Il s’agit d ’une interface de dialogue, intégrée au téléviseur, sous la forme d’un présentateur virtuel, dont le but est d’aider l’utilisateur à choisir le programme tv qu’il désire regarder, programme à choisir parmi une vingtaine de chaînes et dans plusieurs langues. Le présentateur virtuel connaît les programmes et leur typologie, et l’utilisateur peut dialoguer librement avec lui --tant qu’il reste dans ce domaine bien particulier du moins-- et bénéficier de son aide. THISL est un projet Européen, qui s’attaque à la transcription automatique des programmes de la BBC. Ces programmes transcrits sont alors indexés dans une grande base de textes. Enfin on offre aux journalistes de faire leur recherche d ’archive audiovisuelle via une interface de requête en langage naturel parlé (par ex. par téléphone). Les programmes transcrits, notamment les flash d ’informations, sans parler des autres émissions, interviews etc., couvrent un domaine du langage qui est énorme, et pour lequel nous ne disposons pas a priori de description complète ni du point de vue de la syntaxe, ni du point de vue de la sémantique. L ’interaction offert peut en revanche rester très simple. Les deux applications se développent donc sur des terrains linguistiques et dialogiques très différents. Pourtant, pour toutes deux, se pose la même question de l’exploitation de ces données linguistiques dans le processus de reconnaissance et de compréhension de parole.
En effet, la reconnaissance de parole n’est pas un exercice facile. Nous même, dans notre compétence humaine de reconnaissance de parole, nous utilisons conjointement --et de manière encore mal cernée malgré tous les travaux dans ce domaine-- un grand nombre de connaissances de tout niveau, de la discrimination de fréquences acoustiques à la prédiction lexicale, sémantique, l’utilisation du contexte de l’énoncé, la connaissance de l’interlocuteur etc. pour palier les difficultés et les ambiguïtés éventuelles dans ce que nous entendons. Sans connaissance linguistique, ou avec une connaissance insuffisante, « do you have information on this election » devient « the you have a for mention and is ale action ». Le bloc RP représente le module de reconnaissance acoustique, censé fournir des hypothèses de mots (ou de phrases) au module TALN qui prend en charge ces hypothèses pour les analyser. Le but de cette analyse est d’extraire le sens et fournir une réponse satisfaisante à ce qu’a dit ou demandé l’utilisateur, mais on va profiter aussi de cette analyse pour trier les hypothèses (et notamment rejeter une phrase telle que celle donnée en exemple), puisque l’on dispose ici de connaissances de la langue et du domaine, qui n’étaient pas disponible dans le module de reconnaissance proprement dit. Meme si certaines connaissance linguistiques, demandant peu de temps de traitement, y sont exploitées directement (bien obligé si on veut avoir une chance de retrouver la séquence de mots correcte).
En effet, la reconnaissance de parole n’est pas un exercice facile. Nous même, dans notre compétence humaine de reconnaissance de parole, nous utilisons conjointement --et de manière encore mal cernée malgré tous les travaux dans ce domaine-- un grand nombre de connaissances de tout niveau, de la discrimination de fréquences acoustiques à la prédiction lexicale, sémantique, l’utilisation du contexte de l’énoncé, la connaissance de l’interlocuteur etc. pour palier les difficultés et les ambiguïtés éventuelles dans ce que nous entendons. Sans connaissance linguistique, ou avec une connaissance insuffisante, « do you have information on this election » devient « the you have a for mention and is ale action ». Le bloc RP représente le module de reconnaissance acoustique, censé fournir des hypothèses de mots (ou de phrases) au module TALN qui prend en charge ces hypothèses pour les analyser. Le but de cette analyse est d’extraire le sens et fournir une réponse satisfaisante à ce qu’a dit ou demandé l’utilisateur, mais on va profiter aussi de cette analyse pour trier les hypothèses (et notamment rejeter une phrase telle que celle donnée en exemple), puisque l’on dispose ici de connaissances de la langue et du domaine, qui n’étaient pas disponible dans le module de reconnaissance proprement dit. Meme si certaines connaissance linguistiques, demandant peu de temps de traitement, y sont exploitées directement (bien obligé si on veut avoir une chance de retrouver la séquence de mots correcte).
En effet, la reconnaissance de parole n’est pas un exercice facile. Nous même, dans notre compétence humaine de reconnaissance de parole, nous utilisons conjointement --et de manière encore mal cernée malgré tous les travaux dans ce domaine-- un grand nombre de connaissances de tout niveau, de la discrimination de fréquences acoustiques à la prédiction lexicale, sémantique, l’utilisation du contexte de l’énoncé, la connaissance de l’interlocuteur etc. pour palier les difficultés et les ambiguïtés éventuelles dans ce que nous entendons. Sans connaissance linguistique, ou avec une connaissance insuffisante, « do you have information on this election » devient « the you have a for mention and is ale action ». Le bloc RP représente le module de reconnaissance acoustique, censé fournir des hypothèses de mots (ou de phrases) au module TALN qui prend en charge ces hypothèses pour les analyser. Le but de cette analyse est d’extraire le sens et fournir une réponse satisfaisante à ce qu’a dit ou demandé l’utilisateur, mais on va profiter aussi de cette analyse pour trier les hypothèses (et notamment rejeter une phrase telle que celle donnée en exemple), puisque l’on dispose ici de connaissances de la langue et du domaine, qui n’étaient pas disponible dans le module de reconnaissance proprement dit. Meme si certaines connaissance linguistiques, demandant peu de temps de traitement, y sont exploitées directement (bien obligé si on veut avoir une chance de retrouver la séquence de mots correcte).
En effet, la reconnaissance de parole n’est pas un exercice facile. Nous même, dans notre compétence humaine de reconnaissance de parole, nous utilisons conjointement --et de manière encore mal cernée malgré tous les travaux dans ce domaine-- un grand nombre de connaissances de tout niveau, de la discrimination de fréquences acoustiques à la prédiction lexicale, sémantique, l’utilisation du contexte de l’énoncé, la connaissance de l’interlocuteur etc. pour palier les difficultés et les ambiguïtés éventuelles dans ce que nous entendons. Sans connaissance linguistique, ou avec une connaissance insuffisante, « do you have information on this election » devient « the you have a for mention and is ale action ». Le bloc RP représente le module de reconnaissance acoustique, censé fournir des hypothèses de mots (ou de phrases) au module TALN qui prend en charge ces hypothèses pour les analyser. Le but de cette analyse est d’extraire le sens et fournir une réponse satisfaisante à ce qu’a dit ou demandé l’utilisateur, mais on va profiter aussi de cette analyse pour trier les hypothèses (et notamment rejeter une phrase telle que celle donnée en exemple), puisque l’on dispose ici de connaissances de la langue et du domaine, qui n’étaient pas disponible dans le module de reconnaissance proprement dit. Meme si certaines connaissance linguistiques, demandant peu de temps de traitement, y sont exploitées directement (bien obligé si on veut avoir une chance de retrouver la séquence de mots correcte).
En effet, la reconnaissance de parole n’est pas un exercice facile. Nous même, dans notre compétence humaine de reconnaissance de parole, nous utilisons conjointement --et de manière encore mal cernée malgré tous les travaux dans ce domaine-- un grand nombre de connaissances de tout niveau, de la discrimination de fréquences acoustiques à la prédiction lexicale, sémantique, l’utilisation du contexte de l’énoncé, la connaissance de l’interlocuteur etc. pour palier les difficultés et les ambiguïtés éventuelles dans ce que nous entendons. Sans connaissance linguistique, ou avec une connaissance insuffisante, « do you have information on this election » devient « the you have a for mention and is ale action ». Le bloc RP représente le module de reconnaissance acoustique, censé fournir des hypothèses de mots (ou de phrases) au module TALN qui prend en charge ces hypothèses pour les analyser. Le but de cette analyse est d’extraire le sens et fournir une réponse satisfaisante à ce qu’a dit ou demandé l’utilisateur, mais on va profiter aussi de cette analyse pour trier les hypothèses (et notamment rejeter une phrase telle que celle donnée en exemple), puisque l’on dispose ici de connaissances de la langue et du domaine, qui n’étaient pas disponible dans le module de reconnaissance proprement dit. Meme si certaines connaissance linguistiques, demandant peu de temps de traitement, y sont exploitées directement (bien obligé si on veut avoir une chance de retrouver la séquence de mots correcte).
En effet, la reconnaissance de parole n’est pas un exercice facile. Nous même, dans notre compétence humaine de reconnaissance de parole, nous utilisons conjointement --et de manière encore mal cernée malgré tous les travaux dans ce domaine-- un grand nombre de connaissances de tout niveau, de la discrimination de fréquences acoustiques à la prédiction lexicale, sémantique, l’utilisation du contexte de l’énoncé, la connaissance de l’interlocuteur etc. pour palier les difficultés et les ambiguïtés éventuelles dans ce que nous entendons. Sans connaissance linguistique, ou avec une connaissance insuffisante, « do you have information on this election » devient « the you have a for mention and is ale action ». Le bloc RP représente le module de reconnaissance acoustique, censé fournir des hypothèses de mots (ou de phrases) au module TALN qui prend en charge ces hypothèses pour les analyser. Le but de cette analyse est d’extraire le sens et fournir une réponse satisfaisante à ce qu’a dit ou demandé l’utilisateur, mais on va profiter aussi de cette analyse pour trier les hypothèses (et notamment rejeter une phrase telle que celle donnée en exemple), puisque l’on dispose ici de connaissances de la langue et du domaine, qui n’étaient pas disponible dans le module de reconnaissance proprement dit. Meme si certaines connaissance linguistiques, demandant peu de temps de traitement, y sont exploitées directement (bien obligé si on veut avoir une chance de retrouver la séquence de mots correcte).
En effet, la reconnaissance de parole n’est pas un exercice facile. Nous même, dans notre compétence humaine de reconnaissance de parole, nous utilisons conjointement --et de manière encore mal cernée malgré tous les travaux dans ce domaine-- un grand nombre de connaissances de tout niveau, de la discrimination de fréquences acoustiques à la prédiction lexicale, sémantique, l’utilisation du contexte de l’énoncé, la connaissance de l’interlocuteur etc. pour palier les difficultés et les ambiguïtés éventuelles dans ce que nous entendons. Sans connaissance linguistique, ou avec une connaissance insuffisante, « do you have information on this election » devient « the you have a for mention and is ale action ». Le bloc RP représente le module de reconnaissance acoustique, censé fournir des hypothèses de mots (ou de phrases) au module TALN qui prend en charge ces hypothèses pour les analyser. Le but de cette analyse est d’extraire le sens et fournir une réponse satisfaisante à ce qu’a dit ou demandé l’utilisateur, mais on va profiter aussi de cette analyse pour trier les hypothèses (et notamment rejeter une phrase telle que celle donnée en exemple), puisque l’on dispose ici de connaissances de la langue et du domaine, qui n’étaient pas disponible dans le module de reconnaissance proprement dit. Meme si certaines connaissance linguistiques, demandant peu de temps de traitement, y sont exploitées directement (bien obligé si on veut avoir une chance de retrouver la séquence de mots correcte).
Les interfaces vocales donc.. Nous allons présenter les deux applications principales sur lesquelles nous avons travaillé. Après une introduction générale au problème de couplage rp-taln, nous l’illustrons par deux stratégies que nous avons mises en œuvre. Nous passerons alors aux conclusions de cette partie expérimentale de la thèse.
Il y a toute sorte de manière de coupler RP et TALN, nous avons expérimenté deux stratégies. Le première est une boucle de prédiction, ou la grammaire traite le meilleur énoncé (ou un petit nombre, filtrés préalablement pour noter les mots soupçonnés d ’erreur) puis suggère des éléments manquants ou erronés, et sélectionne alors d ’autres mots candidats parmi les hypothèses de reconnaissance.
« Whom was the film shot (die) » par exemple donnera lieu à une analyse qui reconnaît l’usage interrogatif, passif, participe de N0-shoot-N1, l ’arbre wh-aux-N0-shot-by et propose la préposition « by » comme candidate, qui est alors recherchée dans les hypothèses de mots. Cet exemple illustre également le type de grammaire que nous avons utilisée, et qui est particulièrement adaptée à ce type d’analyse partielle et prédictive: il s’agit d’une grammaire d ’arbre lexicalisée, par opposition à une grammaire de constituants hors contexte, par exemple, pour qui il est moins naturel de coder directement des schémas de verbe comme wh-aux-N0-shot-by , décomposé plutôt en une cascade de sous-règles. Au total, on risque d ’avoir trop de sous-règles incomplètes en fin d’analyse pour savoir quelle règle doit fonder la prédiction. Avec une grammaire d ’arbres, un critère simple est celui de la couverture obtenue avec le schéma incomplet. Is the film about UFOs..
Les interfaces vocales donc.. Nous allons présenter les deux applications principales sur lesquelles nous avons travaillé. Après une introduction générale au problème de couplage rp-taln, nous l’illustrons par deux stratégies que nous avons mises en œuvre. Nous passerons alors aux conclusions de cette partie expérimentale de la thèse.