Fonctionnement de la mémoire sémantique bilingue SFP Montpellier 020912
Jep 2012 Swahili
1. Développement de ressources en
swahili pour un système de RAP
Hadrien Gelas1,2, Laurent Besacier2, François Pellegrino1
1Laboratoire DDL, CNRS - Université de Lyon, France
2LIG, CNRS - Université Joseph Fourier Grenoble, France
2. Introduction Résultats
du Swahili du système
1 2 3
Ressources
pour la RAP
31. Morphologie riche
en RAP (Type OOV %)
Afin d’obtenir une
19.17 couverture lexicale
plus large, nous
avons utilisé une
12.46 approche non-
10.28 supervisée
(Morfessor) pour
segmenter les
mots en unités
sub-lexicales
Word-65k Word-200k Word-400k
33. Ressources en RAP
"
Dictionnaire
Modèles
r prononciation r Modèles
acoustiques
l l de langage
Nécessite la prononciation
des unités
J Sorties
texte
35. Dictionnaire de
prononciation
65k unités les plus fréquentes
+
Un script Grapheme-to-phoneme tirant
bénéfice de la regularité de l’orthographe swahili
MAIS…
Problèmes avec tout les mots anglais, noms
propres et acronymes !
39. Dictionnaire de
prononciation
Mots dans dict. 65k
Mots dans dict. CMU
… 1 …
Mot identique
games g a m e s games G EY M Z
… …
2 Conversion vers les phones
du swahili
40. Dictionnaire de
prononciation
Mots dans dict. 65k
Mots dans dict. CMU
… 1 …
Mot identique
games g a m e s games G EY M Z
games(2) g e y m z …
…
Ajout
3 comme
variante 2 Conversion vers les phones
du swahili
41. Ressources en RAP
"
Dictionnaire
Modèles
r prononciation r Modèles
acoustiques
l l de langage
Nécessite des données audio
ainsi que les transcriptions
correspondantes
J Sorties
texte
43. Corpus de parole
lue (1ère solution)
Transcriptions directement disponibles et
tâche simple à préparer
44. Corpus de parole
lue (1ère solution)
Transcriptions directement disponibles et
tâche simple à préparer
MAIS…
Données peu naturelles et nécessite tout de
même de trouver des locuteurs
45. Corpus de parole
lue (1ère solution)
Transcriptions directement disponibles et
tâche simple à préparer
MAIS…
Données peu naturelles et nécessite tout de
même de trouver des locuteurs
3h30 collectées
47. Transcriptions via
Crowdsourcing(2èmesolution)
Amazon’s Mechanical Turk:
Plateforme de travail en ligne. Tâches disponibles
aux utilisateurs contre paiement.
Qualité assez bonne Durée bien plus longue
pour des modèles que pour l’anglais
acoustiques Problèmes éthiques
Possibilité de trouver
des transcripteurs
48. Transcriptions via
Crowdsourcing(2èmesolution)
Amazon’s Mechanical Turk:
Plateforme de travail en ligne. Tâches disponibles
aux utilisateurs contre paiement.
Qualité assez bonne Durée bien plus longue
pour des modèles que pour l’anglais
acoustiques Problèmes éthiques
Possibilité de trouver
des transcripteurs
Seulement un test,
1h30 de parole lue transcrite
53. Transcription
collaborative (3ème solution)
Préparation
Set de 2h
Set de 2h
MA 1er set Le set de 2h est envoyé transcrit
au Ta ji Institute pour
correction
Set de 2h
corrigé
54. Transcription
collaborative (3ème solution)
Préparation
Set de 2h
Après correction, les
données sont
Set de 2h
MA 2ème set a joutées au corpus
transcrit
d’entrainement et un
nouveau MA est
appris
Set de 2h
corrigé
56. Transcription collaborative
1er set
40
40
35
Temps
Time Spent (hours)
30
(heures) 3ème set
5ème set
25 2ème set
25
4ème set
20
6ème set
15
15
60
60 65 70
70 75 80 85
85
Caractères corrects (%)
Character Accuracy Rate (%)
57. Résultats (WER)
"
Dictionnaire
Modèles
r prononciation r Modèles
acoustiques
l l de langage
3 J Sorties
texte
60. Taux de pénétration
d’Internet (%) 78.6
67.5
61.3
39.5
35.6
32.7
26.2
13.5
Africa Asia World Middle East Latin Europe Oceania / North
Average America / Australia America
Caribbean
61. Internet – croissance de
la population (%)
2988.4 2244.8
2000-2011
1205.1
789.6
528.1
376.4
214 152.6
Africa Asia World Middle East Latin Europe Oceania / North
Average America / Australia America
Caribbean