Présentation effectuée à Confoo 2020 (27 février 2020) par Christophe Villeneuve sur "Donnez la voix aux machines".
Vous allez voir l'avancé de ces appareils, des projets libres comme Common Voice et DeepSpeech, la qualité des participations et contributions
Consulter le site officiel https://voice.mozilla.org
5. - @hellosct1 –
Assistant numérique : Au service de l’utilisateur
●
Smartphone
●
Enceinte connectée
●
Mixed Reality
Souvent utilisé dans des
contextes où la voix est plus
efficace pour communiquer
Que faire avec ?
7. - @hellosct1 –
Le traitement de la voix ?
●
Obligation d’un réseau
– Connecter aux internets
– Gourmands en ressources
●
Accès aux services cloud pour pouvoir fonctionner
– Structure lourde
– Entrainement et transcription gourmands en calculs
●
Contraintes
– Souvent laissé à des services tiers en-ligne
– Nécessite beaucoup de données audio avec texte associé
/! La voix doit être personnelle
8. - @hellosct1 –
L’utilisation de la recherche vocale aujourd’hui
2016 2020
2016 2020
80 %
40 %
60 %
20 %
Texte
Voix
Sur mobile
10. - @hellosct1 –
Aujourd’hui : Le constat sur l’écosystème vocal
●
Des gros acteurs (4-5)
– Dominé par les géants du Web d’aujourd’hui
●
Difficile d’accès pour les petits acteurs
– Développeurs logiciels
– Langues et marchés « minoritaires »
●
Alternative pour outiller la communauté
– Emergence d’outils vocaux
→ Projet Common Voice de Mozilla
11. - @hellosct1 –
Alternative
●
Raspberry PI 3 & +
– Respeaker 2 – Mics PI Hat
●
Arduino
– Movi d’Audème
– Grasp.io
– Voice Recognition
●
Briques pour Les assistants vocaux
– Common Voice – DeepSpeech de Mozilla
17. - @hellosct1 –
Augmenter le corpus de texte : Sentence collector
●
Proposer et valider de nouvelles phrases
– Posséder un compte sur Common Voice.
– Identifiez-vous sur le Collecteur de phrases
– Avec vos identifiants de Common Voice.
Validation des phrases
Page
→ page de validation.
Ajouter de nouvelle phrases
Page
→ Ajouter une nouvelle phrase
https://common-voice.github.io/sentence-collector/
20. - @hellosct1 –
Common Voice
●
But
– Aider à apprendre aux machines comment les humains
parlent vraiment
●
Destiné à rendre la reconnaissance vocale ouverte et
accessible à tout le monde
●
Objectifs
– 10 000 heures de données validées par langue
– Mini 2 000 heures
→ Assistant numérique et voix
Common Voice & Deep Speech
21. - @hellosct1 –
Objectifs (1/2)
●
Cassons les barrières de la voix
– Accès
→ peu de gros jeux de données publiquement accessibles
– Coût
→ ticket d’entrée important pour les jeux de données
commerciaux, avec des complexités légales
– Biais
→ seuls certains marchés sont bien pourvus
22. - @hellosct1 –
Objectifs (2/2)
●
Collecte de données ouvertes pour l’apprentissage machine
●
Données : audio et texte correspondant
●
Diversité
– Langues
– Accents
– Ages
– Genres
– Qualité sonore
●
Nous visons 10 000 heures de données validées par langue :
https://voice.mozilla.org
24. - @hellosct1 –
DeepSpeech : proposer de la valeur
●
Des outils
– pour produire
– Entraîner
– Evoluer un modèle de reconnaissance vocale
●
Un (des) modèle(s) de qualité production
– Sous licence libre
●
Une API pour exploiter le modèle le plus
simplement possible
25. - @hellosct1 –
DeepSpeech : Un modèle libre
●
Libre
– (ré)-Utilisable
– Modifiable et adaptable
– Requiert des données sous licence favorable
●
Local
– Favoriser la décentralisation
– Simplifier l’intégration
– Permettre l’utilisation sur des ‘petits’ systèmes
26. - @hellosct1 –
Données ouvertes
●
Décentraliser les données : plus de pouvoir aux
utilisateurs et contributeurs
– Facile à obtenir, exploiter
– Partage des données
– Intégration dans d’autres
jeux de données
– Outiller les communautés
https://voice.mozilla.org/fr/datasets
27. - @hellosct1 –
Intégration (1/2)
●
Plateformes
– Linux AMD64 (+ CUDA), ARMv7, Aarch64
– Android ARMv7, Aarch64
– MacOS (AMD64), Windows (AMD64, CUDA)
●
Langages
– C, Python, Java (android), Javascript (nodeJS, ElectronJS)
– .Net framework
– Rust (Deepspeech-rs)
– Go (go-astideepspeech)
●
Sous-titrage automatique de vidéos sur la plateforme
– eSup Pod v2.4 (application Python/Django)
28. - @hellosct1 –
Intégration (2/2)
●
Performance : CPU
– Temps réél sur Desktop > 2014
– Temps réél sur Raspberry PI 4
– Temps réél sur Snapdragon 820/835
●
Jeux de données compatibles
– Lingua libre, TrainingSpeech, CommonVoice,
– M-AILABS, African Accented French
30. - @hellosct1 –
Mots ajoutés
●
Les mots ajoutés quand on parle
●
L’erreur est le mot ‘de’ qui a été ajouté
Elle est située dans la zec
Louise- Gosford, une aire
publique de chasse et de pêche
Elle est située dans la zec
Louise- Gosford, une aire
publique de chasse et de pêche
31. - @hellosct1 –
Mots oubliés
●
Les mots qu’on oublie
●
L’erreur est le mot ‘de’ qui a été oublié
Angel est sur le point de
l’interroger mais Wo-Pang se
suicide
Angel est sur le point de
l’interroger mais Wo-Pang se
suicide
32. - @hellosct1 –
Mots accrochés
●
Les mots qu’on accroche
●
La première syllabe du mot ‘Phénicie’ a été accrochée
Elle relie le nord de l’égypte à
la Phé Phénicie, l’Assyrie et la
Mésopotamie
Elle relie le nord de l’égypte à
la Phé Phénicie, l’Assyrie et la
Mésopotamie
33. - @hellosct1 –
Lettre(s) oubliée(s)
●
Les lettres oubliées qui modifient le sens de la phrase
●
La lettre ‘s’ a été oubliée
→ la phrase ne veut plus rien dire
En conséquence, Durant
Motors perdit des parts de
marché et des revendeurs.
En conséquence, Durant
Motors perdit des parts de
marché et des revendeurs.
34. - @hellosct1 –
Inversion de syllabe
●
Une syllabe inversée dans un mot
●
Le môt ‘évêché’ est prononcé « échevé »
→ qui est une erreur
Selon l’échevé de Liège, l’abbé
Schoonbroodt ne dispose
d’aucun recours.
Selon l’échevé de Liège, l’abbé
Schoonbroodt ne dispose
d’aucun recours.
36. - @hellosct1 –
Mauvaise compréhension
de l’échantillon
●
Le matériel « Micro » de mauvaise qualité
●
Un « brouhaha » empêche la compression
37. - @hellosct1 –
Bruit de souffle
●
Le réglage du micro est mal réglé ou trop élevé
→ Nous obtenons un bruit de souffle
38. - @hellosct1 –
Volume faible
●
Le volume du micro est faible
→ rend l’échantillon incompréhensible
39. - @hellosct1 –
Début coupé
●
le ou les premiers mots ne sont pas enregistrés
●
L’enregistrement est déclenché trop tard
●
Les deux premiers ne sont enregistrés
→ Clavier ou souris appuyé trop tard
Puis il affine son plumage et
replie les ailes.
Puis il affine son plumage et
replie les ailes.
40. - @hellosct1 –
Echantillon coupé
●
l’enregistrement de l’échantillon est stoppé
avant la fin
→ Il manque une partie de la phrase
Les droits de Gielow sont
ensuite rachetés au moment
de la Réforme protestante.
Les droits de Gielow sont
ensuite rachetés au moment
de la Réforme protestante.
41. - @hellosct1 –
Le dernier mot a été coupé
●
le ou les derniers mots sont coupés avant la fin
de l’enregistrement
●
La dernière syllabe du mot ‘Montgeroult’ est
coupé
L’ensemble du groupe scolaire
se situe à Montgeroult.
L’ensemble du groupe scolaire
se situe à Montgeroult.
44. - @hellosct1 –
La répartition des données
Accent
59% Français de France
3% Français du Canada
2% Français de Belgique
1% Français de Suisse
Âge
< 19 : 3 %
19 - 29 : 21 %
30 - 39 : 23 %
40 - 49 : 14 %
50 - 59 : 8 %
60 - 69 : 4 %
70 – 79 : 1%
Genre
65 % Masculin
12 % Féminin
●
Jeux de données vocales disponible (10 décembre 2019)
– Contenu officiel https://voice.mozilla.org/fr/datasets
45. - @hellosct1 –
Aider le projet ? (1/2)
●
Common Voice
– Parlez-en
●
Partagez votre voix et valider des échantillons
– Utilisez le jeu de données
●
Faîtes nous des retours
– Améliorez le corpus de texte
●
en proposant de nouvelles phrases (licence CC-0)
46. - @hellosct1 –
Aider le projet ? (2/2)
●
DeepSpeech
– Construisez des outils innovants basés sur Common
Voice et DeepSpeech
●
Un assistant numérique local ?
●
Un système d’identification de locuteur ?
●
Un système domotique100 % local avec contrôle vocal ?
– Contribuez vos changements
– Echangez sur vos utilisations pour améliorer l’API
47. - @hellosct1 –
Allez plus loin !
●
Site officiel Common Voice
– https://voice.mozilla.org/
●
Github Francophone Common Voice – DeepSpeech
– https://github.com/Common-Voice/commonvoice-fr
●
DeepSpeech
– https://github.com/mozilla/DeepSpeech
●
Nous contacter
– Forum Francophone
●
https://discourse.mozilla.org/c/voice/fr
– Forum DeepSpeech
●
https://discourse.mozilla.org/c/deep-speech