SlideShare une entreprise Scribd logo
1  sur  48
Télécharger pour lire hors ligne
Donnez la voix aux machines
@hellosct1
@hellosct1@mamot.fr
Christophe Villeneuve
27 février 2020
Atos open source - afup – lemug.fr – mariadb – drupal – mozilla - firefox – lemugfr - sumo – webextensions – VR – AR – XR - Cause commune 93.1 FM - TechSpeaker - Lizard - eyrolles – editions eni – programmez – linux pratique – webriver – elephpant - CommonVoice – Sécurité - Cybersécurité
Christophe Villeneuve ?
●
Consultant
●
Dresseur animaux Free Software
- @hellosct1 –
Aujourd’hui
●
Assistants numériques
●
Construire un assistant vocal
●
La qualité
●
Comment Contribuer ?
- @hellosct1 –
Assistants numériques
Construire son Assistant
La qualité
Comment Contribuer ?
- @hellosct1 –
Assistant numérique : Au service de l’utilisateur
●
Smartphone
●
Enceinte connectée
●
Mixed Reality
Souvent utilisé dans des
contextes où la voix est plus
efficace pour communiquer
Que faire avec ?
- @hellosct1 –
Matériels
- @hellosct1 –
Le traitement de la voix ?
●
Obligation d’un réseau
– Connecter aux internets
– Gourmands en ressources
●
Accès aux services cloud pour pouvoir fonctionner
– Structure lourde
– Entrainement et transcription gourmands en calculs
●
Contraintes
– Souvent laissé à des services tiers en-ligne
– Nécessite beaucoup de données audio avec texte associé
/! La voix doit être personnelle
- @hellosct1 –
L’utilisation de la recherche vocale aujourd’hui
2016 2020
2016 2020
80 %
40 %
60 %
20 %
Texte
Voix
Sur mobile
- @hellosct1 –
Fonctionnement
Assistants vocaux
Requêtes
Résultat
Traitement
- @hellosct1 –
Aujourd’hui : Le constat sur l’écosystème vocal
●
Des gros acteurs (4-5)
– Dominé par les géants du Web d’aujourd’hui
●
Difficile d’accès pour les petits acteurs
– Développeurs logiciels
– Langues et marchés « minoritaires »
●
Alternative pour outiller la communauté
– Emergence d’outils vocaux
→ Projet Common Voice de Mozilla
- @hellosct1 –
Alternative
●
Raspberry PI 3 & +
– Respeaker 2 – Mics PI Hat
●
Arduino
– Movi d’Audème
– Grasp.io
– Voice Recognition
●
Briques pour Les assistants vocaux
– Common Voice – DeepSpeech de Mozilla
- @hellosct1 –
Assistants vocaux
Construire son Assistant
La qualité
Comment Contribuer ?
- @hellosct1 –
Ingrédients
- @hellosct1 –
Construire son assistant
Import
CC0
Import
CC0
Sentence
Collector
Sentence
Collector
SaisieSaisie
- @hellosct1 –
Comment çà marche ? → Parler
https://voice.mozilla.org/speak
- @hellosct1 –
Comment çà marche ? → Ecouter
https://voice.mozilla.org/listen
- @hellosct1 –
Augmenter le corpus de texte : Sentence collector
●
Proposer et valider de nouvelles phrases
– Posséder un compte sur Common Voice.
– Identifiez-vous sur le Collecteur de phrases
– Avec vos identifiants de Common Voice.
Validation des phrases
Page
→ page de validation.
Ajouter de nouvelle phrases
Page
→ Ajouter une nouvelle phrase
https://common-voice.github.io/sentence-collector/
- @hellosct1 –
Collecteur de phrases : Ajouter
https://common-voice.github.io/sentence-collector/
- @hellosct1 –
Collecteur de phrases : Valider
https://common-voice.github.io/sentence-collector/
- @hellosct1 –
Common Voice
●
But
– Aider à apprendre aux machines comment les humains
parlent vraiment
●
Destiné à rendre la reconnaissance vocale ouverte et
accessible à tout le monde
●
Objectifs
– 10 000 heures de données validées par langue
– Mini 2 000 heures
→ Assistant numérique et voix
Common Voice & Deep Speech
- @hellosct1 –
Objectifs (1/2)
●
Cassons les barrières de la voix
– Accès
→ peu de gros jeux de données publiquement accessibles
– Coût
→ ticket d’entrée important pour les jeux de données
commerciaux, avec des complexités légales
– Biais
→ seuls certains marchés sont bien pourvus
- @hellosct1 –
Objectifs (2/2)
●
Collecte de données ouvertes pour l’apprentissage machine
●
Données : audio et texte correspondant
●
Diversité
– Langues
– Accents
– Ages
– Genres
– Qualité sonore
●
Nous visons 10 000 heures de données validées par langue :
https://voice.mozilla.org
- @hellosct1 –
Construire son assistant
- @hellosct1 –
DeepSpeech : proposer de la valeur
●
Des outils
– pour produire
– Entraîner
– Evoluer un modèle de reconnaissance vocale
●
Un (des) modèle(s) de qualité production
– Sous licence libre
●
Une API pour exploiter le modèle le plus
simplement possible
- @hellosct1 –
DeepSpeech : Un modèle libre
●
Libre
– (ré)-Utilisable
– Modifiable et adaptable
– Requiert des données sous licence favorable
●
Local
– Favoriser la décentralisation
– Simplifier l’intégration
– Permettre l’utilisation sur des ‘petits’ systèmes
- @hellosct1 –
Données ouvertes
●
Décentraliser les données : plus de pouvoir aux
utilisateurs et contributeurs
– Facile à obtenir, exploiter
– Partage des données
– Intégration dans d’autres
jeux de données
– Outiller les communautés
https://voice.mozilla.org/fr/datasets
- @hellosct1 –
Intégration (1/2)
●
Plateformes
– Linux AMD64 (+ CUDA), ARMv7, Aarch64
– Android ARMv7, Aarch64
– MacOS (AMD64), Windows (AMD64, CUDA)
●
Langages
– C, Python, Java (android), Javascript (nodeJS, ElectronJS)
– .Net framework
– Rust (Deepspeech-rs)
– Go (go-astideepspeech)
●
Sous-titrage automatique de vidéos sur la plateforme
– eSup Pod v2.4 (application Python/Django)
- @hellosct1 –
Intégration (2/2)
●
Performance : CPU
– Temps réél sur Desktop > 2014
– Temps réél sur Raspberry PI 4
– Temps réél sur Snapdragon 820/835
●
Jeux de données compatibles
– Lingua libre, TrainingSpeech, CommonVoice,
– M-AILABS, African Accented French
- @hellosct1 –
Assistants vocaux
Construire son Assistant
La qualité
Comment Contribuer ?
- @hellosct1 –
Mots ajoutés
●
Les mots ajoutés quand on parle
●
L’erreur est le mot ‘de’ qui a été ajouté
Elle est située dans la zec
Louise- Gosford, une aire
publique de chasse et de pêche
Elle est située dans la zec
Louise- Gosford, une aire
publique de chasse et de pêche
- @hellosct1 –
Mots oubliés
●
Les mots qu’on oublie
●
L’erreur est le mot ‘de’ qui a été oublié
Angel est sur le point de
l’interroger mais Wo-Pang se
suicide
Angel est sur le point de
l’interroger mais Wo-Pang se
suicide
- @hellosct1 –
Mots accrochés
●
Les mots qu’on accroche
●
La première syllabe du mot ‘Phénicie’ a été accrochée
Elle relie le nord de l’égypte à
la Phé Phénicie, l’Assyrie et la
Mésopotamie
Elle relie le nord de l’égypte à
la Phé Phénicie, l’Assyrie et la
Mésopotamie
- @hellosct1 –
Lettre(s) oubliée(s)
●
Les lettres oubliées qui modifient le sens de la phrase
●
La lettre ‘s’ a été oubliée
→ la phrase ne veut plus rien dire
En conséquence, Durant
Motors perdit des parts de
marché et des revendeurs.
En conséquence, Durant
Motors perdit des parts de
marché et des revendeurs.
- @hellosct1 –
Inversion de syllabe
●
Une syllabe inversée dans un mot
●
Le môt ‘évêché’ est prononcé « échevé »
→ qui est une erreur
Selon l’échevé de Liège, l’abbé
Schoonbroodt ne dispose
d’aucun recours.
Selon l’échevé de Liège, l’abbé
Schoonbroodt ne dispose
d’aucun recours.
- @hellosct1 –
Matériels
- @hellosct1 –
Mauvaise compréhension
de l’échantillon
●
Le matériel « Micro » de mauvaise qualité
●
Un « brouhaha » empêche la compression
- @hellosct1 –
Bruit de souffle
●
Le réglage du micro est mal réglé ou trop élevé
→ Nous obtenons un bruit de souffle
- @hellosct1 –
Volume faible
●
Le volume du micro est faible
→ rend l’échantillon incompréhensible
- @hellosct1 –
Début coupé
●
le ou les premiers mots ne sont pas enregistrés
●
L’enregistrement est déclenché trop tard
●
Les deux premiers ne sont enregistrés
→ Clavier ou souris appuyé trop tard
Puis il affine son plumage et
replie les ailes.
Puis il affine son plumage et
replie les ailes.
- @hellosct1 –
Echantillon coupé
●
l’enregistrement de l’échantillon est stoppé
avant la fin
→ Il manque une partie de la phrase
Les droits de Gielow sont
ensuite rachetés au moment
de la Réforme protestante.
Les droits de Gielow sont
ensuite rachetés au moment
de la Réforme protestante.
- @hellosct1 –
Le dernier mot a été coupé
●
le ou les derniers mots sont coupés avant la fin
de l’enregistrement
●
La dernière syllabe du mot ‘Montgeroult’ est
coupé
L’ensemble du groupe scolaire
se situe à Montgeroult.
L’ensemble du groupe scolaire
se situe à Montgeroult.
- @hellosct1 –
Assistants vocaux
Construire son Assistant
La qualité
Comment Contribuer ?
- @hellosct1 –
●
Heures enregistrées / Heures validées
Les différences
- @hellosct1 –
La répartition des données
Accent
59% Français de France
3% Français du Canada
2% Français de Belgique
1% Français de Suisse
Âge
< 19 : 3 %
19 - 29 : 21 %
30 - 39 : 23 %
40 - 49 : 14 %
50 - 59 : 8 %
60 - 69 : 4 %
70 – 79 : 1%
Genre
65 % Masculin
12 % Féminin
●
Jeux de données vocales disponible (10 décembre 2019)
– Contenu officiel https://voice.mozilla.org/fr/datasets
- @hellosct1 –
Aider le projet ? (1/2)
●
Common Voice
– Parlez-en
●
Partagez votre voix et valider des échantillons
– Utilisez le jeu de données
●
Faîtes nous des retours
– Améliorez le corpus de texte
●
en proposant de nouvelles phrases (licence CC-0)
- @hellosct1 –
Aider le projet ? (2/2)
●
DeepSpeech
– Construisez des outils innovants basés sur Common
Voice et DeepSpeech
●
Un assistant numérique local ?
●
Un système d’identification de locuteur ?
●
Un système domotique100 % local avec contrôle vocal ?
– Contribuez vos changements
– Echangez sur vos utilisations pour améliorer l’API
- @hellosct1 –
Allez plus loin !
●
Site officiel Common Voice
– https://voice.mozilla.org/
●
Github Francophone Common Voice – DeepSpeech
– https://github.com/Common-Voice/commonvoice-fr
●
DeepSpeech
– https://github.com/mozilla/DeepSpeech
●
Nous contacter
– Forum Francophone
●
https://discourse.mozilla.org/c/voice/fr
– Forum DeepSpeech
●
https://discourse.mozilla.org/c/deep-speech
- @hellosct1 –
Merci
Christophe Villeneuve
@hellosct1
@hellosct1@mamot.fr

Contenu connexe

Similaire à Donnez la voix aux machines

Masterclass #DatingChatBot #IA par Meetic
Masterclass #DatingChatBot #IA par MeeticMasterclass #DatingChatBot #IA par Meetic
Masterclass #DatingChatBot #IA par MeeticStéphanie Roger
 
iSpeech Nouveaux produits Novembre 2014
iSpeech Nouveaux produits Novembre 2014iSpeech Nouveaux produits Novembre 2014
iSpeech Nouveaux produits Novembre 2014Infologo
 
Peur de la migration vers l’open source ?
Peur de la migration vers l’open source ?Peur de la migration vers l’open source ?
Peur de la migration vers l’open source ?Christophe Villeneuve
 
Revolution Mobile @Web2day
Revolution Mobile @Web2dayRevolution Mobile @Web2day
Revolution Mobile @Web2dayAlexandre Jubien
 
Tester et configurer vos profils avec les containers
Tester et configurer vos profils avec les containersTester et configurer vos profils avec les containers
Tester et configurer vos profils avec les containersChristophe Villeneuve
 
Luminote, la veilleuse connectée dont vous avez toujours rêvé.
Luminote, la veilleuse connectée dont vous avez toujours rêvé.Luminote, la veilleuse connectée dont vous avez toujours rêvé.
Luminote, la veilleuse connectée dont vous avez toujours rêvé.HETIC
 
Contribuerquandonnestpastechnique
ContribuerquandonnestpastechniqueContribuerquandonnestpastechnique
Contribuerquandonnestpastechniqueclarista
 
Agile Day Tunisia 2012 - Quand le langage devient Agile
Agile Day Tunisia 2012 - Quand le langage devient AgileAgile Day Tunisia 2012 - Quand le langage devient Agile
Agile Day Tunisia 2012 - Quand le langage devient AgileTunisia Scrum User Group
 
Scikit Learn: Développement communautaire
Scikit Learn: Développement communautaireScikit Learn: Développement communautaire
Scikit Learn: Développement communautaireGael Varoquaux
 
Docker compose
Docker composeDocker compose
Docker composeOxalide
 
Traduction vocale quasi instantanee introduction
Traduction vocale quasi instantanee introductionTraduction vocale quasi instantanee introduction
Traduction vocale quasi instantanee introductionSmals
 
L\'informatique documentaire à l\'heure du tout web
L\'informatique documentaire à l\'heure du tout webL\'informatique documentaire à l\'heure du tout web
L\'informatique documentaire à l\'heure du tout webNicolas Morin
 
Prez chatbot sncf_tock_meetup_open_transport_paris_20032019
Prez chatbot sncf_tock_meetup_open_transport_paris_20032019Prez chatbot sncf_tock_meetup_open_transport_paris_20032019
Prez chatbot sncf_tock_meetup_open_transport_paris_20032019Open Transport meetup by Kisio
 
Vers des langues de programmation ?
Vers des langues de programmation ?Vers des langues de programmation ?
Vers des langues de programmation ?Nicolas Dubois
 
TOCK (The Open Conversation Kit) @ Meetup Open Transport
TOCK (The Open Conversation Kit) @ Meetup Open TransportTOCK (The Open Conversation Kit) @ Meetup Open Transport
TOCK (The Open Conversation Kit) @ Meetup Open TransportFrançois
 
En attendant le Poisson de Babel
En attendant le Poisson de BabelEn attendant le Poisson de Babel
En attendant le Poisson de Babelsbooth
 

Similaire à Donnez la voix aux machines (20)

Masterclass #DatingChatBot #IA par Meetic
Masterclass #DatingChatBot #IA par MeeticMasterclass #DatingChatBot #IA par Meetic
Masterclass #DatingChatBot #IA par Meetic
 
iSpeech Nouveaux produits Novembre 2014
iSpeech Nouveaux produits Novembre 2014iSpeech Nouveaux produits Novembre 2014
iSpeech Nouveaux produits Novembre 2014
 
Peur de la migration vers l’open source ?
Peur de la migration vers l’open source ?Peur de la migration vers l’open source ?
Peur de la migration vers l’open source ?
 
Revolution Mobile @Web2day
Revolution Mobile @Web2dayRevolution Mobile @Web2day
Revolution Mobile @Web2day
 
Tester et configurer vos profils avec les containers
Tester et configurer vos profils avec les containersTester et configurer vos profils avec les containers
Tester et configurer vos profils avec les containers
 
Luminote, la veilleuse connectée dont vous avez toujours rêvé.
Luminote, la veilleuse connectée dont vous avez toujours rêvé.Luminote, la veilleuse connectée dont vous avez toujours rêvé.
Luminote, la veilleuse connectée dont vous avez toujours rêvé.
 
Common voice
Common voiceCommon voice
Common voice
 
Contribuerquandonnestpastechnique
ContribuerquandonnestpastechniqueContribuerquandonnestpastechnique
Contribuerquandonnestpastechnique
 
Utiliser le support firefox - SUMO
Utiliser le support firefox - SUMOUtiliser le support firefox - SUMO
Utiliser le support firefox - SUMO
 
Du coup, vous parlez canadien-français?
Du coup, vous parlez canadien-français?Du coup, vous parlez canadien-français?
Du coup, vous parlez canadien-français?
 
Agile Day Tunisia 2012 - Quand le langage devient Agile
Agile Day Tunisia 2012 - Quand le langage devient AgileAgile Day Tunisia 2012 - Quand le langage devient Agile
Agile Day Tunisia 2012 - Quand le langage devient Agile
 
Scikit Learn: Développement communautaire
Scikit Learn: Développement communautaireScikit Learn: Développement communautaire
Scikit Learn: Développement communautaire
 
Docker compose
Docker composeDocker compose
Docker compose
 
Traduction vocale quasi instantanee introduction
Traduction vocale quasi instantanee introductionTraduction vocale quasi instantanee introduction
Traduction vocale quasi instantanee introduction
 
L\'informatique documentaire à l\'heure du tout web
L\'informatique documentaire à l\'heure du tout webL\'informatique documentaire à l\'heure du tout web
L\'informatique documentaire à l\'heure du tout web
 
Prez chatbot sncf_tock_meetup_open_transport_paris_20032019
Prez chatbot sncf_tock_meetup_open_transport_paris_20032019Prez chatbot sncf_tock_meetup_open_transport_paris_20032019
Prez chatbot sncf_tock_meetup_open_transport_paris_20032019
 
Vers des langues de programmation ?
Vers des langues de programmation ?Vers des langues de programmation ?
Vers des langues de programmation ?
 
chatgpt_meetup_jug.pdf
chatgpt_meetup_jug.pdfchatgpt_meetup_jug.pdf
chatgpt_meetup_jug.pdf
 
TOCK (The Open Conversation Kit) @ Meetup Open Transport
TOCK (The Open Conversation Kit) @ Meetup Open TransportTOCK (The Open Conversation Kit) @ Meetup Open Transport
TOCK (The Open Conversation Kit) @ Meetup Open Transport
 
En attendant le Poisson de Babel
En attendant le Poisson de BabelEn attendant le Poisson de Babel
En attendant le Poisson de Babel
 

Plus de Christophe Villeneuve

La boîte à outils de développements dans Firefox
La boîte à outils de développements dans FirefoxLa boîte à outils de développements dans Firefox
La boîte à outils de développements dans FirefoxChristophe Villeneuve
 
controler vos donnees éthiques dans le web
controler vos donnees éthiques dans le webcontroler vos donnees éthiques dans le web
controler vos donnees éthiques dans le webChristophe Villeneuve
 
La sécurité applicative par le design
La sécurité applicative par le designLa sécurité applicative par le design
La sécurité applicative par le designChristophe Villeneuve
 
Mozilla french speaking community activites
Mozilla french speaking community activitesMozilla french speaking community activites
Mozilla french speaking community activitesChristophe Villeneuve
 
Monitoring dynamique : Grafana et Microsoft
Monitoring dynamique : Grafana et MicrosoftMonitoring dynamique : Grafana et Microsoft
Monitoring dynamique : Grafana et MicrosoftChristophe Villeneuve
 
Le futur de l'authentification webAuthn
Le futur de l'authentification webAuthnLe futur de l'authentification webAuthn
Le futur de l'authentification webAuthnChristophe Villeneuve
 
Tests d'accessibilite par la pratique
Tests d'accessibilite par la pratiqueTests d'accessibilite par la pratique
Tests d'accessibilite par la pratiqueChristophe Villeneuve
 
La réalité mélangée dans vos applications
La réalité mélangée dans vos applicationsLa réalité mélangée dans vos applications
La réalité mélangée dans vos applicationsChristophe Villeneuve
 
la boite à outils de développements dans firefox devtools
la boite à outils de développements dans firefox devtoolsla boite à outils de développements dans firefox devtools
la boite à outils de développements dans firefox devtoolsChristophe Villeneuve
 
La réalité melangée dans vos applications
La réalité melangée dans vos applicationsLa réalité melangée dans vos applications
La réalité melangée dans vos applicationsChristophe Villeneuve
 

Plus de Christophe Villeneuve (20)

MariaDB une base de donnees NewSQL
MariaDB une base de donnees NewSQLMariaDB une base de donnees NewSQL
MariaDB une base de donnees NewSQL
 
La boîte à outils de développements dans Firefox
La boîte à outils de développements dans FirefoxLa boîte à outils de développements dans Firefox
La boîte à outils de développements dans Firefox
 
controler vos donnees éthiques dans le web
controler vos donnees éthiques dans le webcontroler vos donnees éthiques dans le web
controler vos donnees éthiques dans le web
 
Infrastructure as code drupal
Infrastructure as code drupalInfrastructure as code drupal
Infrastructure as code drupal
 
Mariadb une base de données NewSQL
Mariadb une base de données NewSQLMariadb une base de données NewSQL
Mariadb une base de données NewSQL
 
Pentest bus pirate
Pentest bus piratePentest bus pirate
Pentest bus pirate
 
La sécurité applicative par le design
La sécurité applicative par le designLa sécurité applicative par le design
La sécurité applicative par le design
 
Foxfooding semaine 3
Foxfooding semaine 3Foxfooding semaine 3
Foxfooding semaine 3
 
Foxfooding
FoxfoodingFoxfooding
Foxfooding
 
Mozilla french speaking community activites
Mozilla french speaking community activitesMozilla french speaking community activites
Mozilla french speaking community activites
 
Monitoring dynamique : Grafana et Microsoft
Monitoring dynamique : Grafana et MicrosoftMonitoring dynamique : Grafana et Microsoft
Monitoring dynamique : Grafana et Microsoft
 
Etes vous-pret pour php8 ?
Etes vous-pret pour php8 ?Etes vous-pret pour php8 ?
Etes vous-pret pour php8 ?
 
Le futur de l'authentification webAuthn
Le futur de l'authentification webAuthnLe futur de l'authentification webAuthn
Le futur de l'authentification webAuthn
 
Send large files with addons
Send large files with addonsSend large files with addons
Send large files with addons
 
Tests d'accessibilite par la pratique
Tests d'accessibilite par la pratiqueTests d'accessibilite par la pratique
Tests d'accessibilite par la pratique
 
La réalité mélangée dans vos applications
La réalité mélangée dans vos applicationsLa réalité mélangée dans vos applications
La réalité mélangée dans vos applications
 
la boite à outils de développements dans firefox devtools
la boite à outils de développements dans firefox devtoolsla boite à outils de développements dans firefox devtools
la boite à outils de développements dans firefox devtools
 
la réalité mélangée de A a Z
la réalité mélangée de A a Zla réalité mélangée de A a Z
la réalité mélangée de A a Z
 
La réalité melangée dans vos applications
La réalité melangée dans vos applicationsLa réalité melangée dans vos applications
La réalité melangée dans vos applications
 
Souverainte des données
Souverainte des donnéesSouverainte des données
Souverainte des données
 

Donnez la voix aux machines

  • 1. Donnez la voix aux machines @hellosct1 @hellosct1@mamot.fr Christophe Villeneuve 27 février 2020
  • 2. Atos open source - afup – lemug.fr – mariadb – drupal – mozilla - firefox – lemugfr - sumo – webextensions – VR – AR – XR - Cause commune 93.1 FM - TechSpeaker - Lizard - eyrolles – editions eni – programmez – linux pratique – webriver – elephpant - CommonVoice – Sécurité - Cybersécurité Christophe Villeneuve ? ● Consultant ● Dresseur animaux Free Software
  • 3. - @hellosct1 – Aujourd’hui ● Assistants numériques ● Construire un assistant vocal ● La qualité ● Comment Contribuer ?
  • 4. - @hellosct1 – Assistants numériques Construire son Assistant La qualité Comment Contribuer ?
  • 5. - @hellosct1 – Assistant numérique : Au service de l’utilisateur ● Smartphone ● Enceinte connectée ● Mixed Reality Souvent utilisé dans des contextes où la voix est plus efficace pour communiquer Que faire avec ?
  • 7. - @hellosct1 – Le traitement de la voix ? ● Obligation d’un réseau – Connecter aux internets – Gourmands en ressources ● Accès aux services cloud pour pouvoir fonctionner – Structure lourde – Entrainement et transcription gourmands en calculs ● Contraintes – Souvent laissé à des services tiers en-ligne – Nécessite beaucoup de données audio avec texte associé /! La voix doit être personnelle
  • 8. - @hellosct1 – L’utilisation de la recherche vocale aujourd’hui 2016 2020 2016 2020 80 % 40 % 60 % 20 % Texte Voix Sur mobile
  • 9. - @hellosct1 – Fonctionnement Assistants vocaux Requêtes Résultat Traitement
  • 10. - @hellosct1 – Aujourd’hui : Le constat sur l’écosystème vocal ● Des gros acteurs (4-5) – Dominé par les géants du Web d’aujourd’hui ● Difficile d’accès pour les petits acteurs – Développeurs logiciels – Langues et marchés « minoritaires » ● Alternative pour outiller la communauté – Emergence d’outils vocaux → Projet Common Voice de Mozilla
  • 11. - @hellosct1 – Alternative ● Raspberry PI 3 & + – Respeaker 2 – Mics PI Hat ● Arduino – Movi d’Audème – Grasp.io – Voice Recognition ● Briques pour Les assistants vocaux – Common Voice – DeepSpeech de Mozilla
  • 12. - @hellosct1 – Assistants vocaux Construire son Assistant La qualité Comment Contribuer ?
  • 14. - @hellosct1 – Construire son assistant Import CC0 Import CC0 Sentence Collector Sentence Collector SaisieSaisie
  • 15. - @hellosct1 – Comment çà marche ? → Parler https://voice.mozilla.org/speak
  • 16. - @hellosct1 – Comment çà marche ? → Ecouter https://voice.mozilla.org/listen
  • 17. - @hellosct1 – Augmenter le corpus de texte : Sentence collector ● Proposer et valider de nouvelles phrases – Posséder un compte sur Common Voice. – Identifiez-vous sur le Collecteur de phrases – Avec vos identifiants de Common Voice. Validation des phrases Page → page de validation. Ajouter de nouvelle phrases Page → Ajouter une nouvelle phrase https://common-voice.github.io/sentence-collector/
  • 18. - @hellosct1 – Collecteur de phrases : Ajouter https://common-voice.github.io/sentence-collector/
  • 19. - @hellosct1 – Collecteur de phrases : Valider https://common-voice.github.io/sentence-collector/
  • 20. - @hellosct1 – Common Voice ● But – Aider à apprendre aux machines comment les humains parlent vraiment ● Destiné à rendre la reconnaissance vocale ouverte et accessible à tout le monde ● Objectifs – 10 000 heures de données validées par langue – Mini 2 000 heures → Assistant numérique et voix Common Voice & Deep Speech
  • 21. - @hellosct1 – Objectifs (1/2) ● Cassons les barrières de la voix – Accès → peu de gros jeux de données publiquement accessibles – Coût → ticket d’entrée important pour les jeux de données commerciaux, avec des complexités légales – Biais → seuls certains marchés sont bien pourvus
  • 22. - @hellosct1 – Objectifs (2/2) ● Collecte de données ouvertes pour l’apprentissage machine ● Données : audio et texte correspondant ● Diversité – Langues – Accents – Ages – Genres – Qualité sonore ● Nous visons 10 000 heures de données validées par langue : https://voice.mozilla.org
  • 24. - @hellosct1 – DeepSpeech : proposer de la valeur ● Des outils – pour produire – Entraîner – Evoluer un modèle de reconnaissance vocale ● Un (des) modèle(s) de qualité production – Sous licence libre ● Une API pour exploiter le modèle le plus simplement possible
  • 25. - @hellosct1 – DeepSpeech : Un modèle libre ● Libre – (ré)-Utilisable – Modifiable et adaptable – Requiert des données sous licence favorable ● Local – Favoriser la décentralisation – Simplifier l’intégration – Permettre l’utilisation sur des ‘petits’ systèmes
  • 26. - @hellosct1 – Données ouvertes ● Décentraliser les données : plus de pouvoir aux utilisateurs et contributeurs – Facile à obtenir, exploiter – Partage des données – Intégration dans d’autres jeux de données – Outiller les communautés https://voice.mozilla.org/fr/datasets
  • 27. - @hellosct1 – Intégration (1/2) ● Plateformes – Linux AMD64 (+ CUDA), ARMv7, Aarch64 – Android ARMv7, Aarch64 – MacOS (AMD64), Windows (AMD64, CUDA) ● Langages – C, Python, Java (android), Javascript (nodeJS, ElectronJS) – .Net framework – Rust (Deepspeech-rs) – Go (go-astideepspeech) ● Sous-titrage automatique de vidéos sur la plateforme – eSup Pod v2.4 (application Python/Django)
  • 28. - @hellosct1 – Intégration (2/2) ● Performance : CPU – Temps réél sur Desktop > 2014 – Temps réél sur Raspberry PI 4 – Temps réél sur Snapdragon 820/835 ● Jeux de données compatibles – Lingua libre, TrainingSpeech, CommonVoice, – M-AILABS, African Accented French
  • 29. - @hellosct1 – Assistants vocaux Construire son Assistant La qualité Comment Contribuer ?
  • 30. - @hellosct1 – Mots ajoutés ● Les mots ajoutés quand on parle ● L’erreur est le mot ‘de’ qui a été ajouté Elle est située dans la zec Louise- Gosford, une aire publique de chasse et de pêche Elle est située dans la zec Louise- Gosford, une aire publique de chasse et de pêche
  • 31. - @hellosct1 – Mots oubliés ● Les mots qu’on oublie ● L’erreur est le mot ‘de’ qui a été oublié Angel est sur le point de l’interroger mais Wo-Pang se suicide Angel est sur le point de l’interroger mais Wo-Pang se suicide
  • 32. - @hellosct1 – Mots accrochés ● Les mots qu’on accroche ● La première syllabe du mot ‘Phénicie’ a été accrochée Elle relie le nord de l’égypte à la Phé Phénicie, l’Assyrie et la Mésopotamie Elle relie le nord de l’égypte à la Phé Phénicie, l’Assyrie et la Mésopotamie
  • 33. - @hellosct1 – Lettre(s) oubliée(s) ● Les lettres oubliées qui modifient le sens de la phrase ● La lettre ‘s’ a été oubliée → la phrase ne veut plus rien dire En conséquence, Durant Motors perdit des parts de marché et des revendeurs. En conséquence, Durant Motors perdit des parts de marché et des revendeurs.
  • 34. - @hellosct1 – Inversion de syllabe ● Une syllabe inversée dans un mot ● Le môt ‘évêché’ est prononcé « échevé » → qui est une erreur Selon l’échevé de Liège, l’abbé Schoonbroodt ne dispose d’aucun recours. Selon l’échevé de Liège, l’abbé Schoonbroodt ne dispose d’aucun recours.
  • 36. - @hellosct1 – Mauvaise compréhension de l’échantillon ● Le matériel « Micro » de mauvaise qualité ● Un « brouhaha » empêche la compression
  • 37. - @hellosct1 – Bruit de souffle ● Le réglage du micro est mal réglé ou trop élevé → Nous obtenons un bruit de souffle
  • 38. - @hellosct1 – Volume faible ● Le volume du micro est faible → rend l’échantillon incompréhensible
  • 39. - @hellosct1 – Début coupé ● le ou les premiers mots ne sont pas enregistrés ● L’enregistrement est déclenché trop tard ● Les deux premiers ne sont enregistrés → Clavier ou souris appuyé trop tard Puis il affine son plumage et replie les ailes. Puis il affine son plumage et replie les ailes.
  • 40. - @hellosct1 – Echantillon coupé ● l’enregistrement de l’échantillon est stoppé avant la fin → Il manque une partie de la phrase Les droits de Gielow sont ensuite rachetés au moment de la Réforme protestante. Les droits de Gielow sont ensuite rachetés au moment de la Réforme protestante.
  • 41. - @hellosct1 – Le dernier mot a été coupé ● le ou les derniers mots sont coupés avant la fin de l’enregistrement ● La dernière syllabe du mot ‘Montgeroult’ est coupé L’ensemble du groupe scolaire se situe à Montgeroult. L’ensemble du groupe scolaire se situe à Montgeroult.
  • 42. - @hellosct1 – Assistants vocaux Construire son Assistant La qualité Comment Contribuer ?
  • 43. - @hellosct1 – ● Heures enregistrées / Heures validées Les différences
  • 44. - @hellosct1 – La répartition des données Accent 59% Français de France 3% Français du Canada 2% Français de Belgique 1% Français de Suisse Âge < 19 : 3 % 19 - 29 : 21 % 30 - 39 : 23 % 40 - 49 : 14 % 50 - 59 : 8 % 60 - 69 : 4 % 70 – 79 : 1% Genre 65 % Masculin 12 % Féminin ● Jeux de données vocales disponible (10 décembre 2019) – Contenu officiel https://voice.mozilla.org/fr/datasets
  • 45. - @hellosct1 – Aider le projet ? (1/2) ● Common Voice – Parlez-en ● Partagez votre voix et valider des échantillons – Utilisez le jeu de données ● Faîtes nous des retours – Améliorez le corpus de texte ● en proposant de nouvelles phrases (licence CC-0)
  • 46. - @hellosct1 – Aider le projet ? (2/2) ● DeepSpeech – Construisez des outils innovants basés sur Common Voice et DeepSpeech ● Un assistant numérique local ? ● Un système d’identification de locuteur ? ● Un système domotique100 % local avec contrôle vocal ? – Contribuez vos changements – Echangez sur vos utilisations pour améliorer l’API
  • 47. - @hellosct1 – Allez plus loin ! ● Site officiel Common Voice – https://voice.mozilla.org/ ● Github Francophone Common Voice – DeepSpeech – https://github.com/Common-Voice/commonvoice-fr ● DeepSpeech – https://github.com/mozilla/DeepSpeech ● Nous contacter – Forum Francophone ● https://discourse.mozilla.org/c/voice/fr – Forum DeepSpeech ● https://discourse.mozilla.org/c/deep-speech
  • 48. - @hellosct1 – Merci Christophe Villeneuve @hellosct1 @hellosct1@mamot.fr