3. • WP7.x vs WP8
• Comandi Vocali
• Text to Speech
• Riconoscimento Vocale
• Conclusioni
agenda
4. • WP7.x ha il supporto ai comandi vocali (ad esempio
«Avvia MyApp» per eseguire l’applicazione MyApp);
• WP7.x permette la lettura degli SMS da parte del
device;
• WP7.x permette all’utente di scrivere SMS dettandoli.
….ma tutte queste funzionalità non sono accessibili allo
sviluppatore!!!
WP7.x vs WP8
5. • Windows Phone 8 permette allo sviluppatore di utilizzare completamente il
supporto legato all’utilizzo della voce;
• Le nostre applicazioni possono essere avviate utilizzando comandi anche
complessi (Voice Command);
• Le nostre applicazioni possono «parlare» utilizzando le funzionalità di Speech
Synthesis (Text To Speech);
• Le applicazioni sono in grado di comprendere ciò che l’utente pronuncia
(Speech Recognition).
WP7.x vs WP8
6. Le funzionalità di Speech Recognition possono
utilizzare una connessione internet:
non date all’utente solo il riconoscimento vocale
per eseguire un’operazione.
Le funzionalità di Speech Synthesis (Text to Speech) e
dei comandi vocali (Voice Command) non
necessitano di una connessione ad internet.
WP7.x vs WP8
7. • Possiamo utilizzare la voce per avviare le nostre applicazioni.
• Per l’utilizzo dei Comandi Vocali non è necessaria una
connessione ad internet.
• Le classi che permettono la gestione dei comandi vocali sono
nel namespace Windows.Phone.Speech.VoiceCommands.
• Sono necessarie le seguenti capability:
– ID_CAP_MICROPHONE
– ID_CAP_NETWORKING
– ID_CAP_SPEECH_RECOGNITION
Comandi Vocali
8. • E’ un file XML che contiene le
informazioni relative ai comandi vocali
supportati dalla nostra applicazione.
• Deve essere «installato» almeno una
volta prima di poter essere disponibile
nel sistema.
• Ogni applicazione ha, al massimo, un
solo VCD.
• Può contenere comandi localizzati
Voice Command Definition File
9. <VoiceCommands xmlns="http://schemas.microsoft.com/voicecommands/1.0">
<CommandSet xml:lang="it-IT" Name="DemoIta">
<CommandPrefix>Demo</CommandPrefix>
<Example>Apri nuovo documento.</Example>
<Command Name="OpenDocument">
<Example> apri documento 1</Example>
<ListenFor> apri documento [numero] {number}</ListenFor>
<Feedback> Sto aprendo il documento numero {number}... </Feedback>
<Navigate />
</Command>
.
.
.
<PhraseList Label="number">
<Item> 1 </Item>
<Item> 2 </Item>
<Item> 3 </Item>
</PhraseList>
</CommandSet>
</VoiceCommands>
Voice Command Definition File
Nome identificativo del set di comandi
Vocabolo che avvia l’applicazione
Tag che identifica il singolo comando
Esempio di comando visualizzato dal sistema nell’help
Sintassi del comando: possono esserci vocaboli non
obbligatori e placeholder che possono essere sostituiti da
liste di valori
Feedback visivo (e vocale) che il sistema restituisce
all’utente quando il comando viene correttamente
interpretato
Pagina dell’applicazione che deve essere aperta dal
sistema
Elenco di valori (Phrase List) utilizzabili cone
«variabili» nei comandi
10. La classe VoiceCommandService ci consente di installare un VCD:
Installare un VCD
Try
Dim vcdUri = New System.Uri("ms-appx:///VoiceCommandDefinition.xml",
UriKind.Absolute)
Await VoiceCommandService.InstallCommandSetsFromFileAsync(vcdUri)
MessageBox.Show("VCD Installato correttamente!")
Catch ex As Exception
MessageBox.Show("Errore: " & ex.Message)
End Try
12. Nel momento in cui avviamo la nostra applicazione utilizzando un
comando vocale, i parametri riconosciuti dal sistema e definiti nel VCD
vengono restituiti nella query string del NavigationContext.
Comandi Vocali e QueryString
Private Sub MainPage_Loaded(sender As Object, e As RoutedEventArgs) Handles Me.Loaded
If NavigationContext.QueryString.ContainsKey("voiceCommandName") Then
Dim voiceCommand = NavigationContext.QueryString("voiceCommandName")
Select Case voiceCommand
Case ”OpenDocument”
' Apri il document
Dim docNumber = NavigationContext.QueryString("number")
Case ”SearchDocument”
' Ricerca document
Dim docTitle = NavigationContext.QueryString("title")
End Select
End If
End Sub
13. Comandi Vocali - Help dei comandi
Il file dei comandi viene utilizzato
anche per l’help visuale da mostrare
all’utente:
14. • Non è possibile aggiungere dinamicamente dei comandi;
• Si possono aggiungere dinamicamente valori alle phrase list;
• Per modificare una phrase list occorre:
• Recuperare il set di comandi in base alla lingua;
• Eseguire l’update della phrase list (la lista può essere solo completamente
riscritta).
Comandi Vocali - Phrase list
Dim voiceCommandSet = VoiceCommandService.InstalledCommandSets("DemoIta")
If voiceCommandSet IsNot Nothing Then
Await voiceCommandSet.UpdatePhraseListAsync("title",
{"promessi sposi", "divina commedia", "guerra e pace"})
End If
16. Per utilizzare il Text To Speech l’applicazione deve avere
la capability ID_CAP_SPEECH_RECOGNITION abilitata
nel manifest.
Le classi utili per il Text To Speech sono nel namespace
Windows.Phone.Speech.Synthesis
Text to Speech
17. La classe SpeechSynthesizer fornisce funzionalità di base per il
TTS:
Il metodo SpeakTextAsync «legge» il contenuto di una stringa in
maniera asincrona (richiede il modificatore Async nel chiamante);
Il TTS funziona anche se non c’è connettività.
Text to Speech – facile facile
Public Async Sub Speak()
Dim synth = New SpeechSynthesizer()
Await synth.SpeakTextAsync("Ciao a tutti!")
End Sub
18. La classe InstalledVoices mette a disposizione l’elenco delle voci
installate nel dispositivo.
La classe VoiceInformation contiene informazioni riguardo la
specifica voce come lingua, genere (maschile o femminile), nome
visualizzato e descrizione estesa.
Text to Speech – le voci
Public Sub SetItalianVoice()
Dim synth = New SpeechSynthesizer()
Dim italianVoices = From v In InstalledVoices.All
Where v.Language = "it-IT"
Select v
synth.SetVoice(italianVoices.First)
End Sub
19. Il Synthesizer è in grado di utilizzare anche file XML secondo lo
standard Speech Synthesis Markup Language (SSML)
Text to Speech - Speech Synthesis Markup Language
Dim synth = New SpeechSynthesizer()
Dim ssmlUri = New Uri("ms-appx:///SSML.xml", UriKind.RelativeOrAbsolute)
Await synth.SpeakSsmlFromUriAsync(ssmlUri)
20. SSML è standard W3C (http://www.w3.org/TR/speech-synthesis/)
Text to Speech - Speech Synthesis Markup Language
<!DOCTYPE speak PUBLIC "-//W3C//DTD SYNTHESIS 1.0//EN«
"http://www.w3.org/TR/speech-synthesis/synthesis.dtd">
<speak version="1.0«
xmlns=http://www.w3.org/2001/10/synthesis
xmlns:xsi=http://www.w3.org/2001/XMLSchema-instance
xsi:schemaLocation="http://www.w3.org/2001/10/synthesis
http://www.w3.org/TR/speech-synthesis/synthesis.xsd"
xml:lang="it-IT">
<p>
<voice gender="female">
<s>Utilizzare le <voice xml:lang="en-US">Speech API</voice>
per dialogare con il proprio <emphasis>Windows Phone 8</emphasis></s>
</voice>
</p>
</speak>
22. • WP8 include:
• un runtime di Speech Recognition;
• delle API per interagire con l’utente;
• grammatiche di default;
• GUI per permettere all’utente di conoscere e scoprire le funzionalità
di speech recognition.
• Per il riconoscimento vocale potrebbe essere necessaria una connessione ad internet.
• Le classi per il riconoscimento vocale sono nel namespace
Windows.Phone.Speech.Recognition
• Per utilizzare le funzionalità di riconoscimento vocale sono necessarie le seguenti capability:
– ID_CAP_MICROPHONE
– ID_CAP_NETWORKING
– ID_CAP_SPEECH_RECOGNITION
Riconoscimento Vocale
23. Una grammatica definisce le parole e le frasi che un motore di
riconoscimento vocale è in grado di comprendere.
In WP8 abbiamo tre tipologie di grammatiche :
– Grammatiche predefinite: sono due, una pensata per le ricerche web e l’altra
per le piccole frasi (tipicamente gli SMS);
– Lista di vocaboli: è una grammatica custom, molto leggera, composta da una
lista di vocaboli (o brevissime frasi). Adatta alla selezione di opzioni;
– Grammatica XML: basata sullo standard SRGS (Speech Recognition Grammar
Specification) versione 1.0. Permette di avere anche grammatiche complesse.
Riconoscimento Vocale - Grammatiche
24. La modalità più semplice per implementare delle funzionalità di
riconoscimento vocale è l’utilizzo della classe SpeechRecognizerUI.
La SpeechRecognizerUI apre l’interfaccia che
comunica all’utente che il sistema è in ascolto.
Se non vogliamo la UI possiamo utilizzare la classe
SpeechRecognizer
Riconoscimento Vocale – facile facile
Dim _RecoUI = New SpeechRecognizerUI
Dim recoResult = Await _RecoUI.RecognizeWithUIAsync()
If recoResult.ResultStatus = SpeechRecognitionUIStatus.Succeeded Then
Me.txtRecognized.Text = recoResult.RecognitionResult.Text
Else
MessageBox.Show(recoResult.ResultStatus.ToString())
End If
25. Se vogliamo limitare le parole che il motore di riconoscimento vocale è in grado
di riconoscere possiamo utilizzare una lista di vocaboli come grammatica.
La collezione Grammars della classe SpeechRecognizer permette di aggiungere
permette di gestire la grammatica.
Possiamo aggiungere quante liste vogliamo identificandole con una chiave
(nell’esempio «phraseList», detta anche «Rule»).
Usando le phrase list non si ha la necessità della connessione internet.
Phrase List Grammar
Private Async Function InitializeSpeechRecognizer() As task
' Istanzio l'oggetto da utilizzare per il riconoscimento
recognizer = New SpeechRecognizer
' Imposto il file di grammatica ed eseguo il preloading
recognizer.Grammars.AddGrammarFromList("phraseList",
{"topolino", "minni", "paperino", "pluto", "paperina", "pippo"})
Await recognizer.PreloadGrammarsAsync()
End Function
26. Il formato SRGS permette di ottenere grammatiche complesse e custom.
Se utilizziamo l’SRGS non abbiamo bisogno
della connessione ad internet.
SRGS è standard W3C
http://www.w3.org/TR/speech-grammar/
Custom Grammar
Private Async Function InitializeSpeechRecognizer() As task
' Istanzio l'oggetto da utilizzare per il riconoscimento
recognizerUI = New SpeechRecognizerUI
' Imposto alcune proprietà di interfaccia
recognizerUI.Settings.ListenText = "Dimmi quali album o artisti vuoi trovare“
recognizerUI.Settings.ExampleText = "Trova artisti nella categoria rock“
' Creo l'URI relativo al file di grammatical
Dim grammarFileUri = New Uri("ms-appx:///SRGSGrammar.xml")
' Imposto il file di grammatica ed eseguo il preloading
recognizerUI.Recognizer.Grammars.AddGrammarFromUri("myGrammar", grammarFileUri)
Await recognizerUI.Recognizer.PreloadGrammarsAsync()
End Function
28. Utilizzare la voce permette di fornire una user experience migliore
rispetto alla sola interazione touch ma…..
– Usate comandi semplici e “naturali”;
– Implementate sempre la controparte touch (non solo voce);
– Scegliete un numero di comandi congrui (non ne prevedete troppi);
– Mantenete le frasi corte per evitare “falsi positivi”;
– Date un feedback all’utente e la possibilità di annullare un commando;
– Localizzate l’utilizzo della voce in tutte le lingue previste
dall’applicazione;
– Permettete all’utente di selezionare la voce che più preferisce;
– Gli scenari vocali debbono essere interamente vocali (no mix con touch).
Conclusioni