erbio
VoIP2Day 2015 Pablo Gil Robiou
Tendencias y aplicaciones prácticas
sobre tecnologías del habla
[NLP]
Procesamiento de
Lenguaje Natural
Antes
Poco
Avance
Expectativas
Frustradas
Poca
Precisión
Tecnología
No embebida
Pocas
Aplicaciones
https://youtu.be/CA4h59JbsD8
Antes
Últimos 18 meses
Gran
Avance
Expectativas
Altas
Mejor
Precisión
Tecnología
embebida
Algunas
Aplicaciones
https://youtu.be/3JsN56-6wjQ
Últimos 18 meses
Presente y Futuro
Avance
Vertiginoso
Explosión
Big Data
Nuevos
Dispositivos
Interacción
Rápida
Democratización y
Uso Masivo
Círculo VirtuosoMejora Continua
Círculo Virtuoso Lenguaje Natural
Adopción y
uso
Más datos
Mejor
rendimiento
Redes
Neuronales
BI
Data Mining
A continuación mostramos el Portfolio de Soluciones sobre Lenguaje Natural
Soluciones Empáticas
Contenido propuesto
Síntesis
de Voz
Reconocimiento
de Voz
Portales
de Voz
Contact Centers Biometría
Vocal
[TTS]
Síntesis de voz
Wolfgang von
Kempelen
Speaking Machine
Sir Charles
Wheatstone
Improved Replica
Alexander Graham Bell
Experiments and
Resea...
DEC based on Dennis
Klatt’s work
DECtalk  Stephen
Hawking
HMM-based Speech
Synthesis System (HTS)
Flexibility, quality,
n...
Casos Prácticos
Síntesis de Voz
Megafonía
Aeropuertos,mediosdetransporte,ascensores,sistemas
de gestión deturnos…
Ayuda en...
Retos
Síntesis de Voz
Diferentesestadosde ánimo (espectogramas)
Fuente: TUB emotional database
Síntesis de Voz Ajustes y mejoras [TTS]
SSML
TTS soporta las etiquetas
definidas dentro del estándar
SSML (Speech Synthesi...
Retos
Síntesis de Voz
Tener cada uno su propia voz sintética (hoy en día posible pero a un coste elevado)
Contemplar riesg...
[ASR]
Reconocimiento
de voz
Info gramatical
Contienen información
acercadelasestructuras
gramaticalesmásprobables
en el entorno detrabajo.
Info estadí...
Distintos Tipos
Reconocimiento de Voz
Reconocimiento discreto
Capazdereconocer palabraso frasescortasdichastal y
como sees...
Casos Prácticos
Reconocimiento de Voz
Transcripción y Dictado
Informes,Actas,Eventos,Noticiarios,Aparicionespúblicas
y act...
Retos
Reconocimiento de Voz
Igualar efectividad en Reconocimiento Independiente del Locutor que en Reconocimiento
Dependie...
[ASR/TTS]
Portales de Voz
Portales de Voz Estrategias de diálogo [ASR/TTS]
Se anuncianlasrespuestasposibles
a cada pregunta,loque implica
lentituden...
Portales de Voz Estrategias de diálogo [ASR/TTS]
Las preguntaspuedensermás
abiertas,permitiendointroducir
más de undato po...
Portales de Voz Estrategias de diálogo [Verbio ASR/TTS]
Apoyadoporreconocimientoybasado
enpatronesestadísticos,formula
pre...
Pregunta abierta
Desplegar un servicio telefónico automatizadodel
tipo “say anything”, donde el usuario podrá
responder ab...
Los portales de Voz del pasado han hecho un uso deficiente de la tecnología,
buscando principalmentereducir costes
IVRs al...
Los portales de Voz del presentebuscan potenciar una imagen positiva de la empresa
o, al menos, no potenciar una imagen ne...
Los portales de Voz del futuro serán sistemas expertos capaces de ejecutar
transacciones y solucionar incidencias de forma...
[Speech & Text Analytics]
Contact
Centers
Contact Centers Multicanalidad [Speech Analytics]
Móvil App./SMS
Teléfono E-mail
WEB/Chat/IM
Redes SocialesFax/Carta
Los Contact Centers buscan la excelencia a través de métricas tales como el
Nivel de Servicio y Encuestas de Calidad (NPS)...
Para mejorarla calidad hay que empezarplanificándola,asegurando que los
procesos la cumplen y monitorizando queel resultad...
Speech Analytics
Un vistazo sobre el resultado de recopilar información, clasificarla, medirla y cruzarla
Idea
Partiendo d...
Voz del Cliente
Quality Assurance
Cumplimiento Normativa
• Cruce de lainformaciónunidimensional recabadaen:
– Voz del Cliente
– Quality Assurance
– Cumplimientodela Normativa
• Co...
Caso práctico [Verbio SA]
Análisis multidimensional
Text Analytics se usa también para generar modelos lingüísticos y estadísticos
usando técnicas de aprendizajeautomático co...
Procesamiento del Lenguaje Natural  Predecir y Solucionar Problemas de Negocio
Text Analytics
CRM Analytics - Transcripci...
[Speaker Recognition]
Biometría Vocal
Para generarla huella vocal se usará entrenamiento implícito o explícito
La huella vocal es tan fiable como la huella dact...
¿Cómo evitar que nos engañen? Previendo las técnicas y poniendo los medios
Defensas antispoofing
Sistemas de Biometría
Ant...
Retos
Biometría de Voz
Extender su uso para evitar fraude (cualquier sistema con un elemento de seguridad puede ser
sustit...
[Aplicaciones Prácticas sobre Tecnologías del Habla]
Complementos
Asistentes Virtuales
Pasado: Asistentes Virtuales para Empresas
Ikea
Vueling
Eroski
Presente: Asistentes Virtuales para Mó...
Traducción Simultánea
Pasado: Traducción de Texto On-line
Google Translator
Presente:
Traducción de Texto y Voz en tiempo ...
Wearables
Pasado:
Pulsómetro, GPS, Podómetro, GoPro, cascos BT, alarmas
Presente:
Smartwatches, Google Glass, Cámaras, eHe...
Retos
Unique ID:
Utilizar mecanismos biométricos combinados
Lenguaje Verbal + No Verbal:
Analizar las emociones mediante l...
¡Gracias!
Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil | VoIP2DAY 2015
Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil | VoIP2DAY 2015
Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil | VoIP2DAY 2015
Próxima SlideShare
Cargando en…5
×

Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil | VoIP2DAY 2015

60 visualizaciones

Publicado el

Conferencia expuesta en la pasada edición de VoIP2DAY a manos de Pablo Gil (www.verbio.com) en la que trataba el tema de las tecnologías del habla aplicado a las diferentes parcelas de nuestra vida.

Publicado en: Tecnología
0 comentarios
0 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Sin descargas
Visualizaciones
Visualizaciones totales
60
En SlideShare
0
De insertados
0
Número de insertados
2
Acciones
Compartido
0
Descargas
3
Comentarios
0
Recomendaciones
0
Insertados 0
No insertados

No hay notas en la diapositiva.

Tendencias y aplicaciones prácticas sobre tecnologías del habla - Pablo Gil | VoIP2DAY 2015

  1. 1. erbio VoIP2Day 2015 Pablo Gil Robiou Tendencias y aplicaciones prácticas sobre tecnologías del habla
  2. 2. [NLP] Procesamiento de Lenguaje Natural
  3. 3. Antes Poco Avance Expectativas Frustradas Poca Precisión Tecnología No embebida Pocas Aplicaciones
  4. 4. https://youtu.be/CA4h59JbsD8 Antes
  5. 5. Últimos 18 meses Gran Avance Expectativas Altas Mejor Precisión Tecnología embebida Algunas Aplicaciones
  6. 6. https://youtu.be/3JsN56-6wjQ Últimos 18 meses
  7. 7. Presente y Futuro Avance Vertiginoso Explosión Big Data Nuevos Dispositivos Interacción Rápida Democratización y Uso Masivo
  8. 8. Círculo VirtuosoMejora Continua
  9. 9. Círculo Virtuoso Lenguaje Natural Adopción y uso Más datos Mejor rendimiento Redes Neuronales BI Data Mining
  10. 10. A continuación mostramos el Portfolio de Soluciones sobre Lenguaje Natural Soluciones Empáticas
  11. 11. Contenido propuesto Síntesis de Voz Reconocimiento de Voz Portales de Voz Contact Centers Biometría Vocal
  12. 12. [TTS] Síntesis de voz
  13. 13. Wolfgang von Kempelen Speaking Machine Sir Charles Wheatstone Improved Replica Alexander Graham Bell Experiments and Research  Telephone Bell Telephone Laboratory – Homer Dudley The Vocoder  The Voder - Electric 1769 Síntesis de Voz [Historia] 1 2 3 4 1837 1876 1937
  14. 14. DEC based on Dennis Klatt’s work DECtalk  Stephen Hawking HMM-based Speech Synthesis System (HTS) Flexibility, quality, naturalness Yamaha – Vocaloid UTAU (2008) Singer voices and music synthesizer Deep Learning-based Speech Synthesis Conditional distribution of acoustic features given linguistic features 1984 Síntesis de Voz [Historia] 5 6 7 8 1999 2004 2006
  15. 15. Casos Prácticos Síntesis de Voz Megafonía Aeropuertos,mediosdetransporte,ascensores,sistemas de gestión deturnos… Ayuda en la navegación SistemasGPS paralaconducción Telefonía SistemasdeIVRconrequerimiento y entrega de información Wearables, Connected-Home Smartwatches,googleglass,smart-tv,etc. Asistentes GoogleNow,Siri,Cortana… Ayuda en la lectura E-books parainvidentes Aprendizajenuevos idiomas
  16. 16. Retos Síntesis de Voz Diferentesestadosde ánimo (espectogramas) Fuente: TUB emotional database
  17. 17. Síntesis de Voz Ajustes y mejoras [TTS] SSML TTS soporta las etiquetas definidas dentro del estándar SSML (Speech Synthesis Markup Language) a través de las cuales podemos indicar al motor la forma como queremos sintetizar una palabra o conjunto deellas. Etiqueta Descripción Reproducciónde ficheros(PCM–lineal 16bits) Selecciónde aspectossemánticos language voice prosody say-as break audio emphasis age, gender, name Pitch, range, rate, volume date, time,digits, telephone Selección del idiomade síntesis Selección del tipode locutor Selección de laintensidadde lavoz Selección de aspectosprosódicos Gestiónde pausas    <código> VerbioPrompt(Por favor, tras oír la señal, diga dígito a dígito , la siguiente secuencia: <prosody rate="x-slow">${DIGITS:0:1}<break time="500ms">${DIGITS:1:1}<break time="500ms">${DIGITS:2:1}<break time="500ms">${DIGITS:3:1} </prosody>.,${TTS},${SPK},v)
  18. 18. Retos Síntesis de Voz Tener cada uno su propia voz sintética (hoy en día posible pero a un coste elevado) Contemplar riesgos potenciales para evitar fraude y suplantación de identidad Generar una voz sintéticapersonal y multiidioma Contemplar diferencias fonéticas y prosódicas (como la entonación) entre idiomas Expresar diferentes estados de ánimo con resultado realista, bien alterando la prosodia mediante procesado digital de la señal (DSP) o mediante uso de diferentes unidades fonéticas.
  19. 19. [ASR] Reconocimiento de voz
  20. 20. Info gramatical Contienen información acercadelasestructuras gramaticalesmásprobables en el entorno detrabajo. Info estadística Contienen información de probabilidadesdequeuna palabraprecedao sucedaa otra palabra. Info contextual Complementan al oído paraque el motor dereconocimiento determinecuál hasido la locución pronunciada. Los modelos lingüísticos son el cerebro del motor de reconocimiento. Ejercen un papel clave en la gestión de la decisión a tomar ante ambigüedades acústicas, pues contienen información lingüística contextual para el entorno de trabajo. El modelo lingüístico 01 02 03 Reconocimiento de VozFundamentos tecnológicos [ASR] Los modelos acústicos son el oído del motor de reconocimiento. Están basados en modelar los semi-fonemas del idioma de trabajoa partir de técnicas de procesado de la señal, principalmente en el dominio espectral, que extraen sus particularidades únicas. Cada semi-fonema es un modelo matemáticoque representa las característicasacústicasúnicas del fonema en cuestión en presencia de otro fonema concreto anterior o posterior. El modelo acústico al restaurante correr comer coser Ayer fuí a comer al restaurante Gramáticas deterministas (ABNF, XML) Modelos Estadísticosdel Lenguaje (SLM) A% Ayer fuí a
  21. 21. Distintos Tipos Reconocimiento de Voz Reconocimiento discreto Capazdereconocer palabraso frasescortasdichastal y como seespera,sin incluirdiscurso anterior o posterior. Reconocimiento continuo Capazdereconocer palabrasy expresionesen cualquier punto dela conversación,no afectandoal reconocimiento lo quesediceanteso despuésdelaexpresión. Reconocimiento de lenguaje natural Basado en transcripción,quea su vezsefundamentasobre modelos estadísticosdel lenguaje,quetomanen cuentala distribucióndeprobabilidades sobresecuenciasde palabras. Ejemplo Comercial,marketing,técnico,recursos humanos… Ejemplo consultarel estadodemi cuenta,realizar una transferencia,revisarunafactura,darmedebaja… Ejemplo Mi queja con el servicio vieneporquellevodos semanas esperando a quemellegueel pedido.Medijeron que tardaríaunasemanaen llegar,pero yahan pasadodos y estoy muy disgustadaporquenadieseha puesto en contactoconmigotodavía…
  22. 22. Casos Prácticos Reconocimiento de Voz Transcripción y Dictado Informes,Actas,Eventos,Noticiarios,Aparicionespúblicas y actosdeprensa… Cualquierescenarioen el quese requierapasar del canal habladoal escrito Ayuda en la navegación SistemasGPS paralaconducción Móvilesconectadosmediantebluetooth Telefonía SistemasdeIVRconrequerimiento y entrega de información Asistentes GoogleNow,Siri,Cortana… Aplicaciones móviles paraejecutar acciones transaccionales Ayuda AprendizajeNuevos idiomas Accesibilidady ayudaparadiscapacitados Wearables, Connected-Home Smartwatches,googleglass,smart-tv,etc.
  23. 23. Retos Reconocimiento de Voz Igualar efectividad en Reconocimiento Independiente del Locutor que en Reconocimiento Dependiente del Locutor Igualar efectividad en Reconocimiento Independiente del Contexto que en Reconocimiento Dependiente del Contexto Nivelar avances para distintos Idiomas Nivelar mejoras para diferentes canales Mejorar el reconocimiento con ruido y para personas con diferentes características prosódicas (como el acento)
  24. 24. [ASR/TTS] Portales de Voz
  25. 25. Portales de Voz Estrategias de diálogo [ASR/TTS] Se anuncianlasrespuestasposibles a cada pregunta,loque implica lentitudenlastransacciones Flujo Secuencial La máquinaconduce el diálogo:el usuarionopuede tomarlainiciativa enningúnmomento Rigidezante casosde error, llevandoalafrustracióndel usuario
  26. 26. Portales de Voz Estrategias de diálogo [ASR/TTS] Las preguntaspuedensermás abiertas,permitiendointroducir más de undato porpregunta Diálogo Acotado El diálogose adaptaala experiencia del usuario Estrategiasde confirmaciones implícitasypromptsdinámicos Se podrántratar losdatos agrupados(másde undato enla respuesta) ydesordenados,e inclusopermitiráal usuariocorregir informaciónanteriormente entregada,condiálogoadaptativo enfunciónde lascircunstancias
  27. 27. Portales de Voz Estrategias de diálogo [Verbio ASR/TTS] Apoyadoporreconocimientoybasado enpatronesestadísticos,formula preguntasabiertasytomadecisiones dinámicamente enfunciónde la respuesta Diálogo Libre Algoritmode decisióncomplejo Se persigue agilizaraúnmásel procesoparatodoslosusuarios,sin penalizaralosesporádicosrespectoa la estrategiaguiada Sistemaexpertoque interacciona con el usuariode formasimilara comolo haría unhumano
  28. 28. Pregunta abierta Desplegar un servicio telefónico automatizadodel tipo “say anything”, donde el usuario podrá responder abiertamente y con lenguaje naturala la pregunta inicial “¿En qué puedo ayudarle?”. Más de 60 operativas El sistema deberá comprender el motivo por el cual llama el usuario y etiquetar dicha llamada con la categoría correcta entre las más de 60 existentes. Recuperación de metadatos No se trata de implementar un servicio de Call Steering (redirección de llamadas). El sistema deberá tener la capacidadde obtener información relevante para la operativa seleccionada, con objeto de no repreguntarlaposteriormente al usuario. Redirección a IVR Cuando el sistema haya comprendido el motivo de la llamada, y tras haber extraído la información disponible, redirigirá al usuario hacia la rama del IVR correspondiente. Experiencia conversacional Se persigue ofrecer al usuario una experiencia conversacional soportada en el estado del artedel NLP (Lenguaje Natural), no sólo en la pregunta abierta sino también en la automatizaciónde la operativa posterior. Servicio altamente autoatendido Se busca la reducción de los costes de atención telefónica, y se persigue que el portal de voz tenga la capacidad de resolver la operativa demandada por el usuario sin ser necesaria la intervención de un agente. Portales de Voz Lenguaje Natural [ASR/TTS] ? [A]
  29. 29. Los portales de Voz del pasado han hecho un uso deficiente de la tecnología, buscando principalmentereducir costes IVRs al servicio de las empresas Portales de Voz - Pasado Objetivo 1 - Disminuir necesidad de Agentes (Costes) Objetivo 2 – Generar Ingresos para sufragar Costes (902) Objetivo 3 – Disuadir al cliente de llevar a cabo ciertas operativas
  30. 30. Los portales de Voz del presentebuscan potenciar una imagen positiva de la empresa o, al menos, no potenciar una imagen negativa IVRs al servicio de las empresas y sus clientes Portales de Voz - Presente Objetivo 1 – Automatizar con calidad Objetivo 2 – Conseguir promotores y prescriptores Objetivo 3 – Optimización y mejora continua
  31. 31. Los portales de Voz del futuro serán sistemas expertos capaces de ejecutar transacciones y solucionar incidencias de forma (casi) tan eficiente como un humano IVRs al servicio de sus clientes Portales de Voz - Futuro Objetivo 1 – Parte del Plan de Marketing. Orientación al cliente Objetivo 2 – Transacciones rápidas, sencillas, cómodas y resolutivas Objetivo 3 – Política de 0 clientes insatisfechos. Seguimiento
  32. 32. [Speech & Text Analytics] Contact Centers
  33. 33. Contact Centers Multicanalidad [Speech Analytics] Móvil App./SMS Teléfono E-mail WEB/Chat/IM Redes SocialesFax/Carta
  34. 34. Los Contact Centers buscan la excelencia a través de métricas tales como el Nivel de Servicio y Encuestas de Calidad (NPS) Pasado, presente y futuro Contact Centers Pasado – Atender/Emitir llamadas por canal telefónico Productividad Presente – Atender/Emitir eventos por múltiples canales de contacto Experiencia de Usuario (Calidad, Satisfacción, FCR, Tº resolución…) Futuro – Convergencia y Seguimiento, Deslocalización y Cloud Experiencia multicanal y personalizada para cada cliente
  35. 35. Para mejorarla calidad hay que empezarplanificándola,asegurando que los procesos la cumplen y monitorizando queel resultado final es el esperado El grado en el que un conjunto de características inherentes cumple con los requisitos ¿Qué es calidad? Planificar la calidad (Diseño de procesos, argumentario, objeciones…) Aseguramiento de la calidad (checklists, auditorías…) Control de Calidad (encuestas de satisfacción, mistery shopping…)
  36. 36. Speech Analytics Un vistazo sobre el resultado de recopilar información, clasificarla, medirla y cruzarla Idea Partiendo de: - audios pregrabados para su posterior procesado - conversaciones telefónicas en tiempo real (pinchadas o intervenidas)
  37. 37. Voz del Cliente
  38. 38. Quality Assurance
  39. 39. Cumplimiento Normativa
  40. 40. • Cruce de lainformaciónunidimensional recabadaen: – Voz del Cliente – Quality Assurance – Cumplimientodela Normativa • Conlas diferentescategoríasidentificadascomomotivosde la llamada,paraconocerenqué medidase venimpactadoslos diferentesKPIsdefinidosyacordadosconel cliente(FCR, Transfer,ScriptCompliance, CrossSelling…),connavegación enprofundidadyfiltrosde servicio, agente, supervisor,destino y llamante. Solución
  41. 41. Caso práctico [Verbio SA] Análisis multidimensional
  42. 42. Text Analytics se usa también para generar modelos lingüísticos y estadísticos usando técnicas de aprendizajeautomático con el fin de relacionar la información para aportar conocimiento con fines predictivos o resolutivos Procesamiento del Lenguaje Natural  Predecir y Solucionar Problemas de Negocio Text Analytics Categorización, clustering, taxonomías Extracción de datos de negocio, resúmenes Sentiment Analysis
  43. 43. Procesamiento del Lenguaje Natural  Predecir y Solucionar Problemas de Negocio Text Analytics CRM Analytics - Transcripción Social Media Analytics + Sentiment Analysis Intención de Compra, Predicción de rotación de clientes, Riesgo para la Reputación…
  44. 44. [Speaker Recognition] Biometría Vocal
  45. 45. Para generarla huella vocal se usará entrenamiento implícito o explícito La huella vocal es tan fiable como la huella dactilar o el escáner de iris Sistemas de Biometría Verificación – Autenticación, Firma Vocal, Prueba de Vida Identificación y Clustering – Lucha contra el Fraude Indexación – Separación de locutores por marcas de tiempo
  46. 46. ¿Cómo evitar que nos engañen? Previendo las técnicas y poniendo los medios Defensas antispoofing Sistemas de Biometría Anti Reproducción Anti Repetición Desafío dinámico
  47. 47. Retos Biometría de Voz Extender su uso para evitar fraude (cualquier sistema con un elemento de seguridad puede ser sustituido por la voz) Obtener validez legal al nivel del certificado electrónico para la firma digital de documentos Integración multidispositivo para acceso a diferentes servicios – IoT Mitigar la alta dependencia del canal, las condiciones de ruido y de la prosodia
  48. 48. [Aplicaciones Prácticas sobre Tecnologías del Habla] Complementos
  49. 49. Asistentes Virtuales Pasado: Asistentes Virtuales para Empresas Ikea Vueling Eroski Presente: Asistentes Virtuales para Móvil, PC Google Now Cortana Siri Futuro: Asistentes en Hogar, Wearables y en IoT Amazon Echo Ubi + Samsung SmartThings
  50. 50. Traducción Simultánea Pasado: Traducción de Texto On-line Google Translator Presente: Traducción de Texto y Voz en tiempo Real p2p Skype Translator Traducción de Mensajes (Realidad Aumentada) en tiempo Real Google Translate(Móvil) Futuro: Traducción de Imágenes/Voz automática Mass-media
  51. 51. Wearables Pasado: Pulsómetro, GPS, Podómetro, GoPro, cascos BT, alarmas Presente: Smartwatches, Google Glass, Cámaras, eHealh, VR Futuro: Microchip interno, Casco Inflable, Smart Clothing, lentillas AR
  52. 52. Retos Unique ID: Utilizar mecanismos biométricos combinados Lenguaje Verbal + No Verbal: Analizar las emociones mediante la voz y signos del cuerpo Predicción: Alertas automáticas que nos avisen de: Oportunidades Riesgos Futurosproblemas
  53. 53. ¡Gracias!

×