2. CONCEPTO
El proceso de reconocimiento automático del habla
(RAH) dota a las máquinas de la capacidad de recibir
mensajes orales. Tomando con entrada la señal
acústica recogida por un micrófono, el proceso de
reconocimiento automático del habla tiene como
objetivo final descodificar el mensaje contenido en la
onda acústica para realizar las acciones pertinentes.
Básicamente, el reconocimiento del habla es un
proceso de clasificación de patrones, cuyo objetivo es
clasificar la señal de entrada (onda acústica) en una
secuencia de patrones previamente aprendidos y
almacenados en unos diccionarios de modelos
acústicos y de lenguaje.
http://physionet.cps.unizar.es/~eduardo/investigacion/voz/rahframe.html
3. RESEÑA HISTÓRICA.
La historia del reconocimiento de voz comenzó en
el año 1870. Alexander Graham Bell quiso
desarrollar un dispositivo que capaz de
propocionar la palabra visible para la gente que
no escuchara. Bell no tuvo éxito creando este
dispositivo. Más tarde en los años 30 Tihamer
Nemes científico húngaro quiso presentar el
desarrollo de una máquina para la transcripción
automática de la voz. La repetición de Nemes fue
negada y a este proyecto lollamaron poco
realista.
Fue hasta 1950, 80 años después del reconocimiento
de Bell, cuando se hizo el primer esfuerzo para
crear la primera máquina de reconocimiento de voz.
La investigación fue llevada a los laboratorios de
AT&T. El sistema tuvo que ser entrenado para
reconocer el discurso de cada locutor
individualmente, pero una vez especializada la
máquina tenía una exactitud de un 99% de
reconocimiento.
El primer sistema de reconocimiento de voz fue
desarrollado en 1952 sobre una computadora
analógica que reconocía dígitos del 0 al 9, este
sistema era dependiente el locutor.
??
http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/ahuactzin_l_a/capitulo1.pdf
4. PARTES
Un sistema de
reconocimiento de
voz está formado
por varias capas o
modelos, El primero
de ellos es el modelo
acústico, que
permite a la
tecnología identificar
si el sonido procede
de una llamada de
móvil, de un teléfono
IP o cualquier otro
medio.
El modelo lingüístico
va a continuación y
se trata del
idioma.No sólo es
preciso entender la
lengua sino los
distintos acentos
con que se habla e
incluso entender las
formas de
expresarse, que
pueden ser
diferentes en cada
hablante.
Esta es otra capa más:
el modelo semántico.
Con él se consigue que
un sistema de
reconocimiento de voz
entienda la forma de
hablar de la
gente, cómo se
construyen las frases y
cómo puede variar
esta construcción,
dependiendo de la
región, de la cultura y
de todas las influencias
personales de cada
cual.
https://www.eldiario.es/turing/reconocimiento-voz-biometria_0_201230680.html
5. FUNCIONAMIENTO
El reconocimiento de voz es una de las
formas de comunicación con las máquinas
que se está sobreponiendo con más fuerza a
otras formas de interacción más
tradicionales, sobre todo los botones físicos,
aunque también está desplazando a la
funcionalidad táctil en algunos casos.
https://www.eldiario.es/turing/reconocimiento-voz-biometria_0_201230680.html
6. Estadísticas
Y uso
Gartner estima que en 2020 el 75% de los
hogares norteamericanos contará con un
dispositivo de voz. Según datos de
Comscore, un 20% de las búsquedas en
Android son vía voz; y se espera que para
2020 sean un 50%.
https://medium.com/@robertocarreras/datos-y-estad%C3%ADsticas-sobre-el-crecimiento-del-mercado-de-asistentes-de-voz-d9c763af8ad1
7. Facebook Inc adquirió a una
compañía que fabrica tecnología de
reconocimiento de voz para
dispositivos con conexión a Internet.
Facebook dijo este lunes que
adquirió a wit.ai. La compañía con
sede en Palo Alto, California,
elabora software que puede
entender palabras habladas y texto
escrito en un "lenguaje natural".
VÓCALI es una empresa
experta en el desarrollo de
software de reconocimiento
de voz. Sus sistemas están
dotados de la habilidad de
comprender el lenguaje
natural y procesar la
información a nivel
semántico con el mínimo
esfuerzo.
Siri es una inteligencia artificial con funciones
de asistente personal. Esta aplicación
utiliza procesamiento del lenguaje
natural para responder preguntas, hacer
recomendaciones y realizar acciones
mediante la delegación de solicitudes hacia
un conjunto de servicios web que ha ido
aumentando con el tiempo. Sus
competidores son Asistente de
Google, Microsoft Cortana, Amazon
Alexa y Samsung Bixby. Siri fue adquirida
por Apple Inc. el 28 de abril de 2010.
* * *
El reconocimiento de voz es fabricado por empresas
tecnológicas, entre ellas:
FABRICANTES
https://es.wikipedia.org/wiki/Siri
https://vocali.net/productos/https://expansion.mx/negocios/2015/
01/05/facebook-adquiere-tecnologia-
de-reconocimiento-de-voz
8. PRECIOS
Las interfaces conversacionales son cada vez más
sofisticadas y efectivas, por lo que los fabricantes de
dispositivos se afanan en integrar esta tecnología en sus
productos para aportar un valor añadido. Esto está
dando fuerza al mercado de sistemas de reconocimiento
de voz, que según los expertos alcanzará casi 27.000
millones de dólares para 2025.
Todos los expertos auguran un futuro muy prometedor
para esta tecnología y, según indica un reciente estudio
publicado por Researchandmarkets, su mercado crecerá
a una tasa interanual compuesta del 17,2% entre 2019 y
2025, para cuando se espera que alcance un valor de
unos 26.790 millones de dólares en todo el mundo.
https://www.ittrends.es/software-y-apps/2019/11/crece-el-mercado-de-tecnologias-de-reconocimiento-de-voz
9. VENTAJAS
Mejora la fiabilidad: Los sistemas de reconocimiento de voz actuales son tan
fiables que están siendo ampliamente utilizados en sectores como la
sanidad, el sector judicial, la industria de la seguridad o el sector militar.
Ahorra tiempo: Aquí es donde la tecnología de reconocimiento de voz puede
ser especialmente útil, ya que nos permite dictar, en lugar de escribir,
nuestro trabajo.
Aumenta la productividad en el trabajo: Las notas de voz permiten producir
una gran cantidad de información en un período relativamente corto.
Evita errores: Además de ser más rápida a la hora de completar las tareas,
la tecnología de reconocimiento de voz es cada vez más precisa cuando se
trata de vocabulario y ortografía.
Mayor movilidad: El uso de la tecnología de reconocimiento del habla para
dictar mientras estamos de camino hacia algún lugar, nos permite una
mayor movilidad y un uso más eficiente del tiempo.
https://www.relacioncliente.es/5-ventajas-del-reconocimiento-de-voz
10. DESVENTAJAS
Imprecisión y lentitud: La mayoría de las personas no pueden escribir tan
rápido como hablan. En teoría, esto podría hacer que usar un programa de
reconocimiento de voz sea más rápido que escribir todo un texto en una
computadora.
Esfuerzo vocal: Al usar un programa de reconocimiento de voz puedes
encontrarte hablando más fuerte que en una conversación normal. En 2000,
Linda L. Grubbs de la revista PC World informó que este hábito podría
desencadenar en una lesión en las cuerdas vocales.
Factores Ambientales: El ambiente ideal para un programa de
reconocimiento de voz es uno tranquilo, especialmente si no tienes un
micrófono que filtre el sonido ambiente.
Interpretación de voces inusuales: Algunas personas con acentos inusuales o
especialmente marcados pueden no alcanzar las figuras de precisión
solicitadas por algunos programas de reconocimiento de voz.
https://techlandia.com/microsoft-office-hablando-lugar-escribir-como_178156/