9. Frases de Speaker Verification (dependiente
de texto) en inglés
I am going to make him an offer he cannot refuse.
Houston we have had a problem.
My voice is my passport verify me.
Apple juice tastes funny after toothpaste.
You can get in without your password.
You can activate security system now.
My voice is stronger than passwords.
My password is not your business.
My name is unknown to you.
Be yourself everyone else is already taken"
11. Datos procesados por Speaker Recognition
• Audio de inscripción
• Firma de voz de inscripción
• Firma de frase
• Audio de reconocimiento
12. Seguridad y Privacidad de Datos en Speaker
Recognition
• Los datos de Speaker Recognition se almacenan en un sistema
seguro.
• El audio de voz para la inscripción solo se utiliza cuando se actualiza
el algoritmo.
13. Seguridad y Privacidad de Datos en Speaker
Recognition
• El servicio no conserva la grabación de voz ni las funciones de voz
extraídas.
• Tú controlas cuánto tiempo deben conservarse los datos.
• Debes asegurarte de haber recibido los permisos adecuados de los
usuarios para utilizar Speaker Recognition.
18. Recomendaciones
• Comprender lo que puede hacer el
servicio de Speaker Recognition
• Respetar el derecho a la privacidad de
una persona
• Revisar los términos legales de uso
• Generar confianza con las partes
interesadas afectadas
• Obtener retroalimentación (comentarios)
de los clientes
• Capacitar y apoyar a los usuarios finales
19. Casos de Uso
• Personalización de dispositivos multiusuario
• Verificación del cliente en centro de atención al usuario
• Registro de pacientes basado en la voz
• Transcripción de la reunión
20. Limitaciones
• Formatos de audio compatibles: Mono 16 bits, WAV codificado en PCM de
16 kHz.
• Puede inscribirse una persona con hasta 300 segundos de audio (Speaker
Verification independiente del texto / Speaker Identification).
• Las API de Speaker Recognition no almacenan identificadores junto con las
firmas de voz.
• Speaker Recognition no puede reconocer a más de una persona en una
sola entrada de voz.
• Speaker Recognition no está diseñado para diferenciar una voz sintetizada
o grabaciones de una voz de un speaker humano en vivo.
• La API de Speaker Identification solo puede tomar hasta 50 candidatos para
comparar la entrada de voz en una llamada a la API.
21. ¡Aplica!
• IA Responsable:
Microsoft limita el acceso al servicio de Speaker Recognition.
• Puede solicitar acceso a través del formulario de Acceso Limitado de
Azure Cognitive Services Speaker Recognition:
https://aka.ms/azure-speaker-recognition
23. ¡Gracias por tu atención!
Luis Beltrán
Tomás Bata University in Zlín
Tecnológico Nacional de México en Celaya
About Me:
https://about.me/luis-beltran
Notas del editor
La voz humana tiene características únicas que pueden asociarse con un individuo. Speaker Recognition es un servicio de IA que puede reconocer a las personas comparando las características de voz únicas del habla entrante con las firmas de voz registradas.
Estas son las API, SDK y servicios disponibles que tienen como objetivo ayudar a los desarrolladores a crear aplicaciones inteligentes sin el uso de "inteligencia artificial directa" y sin la necesidad de habilidades y conocimientos de ciencia de datos. Azure Cognitive Services permite a los desarrolladores agregar fácilmente características cognitivas a sus aplicaciones.
Azure Cognitive Services permite que las aplicaciones vean, escuchen, hablen, comprendan e incluso comiencen a razonar. La oferta de Azure Cognitive Services se puede dividir en cuatro pilares principales: visión, voz, lenguaje y decisión.
Tenemos Speech o Voz. Es un conjunto de servicios que le permiten convertir voz a texto y texto a voz que suena natural.
Además, la capacidad de traducción de voz le permite realizar traducciones de voz en tiempo real, fácilmente integradas a través del servicio.
Finalmente, tenemos el servicio de Speaker Recognition.
Speaker Recognition puede ayudar a determinar quién está hablando en un mensaje de audio.
Las capacidades de Speaker Recognition se proporcionan a través de dos API: verificación e identificación del speaker por sus características de voz únicas utilizando biometría de voz.
Proporciona datos de entrenamiento de audio para un solo speaker, lo que crea un perfil de inscripción o una firma basada en las características únicas de la voz de la persona que está hablando.
Más tarde, puede cotejar muestras de voz de audio con este perfil para verificar que quien habla es la misma persona (proceso conocido como Speaker Verification) o cotejar muestras de voz de audio con un grupo de perfiles inscritos para ver si coincide con alguno(un proceso conocido como Speaker Identification).
Entonces, en resumen, ¿cuál es la diferencia entre Identificación y Verificación?
La identificación es el proceso de detectar qué miembro de un grupo de speakers está hablando. La verificación es el acto de confirmar que un speaker coincide con una voz conocida o inscrita.
Analicemos estos dos procesos en detalle.
Speaker Verification compara las características de voz de un individuo con la firma de voz registrada o inscrita de la identidad que dice ser. Por ejemplo, puede usarlo para la verificación de la identidad del cliente en centros de llamadas o acceso a instalaciones sin contacto.
¿Cómo funciona?Speaker Recognition puede ser dependiente del texto o independiente del texto:
La verificación dependiente del texto significa que los speakers deben elegir la misma frase a modo de contraseña para usarla durante las fases de inscripción y verificación.
La verificación independiente del texto requiere una muestra de voz más larga que debe comenzar con una frase de activación particular para la inscripción, pero se puede hablar cualquier cosa, incluso durante el reconocimiento.
Para la verificación dependiente del texto, la voz de la persona se inscribe diciendo una frase de contraseña de un conjunto de frases predefinidas. Las características de voz se extraen de la grabación de audio para formar una firma de voz única, mientras que la frase de contraseña elegida también se reconoce. Juntos, la firma de voz y la frase de contraseña se utilizan para Speaker Verification.
En la fase de verificación, el ID asociado con el individuo a verificar se envía a la API. El servicio extrae las funciones de voz y la frase de contraseña de la grabación de voz de entrada. Luego compara las características de voz y la frase de contraseña con el perfil de inscripción del speaker correspondiente.
La respuesta devuelve "Aceptar" o "Rechazar" con una puntuación de similitud que oscila entre 0 y 1. La respuesta "Aceptar" o "Rechazar" es un resultado que combina tanto el resultado de Speaker Verification como el resultado del reconocimiento de voz, mientras que la puntuación de similitud solo mide la similitud de la voz. Devolvemos "Aceptar" cuando el resultado del reconocimiento de voz coincide con la frase de inscripción y la puntuación de similitud de voz es mayor o igual a 0,5. Sin embargo, el resultado debe determinarse en función del escenario y otros factores de verificación que se están utilizando. Le recomendamos que experimente con sus propios datos y determine su umbral para anular la respuesta "Aceptar" o "Rechazar", según corresponda.
La verificación independiente del texto no tiene restricciones sobre lo que la persona dice durante la inscripción, además de la frase de activación inicial para activar la inscripción. No tiene ninguna restricción en la muestra de audio que se debe verificar, ya que solo extrae las características de voz para obtener similitud.
Las API no están destinadas a determinar si el audio es de una persona en vivo o una imitación / grabación de un speaker inscrito.
En la versión actual de la API de Speaker Verification dependiente del texto, proporcionamos 10 frases en inglés para que los hablantes elijan.
Las API no están destinadas a determinar si el audio es de una persona en vivo o una imitación o una grabación de una persona inscrita. La generación de frases aleatorias para que la persona las lea se considera efectiva para evitar el ataque de repetición.
Speaker Identification se utiliza para determinar la identidad de un speaker desconocido dentro de un grupo de hablantes inscritos. Speaker Identification le permite atribuir una voz a un hablante individual y desbloquear el valor de escenarios con varios speakers, como:
Soluciones de soporte para la productividad de reuniones remotas
Cree personalización de dispositivos multiusuario
¿Cómo funciona?
La inscripción para Speaker Identification es independiente del texto, lo que significa que no hay restricciones sobre lo que la persona dice en el audio, además de la frase de activación inicial para activar la inscripción. De manera similar a Speaker Verification, la voz se graba en la fase de inscripción y las características de voz se extraen para formar una firma de voz única. En la fase de identificación, la muestra de voz de entrada se compara con una lista especificada de voces inscritas (hasta 50 en cada solicitud).
La respuesta incluyó una identificación identificada y cinco identificaciones mejor clasificadas con puntuaciones de similitud que van de 0 a 1. La identificación identificada se determina en función de la puntuación de similitud del speaker mejor emparejado. Si ninguno de los speakers candidatos devuelve una puntuación de similitud mayor o igual que 0,5, la respuesta devuelve una cadena de cero para representar "no se encuentra ninguna coincidencia".
Speaker Recognition procesa los siguientes tipos de datos:
Audio de inscripción: antes de la inscripción, los clientes solicitan un GUID aleatorio del servicio. Durante la fase de inscripción, los clientes envían la entrada de audio de un speaker y el GUID para generar una firma de voz y una coincidencia de firma de frase de contraseña.
Firma de voz inscrita: Este es el vector numérico que representa las características de voz de un speaker individual, extraído de grabaciones de audio.
Firma de frase de contraseña: Esta es una frase predefinida, por ejemplo, 'Mi voz es mi perfil'. Durante la inscripción de una persona, el audio de inscripción se procesará a través del servicio de reconocimiento de voz de Azure para confirmar que el texto de ese audio coincide con la frase de contraseña requerida.
Audio de reconocimiento: El cliente envía la entrada de audio junto con los GUID relevantes que se procesarán al servicio de Speaker Recognition y las firmas de voz se procesan para determinar si el audio coincide con las firmas de voz de los speaker inscritos. Si se utiliza Speaker Verification dependiente del texto, la firma de la frase de contraseña también se transcribe mediante el reconocimiento de voz para determinar si hay una coincidencia de frase de contraseña.
Como cliente, puede administrar y eliminar todos los datos almacenados asociados con cualquier GUID individual o todos los GUID, como el audio de inscripción, la firma de voz inscrita y la firma de frase de contraseña, pero sin audio de reconocimiento. No hay controles de cliente para este tipo de datos.
En pocas palabras: el audio de inscripción se almacena en el servicio hasta que se elimina el perfil de voz. Las muestras de audio de reconocimiento no se conservan ni almacenan.
Los datos de inscripción de personas se almacenan en un sistema seguro, incluido el audio de voz para la inscripción y las funciones de firma de voz.
El audio de voz para la inscripción solo se usa cuando se actualiza el algoritmo y las características deben extraerse nuevamente.
El servicio no conserva la grabación de voz ni las funciones de voz extraídas.
Usted controla cuánto tiempo deben conservarse los datos.
Debe asegurarse de haber recibido los permisos adecuados de los usuarios para speaker recognition.
El reconocimiento de hablantes es en su mayoría agnóstico del idioma.
Construimos un modelo universal para el reconocimiento de hablantes independiente del texto mediante la combinación de varias fuentes de datos de múltiples idiomas.
Hemos ajustado y evaluado el modelo en los idiomas y configuraciones regionales que aparecen en la siguiente tabla.
Available regions for Speaker Recognition are the following:
Microsoft quiere ayudarle a desarrollar e implementar de forma responsable soluciones que utilicen el servicio de Speaker Recognition. Se adopta un enfoque basado en principios para defender la agencia personal y la dignidad al considerar la equidad, confiabilidad y seguridad de los sistemas de IA, la privacidad y la seguridad, la inclusión, la transparencia y la responsabilidad humana. Estas consideraciones reflejan el compromiso de Microsoft con el desarrollo de IA responsable.
Las siguientes actividades le ayudan a prepararse para el éxito:
Comprenda lo que puede hacer: evalúe completamente las capacidades de cualquier sistema de IA que esté utilizando para comprender sus capacidades y limitaciones. Comprenda cómo se desempeñará en su escenario particular probándolo con condiciones de la vida real y diversos datos de usuario que reflejen su contexto, incluidas las consideraciones de equidad.
Respetar el derecho a la privacidad de un individuo: Solo recopile datos biométricos e información de individuos para fines legales y justificables. Obtenga un consentimiento significativo para su recopilación y usos previstos. No comparta datos sin el consentimiento explícito de las partes interesadas afectadas y los propietarios de los datos, y minimice los datos que comparte. Proporcionar un mecanismo que permita a las partes interesadas afectadas y a los propietarios de datos darse de baja del reconocimiento de speakers y eliminar sus datos en cualquier momento. Implemente una estrategia y un plan de retención de datos que solo conserve los datos de inscripción de los usuarios durante el tiempo que sea necesario para proporcionar los servicios. Elimine los datos del usuario después de algún período de tiempo, como la terminación del usuario o un período especificado de inactividad.
Revisión legal: Obtenga asesoramiento legal adecuado para revisar su solución biométrica, especialmente si la utilizará en aplicaciones sensibles o de alto riesgo. En algunas jurisdicciones, existen requisitos legales específicos que rigen la recopilación, el uso, el almacenamiento y la seguridad de los datos biométricos. Usted es responsable del cumplimiento de todas las leyes y normativas aplicables que se aplican a la implementación de la solución.
Generar confianza con las partes interesadas afectadas: Comunicar los beneficios esperados y los riesgos potenciales a las partes interesadas afectadas. Ayude a las personas a comprender por qué se necesitan los datos y cómo el uso de los datos conducirá a su beneficio. Describir el manejo de datos de una manera comprensible.
Bucle de comentarios de los clientes: proporcione un canal de comentarios que permita a los usuarios y a las personas informar de problemas con el servicio después de que se haya implementado. Este mecanismo también debería permitir la retroalimentación sobre la equidad. Supervise y mejore el producto o la función impulsado por IA de forma continua. Prepárese para implementar cualquier retroalimentación y sugerencia de mejora. Establecer canales para recopilar preguntas e inquietudes de las partes interesadas afectadas (personas que podrían verse afectadas directa o indirectamente por el sistema, incluidos empleados, speakers y el público en general). Los posibles canales de comentarios incluyen características integradas en las experiencias de la aplicación o una dirección de correo electrónico fácil de recordar para obtener comentarios.
Capacitar y apoyar a los usuarios finales: es posible que las personas que usan la salida de su solución, o que deciden si la salida es correcta, no tengan experiencia colaborando con sistemas de IA. Esto puede dar lugar a juicios desiguales o a la introducción de sesgos injustos. Puede empoderar a estos usuarios evaluando dónde pueden ocurrir discrepancias y proporcionando capacitación y soporte continuo.
Verificación de la identidad del cliente: el centro de llamadas o los sistemas interactivos de respuesta de voz pueden usar Speaker Verification como una medida de seguridad adicional, cuando se combina con un número de teléfono, PIN u otro tipo de datos de autenticación. Esto ayuda a verificar la identidad de un cliente cuando solicita acceso a la información o para realizar transacciones.
Speaker Identification para reuniones: La API de Speaker Identification se puede utilizar para identificar a personas individuales como parte de la transcripción de reuniones. En la transcripción del audio de una reunión, el discurso se puede atribuir al speaker o "invitado" correcto si no se encuentra ninguna coincidencia. En este escenario, el audio de entrada debe estar separado por speaker antes de usar la API de Speaker Identification.
Personalización de dispositivos inteligentes: los dispositivos de interacción habilitados para voz, como vehículos inteligentes o speakers inteligentes, pueden usar el Speaker Recognition para proporcionar contenido personalizado. Por ejemplo, puede reproducir películas o música en respuesta a comandos de voz mediante la API de Speaker Verification independiente del texto.
Autenticación multifactor: Un sistema de autenticación multifactor puede usar la voz como un factor para mejorar la seguridad. Por ejemplo, podría aprobar o denegar el acceso de los empleados a las instalaciones seguras mediante el servicio Azure Face y la API de Speaker Verification dependiente del texto.
3. Las API de Speaker Recognition no almacenan identificadores principales junto con firmas de voz o audio de un speaker enviado al servicio para su inscripción o reconocimiento. Microsoft asocia estos datos con GUID aleatorios. Depende de usted administrar la asignación de identidad de usuario entre estos GUID y sus usuarios. Usted es responsable de garantizar que estos datos se almacenen y administren de forma segura.
4. El servicio está destinado a tomar la entrada de voz de una persona y compararla con una o más firmas de voz.
5. Considere cuidadosamente los escenarios con riesgo de suplantación de identidad. Speaker Recognition no debe usarse como el único factor para autenticar a un usuario en aplicaciones donde la seguridad es el objetivo, como el acceso a la información financiera o la seguridad física.
Como parte del compromiso de Microsoft con la IA responsable, están diseñando y lanzando Speaker Recognition con la intención de proteger los derechos de las personas y la sociedad, fomentar la interacción transparente entre humanos y computadoras y contrarrestar la proliferación de deepfakes dañinos y contenido engañoso. Por esta razón, el acceso y el uso del servicio speaker Recognition de Microsoft están limitados a través de un proceso de solicitud del cliente.
Speaker Recognition requiere registro y Microsoft puede limitar el acceso en función de ciertos criterios de elegibilidad. Los clientes que deseen utilizar este servicio deben enviar un formulario de admisión. Microsoft puede requerir que los clientes vuelvan a verificar esta información periódicamente.