SlideShare una empresa de Scribd logo
1 de 13
Descargar para leer sin conexión
82
Eric J. Humphrey, Sravana Reddy, Prem Seetharaman, Aparna
Kumar, Rachel M. Bittner, Andrew Demetriou,
Sankalp Gulati, Andreas Jansson, Tristan Jehan, Bernhard
Lehner, Anna Kruspe y Luwei Yang
REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 | 1053-5888 / 19 © 2019IEEE
PROCESAMIENTO DE SEÑAL MUSICAL
Hlos humanos han ideado una gran variedad de instrumentos musicales, peroHlos humanos han ideado una gran variedad de instrumentos musicales, pero
El instrumento más frecuente sigue siendo la voz humana. Por lo tanto, las técnicas para
aplicar métodos de procesamiento de señales de audio a la voz que canta están recibiendo
mucha atención a medida que el mundo continúa avanzando hacia los servicios de transmisión
de música y los investigadores buscan desbloquear la comprensión del contenido profundo
necesaria para permitir experiencias de escucha personalizadas a gran escala. Este artículo
proporciona una introducción al tema del análisis de voz y canto. Examina los fundamentos y
el estado del arte en el modelado computacional en tres categorías principales de canto:
vocalizaciones generales, la función musical de la voz y el canto de las letras. Nuestro objetivo
es establecer un punto de partida para los profesionales nuevos en este campo y enmarcar las
oportunidades y los desafíos del campo cercano en el horizonte.
Poder de la voz humana
La voz humana domina casi todas las culturas musicales. La voz, a través del canto, puede
funcionar como un instrumento musical y al mismo tiempo transmitir un significado semántico.
La teoría del campo de la psicología sugiere que las personas generalmente encuentran la
voz humana especialmente destacada y poderosa y que la voz humana es un factor
significativo, quizás el factor más significativo, que afecta nuestro comportamiento de
escuchar música. La investigación ha sugerido que la música existe debido al complejo
sistema que permite a los humanos comunicarse, interpretar y sentir emociones a través de
los sonidos vocales [1]. Dados estos fuertes vínculos antropológicos entre la música y la voz,
no es sorprendente que el canto desempeñe un papel destacado en la cultura musical
moderna; El karaoke, por ejemplo, es una industria mundial de mil millones de dólares.
Por lo tanto, la investigación del procesamiento de señales digitales se ha centrado
durante mucho tiempo en métodos y técnicas para modelar la voz humana. Los primeros
avances en los esfuerzos para codificar y transmitir el habla para los sistemas de
telecomunicaciones [2] allanaron el camino para el procesamiento de la información del
canto, el estudio de las técnicas de procesamiento de señales en la voz humana en contextos
musicales [3]. El procesamiento de la información del canto puede representarse como un
sistema cíclico donde, bajo condiciones ideales, una señal de audio se transforma, mediante
análisis, en descriptores o símbolos de alto nivel, como tono o letra; la rica información
simbólica se puede transformar, mediante síntesis, en señales de audio de canto; y, cayendo
entre análisis
Identificador de objeto digital 10.1109 / MSP.2018.2875133 Fecha de
publicación: 24 de diciembre de 2018
Una introducción al procesamiento de
señales para el análisis de voz y canto
Notas altas en el esfuerzo por automatizar la comprensión de las voces en la música.
© ISTOCKPHOTO.COM / TRAFFIC_ANALYZER
83REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |
y síntesis, los efectos pueden aplicarse a audio o información simbólica
manipulando representaciones intermedias entre los dos dominios. Un efecto vocal
popular, por ejemplo, es el de la corrección de tono ("autoajuste"), donde se analiza
una señal de audio vocal, el tono estimado a lo largo del tiempo se cuantifica en
una tecla determinada y la señal de voz se vuelve a sintetizar.
A partir de finales del siglo XX, el campo de la recuperación de información
musical (MIR) ha desarrollado técnicas y métodos para diversas aplicaciones de
procesamiento de información de canto. Si bien muchos investigadores han hecho
contribuciones a este campo, el trabajo de dos grupos en particular se destaca: el
Grupo de Tecnología de la Música (MTG) en la Universitat Pompeu Fabra en España,
bajo la dirección de Xavier Serra, y el Instituto Nacional de Ciencia Industrial
Avanzada y Tecnología (AIST) de Japón, bajo la dirección de Masataka Goto. Los
investigadores del MTG tienen una larga historia de avance en el estado del arte en la
síntesis de voz y canto, lo que resulta en productos comerciales y estudios publicados
[4]. Mientras tanto, los esfuerzos de AIST son notables por su novedad y amplitud,[4]. Mientras tanto, los esfuerzos de AIST son notables por su novedad y amplitud,
abarcando casos de uso en producción musical, educación y consumo [5]. Una de las
revisiones más exhaustivas de la investigación del procesamiento de la información
del canto hasta la fecha apareció como un tutorial en la 16ª Conferencia de la
Sociedad Internacional de Recuperación de Información Musical en Málaga, España,
en 2015 [43]. Este tutorial proporcionó una lista exhaustiva de métodos, conjuntos de
datos, herramientas y aplicaciones, incluidos ejemplos del mundo real de diferentes
estilos de canto.
Dada la omnipresencia de la voz en la música, existe una gran demanda de mejoras en el
procesamiento de la información del canto. Ahora que los servicios de transmisión de música
son la forma de facto para que las personas de todo el mundo no solo escuchen música sino
que también descubran nuevas canciones, la recomendación personalizada es una aplicación
muy prometedora. Un estudio reciente confirma que los oyentes que transmiten música están
especialmente en sintonía con la percepción del canto [6]. De varios cientos de usuarios
encuestados (tasa de respuesta del 1,2%), oyentes
indicó que las voces (29.7%), las letras (55.6%) o ambas (16.1%) se encuentran entre los atributos
más destacados que notan en la música. Además, se descubrió que las cuatro categorías de contenido
"amplio" más importantes son emoción / estado de ánimo, voz, letra y ritmo / ritmo. Mientras tanto,
dijeron los oyentes y las siete categorías semánticas vocales más importantes son habilidad, “ajuste
vocal” (a la música), lirismo, el significado de las letras, autenticidad, singularidad y emoción vocal. Los
atributos de contenido de alto nivel como estos se pueden combinar con enfoques de recomendación
tradicionales (por ejemplo, filtrado colaborativo, máquinas de factorización o redes profundas) para
alcanzar un nivel de matiz que sería difícil de lograr solo con señales de interacción del usuario (por
ejemplo, retroalimentación explícita o listas de reproducción seleccionadas). Además, los métodos
informados por el contenido son necesarios para la recomendación de arranque en frío (es decir,
descubrimiento), un problema inherente para los algoritmos que se basan únicamente en las señales
del usuario. Aunque los enfoques respaldados por expertos, como el adoptado por Music Genome
Project (https://www.pandora.com/about/mgp), han logrado un progreso considerable en la última
década, la demanda de mejoras adicionales está aumentando junto con el crecimiento aparentemente
ilimitado en la cantidad de contenido de música digital y en la cantidad de oyentes. Solo a través de la
automatización de la descripción del contenido musical será posible combinar tanto contenido con
tantos oyentes. La demanda de nuevas mejoras está aumentando junto con el crecimiento
aparentemente ilimitado en la cantidad de contenido de música digital y en la cantidad de oyentes. Solo
a través de la automatización de la descripción del contenido musical será posible combinar tanto
contenido con tantos oyentes. La demanda de nuevas mejoras está aumentando junto con el
crecimiento aparentemente ilimitado en la cantidad de contenido de música digital y en la cantidad de
oyentes. Solo a través de la automatización de la descripción del contenido musical será posible combinar tanto contenid
En este artículo, nos enfocamos específicamente en el desafío de caracterizar
automáticamente los atributos de la voz en la música como un problema
autocontenido e independientemente comprobable. Una vista holística del análisis
del canto se muestra en la figura 1, que proporciona la estructura básica de este
artículo. Primero describimos los fundamentos de la voz y el canto humanos,
proporcionamos notación para representar el canto en la música grabada e
introducimos modelos computacionales comunes de la voz. Las diferentes
aplicaciones del análisis del canto se agrupan por sus relaciones con la música y el
lenguaje natural: sonido vocalizado en general, voz en contextos musicales y canto
de letras. Una vez descritos los enfoques para caracterizar automáticamente la voz,
ofrecemos
Detección de actividad
...
Información
simbólica
Separación de
fuente de
música
grabada
Transformación de
tiempo-frecuencia
Representaciones de
nivel medio
Género
...
Letra
...
Espectrograma de Mel
Hora
Timbre
Volumen
Tono
Hora
FIGURA 1. Una visión general de alto nivel de los sistemas de análisis de canto: la música grabada es opcionalmente preprocesada por un algoritmo de separación de fuente antes de sufrir transformaciones de características paraFIGURA 1. Una visión general de alto nivel de los sistemas de análisis de canto: la música grabada es opcionalmente preprocesada por un algoritmo de separación de fuente antes de sufrir transformaciones de características para
extraer descriptores o información simbólica. Dependiendo de la tarea, el aprendizaje automático puede aplicarse entre estas operaciones o de una manera "de extremo a extremo".
Frecuencia
MFCCVolumenFrecuencia
84 REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |
Algunos pasos concretos en este linaje de investigación, y concluimos con una
evaluación de los posibles desafíos y oportunidades que enfrenta la investigación de
análisis de canto.
Fundamentos del canto
La compresión y expansión, o rarefacción, de las moléculas de aire provoca una
propagación de las oscilaciones conocidas como onda acústicapropagación de las oscilaciones conocidas como onda acústica
Estas fluctuaciones pueden expresarse como una combinación de sinusoides puros de
tal manera que los humanos perciban las frecuencias en el rango de 20 a 20,000 Hz
como sonido. Clasificado como un aerófono en la taxonomía Hornbostel-Sachs, la voz
humana produce sonido al mover el aire, forzado desde el diafragma, a través de las
cuerdas vocales, haciendo que resuenen. Este sonido armónico se forma a través de
la boca, con variedades de sibilancia agregadas de los dientes, los labios y la lengua.
La formación fisiológica de diferentes sonidos en las cuerdas vocales y la glotis se
conoce como fonación,conoce como fonación,
así es como los humanos transmiten diferentes fonemas en el habla y diferentes estilos
de voz en el canto.
Los enfoques computacionales para modelar la voz humana se dividen en
categorías físicas o espectrales [4]. Se entiende mucho sobre los órganos vocales
humanos, por lo que se pueden usar modelos físicos para demostrar cómo la voz
produce sonido. La teoría de fuente-filtro, un enfoque que se aplica también a una
variedad de instrumentos de cuerda y viento, representa la producción de sonido
como un proceso de dos etapas, donde una señal de fuente se ve afectada por la
respuesta al impulso de un filtro. La fuente puede expresarse (por ejemplo, vocales
periódicas como [ una]) o sin voz (por ejemplo, fricativas aperiódicas como [ F]). En elperiódicas como [ una]) o sin voz (por ejemplo, fricativas aperiódicas como [ F]). En elperiódicas como [ una]) o sin voz (por ejemplo, fricativas aperiódicas como [ F]). En elperiódicas como [ una]) o sin voz (por ejemplo, fricativas aperiódicas como [ F]). En elperiódicas como [ una]) o sin voz (por ejemplo, fricativas aperiódicas como [ F]). En el
caso de una señal fuente sonora, las cuerdas vocales vibran y generan una señal
similar a la de una cuerda vibrante. El tono o frecuencia fundamental ()
F 0 0 deF 0 0 deF 0 0 de
un sonido sonoro está determinado por la velocidad a la que vibran las cuerdas vocales,
y los picos posteriores creados en múltiplos de F 0 0y los picos posteriores creados en múltiplos de F 0 0y los picos posteriores creados en múltiplos de F 0 0
son llamados Armónicos. Las frecuencias más altas están amortiguadas, con unason llamados Armónicos. Las frecuencias más altas están amortiguadas, con unason llamados Armónicos. Las frecuencias más altas están amortiguadas, con una
pendiente descendente de aproximadamente −12 dB por octava. En el caso de una
señal fuente sorda, se crea un ruido turbulento con los dientes, los labios, la lengua y,
en caso de susurro, la glotis. Se supone que el tracto vocal, un resonador acústico en
forma de tubo que actúa como filtro, es independiente de la señal fuente. Las
frecuencias de resonancia son la consecuencia directa del tracto vocal, causando lo
que se conoce como formantes Son el principal contribuyente a la envoltura espectralque se conoce como formantes Son el principal contribuyente a la envoltura espectralque se conoce como formantes Son el principal contribuyente a la envoltura espectral
de la voz (es decir, las amplitudes relativas de la serie armónica) y cambian junto con
la longitud y la forma del tracto vocal. En comparación con las cuerdas vocales
vibrantes (fuente), el tracto vocal (filtro) solo puede exhibir alternancias relativamente
lentas. Los formantes permiten la articulación de diferentes vocales y una gran
cantidad de timbres diferentes.
Debido a la independencia de fuente y filtro, es posible estimar un
componente para reconstruir el segundo. Por lo tanto, en el análisis de señales
vocales, la envoltura espectral es de interés específico, ya que determina el timbre
(todo lo que no es tono o volumen) en gran medida. Un método destacado para
estimar el filtro / envoltura espectral es la predicción lineal, y sus resultados son
los coeficientes predictivos lineales (LPC) [2]. La idea básica es que la amplitud
actual de una señal digital variable en el tiempo es predecible (aproximadamente)
a partir de una combinación lineal de sus valores pasados. El error de este
modelo lineal es igual a
señal fuente relacionada con las características de las cuerdas vocales, lo que hace que la fuente y el
filtro sean separables.
En contraste, los enfoques espectrales miden las contribuciones relativas
de los componentes sinusoidales en las señales, a menudo a través del
análisis a corto plazo bajo supuestos de estacionariedad local. Uno de los
primeros enfoques utilizó el modelado sinusoidal, que ajusta las frecuencias y
amplitudes de varios osciladores que varían en el tiempo a una señal. Este
método se extendió más tarde para modelar la señal residual como ruido solo
o como ruido y transitorios [4]. Aunque tiene las propiedades de ser
compacto y completo, el modelado sinusoidal puede ser computacionalmente
costoso y bastante sensible a la presencia de otras señales. Como resultado,
es más común modelar características del tracto vocal a través de
coeficientes cepstrales de frecuencia de mel (MFCC). Los MFCC se han
utilizado específicamente para el análisis musical desde su introducción por
[7] y,
Los MFCC se calculan mediante un proceso de dos etapas. Primero, se
aplica un banco de filtros mel a las señales de audio, generalmente a través
de la transformada rápida de Fourier para mayor eficiencia, de modo que los
componentes de frecuencia se colapsan en 30 a 120 filtros de forma
triangular medio superpuestos a lo largo de una escala de frecuencia basada
en psicoacústica. Luego, las señales se transforman en el dominio cepstral
computando y aplicando una transformada discreta del coseno (DCT) a los
espectros de magnitud logarítmica, decorelacionando así los coeficientes del
banco de filtros mel. Al descartar algunos de los coeficientes de orden
superior de la DCT, se obtiene la representación de una envoltura espectral
de paso bajo, que se puede reconstruir aplicando la DCT inversa. Más
recientemente, el "fluctograma" se ha propuesto como una representación
alternativa de tiempo y frecuencia específica para la voz que canta.
Es importante destacar que la motivación para estos modelos se basa en el supuesto
de que la señal de interés contiene una sola voz grabada de forma aislada. Sin embargo, la
mayoría de las grabaciones en entornos de música de consumo son el resultado de una
producción de sonido profesional, también conocida como "mezcla", un proceso artístico
que combina varias señales de audio dispuestas en el tiempo, sujetas a cualquier cantidad
de procesadores de efectos complejos (por ejemplo, compresión , ecualización,
reverberación y distorsión). Para mayor claridad, este proceso puede expresarse como la
suma de norte señales de audio digital, marcadas como []suma de norte señales de audio digital, marcadas como []suma de norte señales de audio digital, marcadas como []
[] [] [],xt t fxt tnN norte norte norte0 0 )una zR= = ^ h dónde una defineh dónde una defineh dónde una defineh dónde una define
una ganancia variable en el tiempo y F una cadena de efectos arbitraria, a menudo no lineal, conuna ganancia variable en el tiempo y F una cadena de efectos arbitraria, a menudo no lineal, conuna ganancia variable en el tiempo y F una cadena de efectos arbitraria, a menudo no lineal, con
sus parámetros compuestos []tnortez En este artículo, nosotros
use "música grabada" para referirse a la señal resultante [],xt yxt y
"Voz" como todos K señales"Voz" como todos K señales"Voz" como todos K señales , ,x KNk # que fueron producidos por
voces humanas (tenga en cuenta, sin embargo, que el verdadero número de señales de voz, Kvoces humanas (tenga en cuenta, sin embargo, que el verdadero número de señales de voz, K
en una grabación no necesariamente corresponderá al número de voces distintas que
percibe un oyente).
A menudo, en la música, una o más de estas señales de voz surgirán como la
voz "principal", por lo que un oyente típico percibe una sola voz como particularmente
destacada. Robusto, a nivel humano
85REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |
Por lo tanto, la comprensión del canto en la música grabada presenta la compleja tarea
adicional de identificar primero la voz en medio de múltiples sonidos antes de extraer
alguna información de alto nivel deseada.
Al crear la arquitectura para que los sistemas de análisis vocal funcionen con
música grabada, se puede tomar cualquiera de los tres enfoques básicos. Primero, un
sistema podría diseñarse para considerar solo partes de la señal de música donde la
voz está naturalmente aislada (es decir, puntos en los que todas las señales no
vocales son silenciosas). Este enfoque es conceptualmente directo, pero tiene tres
inconvenientes principales. El sistema está limitado por su capacidad de discriminar
una voz solista de todas las demás condiciones, y cualquier error se propagará a
través del sistema. No hay garantías de que las voces aisladas ocurran con suficiente
frecuencia en una grabación para realizar alguna tarea. Aun así, las vistas ocasionales
de la señal serán inadecuadas para aplicaciones que requieren información completa
independientemente de la interferencia (por ejemplo, transcripción de melodía o letra).
Otro enfoque, descrito en una gran cantidad de trabajo en la separación de la fuente de
música, intenta aislar una fuente de sonido de interés dada una mezcla de otras señales [9].
Los algoritmos de separación de fuentes generalmente se dividen en una de dos categorías:
los que explotan el conocimiento del dominio de la música en la aplicación de algoritmos de
descomposición de señales (por ejemplo, análisis de componentes independientes,
factorización de matriz no negativa, análisis robusto de componentes principales) o aquellos
que utilizan métodos basados ​​en datos que actúan como filtros para producir directamente la
señal de voz de forma aislada. Para el primero, la voz del canto es a menudo escasa y no
repetitiva en una mezcla musical, y los algoritmos pueden explotar estas propiedades para
realizar la separación de la voz del canto [10]. El acompañamiento a menudo se considera
"rango bajo", ya que consiste en instrumentos (por ejemplo, batería o guitarra tocando
patrones repetitivos), mientras que la voz es monofónica e irregular. De manera
complementaria, las técnicas de descomposición de audio se pueden aplicar en cascada para
desarmar la grabación de música en un conjunto de componentes de nivel medio que son lo
suficientemente finos como para modelar varias características de la voz de canto, mientras
que son lo suficientemente gruesos como para mantener un significado semántico explícito
componentes [11]. Más recientemente, las redes neuronales profundas han surgido en la
separación de voz y canto como poderosos filtros no lineales. Estos algoritmos están
entrenados en pares existentes de mezclas alineadas y señales de voz aisladas, con el
objetivo de minimizar el error entre las señales vocales verdaderas y estimadas. Los enfoques
modernos de profundización muestran una promesa particular, y varios trabajos continúan
explorando diferentes arquitecturas, funciones objetivas, y fuentes de datos [12]. Para trazar el
progreso en esta área, la Campaña de evaluación de separación de señales es un evento
anual dirigido por la comunidad organizado para comparar de manera sistemática y
reproducible algoritmos de separación de fuentes [13].
El tercer enfoque, y el más directo, es desarrollar modelos o características que puedan
caracterizar la voz a pesar de la presencia de señales interferentes. En la práctica, los
MFCC o LPC han demostrado ser razonablemente útiles como consecuencia de la práctica
estándar en la producción de sonido; típicamente, aunque de ninguna manera siempre, las
voces principales son la señal predominante en la mezcla y, por lo tanto, la información
vocal también tiende a dominar estas representaciones. Para algunas tareas, la ingeniería
de características ha demostrado ser bastante efectiva, pero existen limitaciones obvias
para este enfoque. Más genérico
Además, dados los avances en el aprendizaje automático, y en particular el aprendizaje
profundo, las representaciones genéricas de frecuencia de tiempo (p. ej., MFCC o
espectrogramas) o las formas de onda sin procesar en el dominio del tiempo pueden usarse
como entradas para redes neuronales profundas. Los métodos basados ​​en datos permiten al
sistema separar los atributos de señal relevantes para la voz dado un objetivo, pero presentan
sus propios desafíos con respecto a la recopilación de datos, la capacitación y el cómputo.
Veremos cómo se aplican estos tres enfoques en función de la tarea, el modelo y los datos.
Aplicaciones de análisis de canto
Desde la perspectiva de la escucha de música a escala web, el análisis de la
voz del canto tiene como objetivo extraer información de alto nivel de las
señales de audio para permitir que los sistemas aborden algunas
necesidades del usuario (por ejemplo, encontrar música instrumental o
canciones sin improperios). Este espacio de aplicación es amplio, dada la
variedad de sonidos que puede producir la voz humana, por lo que es útil
distinguir entre las diferentes categorías de sonido dentro de este espacio. La
musicalidad y el lenguaje natural se pueden representar como dos
subconjuntos parcialmente superpuestos (Figura 2), cuya unión se encuentra
dentro de un espacio de vocalización más amplio: por ejemplo, uno puede
cantar sin cumplir las reglas de cualquier lenguaje natural (por ejemplo,
tarareo o scat), comunicarse a través del habla de forma musical, o producir
una variedad de sonidos que califican como ninguno de los dos.
Observando que se ha prestado mucho tiempo y atención al análisis
computacional del habla [2], enfocamos nuestra atención aquí en tres tipos de
canto, cada uno con miras a las aplicaciones musicales correspondientes:
■ Vocalización: Primitivas acústicas de la voz que son comunes a los contextosVocalización: Primitivas acústicas de la voz que son comunes a los contextos
musicales y lingüísticos, que contribuyen a tareas tales como la actividad vocal,
la clasificación de la técnica y la identificación del vocalista
■ Música vocal: cantar en contextos musicales, que dan lugar a laMúsica vocal: cantar en contextos musicales, que dan lugar a la
entonación, la melodía y el género al establecer o reforzar los elementos
de armonía, ritmo y timbre
Vocalización
Canto Habla
Letras De
Sung
S
METRO L
FIGURA 2. Una ilustración de la relación establecida entre la musicalidad a través del espacio delFIGURA 2. Una ilustración de la relación establecida entre la musicalidad a través del espacio del
sonido producido por la voz humana (S) de modo que "cantar" comprende vocalizaciones en una
gramática musical (M), "habla" como vocalizaciones en una gramática lingüística (L) , y "letras
cantadas" como la intersección de los dos,
.ML+
86 REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |
■ Letras de Sung: La intersección de la musicalidad y el lenguaje, con aplicacionesLetras de Sung: La intersección de la musicalidad y el lenguaje, con aplicaciones
similares a las del reconocimiento de voz, como la identificación del lenguaje, la
alineación de audio-texto y la transcripción.
Antes de continuar, ofrecemos algunas notas para su consideración. Primero, estos
dominios están ordenados por nivel de abstracción, que sirve como una guía aproximada de
dificultad computacional (por ejemplo, la actividad vocal es más simple que la estimación de la
melodía, y ambos son más simples que la transcripción de letras; sin embargo, esto no quiere
decir que ninguno de Estas tareas son triviales, ya que todas son áreas de investigación
abiertas). Las tareas relacionadas generalmente emplean enfoques similares, y las tareas o
representaciones de nivel inferior a menudo se reutilizan en las de nivel superior. Finalmente, las
aplicaciones presentadas aquí están conectadas a dimensiones sobresalientes reportadas por
los oyentes cuando son relevantes, tanto para motivar e identificar oportunidades para el trabajo
futuro.
Vocalización
Como se describió anteriormente, la vocalización abarca el superconjunto de sonidos
producidos por la voz humana. Dado que los oyentes son particularmente sensibles a la
presencia de la voz en general, la primera etapa del análisis del canto tiene como objetivo
caracterizar las primitivas acústicas de la voz. Estos sistemas se centran en la voz humana
como fuente de sonido y, por lo tanto, comparten las propiedades comunes de que no están
inherentemente restringidos a las aplicaciones musicales. Como resultado, estos sistemas
encuentran una aplicación adicional en los sistemas de análisis de voz de nivel superior (por
ejemplo, solo aplican la transcripción de letras cuando la voz está presente para reducir
errores).
Detección de actividad
La detección automática de la voz de canto en la música grabada encuentra un uso
inmediato en contextos de recomendación (p. Ej., Identificar música de "enfoque").
Denominado detección de actividad vocalDenominado detección de actividad vocal
( VAD) tales sistemas generalmente predicen la probabilidad de actividad vocal en escalas de( VAD) tales sistemas generalmente predicen la probabilidad de actividad vocal en escalas de( VAD) tales sistemas generalmente predicen la probabilidad de actividad vocal en escalas de
tiempo cortas (es decir, de 1 sa docenas de segundos) y se pueden aplicar de manera
convolucional sobre señales más largas para producir estimaciones que varían en el tiempo;
otros apuntan a hacer predicciones sobre una grabación completa. Las probabilidades de
valor continuo pueden limitarse simplemente en algún punto de sesgo para producir
decisiones binarias entre estados vocales o instrumentales. Alternativamente, en
estimaciones que varían en el tiempo, el posprocesamiento [p. Ej., Modelos ocultos de
Markov (HMM) o filtrado medio] puede usarse para evitar intervalos de detección espurios o
breves.
A un nivel alto, se pueden tomar dos enfoques básicos para detectar la presencia
de una voz que canta desde una observación. El enfoque tradicional implica la
ingeniería de características en combinación con clasificadores como bosques
aleatorios, máquinas de vectores de soporte (SVM) o redes neuronales. El estado
actual de la técnica con este enfoque utiliza características de fluctograma y
delta-MFCC (es decir, diferencia de primer orden) que se alimentan a una memoria
neuronal recurrente a largo plazo red [8]. Los enfoques alternativos utilizan redesneuronal recurrente a largo plazo red [8]. Los enfoques alternativos utilizan redes
neuronales profundas de manera integral. El estado actual de la técnica con este
enfoque produce resultados similares a los de su contraparte de ingeniería de
características cuando se entrena sin aumento de datos [14]. Con el aumento de datos,
los resultados parecen ser superiores, pero aún no está claro cómo los enfoques
anteriores también se beneficiarían del aumento de datos.
Un desafío particular que enfrentan los sistemas VAD es una mayor sensibilidad a la
composición del conjunto de datos y la transferencia de dominio para capacitación y
evaluación. Ambos enfoques discutidos anteriormente producen modelos que parecen
distinguir incluso los instrumentos altamente armónicos que producen trayectorias de tono de
voz de las voces de canto reales, como lo demuestran las tasas extremadamente bajas de
falsos positivos en pruebas específicamente seleccionadas. Sin embargo, es especialmente
importante hacer uso de la música instrumental para evaluar mejor el rendimiento [8]. El
entrenamiento con música instrumental ayuda a disminuir las tasas de falsos positivos,
mientras que evaluar música instrumental puede revelar ciertas debilidades en un modelo
dado. Algoritmos insensibles a las variaciones del nivel de volumen pueden permitir una
comparación significativa. De lo contrario, una brecha de rendimiento entre dos métodos: uno
invariante de volumen, el otro no, posiblemente podría ser causado por un nivel conveniente
de volumen para el método sensible al volumen. Para dar un ejemplo, para un método
sensible a la sonoridad, el número de falsos positivos a menudo disminuirá junto con el nivel
de sonoridad, contrario a la salida de un método invariante de sonoridad, donde el número de
falsos positivos se mantiene constante.
Clasificación técnica
La percepción de la máquina de la técnica vocal, un área de investigación floreciente en el
análisis de voz y canto, se relaciona con la afinidad o aversión del oyente a una grabación de
música. Los modos de fonación son bloques de construcción importantes de técnicas
vocales más avanzadas y sistemas de análisis correspondientes, como el reconocimiento de
género o la transcripción de letras. La modelización técnica puede verse como una forma
más granular de detección general de actividad vocal, donde las observaciones a corto plazo
se clasifican en el tipo de actividad vocal presente. Para estos fines, el conjunto de datos de
los modos de fonación consiste en vocales cantadas en uno de los cuatro modos de fonación
principales: respirable, presionado, fluido y neutro [15]. Al usar un modelo de voz de canto
que simula el flujo de aire y la presión a través de las cuerdas vocales, los autores del
conjunto de datos logran una precisión del 65% con un clasificador de cuatro vías.
VocalSet es un conjunto de datos de voz de canto que consiste en estas técnicas
vocales más avanzadas [16]. Estas técnicas vocales incluyen vibrato, recta, respiración,
alevines vocales, trino de labios, trino, trillo, canto inhalado, cinturones y habla. Algunas de
estas técnicas se encuentran en un repertorio vocal básico, como el vibrato o el trino,
mientras que otras, como el canto inhalado o los alevines vocales, se encuentran en
repertorios más avanzados. La Figura 3 muestra los espectrogramas de cada una de
estas técnicas para un cantante masculino en el conjunto de datos. Los espectrogramas
de cada técnica son visualmente diferentes, a pesar de provenir del mismo cantante con la
misma intención musical (p. Ej., Escalas de canto, arpegios y tonos largos). VocalSet se
recopiló reclutando cantantes profesionales para cantar ejemplos de cada una de estas
técnicas. El conjunto de datos consta de 20 cantantes (11 mujeres), cada uno canta estas
diez técnicas en escalas, arpegios y tonos largos. VocalSet contiene 10.1 h de
grabaciones. Utilizando redes neuronales convolucionales profundas, los autores del
conjunto de datos lograron una precisión de 0.676 y una recuperación de 0.619 en una
configuración de clasificación de diez vías.
Cabe destacar que el papel de la fonación en la interpretación varía según las
culturas musicales. Se han utilizado técnicas computacionales y cuantitativas para estudiar
las variaciones de la técnica de canto en el
87REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |
Ópera de Beijing como resultado de la influencia educativa [17]; Fundado por
diferentes instructores, los estudiantes de diferentes escuelas heredan las
características de producción vocal correspondientes. Más allá de la descripción
subjetiva del estilo de canto (p. Ej., Dulce, claro, frágil), los autores tienen en cuenta
un conjunto diverso de características de audio comunes en el análisis de señales
musicales, y
Los resultados experimentales respaldan hallazgos previos en la literatura de musicología.
Identificación del cantante
La identificación automática de vocalistas en audio musical puede ayudar a abordar
errores de metadatos e identificar colaboraciones en
4,096
2,048
1,024
512
0 0.5 1 1.5 2 2.5 3 3.5 4
Tiempo
(a)
4,096
2,048
1,024
512
0 0.5 1 1.5 2 2.5 3 3.5 4
Tiempo
(d)
4,096
2,048
1,024
512
0 0.5 1 1.5 2 2.5 3 3.5 4.5 4 4
Tiempo
(e)
4,096
2,048
1,024
512
0 0.6 1.2 1.8 2.4 3 3.6 4.2 4.8
Tiempo
(b)
4,096
2,048
1,024
512
0 0.6 1.2 1.8 2.4 3 3.6 4.2 4.8
Tiempo
(c)
4,096
2,048
1,024
512
0 0.6 1.2 1.8 2.4 3 3.6 4.2 4.8
Tiempo
(f)
4,096
2,048
1,024
512
0 0.6 1.2 1.8 2.4 3 3.6 4.2 4.8
Tiempo
(g)
4,096
2,048
1,024
512
0 0.6 1.2 1.8 2.4 3 3.6 4.2 4.8
Tiempo
(h)
4,096
2,048
1,024
512
0 0.6 1.2 1.8 2.4 3 3.6 4.2 4.8
Tiempo
(i)
4,096
2,048
1,024
512
0 0.6 1.2 1.8 2.4 3 3.6 4.2 4.8
Tiempo
(j)
FIGURA 3. Espectrogramas de Mel de las diez técnicas vocales contenidas en el conjunto de datos VocalSet: (a) vibrato, (b) recto, (c) respirable, (d) alevines vocales, (e) trino de labios, (f) trino, (g) trillo , (h) canto inhalado, (i)FIGURA 3. Espectrogramas de Mel de las diez técnicas vocales contenidas en el conjunto de datos VocalSet: (a) vibrato, (b) recto, (c) respirable, (d) alevines vocales, (e) trino de labios, (f) trino, (g) trillo , (h) canto inhalado, (i)
cinturón y (j) hablar. Cada uno es una interpretación de una técnica vocal específica del mismo cantante masculino. Las diferentes técnicas vocales producen espectrogramas característicos.
(Hz)(Hz)
(Hz)(Hz)
(Hz)(Hz)
(Hz)
(Hz)
(Hz)
(Hz)
88 REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |
grabaciones, dos desafíos habitualmente recurrentes. Como otro grado de
especificidad más allá del modelado técnico, el problema de la identificación
del vocalista es uno que se beneficiará enormemente de los métodos
basados ​​en datos. Si bien los esfuerzos en la identificación del cantante (ID
del cantante) han producido pocos resultados, un sistema de nota procede
mediante la extracción de segmentos vocales de las canciones, el cálculo de
alguna representación característica diseñada y la clasificación con un
modelo de aprendizaje automático de elección (por ejemplo, SVM o mezcla
gaussiana modelos) [18]. Singer-ID es diferente del reconocimiento de la
técnica vocal solo de dos maneras: 1) pueden ser necesarias escalas de
tiempo más largas para distinguir entre diferentes vocalistas; y 2) no queda
claro cuáles podrían ser los límites preceptuales o computacionales de la
identificación del cantante en términos de precisión o rendimiento. Sin
embargo,
Música vocal
Sobre la base de las vocalizaciones generales, ahora nos centramos en el
análisis de la voz del canto en contextos musicales específicamente. Si bien el
canto también puede transmitir un lenguaje natural, la "música vocal" se define
como las composiciones o actuaciones musicales que presentan una o más
voces humanas. Esto implica comprender que el canto se ajusta a las
dimensiones básicas de la música: armonía (tono), ritmo (sincronización) y
timbre (discriminación de fuente). Sin embargo, si bien el timbre abarca los
rasgos distintivos de una fuente de sonido particular, aquí, la voz humana, un
cantante se considera un instrumento monofónico, es decir, de un solo tono. Si
bien la voz humana es capaz de producir múltiples sonidos de tono
simultáneamente, la práctica es poco común y no se considera aquí. Como
resultado del énfasis puesto en la armonía en la práctica de la teoría musical
tradicional,
Entonación
La base armónica sobre la cual se construye una pieza musical se conoce como entonación.La base armónica sobre la cual se construye una pieza musical se conoce como entonación.
En la música occidental popular, el sistema de afinación común se conoce como TemperamentoEn la música occidental popular, el sistema de afinación común se conoce como Temperamento
igual de 12 tonos y se ha estandarizado por convención en A4 = 440 Hz. Mientras queigual de 12 tonos y se ha estandarizado por convención en A4 = 440 Hz. Mientras que
algunos instrumentos populares producen sonido en intervalos de tono cuantificados (p. Ej.,
Piano), la voz humana es capaz de producir un tono arbitrario. Algunas tradiciones
musicales no occidentales, como la música artística india (IAM), adoptan otros enfoques de
entonación que complican el diseño de los sistemas de procesamiento de señales, lo que
hace que la entonación
Un tema de investigación relevante. Por contexto, IAM se refiere a dos tradiciones
musicales artísticas del subcontinente indio, la música hindustani (también conocida
como Música del norte de la India) y música carnática (también conocida como Músicacomo Música del norte de la India) y música carnática (también conocida como Músicacomo Música del norte de la India) y música carnática (también conocida como Músicacomo Música del norte de la India) y música carnática (también conocida como Música
del sur de la India). Tanto la música hindustani como la carnática son tradicionesdel sur de la India). Tanto la música hindustani como la carnática son tradiciones
centradas en el canto y, por lo tanto, la voz dicta efectivamente la entonación utilizada
en una pieza. Raˉga se define como el marco melódico en IAM y sirve como el
concepto musical central utilizado en composición, interpretación, organización
musical y pedagogía. La música hindustani y carnática se caracteriza por diferentes
atributos melódicos, como svaras (más o menos, notas), entonación de svaras y
frases melódicas características.
Debido a la importancia y la variación inherentes al canto agudo, la falta
de suposiciones simplificadoras sobre la afinación complica el análisis
automático de este tipo de música. La música carnática, por ejemplo, no
utiliza un esquema de afinación de igual temperamento, ya que está más
cerca de la entonación justa de cinco límites, mientras que la música
hindustani puede explicarse por una mezcla de afinación de igual
temperamento y entonación justa de cinco límites (un cinco El sistema de
ajuste de límite utiliza potencias de dos, tres y cinco para calcular notas en
relación con una frecuencia de referencia). La entonación de svaras es una
característica importante de una raˉga, por lo que las distribuciones de tono
detalladas son informativas como resultado. Se ha demostrado, por ejemplo,
que la forma del histograma de tono para diferentes svaras puede ayudar en
la identificación automática de raˉgas [19].
Estimación de melodía
La tarea de determinar el tono, o la frecuencia fundamental, de la voz que canta en la
música a lo largo del tiempo generalmente se conoce como Estimación de la melodíamúsica a lo largo del tiempo generalmente se conoce como Estimación de la melodía
vocal. Las melodías estimadas generalmente se representan en forma de series de tiempovocal. Las melodías estimadas generalmente se representan en forma de series de tiempo
(tiempo, tono), donde el intervalo entre los pasos de tiempo es pequeño (por ejemplo, 10
ms), y los valores de tono son valores continuos (medidos en hertzios) en lugar de valores
de nota discretos. La Figura 4 muestra un ejemplo de una melodía vocal estimada por un
algoritmo (verde) trazado contra la melodía vocal de verdad fundamental (negro) para un
breve extracto. Observe cómo al representar los valores de tono en una cuadrícula de
frecuencia continua en lugar de discreta, la información, como el vibrato, se captura entre
50 y 51 s en la figura. Además, tenga en cuenta que parte de la tarea también es
determinar dónde no hay melodía vocal presente.
Hay tres tipos comunes de enfoques para la estimación de la melodía vocal [20]:
saliencia, separación de fuente y aprendizaje automático. Los métodos basados ​​en la
prominencia aprovechan la suposición de que las voces exhiben una serie armónica
conocida. Para explotar esta información, estos enfoques primero estiman una
representación de notoriedad vocal, una representación de frecuencia de tiempo derivada de
una transformada de Fourier de corto tiempo, realizada reponderando la amplitud de cada
intervalo de frecuencia de tiempo en función de la presencia o ausencia de armónicos
relacionados. El propósito de esto es doble: 1) enfatizar el contenido que no es parte de la
melodía vocal y 2) enfatizar el contenido que probablemente sea parte de la melodía vocal
(es decir, contenido con muchos armónicos relacionados). Las representaciones de
prominencia se calculan, por ejemplo, mediante suma armónica, percusión armónica
1,024
512
256
12848 49 50 51 52 53 54 55 56
Tiempo (s)
FIGURA 4. Una melodía vocal estimada por un algoritmo (verde) contra la verdadFIGURA 4. Una melodía vocal estimada por un algoritmo (verde) contra la verdad
(melodía vocal) melodía vocal (negra).
Frecuencia(Hz)
89REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |
separación de fuente, o filtrado / ecualización. Después de calcular una representación
destacada, estos métodos a menudo aplican reglas basadas en heurística para seleccionar
las melodías vocales más probables de la representación calculada. Los métodos basados ​​en
la separación de la fuente primero aíslan la voz del canto y luego aplican un rastreador de
tono para calcular la melodía o, por el contrario, estiman conjuntamente la señal de audio de
la voz del canto y la melodía vocal. Más recientemente, los métodos de aprendizaje
automático se han utilizado para convertir la tarea en un problema de clasificación al
discretizar el espacio de frecuencia con al menos una clase por semitono y predecir la clase
más probable a lo largo del tiempo [21], [22]. Alternativamente, el aprendizaje automático se
puede utilizar para aprender representaciones sólidas de prominencia [23].
La estimación de la melodía vocal tiene varias aplicaciones en la indexación y
recuperación musical. Un objetivo de larga data de MIR se conoce como consulta por tarareo, donderecuperación musical. Un objetivo de larga data de MIR se conoce como consulta por tarareo, donderecuperación musical. Un objetivo de larga data de MIR se conoce como consulta por tarareo, donde
un oyente puede buscar una colección de contenido vocalizando una melodía dada. La
capacidad de encontrar grabaciones específicas por melodía probablemente resultaría en
resultados relacionados y una recuperación basada en similitudes. Además, la melodía es una
característica predominante de la música e informaría aún más el análisis de nivel superior,
como el descubrimiento de patrones y la segmentación estructural (por ejemplo, miniaturas o
detección de coros).
La estimación de la melodía predominante también está en el centro del
análisis de la voz de canto en IAM [24]. En una interpretación típica, el
vocalista principal está acompañado por otro instrumento melódico, casi como
una imitación rezagada del solista. Existen enfoques que explotan esta
convención al rastrear los dos contornos melódicos simultáneamente, uno de
los cuales es el del vocalista principal. Se han realizado intentos para
automatizar la selección del contorno de tono correspondiente al artista
principal mediante el uso de la inestabilidad temporal de los armónicos de la
voz. Debido a los sutiles matices en la evolución temporal de las melodías
(específicamente en las regiones transitorias entre dos svaras), el contorno de
tono completo a menudo se usa como una característica de nivel medio para
el análisis de voz de canto. A menudo,
Género
Entre los conceptos más abstractos de la música, el género se usa para describir las
categorías musicales que emergen naturalmente de la influencia de una cultura sobre sí
misma. Un género se establece mediante el uso o la reutilización de ciertos aspectos
musicales, como la forma estructural, la instrumentación o los patrones melódicos, lo que
conduce a una comprensión compartida entre grupos de personas. Varias formas de rock
presentan prominentemente guitarras distorsionadas, por ejemplo, mientras que el blues es
conocido por acordes dominantes y fraseo de 12 compases.
Si bien existen numerosas características, a menudo inescrutables, que pueden
contribuir a los límites de un género, aquí es relevante considerar aquellas que ponen
un énfasis específico en la voz del canto. Una instancia es la de los subgéneros de la
música metal, que se caracterizan por efectos vocales extremos [25]. Una de las
principales motivaciones detrás del análisis de voz de canto en IAM es la identificación
automática de raˉga. Recientemente, una técnica llamada superficies melódicas conautomática de raˉga. Recientemente, una técnica llamada superficies melódicas con
retraso de tiempo Se ha demostrado que captura las características tonales yretraso de tiempo Se ha demostrado que captura las características tonales y
temporales continuas de estas melodías, lo que resulta en una mejora significativa en
la precisión del reconocimiento raˉga [26]. El rap es otra instancia notable de un género
identificado en gran parte por características distintivas de entrega de voz rítmica. Se haidentificado en gran parte por características distintivas de entrega de voz rítmica. Se ha
demostrado que solo 11 características inspiradas en la percepción conducen a una
precisión de clasificación del 91% entre rapear y cantar con solo segmentos vocales
aislados de 3 s [27]. Se descubrió que la característica más destacada es la proporción
de cuadros sonoros a cuadros no silenciosos, lo que confirma el papel prominente del
ritmo y la falta de características melódicas del rap, en contraste con la naturaleza más
melódica del canto tradicional que se encuentra en la música contemporánea de ritmo y
blues.
El género también puede servir como un proxy adecuado para el estilo de canto,
una caracterización musicalmente atractiva pero difícil de definir de la interpretación
vocal (por ejemplo, teatral, agresiva o poderosa). Funciones específicas de voz, como
estadísticas calculadas sobre frecuencia fundamental ()
F 0 0 contornos, son útiles para discriminarF 0 0 contornos, son útiles para discriminarF 0 0 contornos, son útiles para discriminar
Nacimiento entre diferentes estilos de canto en enfoques supervisados ​​y no
supervisados ​​[28]. Agrupar estas características ha permitido la organización
semánticamente significativa de una colección de 50,000 extractos de música folklórica
de todo el mundo, mientras que las incrustaciones a gran escala para el estilo vocal
también son una vía prometedora de investigación [29].
Letras de canciones de Sung
Vista desde la perspectiva de la lingüística, la comunicación vocal humana con el
lenguaje tiene cuatro dimensiones [30]:
■ Fonemas: Los componentes básicos del lenguaje vocalizado, que representan unidadesFonemas: Los componentes básicos del lenguaje vocalizado, que representan unidades
discretas de sonido
■ Prosodia: La articulación de fonemas a lo largo del tiempo, incluidos los aspectos deProsodia: La articulación de fonemas a lo largo del tiempo, incluidos los aspectos de
inflexión, duración, frecuencia o entonación.
■ Vocabulario: La combinación de fonemas en palabras como objetos sonoros deVocabulario: La combinación de fonemas en palabras como objetos sonoros de
nivel superior
■ Gramática: La composición secuencial y estructural de las palabras. En la intersecciónGramática: La composición secuencial y estructural de las palabras. En la intersección
de la música y el lenguaje natural, el canto de las letras presenta dificultades únicas más
allá de las que normalmente se enfrentan solo en el procesamiento del habla [31]. A
menudo, las reglas de la gramática son dobladas o ignoradas por razones artísticas (por
ejemplo, rima). Los elementos prosódicos están limitados por las dimensiones melódicas y
rítmicas de una obra musical y no necesariamente por el idioma en el que se interpretan
las letras. Por ejemplo, la frecuencia fundamental típica para el habla femenina se
encuentra entre 165 y 200 Hz, mientras que en el canto puede alcanzar más de 1,000 Hz.
Esto se complica aún más en un idioma tonal como el chino, donde la inflexión del tono
también se utiliza para transmitir un significado semántico. Como resultado, los corpus de
habla tradicionales son insuficientes para construir modelos basados ​​en datos para el
análisis del canto, dado el grado de transferencia de dominio entre el lenguaje hablado y la
música vocal. Mientras tanto, la instrumentación que acompaña complica los supuestos
tradicionales con respecto al ruido en el procesamiento del habla, ya que típicamente
todas las señales en la música grabada están correlacionadas armónicamente y
temporalmente. Con eso en mente, ahora dirigimos nuestra atención a los métodos para la
identificación del idioma, la alineación del audio y la letra, y la transcripción de la letra.
Identificación del idioma
La identificación del idioma del canto (SLID) puede verse como una simplificación de la
transcripción integral de letras. En los servicios de música para poblaciones globales, el
lenguaje predominante de interpretación
90 REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |
es un atributo valioso: proporciona una visión más profunda de los catálogos de música
en entornos lingüísticamente diversos, como India o Filipinas; y, a través de una mayor
comprensión del contenido, permite una comprensión más profunda de las preferencias
de idioma del oyente. Este último es un problema complejo que enfrentan los sistemas
de recomendación debido a las preferencias asimétricas hacia la música consumida en
diferentes orígenes (por ejemplo, usuarios en el país X podría escuchar música del país Ydiferentes orígenes (por ejemplo, usuarios en el país X podría escuchar música del país Ydiferentes orígenes (por ejemplo, usuarios en el país X podría escuchar música del país Ydiferentes orígenes (por ejemplo, usuarios en el país X podría escuchar música del país Y
pero no al revés).
Los sistemas SLID convencionalmente abordan la tarea modelando las
estadísticas de fonemas en escalas de tiempo largas, construyendo diferentes
plantillas por idioma. Un esfuerzo moderno de destacar es el de [32], que se
centra en 25 idiomas extraídos de 25,000 videos musicales. Los autores
exploran una variedad de representaciones de características, aprovechando
los descriptores acústicos y visuales agregados sobre el contexto temporal de la
señal, alimentados a una serie de clasificadores binarios SVM (uno por idioma).
Los resultados experimentales muestran que una combinación de
características acústicas (espectrogramas, MFCC e imágenes auditivas
estabilizadas) condujo a un rendimiento en un conjunto de pruebas del 44,7%;
Al agregar características visuales, el sistema logró un 47,8% de precisión.
Curiosamente, este sistema considera representaciones de características de
propósito general, colocando la carga del modelado en un clasificador potente,
Alineación de audio y letra
La alineación temporal de las letras con el audio correspondiente es necesaria para
aplicaciones tan populares como el karaoke y la subtitulación de videos musicales. La
disponibilidad de alineaciones también hace posible una gran cantidad de aplicaciones, como
ediciones automáticas de radio, reproducción que comienza / termina en líneas específicas y
análisis de cómo las palabras en la música corresponden a ritmos, melodías y otras
estructuras musicales [33]. Las alineaciones manuales no se escalan a grandes colecciones
de audio, lo que plantea la necesidad de algoritmos de alineación automatizados precisos.
El objetivo de la alineación automatizada, que se muestra en la Figura 5, es
tomar el audio y la letra y producir una alineación temporal de las dos entradas. Las
alineaciones son típicamente en el nivel de palabra, pero también pueden estar en el
nivel de líneas o fonemas, dependiendo de la aplicación aguas abajo. Las
alineaciones de nivel de línea pueden ser suficientes para productos como la
subtitulación o algunas interfaces de karaoke. LyricAlly es un sistema de nota que
detecta elementos estructurales como ritmos y ritmos, que se utilizan para
segmentar el audio en la introducción, versos, coro, puente y coda [34]. Las líneas
en las letras correspondientes a estas secciones se alinean con el audio
segmentado. Las alineaciones a nivel de palabra, sílaba o fonema requieren mayor
precisión. Algunos trabajos se basan en anotaciones, como archivos de interfaz
digital instrumental musical (MIDI) u hojas de plomo; sin embargo,
La comunidad de tecnología del habla usa un método llamado
alineación forzada para alinear el tiempo de audio y transcripciones. Laalineación forzada para alinear el tiempo de audio y transcripciones. La
alineación forzada implica encontrar la ruta de Viterbi a través de HMM que
mapean fonemas a MFCC u otras características de la acústica. Estos HMM se
entrenan a partir de grandes corpus de habla transcrita. Varios juegos de
herramientas de voz, como CMU Sphinx (https: // cmusphinx.github.io), Hidden
Markov Model Toolkit (http: // htk.eng.cam.ac.uk) y Kaldi (http: // kaldi- asr.org)
implementa la alineación forzada, incluida la capacidad de entrenar los
modelos acústicos HMM, con envoltorios, como el Montreal Forced Aligner
(http://montreal-forced-aligner.readthedocs.io), proporcionando interfaces para
estos programas. La alineación forzada funciona mejor cuando se especifican
límites de nivel de línea o frase, ya que la calidad de la alineación se degrada
con el audio durante más de un minuto. La alineación forzada forma la base de
la mayoría de los algoritmos de alineación de letras y audio. Sin embargo,
Introducido anteriormente, la alineación de letras es un área que utiliza la
detección y separación vocal como pasos de preprocesamiento antes de la
alineación para mitigar los desafíos que plantea la música grabada. Además, es
posible reducir el sonido de
sp SH
Ella es Narración usted Giro Apagado Autopista
t
AYIAO1 NER1 TU s
pag
EY2SIH 0 L EH 1 TI
FIGURA 5. Visualización de alineaciones automatizadas a nivel de palabra y fonema de un segmento de una canción generada con el software Praat (http://www.fon.hum.uva.nl/praat).FIGURA 5. Visualización de alineaciones automatizadas a nivel de palabra y fonema de un segmento de una canción generada con el software Praat (http://www.fon.hum.uva.nl/praat).
91 91REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |
instrumentos de acompañamiento con F 0 0 estimación y resíntesis y para adaptar losinstrumentos de acompañamiento con F 0 0 estimación y resíntesis y para adaptar losinstrumentos de acompañamiento con F 0 0 estimación y resíntesis y para adaptar losinstrumentos de acompañamiento con F 0 0 estimación y resíntesis y para adaptar los
modelos acústicos HMM entrenados en el habla a un pequeño corpus de música [36]. Los
sistemas también pueden usar marcadores de posición en el HMM para palabras como
"sí, sí" que no se pueden capturar en la letra de referencia. La integración de información
musical, como secuencias de acordes, también es útil para mejorar el rendimiento de
alineación de letras [37].
Transcripción de letras
La transcripción de letras generalmente se realiza en dos pasos: primero, las
probabilidades de fonemas se reconocen en el audio del canto utilizando un modelo
acústico; luego, los resultados se procesan con un modelo de lenguaje para obtener
secuencias de palabras plausibles. Al igual que en el reconocimiento de voz, la mayoría de
los primeros sistemas de transcripción de letras se basaban en HMM para el modelado
acústico. Debido a la falta de datos de canto transcritos líricamente, muchos sistemas
entrenaron modelos acústicos en lectura de voz, con modelos de lenguaje basados ​​en
textos reales de letras. Por ejemplo, el modelado del lenguaje se puede lograr con un
autómata de estado finito ajustado a la letra de una colección de canciones infantiles
japonesas [38]. El sistema se prueba en frases cantadas que consisten en cinco palabras,
sin acompañamiento, logrando una tasa de error de palabras del 36%. Al entrenar modelos
acústicos específicos del hablante,
Se han propuesto varias mejoras que incorporan la intuición sobre la percepción
humana a las letras. Se observa que la separación de fuentes puede usarse como una
técnica de preprocesamiento para mejorar la precisión del modelo. La repetición y la
estructura de la música, como el coro, también pueden explotarse para mejorar la
precisión de la transcripción [39]. Se proponen tres estrategias diferentes para combinar
resultados individuales: promediación de características, selección de la instancia de coro
con la mayor probabilidad y combinación usando el algoritmo de Reducción de errores de
votación de salida del reconocedor (ROVER). Veinte canciones en inglés no
acompañadas de la base de datos Real World Computing (RWC) se utilizaron para las
pruebas; Las secciones de coro se seleccionaron manualmente. La mejor selección de
instancias y las estrategias ROVER mejoran significativamente los resultados; con el
enfoque ROVER y un modelo de lenguaje de propósito general, la tasa de error de
fonema es del 74% (frente al 76% en el experimento de línea de base), mientras que la
tasa de error de palabra mejora del 97% al 90%. Curiosamente, los casos con un bajo
resultado inicial se benefician más de la explotación de la información de repetición.
Para superar la falta de datos de entrenamiento realistas, se pueden usar algoritmos de
alineación forzada para ajustar un conjunto de canto no acompañado con letras no alineadas [40].
Por ejemplo, las redes neuronales profundas se entrenan en MFCC de señales musicales para
producir modelos acústicos específicos para el canto. Estos modelos producen mejores resultados enproducir modelos acústicos específicos para el canto. Estos modelos producen mejores resultados en
comparación con aquellos capacitados en el habla, con una tasa de error de fonema que cae al 80%.
En particular, se espera que las tasas de error de palabras y fonemas sean más altas en la
transcripción de letras que en el reconocimiento de voz. Si bien se desconocen los límites del
reconocimiento humano de las letras, el fenómeno de las letras "mal escuchadas" es común [41].
Una forma simplificada de transcripción de letras es la capacidad de identificar palabras
específicas (por ejemplo, improperios) en las grabaciones. Muchas letras de canciones
contienen improperios, y hay numerosos escenarios en los que es necesario saber cuándo
ocurren estas palabras (por ejemplo, sesiones de audición "familiares"). En el caso de airplay,
exple-
Los tives son comúnmente "bleeped" o acústicamente removidos. La tarea de encontrar
tales palabras se basa en las estrategias de alineación descritas anteriormente,
aprovechando la amplia disponibilidad de letras textuales. El sistema procede alineando
automáticamente las letras de texto al audio, buscando improperios predefinidos en el
resultado y modificando posteriormente la señal donde se producen las instancias
marcadas (por ejemplo, agregando ruido blanco como una ofuscación) [40]. El conjunto
de datos de prueba consta de 80 canciones populares, la mayoría de ellas hip-hop. Las
anotaciones indicaron 711 instancias con 48 improperios en estas canciones, y las letras
de texto no alineadas coincidentes se recuperaron manualmente de Internet. Usando los
modelos acústicos descritos allí, el 92% de los improperios se detectaron en sus
posiciones correctas con una tolerancia de 1 s.
Próximos pasos
Comenzando con el análisis del canto
Como lo ilustra la amplitud de la sección anterior, el análisis de la voz del canto es un área
diversa de estudio con potencial para permitir una variedad de aplicaciones a gran escala.
Sin embargo, esta amplia gama de posibilidades también puede dificultar decidir dónde y
cómo sumergirse primero en este tema. Para ayudar a dirigir nuevas exploraciones en el
análisis de voz de canto, hay tres tareas que recomendamos como buenos puntos de
entrada: detección de actividad vocal, identificación de cantante y SLID. Cada uno puede
enmarcarse como un problema de clasificación directo con medidas de evaluación objetivas
(es decir, precisión, memoria, puntaje f) y en cada caso la tarea de encontrar o recopilar
datos etiquetados es relativamente fácil. Para facilitar aún más esta exploración, también
ofrecemos un tutorial de software de código abierto para la exploración autoguiada
(https://github.com/spotify/ieee-spm-vocals-tutorial).
La detección de actividad vocal es un punto de partida lógico para aquellos nuevos en el
procesamiento de señales musicales interesados ​​en el análisis del canto. Al reconocer la actividad
vocal como una percepción de bajo nivel, los sistemas computacionales pueden enfocarse en
observaciones a corto plazo extraídas de señales de audio, simplificando tanto el etiquetado como
el modelado como una tarea de clasificación binaria. Dado el estado cada vez más maduro del
aprendizaje automático, el desafío de construir un sistema VAD reside más en la obtención o
conservación de datos para capacitación y evaluación. Los dos conjuntos de datos
convencionales utilizados en la investigación de VAD son las colecciones de Jamendo, aunque las
colecciones más nuevas como MedleyDB (http: // medleydb.weebly.com/), OpenMIC-2018
(https://github.com/ cosmir / openmic-2018) o AudioSet (http://research.google.com/ audioset /) proporcionar(https://github.com/ cosmir / openmic-2018) o AudioSet (http://research.google.com/ audioset /) proporcionar
más datos para entrenar tales modelos. Una ventaja particular de VAD como tarea es que su
estructura simple permite estudiar los efectos de la composición del conjunto de datos en el
rendimiento del modelo. Como se mencionó anteriormente, la inclusión de una cappella (voz
solista) o música instrumental en un conjunto de datos puede ayudar a abordar falsos negativos o
falsos positivos, respectivamente, pero también es posible sintetizar más datos de entrenamiento
de grabaciones multipista (por ejemplo, MedleyDB).
Otra oportunidad atractiva, de campo cercano, adecuada para los recién llegados al
tema del análisis de la voz de canto es la de ID de cantante. Como se discutió, los
métodos para la identificación del cantante están poco representados en la literatura, lo
que deja un amplio margen para mejorar el estado del arte. Además, a menudo hay una
correspondencia 1: 1 entre el artista de grabación (o grupo) y el vocalista (es decir, una
banda presenta un solo cantante en todas sus grabaciones), y es
92 REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |
es posible recopilar grandes conjuntos de datos para entrenar modelos de aprendizaje
automático sin demasiado esfuerzo. Esta observación se puede combinar con algoritmos
modernos de separación de fuentes para producir aproximaciones razonables de las voces
de forma aislada, mitigando cualquier factor de confusión de la instrumentación. Este
enfoque se puede aplicar al conjunto de datos de Free Music Archive (FMA) (https: //
github.com/mdeff/fma), que contiene 100,000 grabaciones de más de 16,000 artistas
únicos, con más de 1,000 artistas que tienen al menos 20 grabaciones . Alternativamente,
la colección del Archivo Digital de Actuaciones Móviles de Stanford (https: //
ccrma.stanford.edu/damp/) presenta 35,000 grabaciones de voz en solitario deccrma.stanford.edu/damp/) presenta 35,000 grabaciones de voz en solitario de
aproximadamente 350 cantantes aficionados, lo que en su mayoría evita la necesidad de
un preprocesamiento de separación de fuente. Estos datos podrían usarse para entrenar
un modelo como en el escenario VAD, con un clasificador aplicado a observaciones de
señales de audio a corto plazo. Hacemos hincapié en que estas etiquetas de
artista-cantante se pueden usar para adaptarse a modelos de aprendizaje profundo cuyas
representaciones intermedias (por ejemplo, la penúltima capa) se pueden usar como un
modelo incrustado para similitud y recuperación.
Una tercera aplicación de análisis de voz accesible es aquella para identificar el idioma
de la canción. Si bien tradicionalmente no existe un conjunto de datos mutuamente acordado
para este problema, la FMA contiene etiquetas que no están en inglés para varios cientos de
grabaciones, y los servicios de música globales sin duda contienen listas de reproducción o
artistas que consisten en música interpretada en un idioma determinado. Similar a la
formulación de la identificación del cantante, la identificación del idioma puede beneficiarse
de la aplicación de la separación de la fuente como un paso de preprocesamiento, y hay una
oportunidad considerable de avanzar en el estado del arte en el área de las letras cantadas.
Retos y oportunidades
La investigación de análisis de canto es rica en oportunidades y desafíos. Resumimos algunos.
La evaluación subjetiva de los modelos de la voz del canto, como en la separación y similitud
de fuentes, sigue siendo un desafío [42]. Las métricas objetivas de la calidad de separación de
la fuente se utilizan ampliamente (por ejemplo, relación señal-ruido), pero su capacidad para
reflejar la percepción es limitada. A menudo se utilizan pruebas de audición de expertos o de
crowdsourcing, pero los investigadores aún no han adoptado un protocolo estándar y bien
controlado. Los modelos de estilo de canto se han evaluado principalmente mediante pruebas
de audición, y estos han sido de pequeña escala debido al significativo esfuerzo humano
involucrado. Los modelos más grandes que cubren música diversa requieren métodos más
cuantitativos. Todavía no existe un estándar para los modelos de evaluación comparativa del
estilo vocal, para definir la similitud o el estilo vocal, o para cuantificar la percepción de los
oyentes de la voz que canta. Si bien hay algunos trabajos que investigan la relación de los
modos de fonación con los estilos vocales, no está claro cómo se relaciona con la percepción
de la voz y sigue siendo un área abierta de investigación.
Los enfoques basados ​​en el aprendizaje automático se están volviendo omnipresentes en la
mayoría de los aspectos del análisis computacional de las voces, pero aún no hemos visto los tipos de
mejoras dramáticas que se han logrado recientemente en campos relacionados. Reflexionando, esto
probablemente se deba a la falta de colecciones grandes y fácilmente disponibles para la investigación
del procesamiento de señales musicales, como ImageNet para el reconocimiento de objetos. Por lo
tanto, si bien los conjuntos de datos más nuevos mencionados aquí, como el FMA, pueden ayudar a
abordar esta deficiencia, se requiere un mayor esfuerzo
necesitaba curar o extraer conjuntos de datos a gran escala para otras tareas en la
investigación de canto y voz. Por ejemplo, las letras aportadas por los usuarios están
ampliamente disponibles en Internet, y la capacidad de alinear estos documentos de texto con
audio transformaría el campo.
Curar conjuntos de datos de música etiquetados para cada tarea puede
resultar costoso, dadas las habilidades requeridas, como en el caso de la
anotación de melodía. Para estas tareas, puede ser más práctico a corto plazo
generar artificialmente datos de entrenamiento a partir de señales simbólicas,
como archivos MIDI y hojas guía, utilizando sintetizadores de instrumentos
realistas. Esto aún no es factible para todas las tareas que involucran voces,
ya que los sintetizadores de voz modernos aún no pueden replicar
completamente el canto natural. Sin embargo, los avances en la estimación de
la melodía pueden proporcionar aproximaciones de voz realistas, produciendo
así datos más realistas para el entrenamiento. Del mismo modo, la separación
de la fuente vocal o un aumento en la disponibilidad de grabaciones multipista
hace posible crear mezclas de pares arbitrarios de voces e instrumentales. Es
importante destacar que el contenido de música vocal sin etiqueta es
abundante.
Finalmente, la mayor parte de la investigación en informática musical se centra en
analizar el contenido musical producido comercialmente, que generalmente es creado por
músicos profesionales y sigue los principios básicos de la música de acuerdo con el
género o la tradición relevante. Por otro lado, el contenido producido por aficionados no
está obligado a seguir estos principios y, a menudo, plantea un desafío a los enfoques de
procesamiento de información de canto existentes. En los últimos años, el volumen de
dicho contenido y aplicaciones ha aumentado significativamente, a menudo en el contexto
de la educación musical y los juegos (por ejemplo, aplicaciones de karaoke). La
imprecisión del canto aficionado puede ser más pronunciada que la de las interpretaciones
instrumentales de aficionados, ya que las frecuencias producidas por la voz no están
cuantificadas de forma natural, como lo son, por ejemplo, para la flauta, y no tienen
retroalimentación tangible ni visual. como con un violín Dado que hay muchos más
cantantes aficionados que profesionales, el análisis automático de la voz que canta
presenta una oportunidad considerable para mejorar la experiencia humana de la música.
Autores
Eric J. Humphrey ( ejhumphrey@spotify.com ) recibió suEric J. Humphrey ( ejhumphrey@spotify.com ) recibió su
Licenciatura en ingeniería eléctrica de la Universidad de Syracuse, Nueva York,
maestría en tecnología de ingeniería musical de la Universidad de Miami, Florida, y su
doctorado. Licenciado en tecnología musical por la Universidad de Nueva York, donde
trabajó con Juan Pablo Bello en el Laboratorio de Investigación de Música y Audio. Es
gerente de ingeniería de aprendizaje automático en Spotify en la ciudad de Nueva York,
ayudando a los equipos a investigar y desarrollar algoritmos de aprendizaje automático
para mejorar la experiencia de los oyentes en todo el mundo. Anteriormente en Spotify,
fue un investigador senior centrado en los enfoques de aprendizaje automático para
comprender las señales de audio de la música. Más allá de la investigación, también es
cantante, compositor y multiinstrumentista.
Sravana Reddy ( sravana@spotify.com ) recibió su licenciatura enSravana Reddy ( sravana@spotify.com ) recibió su licenciatura en
ciencias de la computación, matemáticas y escritura creativa de la
Universidad de Brandeis, Waltham, Massachusetts, y su Ph.D. Licenciado en
Informática por la Universidad de
93REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |
Chicago Ha pasado tiempo en el Instituto de Ciencias de la Información de la
Universidad del Sur de California en Los Ángeles, Dartmouth College Hanover, New
Hampshire y Wellesley College, Massachusetts. Es ingeniera de aprendizaje
automático en Spotify en Boston, donde trabaja en proyectos relacionados con el
procesamiento del lenguaje natural y el aprendizaje automático. Su investigación
abarca el procesamiento del lenguaje natural, el habla, el aprendizaje automático y
la lingüística, con un énfasis particular en la variación del lenguaje, que incluye
tratarlo en sistemas prácticos y analizarlo utilizando grandes cuerpos. Sus intereses
también incluyen aplicaciones de computación en literatura y escritura.
Prem Seetharaman ( prem@u.northwestern.edu ) recibió su licenciatura enPrem Seetharaman ( prem@u.northwestern.edu ) recibió su licenciatura en
ciencias de la computación con una segunda especialización en composición musical
de la Universidad Northwestern de Evanston, Illinois, donde actualmente es Ph.D.
candidato que trabaja con Bryan Pardo. Trabaja en problemas en herramientas de
apoyo a la creatividad, separación de fuentes de audio y aprendizaje automático.
Además de la investigación, es un compositor y músico activo en el área de Chicago,
Illinois.
Aparna Kumar ( aparna@spotify.com ) recibió su licenciatura en física de laAparna Kumar ( aparna@spotify.com ) recibió su licenciatura en física de la
Universidad de Drexel, Filadelfia, Pensilvania, y su doctorado Licenciado por laUniversidad de Drexel, Filadelfia, Pensilvania, y su doctorado Licenciado por la
Facultad de Informática de la Universidad Carnegie Mellon, Pittsburgh, Pensilvania.
Es investigadora científica senior en Spotify en la ciudad de Nueva York, y se
centra en la comprensión de audio, la evaluación perceptiva, el modelado de
usuarios y la minería de datos para aplicaciones comerciales. Su investigación
comenzó en biología computacional. Su trabajo anterior incluye imágenes de
patología minera, diseño experimental y recopilación de datos para el desarrollo de
fármacos oncológicos.
Rachel M. Bittner rachelbittner@spotify.com ) la recibióRachel M. Bittner rachelbittner@spotify.com ) la recibió
Licenciatura en matemáticas y su título de BM en interpretación musical de la
Universidad de California, Irvine. Ella la recibió
Maestría en matemáticas del Courant Institute de la Universidad de Nueva York en 2013.
Recibió su Ph.D. Licenciada en tecnología musical de la Universidad de Nueva York,
trabajando en el Laboratorio de Investigación de Música y Audio con Juan Pablo Bello, con
su disertación centrada en la aplicación del aprendizaje automático a la estimación de
frecuencia fundamental. Anteriormente, fue asistente de investigación en el Centro de
Investigación Ames de la NASA trabajando con Durand Begault en el Laboratorio de
Controles y Pantallas Avanzadas. Sus intereses de investigación están en la intersección
del procesamiento de señales de audio y el aprendizaje automático, aplicado al audio
musical.
Andrew Demetriou ( andrew.m.demetriou@gmail.com ) recibió suAndrew Demetriou ( andrew.m.demetriou@gmail.com ) recibió su
licenciatura en ciencias políticas y filosofía de Queens College, City
University of New York, y su
Maestría en psicología social de la Vrije Universiteit, Amsterdam. Actualmente es
Ph.D. candidato en el Grupo de Computación Multimedia en la Universidad
Técnica de Delft, Países Bajos. Sus intereses académicos se centran en la
intersección de las ciencias psicológicas y biológicas y las ciencias de datos
relevantes. Sus intereses académicos también se extienden a promover nuestra
comprensión del amor, las relaciones y los lazos sociales; estados mentales
óptimos, disolutivos del ego y meditativos; y personas tocando, ensayando y
escuchando música.
Sankalp Gulati ( sankalp.gulati@gmail.com ) recibió suSankalp Gulati ( sankalp.gulati@gmail.com ) recibió su
Tecnología B. licenciatura en ingeniería eléctrica y electrónica de
el Instituto Indio de Tecnología, Kanpur, India, y su maestría en computación de
sonido y música de la Universitat Pompeu Fabra, Barcelona, ​​España. Recibió su
Ph.D. Licenciado por la Universidad de Pompeu Fabra en Barcelona, ​​España,
donde trabajó el Grupo de Tecnología Musical con Xavier Serra en el proyecto
CompMusic. Sus intereses de investigación incluyen procesamiento de señales,
análisis de series de tiempo y aprendizaje automático aplicado a señales de audio
y música. Tiene años de experiencia industrial trabajando en el dominio de las
tecnologías de audio y habla, análisis de contenido musical, educación musical, y
actualmente está trabajando en aprendizaje automático e inteligencia artificial en el
área de tecnología financiera.
Andreas Jansson ( andreasj@spotify.com ) recibió suAndreas Jansson ( andreasj@spotify.com ) recibió su
Licenciatura en ciencias de la computación de la City University, Londres, donde es Ph.D.
estudiante de grado y también es ingeniero de investigación en Spotify en la ciudad de
Nueva York. Actualmente está explorando arquitecturas de redes neuronales profundas
para la separación de fuentes y extrayendo grandes catálogos de música comercial para
datos de capacitación. Antes de unirse a Spotify, trabajó en las nuevas empresas de
música The Echo Nest y This Is My Jam. Le gusta tocar el acordeón, recoger el arándano
rojo y Emacs Lisp.
Tristan Jehan tjehan@spotify.com) obtuvo su licenciatura enTristan Jehan tjehan@spotify.com) obtuvo su licenciatura en
matemáticas, electrónica y ciencias de la computación, y su maestría en
ingeniería eléctrica, ciencias de la computación y procesamiento de señales
de la Universidad de Rennes I, Francia. Recibió su Ph.D. Licenciado en artes
y ciencias de los medios por el Instituto de Tecnología de Massachusetts. Es
director de investigación en Spotify, donde cultiva nuevas tecnologías que
pueden convertirse en características de próxima generación y oportunidades
de negocio. Fue director científico y cofundador de la compañía de
inteligencia musical The Echo Nest, que fue adquirida por Spotify para
establecer un nuevo estándar global en la personalización de la música. Ha
presentado a la industria tecnologías de escucha de máquinas, que
involucran aplicaciones relacionadas con la similitud musical, el
descubrimiento y la remezcla musical algorítmica.
Bernhard Lehner ( Bernhard.Lehner@jku.at ) recibió suBernhard Lehner ( Bernhard.Lehner@jku.at ) recibió su
Licenciatura y maestría en ciencias de la computación en 2007 y 2010, respectivamente, de
la Universidad Johannes Kepler, Linz, Austria, donde actualmente está cursando un
doctorado. la licenciatura. Desde 1991 hasta
2004, estuvo con el Instituto Politécnico de Virginia y la Universidad Estatal, Lenze,
Siemens e Infineon. Sus intereses de investigación incluyen procesamiento de señales,
detección de eventos de audio, clasificación de escenas de audio, recuperación de
información musical, procesamiento de imágenes, redes neuronales y aprendizaje
automático interpretable.
Anna Kruspe anna.kruspe@dlr.de ) recibió su diploma y Ph.D. grados enAnna Kruspe anna.kruspe@dlr.de ) recibió su diploma y Ph.D. grados en
tecnología de medios de Technische Universität Ilemnau, Alemania, en 2011 y
2017, respectivamente. Es investigadora de aprendizaje automático en el Centro
Aeroespacial Alemán. Anteriormente, fue miembro del Instituto Fraunhofer de
Tecnología de Medios Digitales, Ilmenau, Alemania, donde su trabajo se centró en
la aplicación de tecnologías de reconocimiento de voz al canto (por ejemplo, para la
identificación del idioma, la detección de palabras clave o la búsqueda basada en
letras), como así como el análisis de la música mundial. Ella realizó una
investigación en Johns Hopkins
Dsp music.en.es

Más contenido relacionado

Similar a Dsp music.en.es

Tipos actividades musica
Tipos actividades musicaTipos actividades musica
Tipos actividades musicaYael Quintar
 
Tics en la educacion musical
Tics en la educacion musicalTics en la educacion musical
Tics en la educacion musicalAngel Quinapanta
 
COMPILADO MÚSICA 1° MEDIO NOVIEMBRE 2021.pptx
COMPILADO MÚSICA 1° MEDIO  NOVIEMBRE 2021.pptxCOMPILADO MÚSICA 1° MEDIO  NOVIEMBRE 2021.pptx
COMPILADO MÚSICA 1° MEDIO NOVIEMBRE 2021.pptxKALINKAMENA
 
Modulo 6 diseño_de_sonido
Modulo 6 diseño_de_sonidoModulo 6 diseño_de_sonido
Modulo 6 diseño_de_sonidosonologia
 
Resultados de la gran encuesta del rock nacional 2013
Resultados de la gran encuesta del rock nacional 2013Resultados de la gran encuesta del rock nacional 2013
Resultados de la gran encuesta del rock nacional 2013Felipe Szarruk
 
Lenguaje radiofonico
Lenguaje radiofonicoLenguaje radiofonico
Lenguaje radiofonicogcarolina3
 
UNIDAD DIDÁCTICA_reflexionar la escritura
UNIDAD DIDÁCTICA_reflexionar la escrituraUNIDAD DIDÁCTICA_reflexionar la escritura
UNIDAD DIDÁCTICA_reflexionar la escrituraAzul Verdoso
 
Anthony Ovando - Los investigadores Dinámicos
Anthony Ovando - Los investigadores DinámicosAnthony Ovando - Los investigadores Dinámicos
Anthony Ovando - Los investigadores DinámicosAnthony998
 
Zenen domínguez centurion actividad 12 ¿y en tu área la ai (1)
Zenen domínguez centurion   actividad 12 ¿y en tu área la ai  (1)Zenen domínguez centurion   actividad 12 ¿y en tu área la ai  (1)
Zenen domínguez centurion actividad 12 ¿y en tu área la ai (1)ZENN4
 
Instrumentos virtuales final
Instrumentos virtuales finalInstrumentos virtuales final
Instrumentos virtuales finalmusicacrh
 

Similar a Dsp music.en.es (20)

3
33
3
 
Conferencia Diana Fernandez Calvo
Conferencia Diana Fernandez Calvo Conferencia Diana Fernandez Calvo
Conferencia Diana Fernandez Calvo
 
Tipos actividades musica
Tipos actividades musicaTipos actividades musica
Tipos actividades musica
 
Tics en la educacion musical
Tics en la educacion musicalTics en la educacion musical
Tics en la educacion musical
 
COMPILADO MÚSICA 1° MEDIO NOVIEMBRE 2021.pptx
COMPILADO MÚSICA 1° MEDIO  NOVIEMBRE 2021.pptxCOMPILADO MÚSICA 1° MEDIO  NOVIEMBRE 2021.pptx
COMPILADO MÚSICA 1° MEDIO NOVIEMBRE 2021.pptx
 
Modulo 6 diseño_de_sonido
Modulo 6 diseño_de_sonidoModulo 6 diseño_de_sonido
Modulo 6 diseño_de_sonido
 
Resultados de la gran encuesta del rock nacional 2013
Resultados de la gran encuesta del rock nacional 2013Resultados de la gran encuesta del rock nacional 2013
Resultados de la gran encuesta del rock nacional 2013
 
Joiner smith cordero la musica
Joiner smith cordero la musicaJoiner smith cordero la musica
Joiner smith cordero la musica
 
Art73
Art73Art73
Art73
 
Lenguaje radiofonico
Lenguaje radiofonicoLenguaje radiofonico
Lenguaje radiofonico
 
Proyecto musica
Proyecto musicaProyecto musica
Proyecto musica
 
UNIDAD DIDÁCTICA_reflexionar la escritura
UNIDAD DIDÁCTICA_reflexionar la escrituraUNIDAD DIDÁCTICA_reflexionar la escritura
UNIDAD DIDÁCTICA_reflexionar la escritura
 
La musica.
La musica.La musica.
La musica.
 
Anthony Ovando - Los investigadores Dinámicos
Anthony Ovando - Los investigadores DinámicosAnthony Ovando - Los investigadores Dinámicos
Anthony Ovando - Los investigadores Dinámicos
 
Zenen domínguez centurion actividad 12 ¿y en tu área la ai (1)
Zenen domínguez centurion   actividad 12 ¿y en tu área la ai  (1)Zenen domínguez centurion   actividad 12 ¿y en tu área la ai  (1)
Zenen domínguez centurion actividad 12 ¿y en tu área la ai (1)
 
La música
La músicaLa música
La música
 
Guia didacticademusica
Guia didacticademusicaGuia didacticademusica
Guia didacticademusica
 
Guia didacticademusica
Guia didacticademusicaGuia didacticademusica
Guia didacticademusica
 
Instrumentos virtuales final
Instrumentos virtuales finalInstrumentos virtuales final
Instrumentos virtuales final
 
Radio ambiente Laguna de Rocha
Radio ambiente Laguna de RochaRadio ambiente Laguna de Rocha
Radio ambiente Laguna de Rocha
 

Último

el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzprofefilete
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxzulyvero07
 
Herramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdfHerramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdfMARIAPAULAMAHECHAMOR
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfAngélica Soledad Vega Ramírez
 
Historia y técnica del collage en el arte
Historia y técnica del collage en el arteHistoria y técnica del collage en el arte
Historia y técnica del collage en el arteRaquel Martín Contreras
 
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxlclcarmen
 
PRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptx
PRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptxPRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptx
PRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptxinformacionasapespu
 
codigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karinacodigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karinavergarakarina022
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADOJosé Luis Palma
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxjosetrinidadchavez
 
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSTEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSjlorentemartos
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptxFelicitasAsuncionDia
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónLourdes Feria
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIACarlos Campaña Montenegro
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Lourdes Feria
 
Manual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfManual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfMaryRotonda1
 
texto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticostexto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticosisabeltrejoros
 

Último (20)

Presentacion Metodología de Enseñanza Multigrado
Presentacion Metodología de Enseñanza MultigradoPresentacion Metodología de Enseñanza Multigrado
Presentacion Metodología de Enseñanza Multigrado
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
 
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptxACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
ACUERDO MINISTERIAL 078-ORGANISMOS ESCOLARES..pptx
 
Herramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdfHerramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdf
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
 
Historia y técnica del collage en el arte
Historia y técnica del collage en el arteHistoria y técnica del collage en el arte
Historia y técnica del collage en el arte
 
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
 
PRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptx
PRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptxPRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptx
PRIMER SEMESTRE 2024 ASAMBLEA DEPARTAMENTAL.pptx
 
codigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karinacodigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karina
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
 
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOSTEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
TEMA 13 ESPAÑA EN DEMOCRACIA:DISTINTOS GOBIERNOS
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptx
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcción
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...
 
Manual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfManual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdf
 
texto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticostexto argumentativo, ejemplos y ejercicios prácticos
texto argumentativo, ejemplos y ejercicios prácticos
 

Dsp music.en.es

  • 1. 82 Eric J. Humphrey, Sravana Reddy, Prem Seetharaman, Aparna Kumar, Rachel M. Bittner, Andrew Demetriou, Sankalp Gulati, Andreas Jansson, Tristan Jehan, Bernhard Lehner, Anna Kruspe y Luwei Yang REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 | 1053-5888 / 19 © 2019IEEE PROCESAMIENTO DE SEÑAL MUSICAL Hlos humanos han ideado una gran variedad de instrumentos musicales, peroHlos humanos han ideado una gran variedad de instrumentos musicales, pero El instrumento más frecuente sigue siendo la voz humana. Por lo tanto, las técnicas para aplicar métodos de procesamiento de señales de audio a la voz que canta están recibiendo mucha atención a medida que el mundo continúa avanzando hacia los servicios de transmisión de música y los investigadores buscan desbloquear la comprensión del contenido profundo necesaria para permitir experiencias de escucha personalizadas a gran escala. Este artículo proporciona una introducción al tema del análisis de voz y canto. Examina los fundamentos y el estado del arte en el modelado computacional en tres categorías principales de canto: vocalizaciones generales, la función musical de la voz y el canto de las letras. Nuestro objetivo es establecer un punto de partida para los profesionales nuevos en este campo y enmarcar las oportunidades y los desafíos del campo cercano en el horizonte. Poder de la voz humana La voz humana domina casi todas las culturas musicales. La voz, a través del canto, puede funcionar como un instrumento musical y al mismo tiempo transmitir un significado semántico. La teoría del campo de la psicología sugiere que las personas generalmente encuentran la voz humana especialmente destacada y poderosa y que la voz humana es un factor significativo, quizás el factor más significativo, que afecta nuestro comportamiento de escuchar música. La investigación ha sugerido que la música existe debido al complejo sistema que permite a los humanos comunicarse, interpretar y sentir emociones a través de los sonidos vocales [1]. Dados estos fuertes vínculos antropológicos entre la música y la voz, no es sorprendente que el canto desempeñe un papel destacado en la cultura musical moderna; El karaoke, por ejemplo, es una industria mundial de mil millones de dólares. Por lo tanto, la investigación del procesamiento de señales digitales se ha centrado durante mucho tiempo en métodos y técnicas para modelar la voz humana. Los primeros avances en los esfuerzos para codificar y transmitir el habla para los sistemas de telecomunicaciones [2] allanaron el camino para el procesamiento de la información del canto, el estudio de las técnicas de procesamiento de señales en la voz humana en contextos musicales [3]. El procesamiento de la información del canto puede representarse como un sistema cíclico donde, bajo condiciones ideales, una señal de audio se transforma, mediante análisis, en descriptores o símbolos de alto nivel, como tono o letra; la rica información simbólica se puede transformar, mediante síntesis, en señales de audio de canto; y, cayendo entre análisis Identificador de objeto digital 10.1109 / MSP.2018.2875133 Fecha de publicación: 24 de diciembre de 2018 Una introducción al procesamiento de señales para el análisis de voz y canto Notas altas en el esfuerzo por automatizar la comprensión de las voces en la música. © ISTOCKPHOTO.COM / TRAFFIC_ANALYZER
  • 2. 83REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 | y síntesis, los efectos pueden aplicarse a audio o información simbólica manipulando representaciones intermedias entre los dos dominios. Un efecto vocal popular, por ejemplo, es el de la corrección de tono ("autoajuste"), donde se analiza una señal de audio vocal, el tono estimado a lo largo del tiempo se cuantifica en una tecla determinada y la señal de voz se vuelve a sintetizar. A partir de finales del siglo XX, el campo de la recuperación de información musical (MIR) ha desarrollado técnicas y métodos para diversas aplicaciones de procesamiento de información de canto. Si bien muchos investigadores han hecho contribuciones a este campo, el trabajo de dos grupos en particular se destaca: el Grupo de Tecnología de la Música (MTG) en la Universitat Pompeu Fabra en España, bajo la dirección de Xavier Serra, y el Instituto Nacional de Ciencia Industrial Avanzada y Tecnología (AIST) de Japón, bajo la dirección de Masataka Goto. Los investigadores del MTG tienen una larga historia de avance en el estado del arte en la síntesis de voz y canto, lo que resulta en productos comerciales y estudios publicados [4]. Mientras tanto, los esfuerzos de AIST son notables por su novedad y amplitud,[4]. Mientras tanto, los esfuerzos de AIST son notables por su novedad y amplitud, abarcando casos de uso en producción musical, educación y consumo [5]. Una de las revisiones más exhaustivas de la investigación del procesamiento de la información del canto hasta la fecha apareció como un tutorial en la 16ª Conferencia de la Sociedad Internacional de Recuperación de Información Musical en Málaga, España, en 2015 [43]. Este tutorial proporcionó una lista exhaustiva de métodos, conjuntos de datos, herramientas y aplicaciones, incluidos ejemplos del mundo real de diferentes estilos de canto. Dada la omnipresencia de la voz en la música, existe una gran demanda de mejoras en el procesamiento de la información del canto. Ahora que los servicios de transmisión de música son la forma de facto para que las personas de todo el mundo no solo escuchen música sino que también descubran nuevas canciones, la recomendación personalizada es una aplicación muy prometedora. Un estudio reciente confirma que los oyentes que transmiten música están especialmente en sintonía con la percepción del canto [6]. De varios cientos de usuarios encuestados (tasa de respuesta del 1,2%), oyentes indicó que las voces (29.7%), las letras (55.6%) o ambas (16.1%) se encuentran entre los atributos más destacados que notan en la música. Además, se descubrió que las cuatro categorías de contenido "amplio" más importantes son emoción / estado de ánimo, voz, letra y ritmo / ritmo. Mientras tanto, dijeron los oyentes y las siete categorías semánticas vocales más importantes son habilidad, “ajuste vocal” (a la música), lirismo, el significado de las letras, autenticidad, singularidad y emoción vocal. Los atributos de contenido de alto nivel como estos se pueden combinar con enfoques de recomendación tradicionales (por ejemplo, filtrado colaborativo, máquinas de factorización o redes profundas) para alcanzar un nivel de matiz que sería difícil de lograr solo con señales de interacción del usuario (por ejemplo, retroalimentación explícita o listas de reproducción seleccionadas). Además, los métodos informados por el contenido son necesarios para la recomendación de arranque en frío (es decir, descubrimiento), un problema inherente para los algoritmos que se basan únicamente en las señales del usuario. Aunque los enfoques respaldados por expertos, como el adoptado por Music Genome Project (https://www.pandora.com/about/mgp), han logrado un progreso considerable en la última década, la demanda de mejoras adicionales está aumentando junto con el crecimiento aparentemente ilimitado en la cantidad de contenido de música digital y en la cantidad de oyentes. Solo a través de la automatización de la descripción del contenido musical será posible combinar tanto contenido con tantos oyentes. La demanda de nuevas mejoras está aumentando junto con el crecimiento aparentemente ilimitado en la cantidad de contenido de música digital y en la cantidad de oyentes. Solo a través de la automatización de la descripción del contenido musical será posible combinar tanto contenido con tantos oyentes. La demanda de nuevas mejoras está aumentando junto con el crecimiento aparentemente ilimitado en la cantidad de contenido de música digital y en la cantidad de oyentes. Solo a través de la automatización de la descripción del contenido musical será posible combinar tanto contenid En este artículo, nos enfocamos específicamente en el desafío de caracterizar automáticamente los atributos de la voz en la música como un problema autocontenido e independientemente comprobable. Una vista holística del análisis del canto se muestra en la figura 1, que proporciona la estructura básica de este artículo. Primero describimos los fundamentos de la voz y el canto humanos, proporcionamos notación para representar el canto en la música grabada e introducimos modelos computacionales comunes de la voz. Las diferentes aplicaciones del análisis del canto se agrupan por sus relaciones con la música y el lenguaje natural: sonido vocalizado en general, voz en contextos musicales y canto de letras. Una vez descritos los enfoques para caracterizar automáticamente la voz, ofrecemos Detección de actividad ... Información simbólica Separación de fuente de música grabada Transformación de tiempo-frecuencia Representaciones de nivel medio Género ... Letra ... Espectrograma de Mel Hora Timbre Volumen Tono Hora FIGURA 1. Una visión general de alto nivel de los sistemas de análisis de canto: la música grabada es opcionalmente preprocesada por un algoritmo de separación de fuente antes de sufrir transformaciones de características paraFIGURA 1. Una visión general de alto nivel de los sistemas de análisis de canto: la música grabada es opcionalmente preprocesada por un algoritmo de separación de fuente antes de sufrir transformaciones de características para extraer descriptores o información simbólica. Dependiendo de la tarea, el aprendizaje automático puede aplicarse entre estas operaciones o de una manera "de extremo a extremo". Frecuencia MFCCVolumenFrecuencia
  • 3. 84 REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 | Algunos pasos concretos en este linaje de investigación, y concluimos con una evaluación de los posibles desafíos y oportunidades que enfrenta la investigación de análisis de canto. Fundamentos del canto La compresión y expansión, o rarefacción, de las moléculas de aire provoca una propagación de las oscilaciones conocidas como onda acústicapropagación de las oscilaciones conocidas como onda acústica Estas fluctuaciones pueden expresarse como una combinación de sinusoides puros de tal manera que los humanos perciban las frecuencias en el rango de 20 a 20,000 Hz como sonido. Clasificado como un aerófono en la taxonomía Hornbostel-Sachs, la voz humana produce sonido al mover el aire, forzado desde el diafragma, a través de las cuerdas vocales, haciendo que resuenen. Este sonido armónico se forma a través de la boca, con variedades de sibilancia agregadas de los dientes, los labios y la lengua. La formación fisiológica de diferentes sonidos en las cuerdas vocales y la glotis se conoce como fonación,conoce como fonación, así es como los humanos transmiten diferentes fonemas en el habla y diferentes estilos de voz en el canto. Los enfoques computacionales para modelar la voz humana se dividen en categorías físicas o espectrales [4]. Se entiende mucho sobre los órganos vocales humanos, por lo que se pueden usar modelos físicos para demostrar cómo la voz produce sonido. La teoría de fuente-filtro, un enfoque que se aplica también a una variedad de instrumentos de cuerda y viento, representa la producción de sonido como un proceso de dos etapas, donde una señal de fuente se ve afectada por la respuesta al impulso de un filtro. La fuente puede expresarse (por ejemplo, vocales periódicas como [ una]) o sin voz (por ejemplo, fricativas aperiódicas como [ F]). En elperiódicas como [ una]) o sin voz (por ejemplo, fricativas aperiódicas como [ F]). En elperiódicas como [ una]) o sin voz (por ejemplo, fricativas aperiódicas como [ F]). En elperiódicas como [ una]) o sin voz (por ejemplo, fricativas aperiódicas como [ F]). En elperiódicas como [ una]) o sin voz (por ejemplo, fricativas aperiódicas como [ F]). En el caso de una señal fuente sonora, las cuerdas vocales vibran y generan una señal similar a la de una cuerda vibrante. El tono o frecuencia fundamental () F 0 0 deF 0 0 deF 0 0 de un sonido sonoro está determinado por la velocidad a la que vibran las cuerdas vocales, y los picos posteriores creados en múltiplos de F 0 0y los picos posteriores creados en múltiplos de F 0 0y los picos posteriores creados en múltiplos de F 0 0 son llamados Armónicos. Las frecuencias más altas están amortiguadas, con unason llamados Armónicos. Las frecuencias más altas están amortiguadas, con unason llamados Armónicos. Las frecuencias más altas están amortiguadas, con una pendiente descendente de aproximadamente −12 dB por octava. En el caso de una señal fuente sorda, se crea un ruido turbulento con los dientes, los labios, la lengua y, en caso de susurro, la glotis. Se supone que el tracto vocal, un resonador acústico en forma de tubo que actúa como filtro, es independiente de la señal fuente. Las frecuencias de resonancia son la consecuencia directa del tracto vocal, causando lo que se conoce como formantes Son el principal contribuyente a la envoltura espectralque se conoce como formantes Son el principal contribuyente a la envoltura espectralque se conoce como formantes Son el principal contribuyente a la envoltura espectral de la voz (es decir, las amplitudes relativas de la serie armónica) y cambian junto con la longitud y la forma del tracto vocal. En comparación con las cuerdas vocales vibrantes (fuente), el tracto vocal (filtro) solo puede exhibir alternancias relativamente lentas. Los formantes permiten la articulación de diferentes vocales y una gran cantidad de timbres diferentes. Debido a la independencia de fuente y filtro, es posible estimar un componente para reconstruir el segundo. Por lo tanto, en el análisis de señales vocales, la envoltura espectral es de interés específico, ya que determina el timbre (todo lo que no es tono o volumen) en gran medida. Un método destacado para estimar el filtro / envoltura espectral es la predicción lineal, y sus resultados son los coeficientes predictivos lineales (LPC) [2]. La idea básica es que la amplitud actual de una señal digital variable en el tiempo es predecible (aproximadamente) a partir de una combinación lineal de sus valores pasados. El error de este modelo lineal es igual a señal fuente relacionada con las características de las cuerdas vocales, lo que hace que la fuente y el filtro sean separables. En contraste, los enfoques espectrales miden las contribuciones relativas de los componentes sinusoidales en las señales, a menudo a través del análisis a corto plazo bajo supuestos de estacionariedad local. Uno de los primeros enfoques utilizó el modelado sinusoidal, que ajusta las frecuencias y amplitudes de varios osciladores que varían en el tiempo a una señal. Este método se extendió más tarde para modelar la señal residual como ruido solo o como ruido y transitorios [4]. Aunque tiene las propiedades de ser compacto y completo, el modelado sinusoidal puede ser computacionalmente costoso y bastante sensible a la presencia de otras señales. Como resultado, es más común modelar características del tracto vocal a través de coeficientes cepstrales de frecuencia de mel (MFCC). Los MFCC se han utilizado específicamente para el análisis musical desde su introducción por [7] y, Los MFCC se calculan mediante un proceso de dos etapas. Primero, se aplica un banco de filtros mel a las señales de audio, generalmente a través de la transformada rápida de Fourier para mayor eficiencia, de modo que los componentes de frecuencia se colapsan en 30 a 120 filtros de forma triangular medio superpuestos a lo largo de una escala de frecuencia basada en psicoacústica. Luego, las señales se transforman en el dominio cepstral computando y aplicando una transformada discreta del coseno (DCT) a los espectros de magnitud logarítmica, decorelacionando así los coeficientes del banco de filtros mel. Al descartar algunos de los coeficientes de orden superior de la DCT, se obtiene la representación de una envoltura espectral de paso bajo, que se puede reconstruir aplicando la DCT inversa. Más recientemente, el "fluctograma" se ha propuesto como una representación alternativa de tiempo y frecuencia específica para la voz que canta. Es importante destacar que la motivación para estos modelos se basa en el supuesto de que la señal de interés contiene una sola voz grabada de forma aislada. Sin embargo, la mayoría de las grabaciones en entornos de música de consumo son el resultado de una producción de sonido profesional, también conocida como "mezcla", un proceso artístico que combina varias señales de audio dispuestas en el tiempo, sujetas a cualquier cantidad de procesadores de efectos complejos (por ejemplo, compresión , ecualización, reverberación y distorsión). Para mayor claridad, este proceso puede expresarse como la suma de norte señales de audio digital, marcadas como []suma de norte señales de audio digital, marcadas como []suma de norte señales de audio digital, marcadas como [] [] [] [],xt t fxt tnN norte norte norte0 0 )una zR= = ^ h dónde una defineh dónde una defineh dónde una defineh dónde una define una ganancia variable en el tiempo y F una cadena de efectos arbitraria, a menudo no lineal, conuna ganancia variable en el tiempo y F una cadena de efectos arbitraria, a menudo no lineal, conuna ganancia variable en el tiempo y F una cadena de efectos arbitraria, a menudo no lineal, con sus parámetros compuestos []tnortez En este artículo, nosotros use "música grabada" para referirse a la señal resultante [],xt yxt y "Voz" como todos K señales"Voz" como todos K señales"Voz" como todos K señales , ,x KNk # que fueron producidos por voces humanas (tenga en cuenta, sin embargo, que el verdadero número de señales de voz, Kvoces humanas (tenga en cuenta, sin embargo, que el verdadero número de señales de voz, K en una grabación no necesariamente corresponderá al número de voces distintas que percibe un oyente). A menudo, en la música, una o más de estas señales de voz surgirán como la voz "principal", por lo que un oyente típico percibe una sola voz como particularmente destacada. Robusto, a nivel humano
  • 4. 85REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 | Por lo tanto, la comprensión del canto en la música grabada presenta la compleja tarea adicional de identificar primero la voz en medio de múltiples sonidos antes de extraer alguna información de alto nivel deseada. Al crear la arquitectura para que los sistemas de análisis vocal funcionen con música grabada, se puede tomar cualquiera de los tres enfoques básicos. Primero, un sistema podría diseñarse para considerar solo partes de la señal de música donde la voz está naturalmente aislada (es decir, puntos en los que todas las señales no vocales son silenciosas). Este enfoque es conceptualmente directo, pero tiene tres inconvenientes principales. El sistema está limitado por su capacidad de discriminar una voz solista de todas las demás condiciones, y cualquier error se propagará a través del sistema. No hay garantías de que las voces aisladas ocurran con suficiente frecuencia en una grabación para realizar alguna tarea. Aun así, las vistas ocasionales de la señal serán inadecuadas para aplicaciones que requieren información completa independientemente de la interferencia (por ejemplo, transcripción de melodía o letra). Otro enfoque, descrito en una gran cantidad de trabajo en la separación de la fuente de música, intenta aislar una fuente de sonido de interés dada una mezcla de otras señales [9]. Los algoritmos de separación de fuentes generalmente se dividen en una de dos categorías: los que explotan el conocimiento del dominio de la música en la aplicación de algoritmos de descomposición de señales (por ejemplo, análisis de componentes independientes, factorización de matriz no negativa, análisis robusto de componentes principales) o aquellos que utilizan métodos basados ​​en datos que actúan como filtros para producir directamente la señal de voz de forma aislada. Para el primero, la voz del canto es a menudo escasa y no repetitiva en una mezcla musical, y los algoritmos pueden explotar estas propiedades para realizar la separación de la voz del canto [10]. El acompañamiento a menudo se considera "rango bajo", ya que consiste en instrumentos (por ejemplo, batería o guitarra tocando patrones repetitivos), mientras que la voz es monofónica e irregular. De manera complementaria, las técnicas de descomposición de audio se pueden aplicar en cascada para desarmar la grabación de música en un conjunto de componentes de nivel medio que son lo suficientemente finos como para modelar varias características de la voz de canto, mientras que son lo suficientemente gruesos como para mantener un significado semántico explícito componentes [11]. Más recientemente, las redes neuronales profundas han surgido en la separación de voz y canto como poderosos filtros no lineales. Estos algoritmos están entrenados en pares existentes de mezclas alineadas y señales de voz aisladas, con el objetivo de minimizar el error entre las señales vocales verdaderas y estimadas. Los enfoques modernos de profundización muestran una promesa particular, y varios trabajos continúan explorando diferentes arquitecturas, funciones objetivas, y fuentes de datos [12]. Para trazar el progreso en esta área, la Campaña de evaluación de separación de señales es un evento anual dirigido por la comunidad organizado para comparar de manera sistemática y reproducible algoritmos de separación de fuentes [13]. El tercer enfoque, y el más directo, es desarrollar modelos o características que puedan caracterizar la voz a pesar de la presencia de señales interferentes. En la práctica, los MFCC o LPC han demostrado ser razonablemente útiles como consecuencia de la práctica estándar en la producción de sonido; típicamente, aunque de ninguna manera siempre, las voces principales son la señal predominante en la mezcla y, por lo tanto, la información vocal también tiende a dominar estas representaciones. Para algunas tareas, la ingeniería de características ha demostrado ser bastante efectiva, pero existen limitaciones obvias para este enfoque. Más genérico Además, dados los avances en el aprendizaje automático, y en particular el aprendizaje profundo, las representaciones genéricas de frecuencia de tiempo (p. ej., MFCC o espectrogramas) o las formas de onda sin procesar en el dominio del tiempo pueden usarse como entradas para redes neuronales profundas. Los métodos basados ​​en datos permiten al sistema separar los atributos de señal relevantes para la voz dado un objetivo, pero presentan sus propios desafíos con respecto a la recopilación de datos, la capacitación y el cómputo. Veremos cómo se aplican estos tres enfoques en función de la tarea, el modelo y los datos. Aplicaciones de análisis de canto Desde la perspectiva de la escucha de música a escala web, el análisis de la voz del canto tiene como objetivo extraer información de alto nivel de las señales de audio para permitir que los sistemas aborden algunas necesidades del usuario (por ejemplo, encontrar música instrumental o canciones sin improperios). Este espacio de aplicación es amplio, dada la variedad de sonidos que puede producir la voz humana, por lo que es útil distinguir entre las diferentes categorías de sonido dentro de este espacio. La musicalidad y el lenguaje natural se pueden representar como dos subconjuntos parcialmente superpuestos (Figura 2), cuya unión se encuentra dentro de un espacio de vocalización más amplio: por ejemplo, uno puede cantar sin cumplir las reglas de cualquier lenguaje natural (por ejemplo, tarareo o scat), comunicarse a través del habla de forma musical, o producir una variedad de sonidos que califican como ninguno de los dos. Observando que se ha prestado mucho tiempo y atención al análisis computacional del habla [2], enfocamos nuestra atención aquí en tres tipos de canto, cada uno con miras a las aplicaciones musicales correspondientes: ■ Vocalización: Primitivas acústicas de la voz que son comunes a los contextosVocalización: Primitivas acústicas de la voz que son comunes a los contextos musicales y lingüísticos, que contribuyen a tareas tales como la actividad vocal, la clasificación de la técnica y la identificación del vocalista ■ Música vocal: cantar en contextos musicales, que dan lugar a laMúsica vocal: cantar en contextos musicales, que dan lugar a la entonación, la melodía y el género al establecer o reforzar los elementos de armonía, ritmo y timbre Vocalización Canto Habla Letras De Sung S METRO L FIGURA 2. Una ilustración de la relación establecida entre la musicalidad a través del espacio delFIGURA 2. Una ilustración de la relación establecida entre la musicalidad a través del espacio del sonido producido por la voz humana (S) de modo que "cantar" comprende vocalizaciones en una gramática musical (M), "habla" como vocalizaciones en una gramática lingüística (L) , y "letras cantadas" como la intersección de los dos, .ML+
  • 5. 86 REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 | ■ Letras de Sung: La intersección de la musicalidad y el lenguaje, con aplicacionesLetras de Sung: La intersección de la musicalidad y el lenguaje, con aplicaciones similares a las del reconocimiento de voz, como la identificación del lenguaje, la alineación de audio-texto y la transcripción. Antes de continuar, ofrecemos algunas notas para su consideración. Primero, estos dominios están ordenados por nivel de abstracción, que sirve como una guía aproximada de dificultad computacional (por ejemplo, la actividad vocal es más simple que la estimación de la melodía, y ambos son más simples que la transcripción de letras; sin embargo, esto no quiere decir que ninguno de Estas tareas son triviales, ya que todas son áreas de investigación abiertas). Las tareas relacionadas generalmente emplean enfoques similares, y las tareas o representaciones de nivel inferior a menudo se reutilizan en las de nivel superior. Finalmente, las aplicaciones presentadas aquí están conectadas a dimensiones sobresalientes reportadas por los oyentes cuando son relevantes, tanto para motivar e identificar oportunidades para el trabajo futuro. Vocalización Como se describió anteriormente, la vocalización abarca el superconjunto de sonidos producidos por la voz humana. Dado que los oyentes son particularmente sensibles a la presencia de la voz en general, la primera etapa del análisis del canto tiene como objetivo caracterizar las primitivas acústicas de la voz. Estos sistemas se centran en la voz humana como fuente de sonido y, por lo tanto, comparten las propiedades comunes de que no están inherentemente restringidos a las aplicaciones musicales. Como resultado, estos sistemas encuentran una aplicación adicional en los sistemas de análisis de voz de nivel superior (por ejemplo, solo aplican la transcripción de letras cuando la voz está presente para reducir errores). Detección de actividad La detección automática de la voz de canto en la música grabada encuentra un uso inmediato en contextos de recomendación (p. Ej., Identificar música de "enfoque"). Denominado detección de actividad vocalDenominado detección de actividad vocal ( VAD) tales sistemas generalmente predicen la probabilidad de actividad vocal en escalas de( VAD) tales sistemas generalmente predicen la probabilidad de actividad vocal en escalas de( VAD) tales sistemas generalmente predicen la probabilidad de actividad vocal en escalas de tiempo cortas (es decir, de 1 sa docenas de segundos) y se pueden aplicar de manera convolucional sobre señales más largas para producir estimaciones que varían en el tiempo; otros apuntan a hacer predicciones sobre una grabación completa. Las probabilidades de valor continuo pueden limitarse simplemente en algún punto de sesgo para producir decisiones binarias entre estados vocales o instrumentales. Alternativamente, en estimaciones que varían en el tiempo, el posprocesamiento [p. Ej., Modelos ocultos de Markov (HMM) o filtrado medio] puede usarse para evitar intervalos de detección espurios o breves. A un nivel alto, se pueden tomar dos enfoques básicos para detectar la presencia de una voz que canta desde una observación. El enfoque tradicional implica la ingeniería de características en combinación con clasificadores como bosques aleatorios, máquinas de vectores de soporte (SVM) o redes neuronales. El estado actual de la técnica con este enfoque utiliza características de fluctograma y delta-MFCC (es decir, diferencia de primer orden) que se alimentan a una memoria neuronal recurrente a largo plazo red [8]. Los enfoques alternativos utilizan redesneuronal recurrente a largo plazo red [8]. Los enfoques alternativos utilizan redes neuronales profundas de manera integral. El estado actual de la técnica con este enfoque produce resultados similares a los de su contraparte de ingeniería de características cuando se entrena sin aumento de datos [14]. Con el aumento de datos, los resultados parecen ser superiores, pero aún no está claro cómo los enfoques anteriores también se beneficiarían del aumento de datos. Un desafío particular que enfrentan los sistemas VAD es una mayor sensibilidad a la composición del conjunto de datos y la transferencia de dominio para capacitación y evaluación. Ambos enfoques discutidos anteriormente producen modelos que parecen distinguir incluso los instrumentos altamente armónicos que producen trayectorias de tono de voz de las voces de canto reales, como lo demuestran las tasas extremadamente bajas de falsos positivos en pruebas específicamente seleccionadas. Sin embargo, es especialmente importante hacer uso de la música instrumental para evaluar mejor el rendimiento [8]. El entrenamiento con música instrumental ayuda a disminuir las tasas de falsos positivos, mientras que evaluar música instrumental puede revelar ciertas debilidades en un modelo dado. Algoritmos insensibles a las variaciones del nivel de volumen pueden permitir una comparación significativa. De lo contrario, una brecha de rendimiento entre dos métodos: uno invariante de volumen, el otro no, posiblemente podría ser causado por un nivel conveniente de volumen para el método sensible al volumen. Para dar un ejemplo, para un método sensible a la sonoridad, el número de falsos positivos a menudo disminuirá junto con el nivel de sonoridad, contrario a la salida de un método invariante de sonoridad, donde el número de falsos positivos se mantiene constante. Clasificación técnica La percepción de la máquina de la técnica vocal, un área de investigación floreciente en el análisis de voz y canto, se relaciona con la afinidad o aversión del oyente a una grabación de música. Los modos de fonación son bloques de construcción importantes de técnicas vocales más avanzadas y sistemas de análisis correspondientes, como el reconocimiento de género o la transcripción de letras. La modelización técnica puede verse como una forma más granular de detección general de actividad vocal, donde las observaciones a corto plazo se clasifican en el tipo de actividad vocal presente. Para estos fines, el conjunto de datos de los modos de fonación consiste en vocales cantadas en uno de los cuatro modos de fonación principales: respirable, presionado, fluido y neutro [15]. Al usar un modelo de voz de canto que simula el flujo de aire y la presión a través de las cuerdas vocales, los autores del conjunto de datos logran una precisión del 65% con un clasificador de cuatro vías. VocalSet es un conjunto de datos de voz de canto que consiste en estas técnicas vocales más avanzadas [16]. Estas técnicas vocales incluyen vibrato, recta, respiración, alevines vocales, trino de labios, trino, trillo, canto inhalado, cinturones y habla. Algunas de estas técnicas se encuentran en un repertorio vocal básico, como el vibrato o el trino, mientras que otras, como el canto inhalado o los alevines vocales, se encuentran en repertorios más avanzados. La Figura 3 muestra los espectrogramas de cada una de estas técnicas para un cantante masculino en el conjunto de datos. Los espectrogramas de cada técnica son visualmente diferentes, a pesar de provenir del mismo cantante con la misma intención musical (p. Ej., Escalas de canto, arpegios y tonos largos). VocalSet se recopiló reclutando cantantes profesionales para cantar ejemplos de cada una de estas técnicas. El conjunto de datos consta de 20 cantantes (11 mujeres), cada uno canta estas diez técnicas en escalas, arpegios y tonos largos. VocalSet contiene 10.1 h de grabaciones. Utilizando redes neuronales convolucionales profundas, los autores del conjunto de datos lograron una precisión de 0.676 y una recuperación de 0.619 en una configuración de clasificación de diez vías. Cabe destacar que el papel de la fonación en la interpretación varía según las culturas musicales. Se han utilizado técnicas computacionales y cuantitativas para estudiar las variaciones de la técnica de canto en el
  • 6. 87REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 | Ópera de Beijing como resultado de la influencia educativa [17]; Fundado por diferentes instructores, los estudiantes de diferentes escuelas heredan las características de producción vocal correspondientes. Más allá de la descripción subjetiva del estilo de canto (p. Ej., Dulce, claro, frágil), los autores tienen en cuenta un conjunto diverso de características de audio comunes en el análisis de señales musicales, y Los resultados experimentales respaldan hallazgos previos en la literatura de musicología. Identificación del cantante La identificación automática de vocalistas en audio musical puede ayudar a abordar errores de metadatos e identificar colaboraciones en 4,096 2,048 1,024 512 0 0.5 1 1.5 2 2.5 3 3.5 4 Tiempo (a) 4,096 2,048 1,024 512 0 0.5 1 1.5 2 2.5 3 3.5 4 Tiempo (d) 4,096 2,048 1,024 512 0 0.5 1 1.5 2 2.5 3 3.5 4.5 4 4 Tiempo (e) 4,096 2,048 1,024 512 0 0.6 1.2 1.8 2.4 3 3.6 4.2 4.8 Tiempo (b) 4,096 2,048 1,024 512 0 0.6 1.2 1.8 2.4 3 3.6 4.2 4.8 Tiempo (c) 4,096 2,048 1,024 512 0 0.6 1.2 1.8 2.4 3 3.6 4.2 4.8 Tiempo (f) 4,096 2,048 1,024 512 0 0.6 1.2 1.8 2.4 3 3.6 4.2 4.8 Tiempo (g) 4,096 2,048 1,024 512 0 0.6 1.2 1.8 2.4 3 3.6 4.2 4.8 Tiempo (h) 4,096 2,048 1,024 512 0 0.6 1.2 1.8 2.4 3 3.6 4.2 4.8 Tiempo (i) 4,096 2,048 1,024 512 0 0.6 1.2 1.8 2.4 3 3.6 4.2 4.8 Tiempo (j) FIGURA 3. Espectrogramas de Mel de las diez técnicas vocales contenidas en el conjunto de datos VocalSet: (a) vibrato, (b) recto, (c) respirable, (d) alevines vocales, (e) trino de labios, (f) trino, (g) trillo , (h) canto inhalado, (i)FIGURA 3. Espectrogramas de Mel de las diez técnicas vocales contenidas en el conjunto de datos VocalSet: (a) vibrato, (b) recto, (c) respirable, (d) alevines vocales, (e) trino de labios, (f) trino, (g) trillo , (h) canto inhalado, (i) cinturón y (j) hablar. Cada uno es una interpretación de una técnica vocal específica del mismo cantante masculino. Las diferentes técnicas vocales producen espectrogramas característicos. (Hz)(Hz) (Hz)(Hz) (Hz)(Hz) (Hz) (Hz) (Hz) (Hz)
  • 7. 88 REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 | grabaciones, dos desafíos habitualmente recurrentes. Como otro grado de especificidad más allá del modelado técnico, el problema de la identificación del vocalista es uno que se beneficiará enormemente de los métodos basados ​​en datos. Si bien los esfuerzos en la identificación del cantante (ID del cantante) han producido pocos resultados, un sistema de nota procede mediante la extracción de segmentos vocales de las canciones, el cálculo de alguna representación característica diseñada y la clasificación con un modelo de aprendizaje automático de elección (por ejemplo, SVM o mezcla gaussiana modelos) [18]. Singer-ID es diferente del reconocimiento de la técnica vocal solo de dos maneras: 1) pueden ser necesarias escalas de tiempo más largas para distinguir entre diferentes vocalistas; y 2) no queda claro cuáles podrían ser los límites preceptuales o computacionales de la identificación del cantante en términos de precisión o rendimiento. Sin embargo, Música vocal Sobre la base de las vocalizaciones generales, ahora nos centramos en el análisis de la voz del canto en contextos musicales específicamente. Si bien el canto también puede transmitir un lenguaje natural, la "música vocal" se define como las composiciones o actuaciones musicales que presentan una o más voces humanas. Esto implica comprender que el canto se ajusta a las dimensiones básicas de la música: armonía (tono), ritmo (sincronización) y timbre (discriminación de fuente). Sin embargo, si bien el timbre abarca los rasgos distintivos de una fuente de sonido particular, aquí, la voz humana, un cantante se considera un instrumento monofónico, es decir, de un solo tono. Si bien la voz humana es capaz de producir múltiples sonidos de tono simultáneamente, la práctica es poco común y no se considera aquí. Como resultado del énfasis puesto en la armonía en la práctica de la teoría musical tradicional, Entonación La base armónica sobre la cual se construye una pieza musical se conoce como entonación.La base armónica sobre la cual se construye una pieza musical se conoce como entonación. En la música occidental popular, el sistema de afinación común se conoce como TemperamentoEn la música occidental popular, el sistema de afinación común se conoce como Temperamento igual de 12 tonos y se ha estandarizado por convención en A4 = 440 Hz. Mientras queigual de 12 tonos y se ha estandarizado por convención en A4 = 440 Hz. Mientras que algunos instrumentos populares producen sonido en intervalos de tono cuantificados (p. Ej., Piano), la voz humana es capaz de producir un tono arbitrario. Algunas tradiciones musicales no occidentales, como la música artística india (IAM), adoptan otros enfoques de entonación que complican el diseño de los sistemas de procesamiento de señales, lo que hace que la entonación Un tema de investigación relevante. Por contexto, IAM se refiere a dos tradiciones musicales artísticas del subcontinente indio, la música hindustani (también conocida como Música del norte de la India) y música carnática (también conocida como Músicacomo Música del norte de la India) y música carnática (también conocida como Músicacomo Música del norte de la India) y música carnática (también conocida como Músicacomo Música del norte de la India) y música carnática (también conocida como Música del sur de la India). Tanto la música hindustani como la carnática son tradicionesdel sur de la India). Tanto la música hindustani como la carnática son tradiciones centradas en el canto y, por lo tanto, la voz dicta efectivamente la entonación utilizada en una pieza. Raˉga se define como el marco melódico en IAM y sirve como el concepto musical central utilizado en composición, interpretación, organización musical y pedagogía. La música hindustani y carnática se caracteriza por diferentes atributos melódicos, como svaras (más o menos, notas), entonación de svaras y frases melódicas características. Debido a la importancia y la variación inherentes al canto agudo, la falta de suposiciones simplificadoras sobre la afinación complica el análisis automático de este tipo de música. La música carnática, por ejemplo, no utiliza un esquema de afinación de igual temperamento, ya que está más cerca de la entonación justa de cinco límites, mientras que la música hindustani puede explicarse por una mezcla de afinación de igual temperamento y entonación justa de cinco límites (un cinco El sistema de ajuste de límite utiliza potencias de dos, tres y cinco para calcular notas en relación con una frecuencia de referencia). La entonación de svaras es una característica importante de una raˉga, por lo que las distribuciones de tono detalladas son informativas como resultado. Se ha demostrado, por ejemplo, que la forma del histograma de tono para diferentes svaras puede ayudar en la identificación automática de raˉgas [19]. Estimación de melodía La tarea de determinar el tono, o la frecuencia fundamental, de la voz que canta en la música a lo largo del tiempo generalmente se conoce como Estimación de la melodíamúsica a lo largo del tiempo generalmente se conoce como Estimación de la melodía vocal. Las melodías estimadas generalmente se representan en forma de series de tiempovocal. Las melodías estimadas generalmente se representan en forma de series de tiempo (tiempo, tono), donde el intervalo entre los pasos de tiempo es pequeño (por ejemplo, 10 ms), y los valores de tono son valores continuos (medidos en hertzios) en lugar de valores de nota discretos. La Figura 4 muestra un ejemplo de una melodía vocal estimada por un algoritmo (verde) trazado contra la melodía vocal de verdad fundamental (negro) para un breve extracto. Observe cómo al representar los valores de tono en una cuadrícula de frecuencia continua en lugar de discreta, la información, como el vibrato, se captura entre 50 y 51 s en la figura. Además, tenga en cuenta que parte de la tarea también es determinar dónde no hay melodía vocal presente. Hay tres tipos comunes de enfoques para la estimación de la melodía vocal [20]: saliencia, separación de fuente y aprendizaje automático. Los métodos basados ​​en la prominencia aprovechan la suposición de que las voces exhiben una serie armónica conocida. Para explotar esta información, estos enfoques primero estiman una representación de notoriedad vocal, una representación de frecuencia de tiempo derivada de una transformada de Fourier de corto tiempo, realizada reponderando la amplitud de cada intervalo de frecuencia de tiempo en función de la presencia o ausencia de armónicos relacionados. El propósito de esto es doble: 1) enfatizar el contenido que no es parte de la melodía vocal y 2) enfatizar el contenido que probablemente sea parte de la melodía vocal (es decir, contenido con muchos armónicos relacionados). Las representaciones de prominencia se calculan, por ejemplo, mediante suma armónica, percusión armónica 1,024 512 256 12848 49 50 51 52 53 54 55 56 Tiempo (s) FIGURA 4. Una melodía vocal estimada por un algoritmo (verde) contra la verdadFIGURA 4. Una melodía vocal estimada por un algoritmo (verde) contra la verdad (melodía vocal) melodía vocal (negra). Frecuencia(Hz)
  • 8. 89REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 | separación de fuente, o filtrado / ecualización. Después de calcular una representación destacada, estos métodos a menudo aplican reglas basadas en heurística para seleccionar las melodías vocales más probables de la representación calculada. Los métodos basados ​​en la separación de la fuente primero aíslan la voz del canto y luego aplican un rastreador de tono para calcular la melodía o, por el contrario, estiman conjuntamente la señal de audio de la voz del canto y la melodía vocal. Más recientemente, los métodos de aprendizaje automático se han utilizado para convertir la tarea en un problema de clasificación al discretizar el espacio de frecuencia con al menos una clase por semitono y predecir la clase más probable a lo largo del tiempo [21], [22]. Alternativamente, el aprendizaje automático se puede utilizar para aprender representaciones sólidas de prominencia [23]. La estimación de la melodía vocal tiene varias aplicaciones en la indexación y recuperación musical. Un objetivo de larga data de MIR se conoce como consulta por tarareo, donderecuperación musical. Un objetivo de larga data de MIR se conoce como consulta por tarareo, donderecuperación musical. Un objetivo de larga data de MIR se conoce como consulta por tarareo, donde un oyente puede buscar una colección de contenido vocalizando una melodía dada. La capacidad de encontrar grabaciones específicas por melodía probablemente resultaría en resultados relacionados y una recuperación basada en similitudes. Además, la melodía es una característica predominante de la música e informaría aún más el análisis de nivel superior, como el descubrimiento de patrones y la segmentación estructural (por ejemplo, miniaturas o detección de coros). La estimación de la melodía predominante también está en el centro del análisis de la voz de canto en IAM [24]. En una interpretación típica, el vocalista principal está acompañado por otro instrumento melódico, casi como una imitación rezagada del solista. Existen enfoques que explotan esta convención al rastrear los dos contornos melódicos simultáneamente, uno de los cuales es el del vocalista principal. Se han realizado intentos para automatizar la selección del contorno de tono correspondiente al artista principal mediante el uso de la inestabilidad temporal de los armónicos de la voz. Debido a los sutiles matices en la evolución temporal de las melodías (específicamente en las regiones transitorias entre dos svaras), el contorno de tono completo a menudo se usa como una característica de nivel medio para el análisis de voz de canto. A menudo, Género Entre los conceptos más abstractos de la música, el género se usa para describir las categorías musicales que emergen naturalmente de la influencia de una cultura sobre sí misma. Un género se establece mediante el uso o la reutilización de ciertos aspectos musicales, como la forma estructural, la instrumentación o los patrones melódicos, lo que conduce a una comprensión compartida entre grupos de personas. Varias formas de rock presentan prominentemente guitarras distorsionadas, por ejemplo, mientras que el blues es conocido por acordes dominantes y fraseo de 12 compases. Si bien existen numerosas características, a menudo inescrutables, que pueden contribuir a los límites de un género, aquí es relevante considerar aquellas que ponen un énfasis específico en la voz del canto. Una instancia es la de los subgéneros de la música metal, que se caracterizan por efectos vocales extremos [25]. Una de las principales motivaciones detrás del análisis de voz de canto en IAM es la identificación automática de raˉga. Recientemente, una técnica llamada superficies melódicas conautomática de raˉga. Recientemente, una técnica llamada superficies melódicas con retraso de tiempo Se ha demostrado que captura las características tonales yretraso de tiempo Se ha demostrado que captura las características tonales y temporales continuas de estas melodías, lo que resulta en una mejora significativa en la precisión del reconocimiento raˉga [26]. El rap es otra instancia notable de un género identificado en gran parte por características distintivas de entrega de voz rítmica. Se haidentificado en gran parte por características distintivas de entrega de voz rítmica. Se ha demostrado que solo 11 características inspiradas en la percepción conducen a una precisión de clasificación del 91% entre rapear y cantar con solo segmentos vocales aislados de 3 s [27]. Se descubrió que la característica más destacada es la proporción de cuadros sonoros a cuadros no silenciosos, lo que confirma el papel prominente del ritmo y la falta de características melódicas del rap, en contraste con la naturaleza más melódica del canto tradicional que se encuentra en la música contemporánea de ritmo y blues. El género también puede servir como un proxy adecuado para el estilo de canto, una caracterización musicalmente atractiva pero difícil de definir de la interpretación vocal (por ejemplo, teatral, agresiva o poderosa). Funciones específicas de voz, como estadísticas calculadas sobre frecuencia fundamental () F 0 0 contornos, son útiles para discriminarF 0 0 contornos, son útiles para discriminarF 0 0 contornos, son útiles para discriminar Nacimiento entre diferentes estilos de canto en enfoques supervisados ​​y no supervisados ​​[28]. Agrupar estas características ha permitido la organización semánticamente significativa de una colección de 50,000 extractos de música folklórica de todo el mundo, mientras que las incrustaciones a gran escala para el estilo vocal también son una vía prometedora de investigación [29]. Letras de canciones de Sung Vista desde la perspectiva de la lingüística, la comunicación vocal humana con el lenguaje tiene cuatro dimensiones [30]: ■ Fonemas: Los componentes básicos del lenguaje vocalizado, que representan unidadesFonemas: Los componentes básicos del lenguaje vocalizado, que representan unidades discretas de sonido ■ Prosodia: La articulación de fonemas a lo largo del tiempo, incluidos los aspectos deProsodia: La articulación de fonemas a lo largo del tiempo, incluidos los aspectos de inflexión, duración, frecuencia o entonación. ■ Vocabulario: La combinación de fonemas en palabras como objetos sonoros deVocabulario: La combinación de fonemas en palabras como objetos sonoros de nivel superior ■ Gramática: La composición secuencial y estructural de las palabras. En la intersecciónGramática: La composición secuencial y estructural de las palabras. En la intersección de la música y el lenguaje natural, el canto de las letras presenta dificultades únicas más allá de las que normalmente se enfrentan solo en el procesamiento del habla [31]. A menudo, las reglas de la gramática son dobladas o ignoradas por razones artísticas (por ejemplo, rima). Los elementos prosódicos están limitados por las dimensiones melódicas y rítmicas de una obra musical y no necesariamente por el idioma en el que se interpretan las letras. Por ejemplo, la frecuencia fundamental típica para el habla femenina se encuentra entre 165 y 200 Hz, mientras que en el canto puede alcanzar más de 1,000 Hz. Esto se complica aún más en un idioma tonal como el chino, donde la inflexión del tono también se utiliza para transmitir un significado semántico. Como resultado, los corpus de habla tradicionales son insuficientes para construir modelos basados ​​en datos para el análisis del canto, dado el grado de transferencia de dominio entre el lenguaje hablado y la música vocal. Mientras tanto, la instrumentación que acompaña complica los supuestos tradicionales con respecto al ruido en el procesamiento del habla, ya que típicamente todas las señales en la música grabada están correlacionadas armónicamente y temporalmente. Con eso en mente, ahora dirigimos nuestra atención a los métodos para la identificación del idioma, la alineación del audio y la letra, y la transcripción de la letra. Identificación del idioma La identificación del idioma del canto (SLID) puede verse como una simplificación de la transcripción integral de letras. En los servicios de música para poblaciones globales, el lenguaje predominante de interpretación
  • 9. 90 REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 | es un atributo valioso: proporciona una visión más profunda de los catálogos de música en entornos lingüísticamente diversos, como India o Filipinas; y, a través de una mayor comprensión del contenido, permite una comprensión más profunda de las preferencias de idioma del oyente. Este último es un problema complejo que enfrentan los sistemas de recomendación debido a las preferencias asimétricas hacia la música consumida en diferentes orígenes (por ejemplo, usuarios en el país X podría escuchar música del país Ydiferentes orígenes (por ejemplo, usuarios en el país X podría escuchar música del país Ydiferentes orígenes (por ejemplo, usuarios en el país X podría escuchar música del país Ydiferentes orígenes (por ejemplo, usuarios en el país X podría escuchar música del país Y pero no al revés). Los sistemas SLID convencionalmente abordan la tarea modelando las estadísticas de fonemas en escalas de tiempo largas, construyendo diferentes plantillas por idioma. Un esfuerzo moderno de destacar es el de [32], que se centra en 25 idiomas extraídos de 25,000 videos musicales. Los autores exploran una variedad de representaciones de características, aprovechando los descriptores acústicos y visuales agregados sobre el contexto temporal de la señal, alimentados a una serie de clasificadores binarios SVM (uno por idioma). Los resultados experimentales muestran que una combinación de características acústicas (espectrogramas, MFCC e imágenes auditivas estabilizadas) condujo a un rendimiento en un conjunto de pruebas del 44,7%; Al agregar características visuales, el sistema logró un 47,8% de precisión. Curiosamente, este sistema considera representaciones de características de propósito general, colocando la carga del modelado en un clasificador potente, Alineación de audio y letra La alineación temporal de las letras con el audio correspondiente es necesaria para aplicaciones tan populares como el karaoke y la subtitulación de videos musicales. La disponibilidad de alineaciones también hace posible una gran cantidad de aplicaciones, como ediciones automáticas de radio, reproducción que comienza / termina en líneas específicas y análisis de cómo las palabras en la música corresponden a ritmos, melodías y otras estructuras musicales [33]. Las alineaciones manuales no se escalan a grandes colecciones de audio, lo que plantea la necesidad de algoritmos de alineación automatizados precisos. El objetivo de la alineación automatizada, que se muestra en la Figura 5, es tomar el audio y la letra y producir una alineación temporal de las dos entradas. Las alineaciones son típicamente en el nivel de palabra, pero también pueden estar en el nivel de líneas o fonemas, dependiendo de la aplicación aguas abajo. Las alineaciones de nivel de línea pueden ser suficientes para productos como la subtitulación o algunas interfaces de karaoke. LyricAlly es un sistema de nota que detecta elementos estructurales como ritmos y ritmos, que se utilizan para segmentar el audio en la introducción, versos, coro, puente y coda [34]. Las líneas en las letras correspondientes a estas secciones se alinean con el audio segmentado. Las alineaciones a nivel de palabra, sílaba o fonema requieren mayor precisión. Algunos trabajos se basan en anotaciones, como archivos de interfaz digital instrumental musical (MIDI) u hojas de plomo; sin embargo, La comunidad de tecnología del habla usa un método llamado alineación forzada para alinear el tiempo de audio y transcripciones. Laalineación forzada para alinear el tiempo de audio y transcripciones. La alineación forzada implica encontrar la ruta de Viterbi a través de HMM que mapean fonemas a MFCC u otras características de la acústica. Estos HMM se entrenan a partir de grandes corpus de habla transcrita. Varios juegos de herramientas de voz, como CMU Sphinx (https: // cmusphinx.github.io), Hidden Markov Model Toolkit (http: // htk.eng.cam.ac.uk) y Kaldi (http: // kaldi- asr.org) implementa la alineación forzada, incluida la capacidad de entrenar los modelos acústicos HMM, con envoltorios, como el Montreal Forced Aligner (http://montreal-forced-aligner.readthedocs.io), proporcionando interfaces para estos programas. La alineación forzada funciona mejor cuando se especifican límites de nivel de línea o frase, ya que la calidad de la alineación se degrada con el audio durante más de un minuto. La alineación forzada forma la base de la mayoría de los algoritmos de alineación de letras y audio. Sin embargo, Introducido anteriormente, la alineación de letras es un área que utiliza la detección y separación vocal como pasos de preprocesamiento antes de la alineación para mitigar los desafíos que plantea la música grabada. Además, es posible reducir el sonido de sp SH Ella es Narración usted Giro Apagado Autopista t AYIAO1 NER1 TU s pag EY2SIH 0 L EH 1 TI FIGURA 5. Visualización de alineaciones automatizadas a nivel de palabra y fonema de un segmento de una canción generada con el software Praat (http://www.fon.hum.uva.nl/praat).FIGURA 5. Visualización de alineaciones automatizadas a nivel de palabra y fonema de un segmento de una canción generada con el software Praat (http://www.fon.hum.uva.nl/praat).
  • 10. 91 91REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 | instrumentos de acompañamiento con F 0 0 estimación y resíntesis y para adaptar losinstrumentos de acompañamiento con F 0 0 estimación y resíntesis y para adaptar losinstrumentos de acompañamiento con F 0 0 estimación y resíntesis y para adaptar losinstrumentos de acompañamiento con F 0 0 estimación y resíntesis y para adaptar los modelos acústicos HMM entrenados en el habla a un pequeño corpus de música [36]. Los sistemas también pueden usar marcadores de posición en el HMM para palabras como "sí, sí" que no se pueden capturar en la letra de referencia. La integración de información musical, como secuencias de acordes, también es útil para mejorar el rendimiento de alineación de letras [37]. Transcripción de letras La transcripción de letras generalmente se realiza en dos pasos: primero, las probabilidades de fonemas se reconocen en el audio del canto utilizando un modelo acústico; luego, los resultados se procesan con un modelo de lenguaje para obtener secuencias de palabras plausibles. Al igual que en el reconocimiento de voz, la mayoría de los primeros sistemas de transcripción de letras se basaban en HMM para el modelado acústico. Debido a la falta de datos de canto transcritos líricamente, muchos sistemas entrenaron modelos acústicos en lectura de voz, con modelos de lenguaje basados ​​en textos reales de letras. Por ejemplo, el modelado del lenguaje se puede lograr con un autómata de estado finito ajustado a la letra de una colección de canciones infantiles japonesas [38]. El sistema se prueba en frases cantadas que consisten en cinco palabras, sin acompañamiento, logrando una tasa de error de palabras del 36%. Al entrenar modelos acústicos específicos del hablante, Se han propuesto varias mejoras que incorporan la intuición sobre la percepción humana a las letras. Se observa que la separación de fuentes puede usarse como una técnica de preprocesamiento para mejorar la precisión del modelo. La repetición y la estructura de la música, como el coro, también pueden explotarse para mejorar la precisión de la transcripción [39]. Se proponen tres estrategias diferentes para combinar resultados individuales: promediación de características, selección de la instancia de coro con la mayor probabilidad y combinación usando el algoritmo de Reducción de errores de votación de salida del reconocedor (ROVER). Veinte canciones en inglés no acompañadas de la base de datos Real World Computing (RWC) se utilizaron para las pruebas; Las secciones de coro se seleccionaron manualmente. La mejor selección de instancias y las estrategias ROVER mejoran significativamente los resultados; con el enfoque ROVER y un modelo de lenguaje de propósito general, la tasa de error de fonema es del 74% (frente al 76% en el experimento de línea de base), mientras que la tasa de error de palabra mejora del 97% al 90%. Curiosamente, los casos con un bajo resultado inicial se benefician más de la explotación de la información de repetición. Para superar la falta de datos de entrenamiento realistas, se pueden usar algoritmos de alineación forzada para ajustar un conjunto de canto no acompañado con letras no alineadas [40]. Por ejemplo, las redes neuronales profundas se entrenan en MFCC de señales musicales para producir modelos acústicos específicos para el canto. Estos modelos producen mejores resultados enproducir modelos acústicos específicos para el canto. Estos modelos producen mejores resultados en comparación con aquellos capacitados en el habla, con una tasa de error de fonema que cae al 80%. En particular, se espera que las tasas de error de palabras y fonemas sean más altas en la transcripción de letras que en el reconocimiento de voz. Si bien se desconocen los límites del reconocimiento humano de las letras, el fenómeno de las letras "mal escuchadas" es común [41]. Una forma simplificada de transcripción de letras es la capacidad de identificar palabras específicas (por ejemplo, improperios) en las grabaciones. Muchas letras de canciones contienen improperios, y hay numerosos escenarios en los que es necesario saber cuándo ocurren estas palabras (por ejemplo, sesiones de audición "familiares"). En el caso de airplay, exple- Los tives son comúnmente "bleeped" o acústicamente removidos. La tarea de encontrar tales palabras se basa en las estrategias de alineación descritas anteriormente, aprovechando la amplia disponibilidad de letras textuales. El sistema procede alineando automáticamente las letras de texto al audio, buscando improperios predefinidos en el resultado y modificando posteriormente la señal donde se producen las instancias marcadas (por ejemplo, agregando ruido blanco como una ofuscación) [40]. El conjunto de datos de prueba consta de 80 canciones populares, la mayoría de ellas hip-hop. Las anotaciones indicaron 711 instancias con 48 improperios en estas canciones, y las letras de texto no alineadas coincidentes se recuperaron manualmente de Internet. Usando los modelos acústicos descritos allí, el 92% de los improperios se detectaron en sus posiciones correctas con una tolerancia de 1 s. Próximos pasos Comenzando con el análisis del canto Como lo ilustra la amplitud de la sección anterior, el análisis de la voz del canto es un área diversa de estudio con potencial para permitir una variedad de aplicaciones a gran escala. Sin embargo, esta amplia gama de posibilidades también puede dificultar decidir dónde y cómo sumergirse primero en este tema. Para ayudar a dirigir nuevas exploraciones en el análisis de voz de canto, hay tres tareas que recomendamos como buenos puntos de entrada: detección de actividad vocal, identificación de cantante y SLID. Cada uno puede enmarcarse como un problema de clasificación directo con medidas de evaluación objetivas (es decir, precisión, memoria, puntaje f) y en cada caso la tarea de encontrar o recopilar datos etiquetados es relativamente fácil. Para facilitar aún más esta exploración, también ofrecemos un tutorial de software de código abierto para la exploración autoguiada (https://github.com/spotify/ieee-spm-vocals-tutorial). La detección de actividad vocal es un punto de partida lógico para aquellos nuevos en el procesamiento de señales musicales interesados ​​en el análisis del canto. Al reconocer la actividad vocal como una percepción de bajo nivel, los sistemas computacionales pueden enfocarse en observaciones a corto plazo extraídas de señales de audio, simplificando tanto el etiquetado como el modelado como una tarea de clasificación binaria. Dado el estado cada vez más maduro del aprendizaje automático, el desafío de construir un sistema VAD reside más en la obtención o conservación de datos para capacitación y evaluación. Los dos conjuntos de datos convencionales utilizados en la investigación de VAD son las colecciones de Jamendo, aunque las colecciones más nuevas como MedleyDB (http: // medleydb.weebly.com/), OpenMIC-2018 (https://github.com/ cosmir / openmic-2018) o AudioSet (http://research.google.com/ audioset /) proporcionar(https://github.com/ cosmir / openmic-2018) o AudioSet (http://research.google.com/ audioset /) proporcionar más datos para entrenar tales modelos. Una ventaja particular de VAD como tarea es que su estructura simple permite estudiar los efectos de la composición del conjunto de datos en el rendimiento del modelo. Como se mencionó anteriormente, la inclusión de una cappella (voz solista) o música instrumental en un conjunto de datos puede ayudar a abordar falsos negativos o falsos positivos, respectivamente, pero también es posible sintetizar más datos de entrenamiento de grabaciones multipista (por ejemplo, MedleyDB). Otra oportunidad atractiva, de campo cercano, adecuada para los recién llegados al tema del análisis de la voz de canto es la de ID de cantante. Como se discutió, los métodos para la identificación del cantante están poco representados en la literatura, lo que deja un amplio margen para mejorar el estado del arte. Además, a menudo hay una correspondencia 1: 1 entre el artista de grabación (o grupo) y el vocalista (es decir, una banda presenta un solo cantante en todas sus grabaciones), y es
  • 11. 92 REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 | es posible recopilar grandes conjuntos de datos para entrenar modelos de aprendizaje automático sin demasiado esfuerzo. Esta observación se puede combinar con algoritmos modernos de separación de fuentes para producir aproximaciones razonables de las voces de forma aislada, mitigando cualquier factor de confusión de la instrumentación. Este enfoque se puede aplicar al conjunto de datos de Free Music Archive (FMA) (https: // github.com/mdeff/fma), que contiene 100,000 grabaciones de más de 16,000 artistas únicos, con más de 1,000 artistas que tienen al menos 20 grabaciones . Alternativamente, la colección del Archivo Digital de Actuaciones Móviles de Stanford (https: // ccrma.stanford.edu/damp/) presenta 35,000 grabaciones de voz en solitario deccrma.stanford.edu/damp/) presenta 35,000 grabaciones de voz en solitario de aproximadamente 350 cantantes aficionados, lo que en su mayoría evita la necesidad de un preprocesamiento de separación de fuente. Estos datos podrían usarse para entrenar un modelo como en el escenario VAD, con un clasificador aplicado a observaciones de señales de audio a corto plazo. Hacemos hincapié en que estas etiquetas de artista-cantante se pueden usar para adaptarse a modelos de aprendizaje profundo cuyas representaciones intermedias (por ejemplo, la penúltima capa) se pueden usar como un modelo incrustado para similitud y recuperación. Una tercera aplicación de análisis de voz accesible es aquella para identificar el idioma de la canción. Si bien tradicionalmente no existe un conjunto de datos mutuamente acordado para este problema, la FMA contiene etiquetas que no están en inglés para varios cientos de grabaciones, y los servicios de música globales sin duda contienen listas de reproducción o artistas que consisten en música interpretada en un idioma determinado. Similar a la formulación de la identificación del cantante, la identificación del idioma puede beneficiarse de la aplicación de la separación de la fuente como un paso de preprocesamiento, y hay una oportunidad considerable de avanzar en el estado del arte en el área de las letras cantadas. Retos y oportunidades La investigación de análisis de canto es rica en oportunidades y desafíos. Resumimos algunos. La evaluación subjetiva de los modelos de la voz del canto, como en la separación y similitud de fuentes, sigue siendo un desafío [42]. Las métricas objetivas de la calidad de separación de la fuente se utilizan ampliamente (por ejemplo, relación señal-ruido), pero su capacidad para reflejar la percepción es limitada. A menudo se utilizan pruebas de audición de expertos o de crowdsourcing, pero los investigadores aún no han adoptado un protocolo estándar y bien controlado. Los modelos de estilo de canto se han evaluado principalmente mediante pruebas de audición, y estos han sido de pequeña escala debido al significativo esfuerzo humano involucrado. Los modelos más grandes que cubren música diversa requieren métodos más cuantitativos. Todavía no existe un estándar para los modelos de evaluación comparativa del estilo vocal, para definir la similitud o el estilo vocal, o para cuantificar la percepción de los oyentes de la voz que canta. Si bien hay algunos trabajos que investigan la relación de los modos de fonación con los estilos vocales, no está claro cómo se relaciona con la percepción de la voz y sigue siendo un área abierta de investigación. Los enfoques basados ​​en el aprendizaje automático se están volviendo omnipresentes en la mayoría de los aspectos del análisis computacional de las voces, pero aún no hemos visto los tipos de mejoras dramáticas que se han logrado recientemente en campos relacionados. Reflexionando, esto probablemente se deba a la falta de colecciones grandes y fácilmente disponibles para la investigación del procesamiento de señales musicales, como ImageNet para el reconocimiento de objetos. Por lo tanto, si bien los conjuntos de datos más nuevos mencionados aquí, como el FMA, pueden ayudar a abordar esta deficiencia, se requiere un mayor esfuerzo necesitaba curar o extraer conjuntos de datos a gran escala para otras tareas en la investigación de canto y voz. Por ejemplo, las letras aportadas por los usuarios están ampliamente disponibles en Internet, y la capacidad de alinear estos documentos de texto con audio transformaría el campo. Curar conjuntos de datos de música etiquetados para cada tarea puede resultar costoso, dadas las habilidades requeridas, como en el caso de la anotación de melodía. Para estas tareas, puede ser más práctico a corto plazo generar artificialmente datos de entrenamiento a partir de señales simbólicas, como archivos MIDI y hojas guía, utilizando sintetizadores de instrumentos realistas. Esto aún no es factible para todas las tareas que involucran voces, ya que los sintetizadores de voz modernos aún no pueden replicar completamente el canto natural. Sin embargo, los avances en la estimación de la melodía pueden proporcionar aproximaciones de voz realistas, produciendo así datos más realistas para el entrenamiento. Del mismo modo, la separación de la fuente vocal o un aumento en la disponibilidad de grabaciones multipista hace posible crear mezclas de pares arbitrarios de voces e instrumentales. Es importante destacar que el contenido de música vocal sin etiqueta es abundante. Finalmente, la mayor parte de la investigación en informática musical se centra en analizar el contenido musical producido comercialmente, que generalmente es creado por músicos profesionales y sigue los principios básicos de la música de acuerdo con el género o la tradición relevante. Por otro lado, el contenido producido por aficionados no está obligado a seguir estos principios y, a menudo, plantea un desafío a los enfoques de procesamiento de información de canto existentes. En los últimos años, el volumen de dicho contenido y aplicaciones ha aumentado significativamente, a menudo en el contexto de la educación musical y los juegos (por ejemplo, aplicaciones de karaoke). La imprecisión del canto aficionado puede ser más pronunciada que la de las interpretaciones instrumentales de aficionados, ya que las frecuencias producidas por la voz no están cuantificadas de forma natural, como lo son, por ejemplo, para la flauta, y no tienen retroalimentación tangible ni visual. como con un violín Dado que hay muchos más cantantes aficionados que profesionales, el análisis automático de la voz que canta presenta una oportunidad considerable para mejorar la experiencia humana de la música. Autores Eric J. Humphrey ( ejhumphrey@spotify.com ) recibió suEric J. Humphrey ( ejhumphrey@spotify.com ) recibió su Licenciatura en ingeniería eléctrica de la Universidad de Syracuse, Nueva York, maestría en tecnología de ingeniería musical de la Universidad de Miami, Florida, y su doctorado. Licenciado en tecnología musical por la Universidad de Nueva York, donde trabajó con Juan Pablo Bello en el Laboratorio de Investigación de Música y Audio. Es gerente de ingeniería de aprendizaje automático en Spotify en la ciudad de Nueva York, ayudando a los equipos a investigar y desarrollar algoritmos de aprendizaje automático para mejorar la experiencia de los oyentes en todo el mundo. Anteriormente en Spotify, fue un investigador senior centrado en los enfoques de aprendizaje automático para comprender las señales de audio de la música. Más allá de la investigación, también es cantante, compositor y multiinstrumentista. Sravana Reddy ( sravana@spotify.com ) recibió su licenciatura enSravana Reddy ( sravana@spotify.com ) recibió su licenciatura en ciencias de la computación, matemáticas y escritura creativa de la Universidad de Brandeis, Waltham, Massachusetts, y su Ph.D. Licenciado en Informática por la Universidad de
  • 12. 93REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 |REVISTA DE PROCESAMIENTO DE SEÑALES IEEE | Enero 2019 | Chicago Ha pasado tiempo en el Instituto de Ciencias de la Información de la Universidad del Sur de California en Los Ángeles, Dartmouth College Hanover, New Hampshire y Wellesley College, Massachusetts. Es ingeniera de aprendizaje automático en Spotify en Boston, donde trabaja en proyectos relacionados con el procesamiento del lenguaje natural y el aprendizaje automático. Su investigación abarca el procesamiento del lenguaje natural, el habla, el aprendizaje automático y la lingüística, con un énfasis particular en la variación del lenguaje, que incluye tratarlo en sistemas prácticos y analizarlo utilizando grandes cuerpos. Sus intereses también incluyen aplicaciones de computación en literatura y escritura. Prem Seetharaman ( prem@u.northwestern.edu ) recibió su licenciatura enPrem Seetharaman ( prem@u.northwestern.edu ) recibió su licenciatura en ciencias de la computación con una segunda especialización en composición musical de la Universidad Northwestern de Evanston, Illinois, donde actualmente es Ph.D. candidato que trabaja con Bryan Pardo. Trabaja en problemas en herramientas de apoyo a la creatividad, separación de fuentes de audio y aprendizaje automático. Además de la investigación, es un compositor y músico activo en el área de Chicago, Illinois. Aparna Kumar ( aparna@spotify.com ) recibió su licenciatura en física de laAparna Kumar ( aparna@spotify.com ) recibió su licenciatura en física de la Universidad de Drexel, Filadelfia, Pensilvania, y su doctorado Licenciado por laUniversidad de Drexel, Filadelfia, Pensilvania, y su doctorado Licenciado por la Facultad de Informática de la Universidad Carnegie Mellon, Pittsburgh, Pensilvania. Es investigadora científica senior en Spotify en la ciudad de Nueva York, y se centra en la comprensión de audio, la evaluación perceptiva, el modelado de usuarios y la minería de datos para aplicaciones comerciales. Su investigación comenzó en biología computacional. Su trabajo anterior incluye imágenes de patología minera, diseño experimental y recopilación de datos para el desarrollo de fármacos oncológicos. Rachel M. Bittner rachelbittner@spotify.com ) la recibióRachel M. Bittner rachelbittner@spotify.com ) la recibió Licenciatura en matemáticas y su título de BM en interpretación musical de la Universidad de California, Irvine. Ella la recibió Maestría en matemáticas del Courant Institute de la Universidad de Nueva York en 2013. Recibió su Ph.D. Licenciada en tecnología musical de la Universidad de Nueva York, trabajando en el Laboratorio de Investigación de Música y Audio con Juan Pablo Bello, con su disertación centrada en la aplicación del aprendizaje automático a la estimación de frecuencia fundamental. Anteriormente, fue asistente de investigación en el Centro de Investigación Ames de la NASA trabajando con Durand Begault en el Laboratorio de Controles y Pantallas Avanzadas. Sus intereses de investigación están en la intersección del procesamiento de señales de audio y el aprendizaje automático, aplicado al audio musical. Andrew Demetriou ( andrew.m.demetriou@gmail.com ) recibió suAndrew Demetriou ( andrew.m.demetriou@gmail.com ) recibió su licenciatura en ciencias políticas y filosofía de Queens College, City University of New York, y su Maestría en psicología social de la Vrije Universiteit, Amsterdam. Actualmente es Ph.D. candidato en el Grupo de Computación Multimedia en la Universidad Técnica de Delft, Países Bajos. Sus intereses académicos se centran en la intersección de las ciencias psicológicas y biológicas y las ciencias de datos relevantes. Sus intereses académicos también se extienden a promover nuestra comprensión del amor, las relaciones y los lazos sociales; estados mentales óptimos, disolutivos del ego y meditativos; y personas tocando, ensayando y escuchando música. Sankalp Gulati ( sankalp.gulati@gmail.com ) recibió suSankalp Gulati ( sankalp.gulati@gmail.com ) recibió su Tecnología B. licenciatura en ingeniería eléctrica y electrónica de el Instituto Indio de Tecnología, Kanpur, India, y su maestría en computación de sonido y música de la Universitat Pompeu Fabra, Barcelona, ​​España. Recibió su Ph.D. Licenciado por la Universidad de Pompeu Fabra en Barcelona, ​​España, donde trabajó el Grupo de Tecnología Musical con Xavier Serra en el proyecto CompMusic. Sus intereses de investigación incluyen procesamiento de señales, análisis de series de tiempo y aprendizaje automático aplicado a señales de audio y música. Tiene años de experiencia industrial trabajando en el dominio de las tecnologías de audio y habla, análisis de contenido musical, educación musical, y actualmente está trabajando en aprendizaje automático e inteligencia artificial en el área de tecnología financiera. Andreas Jansson ( andreasj@spotify.com ) recibió suAndreas Jansson ( andreasj@spotify.com ) recibió su Licenciatura en ciencias de la computación de la City University, Londres, donde es Ph.D. estudiante de grado y también es ingeniero de investigación en Spotify en la ciudad de Nueva York. Actualmente está explorando arquitecturas de redes neuronales profundas para la separación de fuentes y extrayendo grandes catálogos de música comercial para datos de capacitación. Antes de unirse a Spotify, trabajó en las nuevas empresas de música The Echo Nest y This Is My Jam. Le gusta tocar el acordeón, recoger el arándano rojo y Emacs Lisp. Tristan Jehan tjehan@spotify.com) obtuvo su licenciatura enTristan Jehan tjehan@spotify.com) obtuvo su licenciatura en matemáticas, electrónica y ciencias de la computación, y su maestría en ingeniería eléctrica, ciencias de la computación y procesamiento de señales de la Universidad de Rennes I, Francia. Recibió su Ph.D. Licenciado en artes y ciencias de los medios por el Instituto de Tecnología de Massachusetts. Es director de investigación en Spotify, donde cultiva nuevas tecnologías que pueden convertirse en características de próxima generación y oportunidades de negocio. Fue director científico y cofundador de la compañía de inteligencia musical The Echo Nest, que fue adquirida por Spotify para establecer un nuevo estándar global en la personalización de la música. Ha presentado a la industria tecnologías de escucha de máquinas, que involucran aplicaciones relacionadas con la similitud musical, el descubrimiento y la remezcla musical algorítmica. Bernhard Lehner ( Bernhard.Lehner@jku.at ) recibió suBernhard Lehner ( Bernhard.Lehner@jku.at ) recibió su Licenciatura y maestría en ciencias de la computación en 2007 y 2010, respectivamente, de la Universidad Johannes Kepler, Linz, Austria, donde actualmente está cursando un doctorado. la licenciatura. Desde 1991 hasta 2004, estuvo con el Instituto Politécnico de Virginia y la Universidad Estatal, Lenze, Siemens e Infineon. Sus intereses de investigación incluyen procesamiento de señales, detección de eventos de audio, clasificación de escenas de audio, recuperación de información musical, procesamiento de imágenes, redes neuronales y aprendizaje automático interpretable. Anna Kruspe anna.kruspe@dlr.de ) recibió su diploma y Ph.D. grados enAnna Kruspe anna.kruspe@dlr.de ) recibió su diploma y Ph.D. grados en tecnología de medios de Technische Universität Ilemnau, Alemania, en 2011 y 2017, respectivamente. Es investigadora de aprendizaje automático en el Centro Aeroespacial Alemán. Anteriormente, fue miembro del Instituto Fraunhofer de Tecnología de Medios Digitales, Ilmenau, Alemania, donde su trabajo se centró en la aplicación de tecnologías de reconocimiento de voz al canto (por ejemplo, para la identificación del idioma, la detección de palabras clave o la búsqueda basada en letras), como así como el análisis de la música mundial. Ella realizó una investigación en Johns Hopkins