1. Aplicaci´on de m´etodos de descripci´on de sonidos
Universidad Nacional de Trujillo
Ingenier´ıa inform´atica
Orlando Salazar Campos
Daniel Cam Urquizo
danielcam3@hotmail.com
Palabras claves
Multimedia, metodos, descriptores, sonido, texturas
1 Introducci´on
El objetivo del resumen es revisar los m´etodos de medici´on conocidos y descriptores objetivas
existentes para la cuantificaci´on de campo de sonido. Se ver´a algunos conceptos, los m´eritos,
las deficiencias y el uso potencial. La aplicaci´on de los descriptores ser´a: la construcci´on de
descriptores de audio perceptiva de alto nivel para los sonidos de textura.
Para hacer m´usica en la era digital, las t´ecnicas para la navegaci´on eficiente en el vasto
universo de almacenar digitalmente sonidos se han vuelto indispensables.
Se detallar´a tambi´en la construcci´on de descriptores computables capaces de modelar
cualidades perceptivas relevantes de sonido.
2 M´etodo
La idea general de este trabajo es construir descriptores perceptuales de una representaci´on
subyacente uniforme para los datos de audio digitales con unos pocos pasos de procesamiento
y un n´umero peque˜no (para evitar el peligro de exceso de ajuste desde el principio) de
par´ametros ajustables. Estos par´ametros se pueden ajustar para que coincida con puntua-
ciones de percepci´on de sonidos de un cuerpo representativo.
3 Tipos de metodos de descriptores
3.1 Descriptor de alto-bajo
Esta caracter´ıstica de audio est´a bastante bien representado por el descriptor de audio Per-
ceptualSharpness existente, que es el ”equivalente perceptual al centroide espectral pero
calcula utilizando la sonoridad espec´ıfica de las bandas Bark”. Este ´ultimo ya est´a pro-
porcionado por nuestra representaci´on tiempo-frecuencia elegida, por lo que s´olo tienen que
calcular los centroides espectrales, pero no sin la aplicaci´on de algunos coeficientes de defor-
maci´on sintonizables.
3.2 Descriptores para ordenado-ca´otico
Tenemos la sospecha de que la percepci´on del orden contra el caos no es sensible con respecto
a la intensidad, sino m´as bien para temporal estructura. Por lo tanto, lo primero quitamos
la direcci´on de la ecograf´ıa con respecto al volumen de filtrado de paso alto a lo largo del eje
de tiempo. Esto se hace mediante la sustracci´on de una convoluci´on el volumen medio (en
todas las frecuencias)
1
2. Figure 1: Mapa mosaico interactivo para navegar por los sonidos de textura
3.3 Descriptor de lisa-gruesa
Es intuitivo para identificar la noci´on de grosor con cambios bruscos en la intensidad m´as
amplias gamas de frecuencia. Por lo tanto, calculamos las diferencias absolutas a lo largo
del eje de tiempo e integrar a lo largo del eje de frecuencia. Por esa usamos una media
generalizada la m´axima exponente , con lo que apretando las diferencias de magnitud entre
las bandas de frecuencia individuales.
3.4 Descriptor de ruido-tonal
La noci´on de pitchedness se expresa com´unmente por el presencia espectral fuerte, aislado
e inm´ovil componentes. Esto se opone a un continuo espectral fluct´ua en el tiempo, lo que
indica el ruido.Como prueba de concepto, una aplicaci´on de navegador sonido protot´ıpico 8
se ha desarrollado que proporciona una adecuada visualizaci´on de las cualidades perceptivas
bajo examen, mediante el uso de valores de descriptor calculados para el conjunto de los
100 sonidos de textura. La figura 1 muestra una captura de pantalla de las principales
correlaciones apenas degrada, las correlaciones laterales son notablemente m´as reducido.
4 Conclusiones
Hemos detallado la construcci´on de descriptores de audio capaz de modelar cualidades de alto
nivel, metaf´oricas de sonido de textura que se han identificado como perceptivamente rele-
vantes en la investigaci´on anterior. Cada uno de del descriptores contiene un peque˜no n´umero
de par´ametros ajustables que se han sintonizado a un corpus de 100 texturales-sonidos en
su mayor´ıa abstracto y del medio ambiente. La evaluaci´on ha dado las correlaciones de
Pearson entre los descriptores de audio y valoraciones humanas obtenidas de pruebas de es-
cucha de arriba 0,74 para las construcciones ordenado-ca´otico, suave gruesa, tonal-ruidoso,
homog´eneo-heterog´eneo y hasta 0,90 para la construcci´on de m´aximos y m´ınimos.
5 Referencia
5.1 webgraf´ıa
• Diemo Schwarz, DESCRIPTOR-BASED SOUND TEXTURE SAMPLING,2010. Disponible
en: urlsmcnetwork.org/files/proceedings/2010/75.pdf
• Stanislav Barton, Qualitative Comparison of Audio and Visual Descriptors Distribu-
tions ,2011. Disponible en: urlhttp://www.xtec.cat/ pmarques/uabtranp/sld032.htm
2