Задачи музыкального поиска, связанные с анализом аудио сигнала

Задачи музыкального
поиска связанные с
анализом аудио сигнала

План доклада
● Вступление
● Обзор существующих задач
● Введение в обработку сигналов
● Примеры задач, которыми мы занимаемся

Вступление
С какими данными мы работаем?

● Метаданные музыкального трека

● Тексты песен

● Данные о прослушиваниях

● Данные о прослушиваниях
● Непосредственно аудио сигнал

Какие задачи можно решать
анализируя аудио сигнал?

Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон

микрофон
● Распознавание по напеванию

микрофон
● Поиск нечетких дубликатов

микрофон
● Поиск кавер-версий и ремиксов

микрофон
● Выделение мелодии из полифонического сигнала

микрофон
● Классификация музыки

микрофон
● Автотегирование

микрофон
● Автотегирование
● Поиск похожих/рекомендации

Введение в обработку аудио
сигналов
Как анализировать аудио сигнал?

сигналов
● Как выглядит аудио-сигнал глазами
компьютера?

cигналов
● Как выглядит аудио-сигнал глазами
компьютера?

сигналов
● Что мы имеем по сути?

сигналов
– Зависимость амплитуды колебаний от времени

сигналов
● Какую важную характеристику звука мы
забыли?

сигналов
● Какую важную характеристику звука мы
забыли?
– Частота колебаний (высота звука)

сигналов
● Пример музыкального фрагмента и его
разделение на три полосы частот

сигналов
● Как преобразовать сигнал из временного
домена в частотный?

сигналов
– Преобразование Фурье (Fourier transform)

сигналов
– Преобразование Фурье (Fourier transform) —
позволяет разложить периодическую функцию
в сумму гармонических с разными частотами.

сигналов
– Вейвлет преобразование (Wavelet transform)

сигналов
Вейвлет – это математическая функция,
позволяющая анализировать различные
частотные компоненты данных.

сигналов
– Константное Q преобразование (Constant Q
transform)

сигналов
● Хочется при этом сохранить временную
составляющую сигнала
– Оконное преобразование Фурье (Short-time
Fourier transform)

сигналов

Классификация признаков
● По временному масштабу
– Frame-level
– Segment-level
– Global-level
● По уровню представления
– Low-level
– Middle-level
– High-level

Low-level
● Zero Crossing Rate – позволяет неплохо
различать музыку и речь
● Short-time energy – отражает изменение
энергии во времени

Low-level
● Spectral Centroid – центр масс спектра
● Spectral Bandwidth – разброс относительно
центра масс
● Spectral Flatness Measure – характеризует
«гладкость» спектра. Помогает отличать
сигнал похожий на шум от сигналов с
выраженной тональностью

Low-level
● Что-нибудь более сложное?
– Mel-frequency Cepstral Coefficient
(MFCC) (вольный перевод —
Коэффициенты кепструма в мел
масштабе)
– По сути это спектр спектра
– Изначально использовались в
распознавании речи

Middle-level
● Beat Tracker
● Pitch Histogram
● Rhythm Patterns

High-level
● Музыкальные жанры
● Настроение: веселая, грустная, агрессивная,
спокойная.
● Вокальная / Инструментальная
● Ощущаемая скорость музыки (медленная,
быстрая, средняя)
● Пол вокалиста

Обобщение признаков
● Как перейти на более общий уровень —
уровень трека?
– Вычисление статистик по шкале времени
(среднее/дисперсия)
– Попытка более сложного моделирования
распределения значений признаков,
например Гауссовы смеси

Сравнение
● Как сравнивать признаковые описания?
● Вычисление меры близости
– Расстояние Хэмминга при побитовом
сравнении
– Евклидово расстояние
– Манхэттенское расстояние
● Оценка максимального правдоподобия

Примеры наших задач
● Распознавание музыки по фрагменту записи

● Классификация/музыкальные рекомендации

Распознавание музыки
● В качестве базовых признаков — пики
энергии в спектрограмме
● Пики объединяются в пары

● Двухэтапный поиск
– Быстрый поиск в «облегченном» индексе
– Более точный поиск среди TopN лучших

Отсечение ложных срабатываний

● База 6М треков
● Двухуровневый поисковый кластер

Поиск нечетких дубликатов
● В основе лежит метод построения сигнатур —
Chromaprint
● Исходное представление сигнала в виде
хромограммы

● Основная идея — рассматривать
хромаграммы как изображения
● Сравнивать используя методы
компьютерного зрения
● Используется набор фильтров

● Как выглядит сигнатура?

● Разница между оригинальной и
инструментальной версией трека

Классификация музыки
● Что можно классифицировать?
– Жанры
– Настроения
– Пол вокалиста
– И т.д.

● В качестве исходных данных — MFCC (еще
можно спектрограмму)
● Обучаем глубокую сверточную нейронную
сеть
● Смотрим что получилось

● Пример трека, размеченного как Pop
● Что предсказывает нейронная сеть?

● Пример трека, размеченного как Pop
– Metal 0.45
– Punk 0.23
– Rock 0.17

● Еще один пример, снова Pop

● Еще один пример, снова Pop
– Rap 0.48
– RnB 0.16
– Pop 0.09

Музыкальные рекомендации
● Есть методы коллаборативной фильтрации,
которые неплохо работают
● В чем преимущества подхода основанного
на анализе аудио сигнала?
– Лучше для новых треков
– Лучше для мало популярных треков

Спасибо за внимание!
Вопросы?

Задачи музыкального поиска, связанные с анализом аудио сигнала

Recomendados

Recomendados

Más contenido relacionado

Más de Yandex

Más de Yandex (20)

Задачи музыкального поиска, связанные с анализом аудио сигнала