10. Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон
● Распознавание по напеванию
11. Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон
● Распознавание по напеванию
● Поиск нечетких дубликатов
12. Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон
● Распознавание по напеванию
● Поиск нечетких дубликатов
● Поиск кавер-версий и ремиксов
13. Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон
● Распознавание по напеванию
● Поиск нечетких дубликатов
● Поиск кавер-версий и ремиксов
● Выделение мелодии из полифонического сигнала
14. Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон
● Распознавание по напеванию
● Поиск нечетких дубликатов
● Поиск кавер-версий и ремиксов
● Выделение мелодии из полифонического сигнала
● Классификация музыки
15. Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон
● Распознавание по напеванию
● Поиск нечетких дубликатов
● Поиск кавер-версий и ремиксов
● Выделение мелодии из полифонического сигнала
● Классификация музыки
● Автотегирование
16. Обзор существующих задач
● Распознавание музыки по фрагменту записанному на
микрофон
● Распознавание по напеванию
● Поиск нечетких дубликатов
● Поиск кавер-версий и ремиксов
● Выделение мелодии из полифонического сигнала
● Классификация музыки
● Автотегирование
● Поиск похожих/рекомендации
26. Введение в обработку аудио
сигналов
● Что мы имеем по сути?
– Зависимость амплитуды колебаний от времени
27. Введение в обработку аудио
сигналов
● Что мы имеем по сути?
– Зависимость амплитуды колебаний от времени
● Какую важную характеристику звука мы
забыли?
28. Введение в обработку аудио
сигналов
● Что мы имеем по сути?
– Зависимость амплитуды колебаний от времени
● Какую важную характеристику звука мы
забыли?
– Частота колебаний (высота звука)
29. Введение в обработку аудио
сигналов
● Пример музыкального фрагмента и его
разделение на три полосы частот
30. Введение в обработку аудио
сигналов
● Как преобразовать сигнал из временного
домена в частотный?
31. Введение в обработку аудио
сигналов
● Как преобразовать сигнал из временного
домена в частотный?
– Преобразование Фурье (Fourier transform)
32. Введение в обработку аудио
сигналов
● Как преобразовать сигнал из временного
домена в частотный?
– Преобразование Фурье (Fourier transform) —
позволяет разложить периодическую функцию
в сумму гармонических с разными частотами.
33. Введение в обработку аудио
сигналов
● Как преобразовать сигнал из временного
домена в частотный?
– Преобразование Фурье (Fourier transform)
– Вейвлет преобразование (Wavelet transform)
34. Введение в обработку аудио
сигналов
● Как преобразовать сигнал из временного
домена в частотный?
– Преобразование Фурье (Fourier transform)
– Вейвлет преобразование (Wavelet transform)
Вейвлет – это математическая функция,
позволяющая анализировать различные
частотные компоненты данных.
35. Введение в обработку аудио
сигналов
● Как преобразовать сигнал из временного
домена в частотный?
– Преобразование Фурье (Fourier transform)
– Вейвлет преобразование (Wavelet transform)
– Константное Q преобразование (Constant Q
transform)
36. Введение в обработку аудио
сигналов
● Хочется при этом сохранить временную
составляющую сигнала
– Оконное преобразование Фурье (Short-time
Fourier transform)
42. Классификация признаков
● По временному масштабу
– Frame-level
– Segment-level
– Global-level
● По уровню представления
– Low-level
– Middle-level
– High-level
43. Low-level
● Zero Crossing Rate – позволяет неплохо
различать музыку и речь
● Short-time energy – отражает изменение
энергии во времени
44. Low-level
● Spectral Centroid – центр масс спектра
● Spectral Bandwidth – разброс относительно
центра масс
● Spectral Flatness Measure – характеризует
«гладкость» спектра. Помогает отличать
сигнал похожий на шум от сигналов с
выраженной тональностью
45. Low-level
● Что-нибудь более сложное?
– Mel-frequency Cepstral Coefficient
(MFCC) (вольный перевод —
Коэффициенты кепструма в мел
масштабе)
– По сути это спектр спектра
– Изначально использовались в
распознавании речи
47. High-level
● Музыкальные жанры
● Настроение: веселая, грустная, агрессивная,
спокойная.
● Вокальная / Инструментальная
● Ощущаемая скорость музыки (медленная,
быстрая, средняя)
● Пол вокалиста
48. Обобщение признаков
● Как перейти на более общий уровень —
уровень трека?
– Вычисление статистик по шкале времени
(среднее/дисперсия)
– Попытка более сложного моделирования
распределения значений признаков,
например Гауссовы смеси
49. Сравнение
● Как сравнивать признаковые описания?
● Вычисление меры близости
– Расстояние Хэмминга при побитовом
сравнении
– Евклидово расстояние
– Манхэттенское расстояние
● Оценка максимального правдоподобия
60. Поиск нечетких дубликатов
● В основе лежит метод построения сигнатур —
Chromaprint
● Исходное представление сигнала в виде
хромограммы
61. Поиск нечетких дубликатов
● Основная идея — рассматривать
хромаграммы как изображения
● Сравнивать используя методы
компьютерного зрения
● Используется набор фильтров
65. Классификация музыки
● В качестве исходных данных — MFCC (еще
можно спектрограмму)
● Обучаем глубокую сверточную нейронную
сеть
● Смотрим что получилось
69. Классификация музыки
● Еще один пример, снова Pop
● Что предсказывает нейронная сеть?
– Rap 0.48
– RnB 0.16
– Pop 0.09
70. Музыкальные рекомендации
● Есть методы коллаборативной фильтрации,
которые неплохо работают
● В чем преимущества подхода основанного
на анализе аудио сигнала?
– Лучше для новых треков
– Лучше для мало популярных треков