2. Идея
Не еш меня,
подумой
same person ✓
not same person ✘
Hello, I’m
Tvorozhek.
Let me in, please.
тыгыдык-тыгыдык
гыы я лошадка
Что тут вообще
происходит?
5. Предобработка голосов
1. Убрали все звуки длиною
меньше секунды
2. Выбрали случайную секунду
3. Нарезали на кусочки по 25 мс
с пересечениями по 15 мс
4. Применили преобразование
Фурье к каждому кусочку
Преобразование Фурье позволяет
получить “фичи” голосов
до Фурье
после
Ф
урье
6. Структура нейросети
Речь голоса 1
Речь голоса X
Conv2D MaxPool2D Dense
Conv2D MaxPool2D Dense
Concat
same weights not same w.
In
In
Out
похоже? не похоже?
batch size x sound channels x pieces x fft sound
9. Структура нейросети
Conv1D MaxPool1D GlobalPool Dense
Речь с голосом 1
Другая речь с
голосом 1
Речь с голосом X
Речь с голосом
1, как вектор
Речь с голосом
X, как вектор
In
Out
n filters = 100
filter size = 5
leaky rectify
pool size = 2 n units = 300
batch size x frequency x time
размерность векторов = 150
Другая речь с
голосом 1, как
вектор
Функция потерь на
следующем слайде >>>
13. Похожие работы
FaceNet: A Unified Embedding for Face Recognition and
Clustering https://arxiv.org/pdf/1503.03832v3.pdf
Recommending music on Spotify with deep learning
http://benanne.github.io/2014/08/05/spotify-cnns.html