4. Свёрточные нейросети – принцип работы
Операции (слои) в свёрточной сети:
• Свёртка с фильтрами
• Сокращение разрешения («пулинг»)
• Нелинейное поэлементное преобразование
• Умножение на матрицу общего вида
10. Более сложные задачи
“Смещенные” тренировочные данные
1000 классов по 1000 тренировочных примеров
точность классификации сравнимая с человеческой
Поиск по образцу
Совместно с Ярославом Ганиным (Сколтех)
Совместно с Антоном
Слесаревым (Яндекс),
Александром Чигориным
(Яндекс)
19. Более сложные задачи
1000 классов по 1000 тренировочных примеров
точность классификации сравнимая с человеческой
Смещенные тренировочные данные
Совместно с Ярославом Ганиным (Сколтех)
Поиск по образцу
Совместно с Антоном
Слесаревым (Яндекс),
Александром Чигориным
(Яндекс)
21. Дескрипторы из нейросетей?
› Текущие методы поиска по изображениям
основаны на дескрипторах, сформированных
вручную
› В задаче классификации наилучшее
качество достигается с использованием
дескрипторов, обученных нейросетью
› Цель исследования – оценить, насколько
хорошо нейронные дескрипторы
справляются с задачей визуального поиска
22. Извлечение нейронных дескрипторов
Зеленый слой – свертка или
умножение на матрицу
Синий слой – нелинейное
преобразование (ReLU)
Красный слой – макс-пулинг
Нормализованные векторы активаций нейронов последних уровней L5(I), L6(I),
L7(I) являются нейронными дескрипторами изображения I
23. Коллекции для сравнения методов поиска
› Holidays – база из 1491
изображения, из них 500 запросов,
для каждого 2-3 правильных ответа
› Oxford – база из 5062 изображений,
из них 55 запросов, для каждого
несколько правильных ответов
› Oxford105K = Oxford + 100.000
случайных изображений
› Правильными ответами являются
только изображения, содержащие
тот же объект, что и изображение-
запрос
25. Наивное применение нейродескрипторов
Дескриптор Размерность Oxford Oxford105K Holidays
Fisher + color 4096 - - 0.774
VLAD+adapt+innorm 32768 0.555 - 0.646
Sparse-coded features 11024 - - 0.767
Triangulation embedding 8064 0.676 0.611 0.771
Нейродескрипторы
Слой 5 9216 0.389 - 0.670
Слой 6 4096 0.435 0.392 0.729
Слой 7 4096 0.430 - 0.716
Слой 6 работает в среднем лучше остальных
Качество неплохое, но существенно ниже, чем у передовых существующих методов
28. Классификация vs Поиск объектов
Сеть для классификации инвариантна к внутриклассовой изменчивости, а для поиска
необходима инвариантность к ракурсу, геометрическим преобразованиям
37. Заключение
› Нейронные дескрипторы обеспечивают высокое качество для задачи
поиска по изображениям
› Нейронные дескрипторы практически не теряют в качестве при PCA-сжатии
VLAD Triang.
Embedding
Neuro Neuro +
Adaptation
mAP на Oxford
0,55
0,6
0,65
0,7
0,75
0,8
Fisher VLAD Triang.
Embedding
Neuro Neuro +
Adaptation
mAP на Holidays