1. Introduction to Deep Learning
Dmitry Petukhov,
Machine Learning Consultant, Microsoft Most Valuable AI Professional
&& Coffee Addicted
#AI #DeepLearning
2. AI vs ML vs DL
Artificial Intelligence
Machine Learning
Deep Learning
Source: deeplearningbook.org
4. AI: Important Trends
=> Accuracy increase
Scientific research
Computing capacity
CPU > GPU > TPU
Data volume
Volume. Velocity. Variety.
Complexity of the AI models
Layers Count and Design
Democratizing
ML Frameworks, ML as a Service, GPU in Cloud
5. Deep Learning in ImageNet
14M images, 1K classes
Picture credit: arxiv.org
6. AI vs Man
Soon (or already?) better than human intelligence:
− Computer vision (2016)
− Text translation (2017)
− Text generation (OpenAI, 2019)
− Games: Pacman, Dota 2, Go (AplhaGo and AlphaZero), StarCraft II (2015-2019)
− Medicine: heart attack, neurodegenerative diseases, oncology, and more
10. Feed-Forward Neural Network, FFNN
Multi-Layer Neural Networks, MLNFully-connected FFNN
Pros and cons:
+ простая реализация
+ универсальный аппроксиматор
=> вскрывает сложные нелинейные зависимости
- нет возможности запоминать порядок времени
- не обладают памятью (кроме полученной при обучении).
Pros and cons те же, что и FFNN, а также:
+ высокоуровневые предикторы на последних слоях
- много параметров (вычислительно неэффективно)
- затухающие градиенты
- переобучение.
Rosenblatt, Frank. The perceptron: a probabilistic model for information storage(…), 1958. Original Paper PDF
11. Convolution and subsampling
Picture credit: developer.apple.com
Что делаем?
* выделяем локальные признака (features)
Что делаем?
* уменьшаем размерность в N раз (N > 1)
* оставляем сильные сигналы (для max polling)
* добавляем инвариантность к небольшим сдвигам
2. Subsampling1. Convolution
12. Convolutional Neural Networks, CNN
Picture credit: wikipedia.org
LeCun, Yann, et al. Gradient-based learning applied to document recognition, 1998. Original Paper PDF
Pros and cons:
+ сильно меньше параметров, чем у FFNN
+ устойчивость к небольшим сдвигам
- переобучение
Use Cases:
* для задач компьютерного зрения: распознание образов,
обнаружение объектов и т.д.
* ключевая роль в архитектурах моделей ResNet, Inception и прочих;
* ключевая роль в задачах переносов стилей (artistic style);
* увеличение разрешения и раскраска изображения.
14. Recurrent Neural Networks, RNN
Pros and cons:
+ Тьюринг-полны
=> можно реализовать любую вычислимую функцию
+ работа с контекстом и последовательностями
- проблема затухающего/взрывного градиента
Use Cases:
* Анализ временных последовательностей
* Видео: следующий кадр на основе предыдущих, описание каждого
кадра видео естественным языком (составная часть)
* Фото: предсказание следующего пикселя, определение стиля
изображения, описание картинки естественным языком (составная
часть)
* Текст: предсказание следующего слова, определение тональности
текста
Elman, Jeffrey L. Finding structure in time, 1990. Original Paper PDF
Picture credit: kvitajakub.github.io
15. Long Short Term Memory, LSTM
Hochreiter, Sepp, and Jürgen Schmidhuber. Long short-term memory, 1997. Original Paper PDF
Picture credit: kvitajakub.github.io
Use Cases:
* те же, что и классические RNN (только умнее)
* генерация разнообразных текстов (Шекспира, Latex-разметку или
С-код), сочинение несложных музыкальных произведений
Pros and cons:
те же что и RNN, кроме
+ решена проблема затухающего/взрывного градиента
У каждого нейрона есть 3 фильтра (gates):
1. входной фильтр (input gate): состояние с предыдущего шага;
2. выходной фильтр (output gate): состояние на следующий слой;
3. фильтр забывания (forget gate): состояние, которое стоит
забыть.
17. Multimodal Learning
Picture credit: https://www.cs.utexas.edu/~vsub/
Oriol Vinyals, et al. Show and Tell: A Neural Image Caption Generator, 2014. Original Paper PDF
Use Cases:
* Image to text
* Video to text
18. Generative Adversarial Networks, GAN
Goodfellow, Ian, et al. Generative adversarial nets, 2014. Original Paper PDF
Две соревнующиеся сети (чаще CNN или FFNN):
1. Генератор: генерирует данные;
2. Дискриминатор: получает то реальные, то
сгенерированные данные и определяет их тип.
Pros and cons:
+ многообещающая архитектура;
- непросто обучить, т.к. нужны «равные соперники».
Use Cases:
* Text to image
* Image to image
* Fake news
* Молекулы-кандидаты для лекарств.
Picture credit: asimovinstitute.org
19. GAN Evolution Generative models are one of the most promising
approaches towards this goal.
OpenAI4.5 years of GAN progress on face generation
https://arxiv.org/abs/1406.2661 | https://arxiv.org/abs/1511.06434 | https://arxiv.org/abs/1606.07536 | https://arxiv.org/abs/1710.10196 | https://arxiv.org/abs/1812.04948
Test yourself whichfaceisreal.com
24. Q&A
Now or later (see contacts below)
Join to us
DΛTA GEEKS Community meetup.com/Data-Geeks-Community/
Stay connected
Be friend at the Facebook/@codezombie
Read me at the Habr/@codezombie
All contacts on http://0xCode.in/@codez0mb1e
Download slides from
http://0xcode.in/deep-learning-intro or
Notas del editor
Количественный (ML) и качественный (DL) рост
Паркинсона по голосу
Ранняя диагностика диабетической ретинопатии по фото глаза
Меланому по фото в большом разрешении (AUC > .94, Google)
Риск сердечного приступа по кровяному давлению
Теорема Цыбенко — искусственная нейронная сеть прямой связи с одним скрытым слоем может аппроксимировать любую непрерывную функцию многих переменных с любой точностью.