2. 5%
23%
в год – так
увеличивался объем
цифровых данных
в 1986-2007 годах
2,5 экзабайта
данных создается каждый день.
это объем данных хранимый в
7,5 тысячах библиотек конгресса
США
90%
данных в мире
созданы за
последние два года,
если верить
экспертам
в 2002
году цифровые
носители обогнали
аналоговые по объему
хранения данных
3 млрд
Онлайн
В 2000 только 738 миллионов
человек использовали
интернет, к 2015 это число
увеличилось до 3,2
милиардов
204
Миллиона писем
посылается каждую
минуту
40 зетабайт
К 2020 году
BW/4
HANA
ASE
IQ
HANA
8. I N N O V A T I O N F A
K S V S P S X G T M L I
H Y S T A N D A R D E Z
S P E E D R T G B N X S
G X C O S T D I S O I W
S S U S J H S L R P B D
A C R K O S N E S Q L Y
W E E L A S T I C U E S
Поиск закономерностей
11. Могу творить, могу и натворить!
У меня два недостатка: плохая память и
что-то еще.
Никто не знает столько, сколько не знаю
я.
ОРПорыав аоырОрпаыор
ОрОРАыдцуцзущгкгеуб
ыватьыивдцулвдлоадузцщ
Йцхяь длваополц ыадолцлопиолым
бамдлотдламда
Нормальный текст Белиберда
Еще одна задача
12. ат 1 мо 2 ри 2
во 2 на 1 тв 2
гу 2 ог 2 ть 2
ит 2 ор 2
Нормальный текст
13. Нормальный текст
ат 1 мо 2 ри 2
во 2 на 1 тв 2
гу 2 ог 2 ть 2
ит 2 ор 2
Война и мир
то 8411 на 6236 на 6236
ст 6591 не 5199 оу 31
на 6236 по 5174 мб 2
оу 31 ен 4211 тж 1
14. Могу творить, могу и натворить! — 1805
У меня два недостатка: плохая память и
что-то еще. — 1535
Никто не знает столько, сколько не знаю я.
— 2274
ОРПорыав аоырОрпаыор
ОрОРАыдцуцзущгкгеуб
ыватьыивдцулвдлоадузцщ - 44
Йцхяь длваополц ыадолцлопиолым
бамдлотдламда - 149
Нормальный текст Белиберда
15. 1. Выделили признаки чистых строк, а именно пары символов
2. На основании выделенных признаков построили
математическую модель и обучили ее на примерах
3. На основе математической модели посчитали рейтинг
«правдоподобности»
4. Высокий рейтинг «правдоподобности» указывает на
нормальный текст
21. Обзор платформы SAP Leonardo ML
21
User
Profile Matching
Service Analytics
Invoice Processing
...
Image / Video
Advanced Numerical
Text
...
Data
Scientist
Developer
ML Business Services ML Technical Services
Provisioning Infrastructure
Resource Manager
Training Orchestrator
ML Libraries
Training Infrastructure
SAP Leonardo ML Applications
API Business Hub
Language Bindings
Data Science Interface
SAP Leonardo ML on SAP Cloud Platform
22. Сервисы SAP ML по работе с данными
Tabular Image Text Audio/ Video
General
availability*
Time series change point
detection
Time series forecasting
(AA algorithm)
Clustering
Key influencer analysis
Outlier detection
Recommendation
What-if analysis
Image classification
Image feature extraction
Earth observation analysis
Topic detection/keyword
extraction
Alpha Time series forecasting
(R algorithms)
Similarity scoring
Product image classification Machine translation
Document feature extraction
Language detection
Product text classification
Road map Time-to-failure forecasting
Association rule learning
Image segmentation
Face detection
Document optical character
recognition
Image text extraction
Image NER/extraction
Apparel detection
Sentiment analysis
Named entity recognition
Text classification
Hate speech detection
File-to-text conversion
Speech-to-text
Text-to-speech
Voice recognition
(speaker identification)
Video object segmentation
Video classification
Video human action recognition
* Prioritized for SAPPHIRE NOW delivery
23. Бизнес-решения SAP с элементами ИИ
SAP
Resume
matching
SAP Cash
application
SAP
Service
Ticket
intelligence
SAP Brand
Impact
27. Национальная Жандармерия Франции
Прогнозирование уровня
преступности используется:
• Для расстановки
патрульных сил и
предотвращения
преступлений
• Объективной оценки и
оптимизация работы
местных отделений
полиции
Прогноз
Факт
28. Прогноз
Факт
Фактический уровень
преступности ниже прогноза
– эффективная работа
полиции
Фактический уровень
преступности выше
прогноза – неэффективная
работа полиции или не
выявленные факторы
Национальная Жандармерия Франции
Прогнозирование уровня
преступности.
Используется:
• Для расстановки
патрульных сил и
предотвращения
преступлений
• Объективной оценки и
оптимизация работы
местных отделений
полиции
29. Allociné: Сайт база данных кинофильмов
• Снижение доходов от рекламы
• Требовалось повысить количество просмотров страниц
• Повысить добавленную стоимость персональных
рекомендаций по фильмам
• Персонализация 220 миллионов страниц в месяц
• Рекомендации для неавторизованных пользователей на
основании «схожести» фильмов
• Рекомендации для идентифицированных пользователей
на основании «схожести» рейтингов
• Увеличение доходов от рекламы на 9% за счёт
повышения количества просмотров на визит
30. Bigpoint – индустрия онлайн игр
Бизнес задачи
Увеличить уровень конверсии бесплатных пользователей, в
платящих
Увеличить среднюю прибыль на игрока
Снизить отток игроков
Технические задачи
Использовать возможности SAP HANA для обработки данных в
режиме реального времени и алгоритмы классификации для
разработки персонализированных рекомендаций по каждому
игроку
Анализировать огромное количество данных для прогноза
пользовательского поведения
Выгоды
Обработка 5000 событий в секунду
10-30% увеличение выручки в год
Интерактивный инструмент для анализа и принятия
управленческих решений
Notas del editor
Задача: отличить осмысленный текст от белиберды
Текст, который пишут настоящие люди, выглядит так:Могу творить, могу и натворить!
У меня два недостатка: плохая память и что-то еще.
Никто не знает столько, сколько не знаю я.
Белиберда выглядит так:ОРПорыав аоырОрпаыор ОрОРАыдцуцзущгкгеуб ыватьыивдцулвдлоадузцщ
Йцхяь длваополц ыадолцлопиолым бамдлотдламда
Наша задача — разработать алгоритм машинного обучения, который бы отличал одно от другого. А поскольку мы говорим об этом применительно к антивирусной тематике, то будем называть осмысленный текст «чистым», а белиберду — «зловредной». Это не просто какой-то мысленный эксперимент, похожая задача на самом деле решается при анализе реальных файлов в реальном антивирусе.
Наш алгоритм будет считать, как часто в нормальном тексте одна конкретная буква следует за другой конкретной буквой. И так для каждой пары букв. Например, для первой чистой фразы — «Могу творить, могу и натворить!» — распределение получится такое:
На этом этапе мы понимаем, что для обучения нашей модели одной фразы мало: и сочетаний недостаточное количество, и разница между частотой появления разных сочетаний не так велика. Поэтому надо взять какой-то существенно больший объем данных. Например, давайте посчитаем, какие сочетания букв встречаются в первом томе «Войны и мира»:
Разумеется, это не вся таблица сочетаний, а лишь ее малая часть. Оказывается, вероятность встретить «то» в два раза выше, чем «ен». А чтобы за буквой т следовало ж — такое встречается лишь один раз, в слове «отжившим».
Теперь мы можем делать выводы: чем больше полученное число — тем правдоподобнее исследуемая строка ложится в нашу модель. Стало быть, тем больше вероятность, что ее писал человек, то есть она чистая.Если же исследуемая строка содержит подозрительно большое количество крайне редких сочетаний букв (например, ёё, тж, ъь и так далее), то, скорее всего, она искусственная — зловредная.Для строчек выше правдоподобность получилась следующая:
Как видите, чистые строки правдоподобны на 1000-2000 баллов, а зловредные не дотягивают и до 150. То есть все работает, как задумано.Чтобы не гадать, что такое «много», а что — «мало», лучше доверить определение порогового значения самой машине (пусть обучается). Для этого скормим ей некоторое количество чистых строк и посчитаем их правдоподобность, а потом скормим немного зловредных строк — и тоже посчитаем. И вычислим некоторое значение посередине, которое будет лучше всего отделять одни от других. В нашем случае получится что-то в районе 500.
https://quickdraw.withgoogle.com/#
https://quickdraw.withgoogle.com/#
A significant volume of payments still needs to be processed manually, for example if payment contain no or incomplete invoice references, master data is not up-to-date, customers pay multiple invoice at once etc.
AR accountants have to investigate such issues
Tailored rules were required in the past for achieving higher automation, reflecting customer and country specifics. This carries high implementation costs
26
May need to change the pictures
Allocine Group управляет глобальной сетью веб-сайтов развлечений, в число которых входят Screenrush в Великобритании, Sensacine в Бразилии и Allocine во Франции.
Задачи
▪ Компания Allocine Group столкнулась с проблемой утраченных возможностей для прибыли вследствие регулярной распродажи свободного рекламного пространства на своем веб-сайте.
▪ Хотя во Франции у Allocine 35 миллионов отдельных посетителей, 2 миллиона зарегистрированных пользователей и 100 000 кинофильмов, ей было необходимо повысить просмотры страниц, что напрямую связано с расширением пространства для рекламы.
▪ Чтобы поднять привлекательность сайта, компания Allocine хотела делать рекомендации кинофильмов для посетителей.
Результаты
▪ Развертывание рекомендаций кинофильмов на своем веб-сайте в течение всего двух месяцев без предыдущего опыта в прогнозной аналитике.
▪ Увеличение просмотра страниц и, как результат, доходов от рекламы на 9 %,а также прогнозы по дальнейшему увеличению просмотра страниц и доходов от рекламы на 15 %.
▪ Возможность быстрой адаптации к изменяющемуся поведению благодаря тому, что базовые социальные сети, информация которых используется для персонализированных рекомендаций на веб-сайте, обновляются автоматически и могут быть точно настроены с помощью быстрых и несложных итераций.
Но самое важное, что мы можем понять, как адаптировать контент (как учит нас конвергенция), а к аудитории.
И в этом отношении крупных и надежных решений, способных заменить или удержать рекламные деньги и читательскую плату нет.