3. Data Mining
"обнаружение знаний
в базах данных"
(knowledge discovery
in databases)
и
"интеллектуальный
анализ данных".
4. 1. Неограниченный объем данных
2. Разнородность данных
(количественные, качественные, текстовые)
3. Результаты
должны
быть конкретны и
понятны
4. Инструменты для
обработки сырых
данных должны быть
просты в
использовании
9. Везде, где имеются какие-либо данные.
в первую очередь - коммерческие
предприятия, развертывающие проекты
на основе информационных хранилищ
данных (Data Warehousing).
10.
11. Data Mining
представляют большую
ценность для
руководителей и
аналитиков в их
повседневной
деятельности. Деловые
люди осознали, что с
помощью методов Data
Mining они могут
получить ощутимые
преимущества в
конкурентной борьбе
12. DATA TODAY
объединение:
– Big Operational Data – оперативные данные
– Big Interaction Data – о взаимодействии
– Big Data technology
13. Что такое большие данные
(Big Data)?
Они позволяют
нам
понять,
каким образом,
в каких
количествах
и пр. мы
Общаемся
/потребляем
для того, чтобы
направлять наши
действия и
принятия
решений в
будущем
16. Рост количества данных
• Research firm IDC:
– Reports that data usage could increase
as much as :
• 44 times this year,
• With levels reaching 35.2 zettabytes across the
globe.
– One zettabyte is 1 billion terabytes
» (1,000,000,000,000,000,000,000)
• CERN generates 1PB/sec during experiments
Boeing jets generate 20TB of data per hour.
Twitter generates 12TB/day for average traffic
Wal-Mart's data stores are 2.5PB (1m transactions/sec)
17.
18. Анализ данных
• Strategies
– Social, Email, Blogs, Video, Mobile
– Marketing, Sales – Category Management,
Promotions
• Applications
– ERP, CRM, Databases, Internal Applications,
Customer/Consumer facing applications
• Context
– Web, Customers, Products, Business Systems,
Processes and Services
• Support Systems
– CRM, Recommendation Systems
Data warehouses, Business Intelligence
22. Возможности больших данных
НАДЕЖНОСТЬ ИНФОРМАЦИИ
• Крупные инвестиции в хранилища данных за
последние 25 лет
• ERP, MDM, CRM стали более жоступны
• Data is now sparse
*ERP (англ. Enterprise Resource Planning, планирование ресурсов
предприятия)
MDM - Master Data Management
CRM - Система управления взаимоотношениями с клиентами (Customer
Relationship Management)
23. Объемы данных
• Данные, недоступные ранее, стали
доступны
• Рост объѐма обгоняет
развитие технологий
• Корпоративная
энтропия
24. Exploration drives innovation
Появление новых данных способствует
развитию исследований в области
данных, которым ранее уделялось
меньше внимания
Всѐ возрастающие
объѐмы данных
превысят ожидания
26. Классификация
Электролиты в реке
<0, 093056 >=0, 093056
Электролиты в реке Электролиты в реке
<0,137854
>=0,137854
<0, 049731 >=0, 049731
Электролиты в реке Дебет реки
<0,018437
<12,3
>=12,3
>=0, 018437
Электролиты в реке
<0,026935
>=0, 026935
Цена отходов
ДЕРЕВЬЯ РЕШЕНИЙ
>=44,87
<44, 87
Цена реч ной воды
<1,265
>=1,265
27.
28.
29. описание данных,
содержащее их
характеристику;
классификация, т.е.
отнесение объекта к
одному из заранее
известных классов;
регрессия,
устанавливающая
зависимость целевой
переменной от
независимых (входных)
данных.
30. На территории деятельности компании открыто и подготовлено к
эксплуатации нефтяное месторождение. Составлена технологическая схема
разработки месторождения, предусматривающая его эксплуатацию с
помощью 2альтернативных вариантов, отличающихся фондом скважин, их
размещением по площади, системами воздействия на пласт, динамикой
добычи нефти и жидкости, динамикой капитальных и текущих затрат и
другими технич.-экономич. показателями.
32. Аппроксимация функций, или
регрессионный анализ, включая
предсказание серии подряд идущих событий и
моделирование.
Классификация, включая распознавание
соответствия шаблону, обнаружение новых
элементов и последовательное принятие
решений.
Обработка
данных,
включая отбор,
кластеризацию,
разделение по
слепому сигналу
и сжатие.
41. В июне 2012 года группа исследователей из Google
запустила нейросеть на кластере 1000
компьютеров (16 тыс. процессорных ядер; 1 млрд
связей между нейронами).
Самообучаемая нейросеть — универсальный
инструмент, который можно использовать на
разных массивах данных. В Google еѐ применили
для улучшения точности распознавания речи: «Мы
получили уменьшение на 20-25% количества
ошибок при распознавании»
Используется также в проекте Google Street View
для обработки маленьких фрагментов фотографий,
где нужно определить — является число на
фрагменте номером дома или нет. Удивительно, но
в этой задаче нейросеть показывает лучшую
точность распознавания, чем люди.
42. После просмотра 10 млн случайных кадров с Youtube в
нейросети сформировались нейроны, селективно
реагирующие на присутствие лиц на изображениях. По
мнению учѐных, нейросеть Google в процессе
самообучения работала примерно так же, как работают
нейроны в зрительной коре головного мозга (нейросеть
Google, несмотря на свои масштабы, гораздо меньше по
количеству узлов, чем нейросеть зрительной коры).
Thanks to the wealth of cat videos on
YouTube, the cyber-brain eventually
came to a single dream-like image
representing the network's knowledge of
what a cat looks like. The network was
able to then able to recognize its favorite
thing - cat videos, no matter what subtle
variations merry YouTubers come up with
to their feline's appearance.
The significant part, say researchers, is
that the network wasn't told what to look
for.
Professor Dean in an interview
in The New York Times: "We never told it
during the training, ‘This is a cat.' It
basically invented the concept of a cat."
The "cat neuron" holds the learned appearance of
what a cat looks like.
43.
44. Будет использована в продуктах Google,
таких как поиск изображений, очки
Google Glass и автомобили Google с
беспилотным управлением.
Поддаѐтся самообучению.
Композитное изображение, которое соответствует оптимальному стимулу при
активации нейрона-классификатора человеческого лица.