системный анализ

Системный анализ

 Data Mining

"обнаружение знаний
в базах данных"
(knowledge discovery
in databases)
и
"интеллектуальный
анализ данных".

 1. Неограниченный объем данных
 2. Разнородность данных
(количественные, качественные, текстовые)
 3. Результаты
 должны
быть конкретны и
понятны
 4. Инструменты для
обработки сырых
данных должны быть
просты в
использовании

 Везде, где имеются какие-либо данные.
в первую очередь - коммерческие
предприятия, развертывающие проекты
на основе информационных хранилищ
данных (Data Warehousing).

Data Mining
представляют большую
ценность для
руководителей и
аналитиков в их
повседневной
деятельности. Деловые
люди осознали, что с
помощью методов Data
Mining они могут
получить ощутимые
преимущества в
конкурентной борьбе

DATA TODAY
 объединение:
– Big Operational Data – оперативные данные
– Big Interaction Data – о взаимодействии
– Big Data technology

Что такое большие данные
(Big Data)?
Они позволяют
нам
понять,
каким образом,
в каких
количествах
и пр. мы
Общаемся
/потребляем
для того, чтобы
направлять наши
действия и
принятия
решений в
будущем

Фундаментальные понятия

Скорость

Объём

Разнообразие
и ценность

Рост количества данных
• Research firm IDC:
– Reports that data usage could increase
as much as :
• 44 times this year,
• With levels reaching 35.2 zettabytes across the
globe.

– One zettabyte is 1 billion terabytes
» (1,000,000,000,000,000,000,000)

• CERN generates 1PB/sec during experiments
Boeing jets generate 20TB of data per hour.
Twitter generates 12TB/day for average traffic
Wal-Mart's data stores are 2.5PB (1m transactions/sec)

Анализ данных
 • Strategies

 – Social, Email, Blogs, Video, Mobile
 – Marketing, Sales – Category Management,
 Promotions

 • Applications

 – ERP, CRM, Databases, Internal Applications,
 Customer/Consumer facing applications

 • Context

 – Web, Customers, Products, Business Systems,
 Processes and Services

 • Support Systems

 – CRM, Recommendation Systems
 Data warehouses, Business Intelligence

Возможности больших данных
НАДЕЖНОСТЬ ИНФОРМАЦИИ

• Крупные инвестиции в хранилища данных за
последние 25 лет
• ERP, MDM, CRM стали более жоступны
• Data is now sparse

*ERP (англ. Enterprise Resource Planning, планирование ресурсов
предприятия)
MDM - Master Data Management
CRM - Система управления взаимоотношениями с клиентами (Customer
Relationship Management)

Объемы данных
• Данные, недоступные ранее, стали
доступны
• Рост объѐма обгоняет
развитие технологий
• Корпоративная
энтропия

Exploration drives innovation

 Появление новых данных способствует
развитию исследований в области
данных, которым ранее уделялось
меньше внимания
 Всѐ возрастающие
объѐмы данных
превысят ожидания

Задачи, решаемые методами
Data Mining
 1. Классификация
 2. Регрессия
 3. Кластеризация
 4. Ассоциация
 5. Последовательные
шаблоны
 6. Анализ отклонений

Классификация

Электролиты в реке

<0, 093056 >=0, 093056
Электролиты в реке Электролиты в реке

<0,137854

>=0,137854
<0, 049731 >=0, 049731
Электролиты в реке Дебет реки

<0,018437

<12,3

>=12,3
>=0, 018437
Электролиты в реке

<0,026935
>=0, 026935
Цена отходов

ДЕРЕВЬЯ РЕШЕНИЙ

>=44,87
<44, 87
Цена реч ной воды

<1,265
>=1,265

 описание данных,
содержащее их
характеристику;
 классификация, т.е.
отнесение объекта к
одному из заранее
известных классов;
 регрессия,
устанавливающая
зависимость целевой
переменной от
независимых (входных)
данных.

 На территории деятельности компании открыто и подготовлено к
эксплуатации нефтяное месторождение. Составлена технологическая схема
разработки месторождения, предусматривающая его эксплуатацию с
помощью 2альтернативных вариантов, отличающихся фондом скважин, их
размещением по площади, системами воздействия на пласт, динамикой
добычи нефти и жидкости, динамикой капитальных и текущих затрат и
другими технич.-экономич. показателями.

 Аппроксимация функций, или
регрессионный анализ, включая
предсказание серии подряд идущих событий и
моделирование.
 Классификация, включая распознавание
соответствия шаблону, обнаружение новых
элементов и последовательное принятие
решений.
 Обработка
данных,
включая отбор,
кластеризацию,
разделение по
слепому сигналу
и сжатие.

 анализ капиталовложений
(экономической эффективности
инвестиций)

 Контроль производства

 В июне 2012 года группа исследователей из Google
запустила нейросеть на кластере 1000
компьютеров (16 тыс. процессорных ядер; 1 млрд
связей между нейронами).

 Самообучаемая нейросеть — универсальный
инструмент, который можно использовать на
разных массивах данных. В Google еѐ применили
для улучшения точности распознавания речи: «Мы
получили уменьшение на 20-25% количества
ошибок при распознавании»

 Используется также в проекте Google Street View
для обработки маленьких фрагментов фотографий,
где нужно определить — является число на
фрагменте номером дома или нет. Удивительно, но
в этой задаче нейросеть показывает лучшую
точность распознавания, чем люди.

 После просмотра 10 млн случайных кадров с Youtube в
нейросети сформировались нейроны, селективно
реагирующие на присутствие лиц на изображениях. По
мнению учѐных, нейросеть Google в процессе
самообучения работала примерно так же, как работают
нейроны в зрительной коре головного мозга (нейросеть
Google, несмотря на свои масштабы, гораздо меньше по
количеству узлов, чем нейросеть зрительной коры).
Thanks to the wealth of cat videos on
YouTube, the cyber-brain eventually
came to a single dream-like image
representing the network's knowledge of
what a cat looks like. The network was
able to then able to recognize its favorite
thing - cat videos, no matter what subtle
variations merry YouTubers come up with
to their feline's appearance.
The significant part, say researchers, is
that the network wasn't told what to look
for.

Professor Dean in an interview
in The New York Times: "We never told it
during the training, ‘This is a cat.' It
basically invented the concept of a cat."
The "cat neuron" holds the learned appearance of
what a cat looks like.

 Будет использована в продуктах Google,
таких как поиск изображений, очки
Google Glass и автомобили Google с
беспилотным управлением.
 Поддаѐтся самообучению.

Композитное изображение, которое соответствует оптимальному стимулу при
активации нейрона-классификатора человеческого лица.

СПАСИБО ЗА ВНИМАНИЕ!

системный анализ

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (12)

Similar a системный анализ

Similar a системный анализ (20)

системный анализ