SlideShare una empresa de Scribd logo
1 de 46
Descargar para leer sin conexión
Системный анализ
Зачем это нужно?
   Data Mining

                  "обнаружение знаний
                       в базах данных"
                   (knowledge discovery
                          in databases)
                                      и
                    "интеллектуальный
                       анализ данных".
 1. Неограниченный объем данных
 2. Разнородность данных
(количественные, качественные, текстовые)
 3. Результаты
 должны
быть конкретны и
понятны
 4. Инструменты для
обработки сырых
данных должны быть
просты в
использовании
Кому это нужно?
BUSINESS INTELLIGENCE
   Везде, где имеются какие-либо данные.
    в первую очередь - коммерческие
    предприятия, развертывающие проекты
    на основе информационных хранилищ
    данных (Data Warehousing).
Data Mining
представляют большую
     ценность для
   руководителей и
   аналитиков в их
     повседневной
деятельности. Деловые
 люди осознали, что с
помощью методов Data
   Mining они могут
  получить ощутимые
    преимущества в
 конкурентной борьбе
DATA TODAY
 объединение:
– Big Operational Data – оперативные данные
– Big Interaction Data – о взаимодействии
– Big Data technology
Что такое большие данные
(Big Data)?
 Они позволяют
       нам
     понять,
 каким образом,
     в каких
  количествах
    и пр. мы
   Общаемся
  /потребляем
 для того, чтобы
направлять наши
   действия и
    принятия
   решений в
    будущем
Фундаментальные понятия

        Скорость


         Объём

      Разнообразие
       и ценность
Рост количества данных
• Research firm IDC:
– Reports that data usage could increase
as much as :
• 44 times this year,
• With levels reaching 35.2 zettabytes across the
globe.

– One zettabyte is 1 billion terabytes
» (1,000,000,000,000,000,000,000)

• CERN generates 1PB/sec during experiments
Boeing jets generate 20TB of data per hour.
Twitter generates 12TB/day for average traffic
Wal-Mart's data stores are 2.5PB (1m transactions/sec)
Анализ данных
   • Strategies

   – Social, Email, Blogs, Video, Mobile
   – Marketing, Sales – Category Management,
   Promotions

   • Applications

   – ERP, CRM, Databases, Internal Applications,
   Customer/Consumer facing applications

   • Context

   – Web, Customers, Products, Business Systems,
   Processes and Services

   • Support Systems

   – CRM, Recommendation Systems
   Data warehouses, Business Intelligence
Unstructured data
Structured data
Возможности больших данных
НАДЕЖНОСТЬ ИНФОРМАЦИИ

• Крупные инвестиции в хранилища данных за
последние 25 лет
• ERP, MDM, CRM стали более жоступны
• Data is now sparse




      *ERP (англ. Enterprise Resource Planning, планирование ресурсов
                                                          предприятия)
                                       MDM - Master Data Management
 CRM - Система управления взаимоотношениями с клиентами (Customer
                                              Relationship Management)
Объемы данных
• Данные, недоступные ранее, стали
доступны
• Рост объѐма обгоняет
развитие технологий
• Корпоративная
энтропия
Exploration drives innovation

 Появление новых данных способствует
  развитию исследований в области
  данных, которым ранее уделялось
  меньше внимания
 Всѐ возрастающие
  объѐмы данных
  превысят ожидания
Задачи, решаемые методами
Data Mining
 1. Классификация
 2. Регрессия
 3. Кластеризация
 4. Ассоциация
 5. Последовательные
шаблоны
 6. Анализ отклонений
Классификация


                                                       Электролиты в реке




                                            <0, 093056                                         >=0, 093056
                                            Электролиты в реке                                 Электролиты в реке




                                                                                                    <0,137854

                                                                                                                >=0,137854
                               <0, 049731                                    >=0, 049731
                               Электролиты в реке                            Дебет реки




                  <0,018437




                                                                              <12,3

                                                                                      >=12,3
                                 >=0, 018437
                                 Электролиты в реке




                                                                 <0,026935
                                  >=0, 026935
                                  Цена отходов




ДЕРЕВЬЯ РЕШЕНИЙ



                                                       >=44,87
                              <44, 87
                              Цена реч ной воды




                                              <1,265
                                  >=1,265
   описание данных,
      содержащее их
     характеристику;
 классификация, т.е.
  отнесение объекта к
   одному из заранее
   известных классов;
       регрессия,
    устанавливающая
  зависимость целевой
      переменной от
независимых (входных)
         данных.
   На территории деятельности компании открыто и подготовлено к
    эксплуатации нефтяное месторождение. Составлена технологическая схема
    разработки месторождения, предусматривающая его эксплуатацию с
    помощью 2альтернативных вариантов, отличающихся фондом скважин, их
    размещением по площади, системами воздействия на пласт, динамикой
    добычи нефти и жидкости, динамикой капитальных и текущих затрат и
    другими технич.-экономич. показателями.
Neural Networks
 Аппроксимация функций, или
  регрессионный анализ, включая
  предсказание серии подряд идущих событий и
  моделирование.
 Классификация, включая распознавание
  соответствия шаблону, обнаружение новых
  элементов и последовательное принятие
  решений.
 Обработка
  данных,
  включая отбор,
  кластеризацию,
  разделение по
  слепому сигналу
  и сжатие.
   Обучение
 Медицина
   анализ капиталовложений
    (экономической эффективности
    инвестиций)
анализ подписей
   Контроль производства
   Мониторинг
   Маркетинг
Google Neural Network
   В июне 2012 года группа исследователей из Google
    запустила нейросеть на кластере 1000
    компьютеров (16 тыс. процессорных ядер; 1 млрд
    связей между нейронами).

   Самообучаемая нейросеть — универсальный
    инструмент, который можно использовать на
    разных массивах данных. В Google еѐ применили
    для улучшения точности распознавания речи: «Мы
    получили уменьшение на 20-25% количества
    ошибок при распознавании»

   Используется также в проекте Google Street View
    для обработки маленьких фрагментов фотографий,
    где нужно определить — является число на
    фрагменте номером дома или нет. Удивительно, но
    в этой задаче нейросеть показывает лучшую
    точность распознавания, чем люди.
    После просмотра 10 млн случайных кадров с Youtube в
     нейросети сформировались нейроны, селективно
     реагирующие на присутствие лиц на изображениях. По
     мнению учѐных, нейросеть Google в процессе
     самообучения работала примерно так же, как работают
     нейроны в зрительной коре головного мозга (нейросеть
     Google, несмотря на свои масштабы, гораздо меньше по
     количеству узлов, чем нейросеть зрительной коры).
     Thanks to the wealth of cat videos on
    YouTube, the cyber-brain eventually
    came to a single dream-like image
    representing the network's knowledge of
    what a cat looks like. The network was
    able to then able to recognize its favorite
    thing - cat videos, no matter what subtle
    variations merry YouTubers come up with
    to their feline's appearance.
    The significant part, say researchers, is
    that the network wasn't told what to look
    for.

    Professor Dean in an interview
    in The New York Times: "We never told it
    during the training, ‘This is a cat.' It
    basically invented the concept of a cat."
                                                  The "cat neuron" holds the learned appearance of
                                                               what a cat looks like.
 Будет использована в продуктах Google,
  таких как поиск изображений, очки
  Google Glass и автомобили Google с
  беспилотным управлением.
 Поддаѐтся самообучению.




    Композитное изображение, которое соответствует оптимальному стимулу при
             активации нейрона-классификатора человеческого лица.
Q?
СПАСИБО ЗА ВНИМАНИЕ!

Más contenido relacionado

Destacado

Destacado (12)

Insersion type Radar Level Transmitter ELGWR 40
Insersion type Radar Level Transmitter ELGWR 40Insersion type Radar Level Transmitter ELGWR 40
Insersion type Radar Level Transmitter ELGWR 40
 
Kiểm toán Phương Đông ICA
Kiểm toán Phương Đông ICA Kiểm toán Phương Đông ICA
Kiểm toán Phương Đông ICA
 
Hizb 20
Hizb 20Hizb 20
Hizb 20
 
Jaquelinne yoannaruizachury actividad1_2mapac.pdf
Jaquelinne yoannaruizachury actividad1_2mapac.pdfJaquelinne yoannaruizachury actividad1_2mapac.pdf
Jaquelinne yoannaruizachury actividad1_2mapac.pdf
 
Seguridad ciudadana
Seguridad ciudadanaSeguridad ciudadana
Seguridad ciudadana
 
Doingmentalhealth2015
Doingmentalhealth2015Doingmentalhealth2015
Doingmentalhealth2015
 
Green roof promo 28 02 12
Green roof promo 28 02 12Green roof promo 28 02 12
Green roof promo 28 02 12
 
Flameproof Low Range Pressure Switches FC series
Flameproof Low Range Pressure Switches FC seriesFlameproof Low Range Pressure Switches FC series
Flameproof Low Range Pressure Switches FC series
 
Babae Ako
Babae AkoBabae Ako
Babae Ako
 
南一 數學-1下
南一 數學-1下南一 數學-1下
南一 數學-1下
 
certificates new
certificates newcertificates new
certificates new
 
Flanged end Pressure Switches MZ Series
Flanged end Pressure Switches MZ SeriesFlanged end Pressure Switches MZ Series
Flanged end Pressure Switches MZ Series
 

Similar a системный анализ

Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхСергей Макрушин
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхSergey Makrushin
 
Green cloud some questions of cloud systems evolution
Green cloud   some questions of cloud systems evolutionGreen cloud   some questions of cloud systems evolution
Green cloud some questions of cloud systems evolutionAlexandre Prozoroff
 
Business Intelligence. Современный взгляд
Business Intelligence. Современный взглядBusiness Intelligence. Современный взгляд
Business Intelligence. Современный взглядAndrey Korshikov
 
Flexicapture Archive
Flexicapture ArchiveFlexicapture Archive
Flexicapture ArchiveEOS-soft
 
BusinessObjects глазами аналитика - Tern4
BusinessObjects глазами аналитика -  Tern4 BusinessObjects глазами аналитика -  Tern4
BusinessObjects глазами аналитика - Tern4 Valeriy Titov
 
Моделирование для NoSQL БД
Моделирование для NoSQL БДМоделирование для NoSQL БД
Моделирование для NoSQL БДAndrew Sovtsov
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Andzhey Arshavskiy
 
Alexander Serbul ITEM 2018
Alexander Serbul ITEM 2018Alexander Serbul ITEM 2018
Alexander Serbul ITEM 2018ITEM
 
Технологии анализа и обработки данных
Технологии анализа и обработки данныхТехнологии анализа и обработки данных
Технологии анализа и обработки данныхКристина Обломова
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙqueryhunter
 
CleverCLUB-26.03.15-G.Kanevsky
CleverCLUB-26.03.15-G.KanevskyCleverCLUB-26.03.15-G.Kanevsky
CleverCLUB-26.03.15-G.KanevskyCleverDATA
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovoqueryhunter
 
Профессия Data Scientist
 Профессия Data Scientist Профессия Data Scientist
Профессия Data ScientistLeonid Zhukov
 
39 - Базы данных. NoSQL базы данных
39 - Базы данных. NoSQL базы данных39 - Базы данных. NoSQL базы данных
39 - Базы данных. NoSQL базы данныхRoman Brovko
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данныхDEVTYPE
 
NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015Shamim bhuiyan
 

Similar a системный анализ (20)

Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
Big data, Clouds & HPC
Big data, Clouds & HPCBig data, Clouds & HPC
Big data, Clouds & HPC
 
Green cloud some questions of cloud systems evolution
Green cloud   some questions of cloud systems evolutionGreen cloud   some questions of cloud systems evolution
Green cloud some questions of cloud systems evolution
 
Business Intelligence. Современный взгляд
Business Intelligence. Современный взглядBusiness Intelligence. Современный взгляд
Business Intelligence. Современный взгляд
 
Flexicapture Archive
Flexicapture ArchiveFlexicapture Archive
Flexicapture Archive
 
CQRS innovations
CQRS innovationsCQRS innovations
CQRS innovations
 
BusinessObjects глазами аналитика - Tern4
BusinessObjects глазами аналитика -  Tern4 BusinessObjects глазами аналитика -  Tern4
BusinessObjects глазами аналитика - Tern4
 
Моделирование для NoSQL БД
Моделирование для NoSQL БДМоделирование для NoSQL БД
Моделирование для NoSQL БД
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)
 
Надежная инфраструктура цод
Надежная инфраструктура цодНадежная инфраструктура цод
Надежная инфраструктура цод
 
Alexander Serbul ITEM 2018
Alexander Serbul ITEM 2018Alexander Serbul ITEM 2018
Alexander Serbul ITEM 2018
 
Технологии анализа и обработки данных
Технологии анализа и обработки данныхТехнологии анализа и обработки данных
Технологии анализа и обработки данных
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
 
CleverCLUB-26.03.15-G.Kanevsky
CleverCLUB-26.03.15-G.KanevskyCleverCLUB-26.03.15-G.Kanevsky
CleverCLUB-26.03.15-G.Kanevsky
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
 
Профессия Data Scientist
 Профессия Data Scientist Профессия Data Scientist
Профессия Data Scientist
 
39 - Базы данных. NoSQL базы данных
39 - Базы данных. NoSQL базы данных39 - Базы данных. NoSQL базы данных
39 - Базы данных. NoSQL базы данных
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
 
NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015NoSQL - World IT Planet, Saint Petersburg 2015
NoSQL - World IT Planet, Saint Petersburg 2015
 

системный анализ

  • 3. Data Mining "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных".
  • 4.  1. Неограниченный объем данных  2. Разнородность данных (количественные, качественные, текстовые)  3. Результаты  должны быть конкретны и понятны  4. Инструменты для обработки сырых данных должны быть просты в использовании
  • 5.
  • 8.
  • 9. Везде, где имеются какие-либо данные. в первую очередь - коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных (Data Warehousing).
  • 10.
  • 11. Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе
  • 12. DATA TODAY  объединение: – Big Operational Data – оперативные данные – Big Interaction Data – о взаимодействии – Big Data technology
  • 13. Что такое большие данные (Big Data)? Они позволяют нам понять, каким образом, в каких количествах и пр. мы Общаемся /потребляем для того, чтобы направлять наши действия и принятия решений в будущем
  • 14.
  • 15. Фундаментальные понятия Скорость Объём Разнообразие и ценность
  • 16. Рост количества данных • Research firm IDC: – Reports that data usage could increase as much as : • 44 times this year, • With levels reaching 35.2 zettabytes across the globe. – One zettabyte is 1 billion terabytes » (1,000,000,000,000,000,000,000) • CERN generates 1PB/sec during experiments Boeing jets generate 20TB of data per hour. Twitter generates 12TB/day for average traffic Wal-Mart's data stores are 2.5PB (1m transactions/sec)
  • 17.
  • 18. Анализ данных  • Strategies   – Social, Email, Blogs, Video, Mobile  – Marketing, Sales – Category Management,  Promotions   • Applications   – ERP, CRM, Databases, Internal Applications,  Customer/Consumer facing applications   • Context   – Web, Customers, Products, Business Systems,  Processes and Services   • Support Systems   – CRM, Recommendation Systems  Data warehouses, Business Intelligence
  • 19.
  • 22. Возможности больших данных НАДЕЖНОСТЬ ИНФОРМАЦИИ • Крупные инвестиции в хранилища данных за последние 25 лет • ERP, MDM, CRM стали более жоступны • Data is now sparse *ERP (англ. Enterprise Resource Planning, планирование ресурсов предприятия) MDM - Master Data Management CRM - Система управления взаимоотношениями с клиентами (Customer Relationship Management)
  • 23. Объемы данных • Данные, недоступные ранее, стали доступны • Рост объѐма обгоняет развитие технологий • Корпоративная энтропия
  • 24. Exploration drives innovation  Появление новых данных способствует развитию исследований в области данных, которым ранее уделялось меньше внимания  Всѐ возрастающие объѐмы данных превысят ожидания
  • 25. Задачи, решаемые методами Data Mining  1. Классификация  2. Регрессия  3. Кластеризация  4. Ассоциация  5. Последовательные шаблоны  6. Анализ отклонений
  • 26. Классификация Электролиты в реке <0, 093056 >=0, 093056 Электролиты в реке Электролиты в реке <0,137854 >=0,137854 <0, 049731 >=0, 049731 Электролиты в реке Дебет реки <0,018437 <12,3 >=12,3 >=0, 018437 Электролиты в реке <0,026935 >=0, 026935 Цена отходов ДЕРЕВЬЯ РЕШЕНИЙ >=44,87 <44, 87 Цена реч ной воды <1,265 >=1,265
  • 27.
  • 28.
  • 29. описание данных, содержащее их характеристику;  классификация, т.е. отнесение объекта к одному из заранее известных классов;  регрессия, устанавливающая зависимость целевой переменной от независимых (входных) данных.
  • 30. На территории деятельности компании открыто и подготовлено к эксплуатации нефтяное месторождение. Составлена технологическая схема разработки месторождения, предусматривающая его эксплуатацию с помощью 2альтернативных вариантов, отличающихся фондом скважин, их размещением по площади, системами воздействия на пласт, динамикой добычи нефти и жидкости, динамикой капитальных и текущих затрат и другими технич.-экономич. показателями.
  • 32.  Аппроксимация функций, или регрессионный анализ, включая предсказание серии подряд идущих событий и моделирование.  Классификация, включая распознавание соответствия шаблону, обнаружение новых элементов и последовательное принятие решений.  Обработка данных, включая отбор, кластеризацию, разделение по слепому сигналу и сжатие.
  • 33. Обучение
  • 35. анализ капиталовложений (экономической эффективности инвестиций)
  • 37. Контроль производства
  • 38. Мониторинг
  • 39. Маркетинг
  • 41. В июне 2012 года группа исследователей из Google запустила нейросеть на кластере 1000 компьютеров (16 тыс. процессорных ядер; 1 млрд связей между нейронами).  Самообучаемая нейросеть — универсальный инструмент, который можно использовать на разных массивах данных. В Google еѐ применили для улучшения точности распознавания речи: «Мы получили уменьшение на 20-25% количества ошибок при распознавании»  Используется также в проекте Google Street View для обработки маленьких фрагментов фотографий, где нужно определить — является число на фрагменте номером дома или нет. Удивительно, но в этой задаче нейросеть показывает лучшую точность распознавания, чем люди.
  • 42. После просмотра 10 млн случайных кадров с Youtube в нейросети сформировались нейроны, селективно реагирующие на присутствие лиц на изображениях. По мнению учѐных, нейросеть Google в процессе самообучения работала примерно так же, как работают нейроны в зрительной коре головного мозга (нейросеть Google, несмотря на свои масштабы, гораздо меньше по количеству узлов, чем нейросеть зрительной коры). Thanks to the wealth of cat videos on YouTube, the cyber-brain eventually came to a single dream-like image representing the network's knowledge of what a cat looks like. The network was able to then able to recognize its favorite thing - cat videos, no matter what subtle variations merry YouTubers come up with to their feline's appearance. The significant part, say researchers, is that the network wasn't told what to look for. Professor Dean in an interview in The New York Times: "We never told it during the training, ‘This is a cat.' It basically invented the concept of a cat." The "cat neuron" holds the learned appearance of what a cat looks like.
  • 43.
  • 44.  Будет использована в продуктах Google, таких как поиск изображений, очки Google Glass и автомобили Google с беспилотным управлением.  Поддаѐтся самообучению. Композитное изображение, которое соответствует оптимальному стимулу при активации нейрона-классификатора человеческого лица.
  • 45. Q?