SlideShare a Scribd company logo
1 of 25
Лекция №2

Введение в анализ данных




                           1
План лекции
●   Основные понятия анализа данных
●   Основные подходы анализа данных
●   Основные инструменты анализа данных


    Цель лекции — получить представление о
    процессе анализа данных и применяемых
    методиках


                                             2
Основы Анализа данных

●   Теория вероятности и математическая
    статистика
●   Математический анализ
●   Вычислительная математика
●   Для тех, кто забыл — khanacademy.org




                                           3
Основные понятия

●   Атрибут
       –   Зависимая переменная
       –   Независимая переменная
●   Объект
●   Значение атрибута у объекта
●   Измерение



                                     4
Шкалы

●   Номинальная (=, <>)
●   Дихотомическая
●   Порядковая (=, <>, >, <)
●   Интервальная (=, <>, >, <, +, -)
●   Относительная (=, <>, >, <, +, -, *, /)




                                              5
Процесс анализа данных

●   Постановка задачи
●   Сбор данных
●   Выдвижение гипотез
●   Очистка данных
●   Выбор алгоритма анализа
●   «Обучение» (Machine Learning)
●   Оценка результата
●   Применение построенного в результате
    обучения
                                           6
Постановка задачи

●   Следует сформулировать, что мы хотим
    изучить, какие возможные закономерности
    выявить
●   Предварительные «гипотезы»




                                              7
Сбор данных

●   Из реальности
●   При помощи программных инструментов
●   Или опросов
●   Или наблюдений




                                          8
Выдвижение гипотез

●   Основываясь на собранных данных
●   Их визуализации
●   Их структуре




                                      9
Очистка данных

●   Удаление избыточных
●   Проверка независимости
●   Корреляционный и факторный анализ




                                        10
Выбор алгоритма анализа

●   На основании данных
●   Исходя из задачи
●   Можно несколько, комбинируя (чаще
    последовательно)




                                        11
Обучение

●   Алгоритм анализа часто сам данные не
    анализирует
●   Он строит анализатор данных
●   Который основан на конкретных данных
●   И который как раз доказывает или
    опровергает гипотезу



                                           12
Оценка результата

●   Полученный набор правил следует
    проверить
●   Хотя бы визуализацией
●   При помощи данных, опять же
●   Иногда — на тех же, по которым строили
●   Чаще — на независимых (отобранных
    заранее и не участвовавших в построении)
●   Различными методами
●   Если качество результата не устраивает —   13

    то меняем что-то и заново
Применение построенного
                анализатора
●   Его объяснение
●   Его визуализация
●   Его интерпретация
●   Его использование в реальности




                                     14
Пример

●   Автоводитель (Нейронная сеть)




                                    15
Средства анализа данных

●   Статистические/математические пакеты
●   Среды анализа данных
●   Библиотеки анализа данных
●   Пакеты анализа данных
●   Средства добычи данных
●   Средства очистки данных
●   Средства хранения данных
●   Средства визуализации данных
                                           16
Статистические пакеты

●   SPSS
●   Matlab




                                     17
Среды анализа данных

●   Orange
●   Weka
●   RapidMiner




                                    18
Библиотеки анализа
                   данных
●   Xelopes
●   DTML
●   Waffles
●   Apache Mahout




                                   19
Пакеты анализа данных

●   R
●   GNU Octave
●   Python + Numpy




                                    20
Средства добычи данных

●   Пауки
       –   Mechanize
       –   Scrapy
       –   Selenium
       –   ...
●   Парсеры
       –   BeautifulSoup
       –   Lxml
       –   ….
                                          21
Средства добычи данных

●   Пауки
       –   Mechanize
       –   Scrapy
       –   Selenium
       –   ...
●   Парсеры
       –   BeautifulSoup
       –   Lxml
       –   ….
                                          22
Средства очистки данных

●   Парсеры
●   Табличные процессоры
       –   Google Refine
       –   LO Calc
       –   MS Excel




                                        23
Средства хранения данных

●   MS SQL Server
●   MySQL Server
●   Apache Hadoop




                                 24
Средства визуализации

●   Gephi
●   Tulip
●   Google Fusion Tables/ Chart Tools
●   Tableau Public
●   ManyEyes
●   Protovis
●   D3.js
●   Data.js
                                        25
●   ….

More Related Content

What's hot

TYPES DATA STRUCTURES( LINEAR AND NON LINEAR)....
TYPES DATA STRUCTURES( LINEAR AND NON LINEAR)....TYPES DATA STRUCTURES( LINEAR AND NON LINEAR)....
TYPES DATA STRUCTURES( LINEAR AND NON LINEAR)....Shail Nakum
 
Entity Relationship Model
Entity Relationship ModelEntity Relationship Model
Entity Relationship ModelSlideshare
 
Command line arguments
Command line argumentsCommand line arguments
Command line argumentsAshok Raj
 
Object Modelling Technique " ooad "
Object Modelling Technique  " ooad "Object Modelling Technique  " ooad "
Object Modelling Technique " ooad "AchrafJbr
 
Er model ppt
Er model pptEr model ppt
Er model pptPihu Goel
 
Spm unit2 select appropriate approach
Spm unit2 select appropriate approachSpm unit2 select appropriate approach
Spm unit2 select appropriate approachDevyani Vasistha
 
Lecture 1 data structures and algorithms
Lecture 1 data structures and algorithmsLecture 1 data structures and algorithms
Lecture 1 data structures and algorithmsAakash deep Singhal
 
Object Modeling Techniques
Object Modeling TechniquesObject Modeling Techniques
Object Modeling TechniquesShilpa Wadhwani
 
DATA STRUCTURES
DATA STRUCTURESDATA STRUCTURES
DATA STRUCTURESbca2010
 
DBMS - FIRST NORMAL FORM
DBMS - FIRST NORMAL FORMDBMS - FIRST NORMAL FORM
DBMS - FIRST NORMAL FORMMANISH T I
 

What's hot (20)

Unit 1 DBMS
Unit 1 DBMSUnit 1 DBMS
Unit 1 DBMS
 
TYPES DATA STRUCTURES( LINEAR AND NON LINEAR)....
TYPES DATA STRUCTURES( LINEAR AND NON LINEAR)....TYPES DATA STRUCTURES( LINEAR AND NON LINEAR)....
TYPES DATA STRUCTURES( LINEAR AND NON LINEAR)....
 
Entity Relationship Model
Entity Relationship ModelEntity Relationship Model
Entity Relationship Model
 
Command line arguments
Command line argumentsCommand line arguments
Command line arguments
 
Object Modelling Technique " ooad "
Object Modelling Technique  " ooad "Object Modelling Technique  " ooad "
Object Modelling Technique " ooad "
 
ER Model in DBMS
ER Model in DBMSER Model in DBMS
ER Model in DBMS
 
Er model ppt
Er model pptEr model ppt
Er model ppt
 
File handling in c
File handling in cFile handling in c
File handling in c
 
Database Management System
Database Management SystemDatabase Management System
Database Management System
 
Spm unit2 select appropriate approach
Spm unit2 select appropriate approachSpm unit2 select appropriate approach
Spm unit2 select appropriate approach
 
C Programming Unit-4
C Programming Unit-4C Programming Unit-4
C Programming Unit-4
 
Kdd process
Kdd processKdd process
Kdd process
 
Data types in C
Data types in CData types in C
Data types in C
 
Pca ppt
Pca pptPca ppt
Pca ppt
 
Lecture 1 data structures and algorithms
Lecture 1 data structures and algorithmsLecture 1 data structures and algorithms
Lecture 1 data structures and algorithms
 
Hierarchical Clustering
Hierarchical ClusteringHierarchical Clustering
Hierarchical Clustering
 
Object Modeling Techniques
Object Modeling TechniquesObject Modeling Techniques
Object Modeling Techniques
 
DATA STRUCTURES
DATA STRUCTURESDATA STRUCTURES
DATA STRUCTURES
 
DBMS - FIRST NORMAL FORM
DBMS - FIRST NORMAL FORMDBMS - FIRST NORMAL FORM
DBMS - FIRST NORMAL FORM
 
Header files in c
Header files in cHeader files in c
Header files in c
 

Viewers also liked

Franchise - No animations
Franchise - No animationsFranchise - No animations
Franchise - No animationsyukha23
 
Impact Specialties Waffle House Food Truck
Impact Specialties Waffle House Food TruckImpact Specialties Waffle House Food Truck
Impact Specialties Waffle House Food TruckEmily Sicely
 
Как и зачем делать фуд-трак?
Как и зачем делать фуд-трак?Как и зачем делать фуд-трак?
Как и зачем делать фуд-трак?Alex Gisak
 
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективностиВеб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективностиTechart Marketing Group
 
Станислав Завертайло
Станислав ЗавертайлоСтанислав Завертайло
Станислав ЗавертайлоRestoPraktiki
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данныхYandex
 
Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)
Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)
Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)CimanConsalt
 
Язык R: анализ и визуализация данных
Язык R: анализ и визуализация данныхЯзык R: анализ и визуализация данных
Язык R: анализ и визуализация данныхMatrunich Consulting
 
Маленькие секреты больших данных
Маленькие секреты больших данныхМаленькие секреты больших данных
Маленькие секреты больших данныхAndrey Ustyuzhanin
 
All About Waffles
All About WafflesAll About Waffles
All About Waffleswoodson27
 
Анализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов GoogleАнализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов GoogleNetpeak
 
Sweet Belgian Waffels
Sweet Belgian WaffelsSweet Belgian Waffels
Sweet Belgian Waffelsrh99int
 
How to Start a Food Truck Business
How to Start a Food Truck BusinessHow to Start a Food Truck Business
How to Start a Food Truck BusinessRestaurant Engine
 
Text Analytics -- анализ неструктурированных данных
Text Analytics -- анализ неструктурированных данныхText Analytics -- анализ неструктурированных данных
Text Analytics -- анализ неструктурированных данныхAlexey Kononenko
 

Viewers also liked (14)

Franchise - No animations
Franchise - No animationsFranchise - No animations
Franchise - No animations
 
Impact Specialties Waffle House Food Truck
Impact Specialties Waffle House Food TruckImpact Specialties Waffle House Food Truck
Impact Specialties Waffle House Food Truck
 
Как и зачем делать фуд-трак?
Как и зачем делать фуд-трак?Как и зачем делать фуд-трак?
Как и зачем делать фуд-трак?
 
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективностиВеб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
Веб-аналитика для рекламы: сбор данных, анализ, увеличение эффективности
 
Станислав Завертайло
Станислав ЗавертайлоСтанислав Завертайло
Станислав Завертайло
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данных
 
Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)
Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)
Бизнес-план предприятия общепита (фаст-фуд) (Дэмо-версия)
 
Язык R: анализ и визуализация данных
Язык R: анализ и визуализация данныхЯзык R: анализ и визуализация данных
Язык R: анализ и визуализация данных
 
Маленькие секреты больших данных
Маленькие секреты больших данныхМаленькие секреты больших данных
Маленькие секреты больших данных
 
All About Waffles
All About WafflesAll About Waffles
All About Waffles
 
Анализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов GoogleАнализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов Google
 
Sweet Belgian Waffels
Sweet Belgian WaffelsSweet Belgian Waffels
Sweet Belgian Waffels
 
How to Start a Food Truck Business
How to Start a Food Truck BusinessHow to Start a Food Truck Business
How to Start a Food Truck Business
 
Text Analytics -- анализ неструктурированных данных
Text Analytics -- анализ неструктурированных данныхText Analytics -- анализ неструктурированных данных
Text Analytics -- анализ неструктурированных данных
 

Similar to Введение в анализ данных

AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...JSC “Arcadia Inc”
 
BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты Dima Karamshuk
 
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"Nikolay Grebenshikov
 
Алгоритмы кластеризации. ч.3
Алгоритмы кластеризации. ч.3Алгоритмы кластеризации. ч.3
Алгоритмы кластеризации. ч.3Ivan Ignatyev
 
Анализ данных
Анализ данныхАнализ данных
Анализ данныхABC Consulting
 
ACC - конструируем тест-план методом Google
ACC - конструируем тест-план методом GoogleACC - конструируем тест-план методом Google
ACC - конструируем тест-план методом GoogleSQALab
 
Знакомство с проектом
Знакомство с проектомЗнакомство с проектом
Знакомство с проектомNazira Sheraly
 
Петрова Ксения - Data mining на практике - dmlabs.org
Петрова Ксения - Data mining на практике - dmlabs.orgПетрова Ксения - Data mining на практике - dmlabs.org
Петрова Ксения - Data mining на практике - dmlabs.orgWG_ Events
 
Call of Postgres: Advanced Operations (part 4)
Call of Postgres: Advanced Operations (part 4)Call of Postgres: Advanced Operations (part 4)
Call of Postgres: Advanced Operations (part 4)Alexey Lesovsky
 
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...Nikita Makarov
 
Мониторинг и отладка MySQL: максимум информации при минимальных потерях
Мониторинг и отладка MySQL: максимум информации при минимальных потеряхМониторинг и отладка MySQL: максимум информации при минимальных потерях
Мониторинг и отладка MySQL: максимум информации при минимальных потеряхSveta Smirnova
 
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...Ontico
 
Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...
Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...
Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...Mail.ru Group
 
Mail.ru: Как вырастить в себе автоматизатора и разработчика
Mail.ru:  Как вырастить в себе автоматизатора и разработчикаMail.ru:  Как вырастить в себе автоматизатора и разработчика
Mail.ru: Как вырастить в себе автоматизатора и разработчикаMaxim Boguslavsky
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04Computer Science Club
 
Программирование как способ выражения мыслей.
Программирование как способ выражения мыслей. Программирование как способ выражения мыслей.
Программирование как способ выражения мыслей. Levon Avakyan
 
Performance Tester's Professional Roadmap
Performance Tester's Professional RoadmapPerformance Tester's Professional Roadmap
Performance Tester's Professional Roadmapundera
 
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011Alexey Kachalin
 

Similar to Введение в анализ данных (20)

апрель
апрельапрель
апрель
 
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
 
BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты
 
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
Лекция №1. Введение. Предмет "Структуры и алгоритмы обработки данных"
 
Алгоритмы кластеризации. ч.3
Алгоритмы кластеризации. ч.3Алгоритмы кластеризации. ч.3
Алгоритмы кластеризации. ч.3
 
лекц11
лекц11лекц11
лекц11
 
Анализ данных
Анализ данныхАнализ данных
Анализ данных
 
ACC - конструируем тест-план методом Google
ACC - конструируем тест-план методом GoogleACC - конструируем тест-план методом Google
ACC - конструируем тест-план методом Google
 
Знакомство с проектом
Знакомство с проектомЗнакомство с проектом
Знакомство с проектом
 
Петрова Ксения - Data mining на практике - dmlabs.org
Петрова Ксения - Data mining на практике - dmlabs.orgПетрова Ксения - Data mining на практике - dmlabs.org
Петрова Ксения - Data mining на практике - dmlabs.org
 
Call of Postgres: Advanced Operations (part 4)
Call of Postgres: Advanced Operations (part 4)Call of Postgres: Advanced Operations (part 4)
Call of Postgres: Advanced Operations (part 4)
 
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
Selenium нетрадиционной ориентации или Тестирование производительности Javasc...
 
Мониторинг и отладка MySQL: максимум информации при минимальных потерях
Мониторинг и отладка MySQL: максимум информации при минимальных потеряхМониторинг и отладка MySQL: максимум информации при минимальных потерях
Мониторинг и отладка MySQL: максимум информации при минимальных потерях
 
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
Мониторинг и отладка MySQL: максимум информации при минимальных потерях / Све...
 
Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...
Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...
Максим Богуславский, Banki.ru, «Как вырастить в себе автоматизатора и разрабо...
 
Mail.ru: Как вырастить в себе автоматизатора и разработчика
Mail.ru:  Как вырастить в себе автоматизатора и разработчикаMail.ru:  Как вырастить в себе автоматизатора и разработчика
Mail.ru: Как вырастить в себе автоматизатора и разработчика
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04
 
Программирование как способ выражения мыслей.
Программирование как способ выражения мыслей. Программирование как способ выражения мыслей.
Программирование как способ выражения мыслей.
 
Performance Tester's Professional Roadmap
Performance Tester's Professional RoadmapPerformance Tester's Professional Roadmap
Performance Tester's Professional Roadmap
 
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
 

More from Ivan Ignatyev

Тематические карты на LeafletJS с плагинами.
Тематические карты на LeafletJS с плагинами.Тематические карты на LeafletJS с плагинами.
Тематические карты на LeafletJS с плагинами.Ivan Ignatyev
 
Административная информация по практике
Административная информация по практикеАдминистративная информация по практике
Административная информация по практикеIvan Ignatyev
 
Вводная лекция по Защите Информации
Вводная лекция по Защите ИнформацииВводная лекция по Защите Информации
Вводная лекция по Защите ИнформацииIvan Ignatyev
 
Вводная лекция. О курсе АД.
Вводная лекция. О курсе АД.Вводная лекция. О курсе АД.
Вводная лекция. О курсе АД.Ivan Ignatyev
 
Организация защищенного доступа к системе
Организация защищенного доступа к системеОрганизация защищенного доступа к системе
Организация защищенного доступа к системеIvan Ignatyev
 
Приватность
ПриватностьПриватность
ПриватностьIvan Ignatyev
 
Защищенные каналы связи
Защищенные каналы связиЗащищенные каналы связи
Защищенные каналы связиIvan Ignatyev
 
Защита доверия. Цифровые подписи
Защита доверия. Цифровые подписиЗащита доверия. Цифровые подписи
Защита доверия. Цифровые подписиIvan Ignatyev
 
Защита от отказов
Защита от отказовЗащита от отказов
Защита от отказовIvan Ignatyev
 
Идентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, АвторизацияИдентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, АвторизацияIvan Ignatyev
 
Криптография
КриптографияКриптография
КриптографияIvan Ignatyev
 
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии":  Состав и взгляд на защищаемые объектСтандарт "Общие Критерии":  Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объектIvan Ignatyev
 
Стандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверияСтандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверияIvan Ignatyev
 
Управление безопасностью
Управление безопасностьюУправление безопасностью
Управление безопасностьюIvan Ignatyev
 
Организация защищенного доступа к данным
Организация защищенного доступа к даннымОрганизация защищенного доступа к данным
Организация защищенного доступа к даннымIvan Ignatyev
 
Защита информации. Вводная лекция.
Защита информации. Вводная лекция.Защита информации. Вводная лекция.
Защита информации. Вводная лекция.Ivan Ignatyev
 
Факторный анализ
Факторный анализФакторный анализ
Факторный анализIvan Ignatyev
 
Секвенциальный анализ
Секвенциальный анализСеквенциальный анализ
Секвенциальный анализIvan Ignatyev
 
Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1Ivan Ignatyev
 
Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2Ivan Ignatyev
 

More from Ivan Ignatyev (20)

Тематические карты на LeafletJS с плагинами.
Тематические карты на LeafletJS с плагинами.Тематические карты на LeafletJS с плагинами.
Тематические карты на LeafletJS с плагинами.
 
Административная информация по практике
Административная информация по практикеАдминистративная информация по практике
Административная информация по практике
 
Вводная лекция по Защите Информации
Вводная лекция по Защите ИнформацииВводная лекция по Защите Информации
Вводная лекция по Защите Информации
 
Вводная лекция. О курсе АД.
Вводная лекция. О курсе АД.Вводная лекция. О курсе АД.
Вводная лекция. О курсе АД.
 
Организация защищенного доступа к системе
Организация защищенного доступа к системеОрганизация защищенного доступа к системе
Организация защищенного доступа к системе
 
Приватность
ПриватностьПриватность
Приватность
 
Защищенные каналы связи
Защищенные каналы связиЗащищенные каналы связи
Защищенные каналы связи
 
Защита доверия. Цифровые подписи
Защита доверия. Цифровые подписиЗащита доверия. Цифровые подписи
Защита доверия. Цифровые подписи
 
Защита от отказов
Защита от отказовЗащита от отказов
Защита от отказов
 
Идентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, АвторизацияИдентификация, Аутентификация, Авторизация
Идентификация, Аутентификация, Авторизация
 
Криптография
КриптографияКриптография
Криптография
 
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии":  Состав и взгляд на защищаемые объектСтандарт "Общие Критерии":  Состав и взгляд на защищаемые объект
Стандарт "Общие Критерии": Состав и взгляд на защищаемые объект
 
Стандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверияСтандарт "Общие Критерии" : Состав, методология, требования доверия
Стандарт "Общие Критерии" : Состав, методология, требования доверия
 
Управление безопасностью
Управление безопасностьюУправление безопасностью
Управление безопасностью
 
Организация защищенного доступа к данным
Организация защищенного доступа к даннымОрганизация защищенного доступа к данным
Организация защищенного доступа к данным
 
Защита информации. Вводная лекция.
Защита информации. Вводная лекция.Защита информации. Вводная лекция.
Защита информации. Вводная лекция.
 
Факторный анализ
Факторный анализФакторный анализ
Факторный анализ
 
Секвенциальный анализ
Секвенциальный анализСеквенциальный анализ
Секвенциальный анализ
 
Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1Алгоритмы кластеризации. ч.1
Алгоритмы кластеризации. ч.1
 
Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2Алгоритмы кластеризации. ч.2
Алгоритмы кластеризации. ч.2
 

Введение в анализ данных

  • 1. Лекция №2 Введение в анализ данных 1
  • 2. План лекции ● Основные понятия анализа данных ● Основные подходы анализа данных ● Основные инструменты анализа данных Цель лекции — получить представление о процессе анализа данных и применяемых методиках 2
  • 3. Основы Анализа данных ● Теория вероятности и математическая статистика ● Математический анализ ● Вычислительная математика ● Для тех, кто забыл — khanacademy.org 3
  • 4. Основные понятия ● Атрибут – Зависимая переменная – Независимая переменная ● Объект ● Значение атрибута у объекта ● Измерение 4
  • 5. Шкалы ● Номинальная (=, <>) ● Дихотомическая ● Порядковая (=, <>, >, <) ● Интервальная (=, <>, >, <, +, -) ● Относительная (=, <>, >, <, +, -, *, /) 5
  • 6. Процесс анализа данных ● Постановка задачи ● Сбор данных ● Выдвижение гипотез ● Очистка данных ● Выбор алгоритма анализа ● «Обучение» (Machine Learning) ● Оценка результата ● Применение построенного в результате обучения 6
  • 7. Постановка задачи ● Следует сформулировать, что мы хотим изучить, какие возможные закономерности выявить ● Предварительные «гипотезы» 7
  • 8. Сбор данных ● Из реальности ● При помощи программных инструментов ● Или опросов ● Или наблюдений 8
  • 9. Выдвижение гипотез ● Основываясь на собранных данных ● Их визуализации ● Их структуре 9
  • 10. Очистка данных ● Удаление избыточных ● Проверка независимости ● Корреляционный и факторный анализ 10
  • 11. Выбор алгоритма анализа ● На основании данных ● Исходя из задачи ● Можно несколько, комбинируя (чаще последовательно) 11
  • 12. Обучение ● Алгоритм анализа часто сам данные не анализирует ● Он строит анализатор данных ● Который основан на конкретных данных ● И который как раз доказывает или опровергает гипотезу 12
  • 13. Оценка результата ● Полученный набор правил следует проверить ● Хотя бы визуализацией ● При помощи данных, опять же ● Иногда — на тех же, по которым строили ● Чаще — на независимых (отобранных заранее и не участвовавших в построении) ● Различными методами ● Если качество результата не устраивает — 13 то меняем что-то и заново
  • 14. Применение построенного анализатора ● Его объяснение ● Его визуализация ● Его интерпретация ● Его использование в реальности 14
  • 15. Пример ● Автоводитель (Нейронная сеть) 15
  • 16. Средства анализа данных ● Статистические/математические пакеты ● Среды анализа данных ● Библиотеки анализа данных ● Пакеты анализа данных ● Средства добычи данных ● Средства очистки данных ● Средства хранения данных ● Средства визуализации данных 16
  • 18. Среды анализа данных ● Orange ● Weka ● RapidMiner 18
  • 19. Библиотеки анализа данных ● Xelopes ● DTML ● Waffles ● Apache Mahout 19
  • 20. Пакеты анализа данных ● R ● GNU Octave ● Python + Numpy 20
  • 21. Средства добычи данных ● Пауки – Mechanize – Scrapy – Selenium – ... ● Парсеры – BeautifulSoup – Lxml – …. 21
  • 22. Средства добычи данных ● Пауки – Mechanize – Scrapy – Selenium – ... ● Парсеры – BeautifulSoup – Lxml – …. 22
  • 23. Средства очистки данных ● Парсеры ● Табличные процессоры – Google Refine – LO Calc – MS Excel 23
  • 24. Средства хранения данных ● MS SQL Server ● MySQL Server ● Apache Hadoop 24
  • 25. Средства визуализации ● Gephi ● Tulip ● Google Fusion Tables/ Chart Tools ● Tableau Public ● ManyEyes ● Protovis ● D3.js ● Data.js 25 ● ….