SlideShare una empresa de Scribd logo
1 de 24
Descargar para leer sin conexión
Харьковский национальный университет имени В. Н. Каразина 
Факультет компьютерных наук 
ИНТЕЛЛЕКТУАЛЬНЫЙ 
АНАЛИЗ ДАННЫХ 
Data Mining 
Подготовил: 
доцент каф. искусственного интеллекта и программного обеспечения, 
к.ф.-м. н. Гахов Андрей Владимирович 
2014/2015 уч. год
ЛЕКЦИЯ 4 
Подготовка данных (preprocessing). Часть 2
РЕДУКЦИЯ ДАННЫХ
Редукция данных (data reduction) применяется для 
получения меньшего по объему представления данных, 
которое сохраняет все свойства исходного набора 
данных (эквивалетный набор данных). 
Работа с меньшими по объему данными увеличивает 
возможности анализа, в то время как результат анализа 
(почти) не отличается от анализа исходных данных. 
Основные методы редукции данных: 
• Уменьшение размерности 
• Компактное представление данных 
• Сжатие данных
УМЕНЬШЕНИЕ РАЗМЕРНОСТИ 
• Методы уменьшения размерности данных 
направлены в первую очередь на уменьшение 
количества рассматриваемых случайных 
переменных или атрибутов. 
• Некоторые из основных методов: 
• Вейвлет-преобразования 
• Метод главных компонент (PCA) 
• Выделение подмножества атрибутов
УМЕНЬШЕНИЕ РАЗМЕРНОСТИ 
ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ 
• Дискретное вейвлет-преобразование (ДВП) это метод линейной 
обработки сигнала, который преобразует исходный вектор X в 
некоторый вектор той же длины X´, состоящий из вейвлет- 
коэффициентов 
• Если мы получаем вектор той же длины, тогда в чем состоит 
уменьшение размерности? 
• Само по себе вейвлет-преобразование не уменьшает размерность. 
Однако, благодаря его свойствам, в векторе X´ можно отбросить часть 
элементов (положив их равными 0), оставив только самые значимые из 
них (например, большие некоторого порогового значения). 
• Полученный вектор X´´ будет содержать большое количество нулевых 
элементов (т.е. можно оптимизировать вычисления), а применив к нему 
обратное ДВП все еще можно будет восстановить исходный вектор X 
(с некоторой ошибкой)
УМЕНЬШЕНИЕ РАЗМЕРНОСТИ 
МЕТОД ГЛАВНЫХ КОМПОНЕНТ 
• Метод главных компонент (principal component analysis, 
PCA) - один из основных способов уменьшения размерности 
данных, потеряв наименьшее количество информации 
• Для исходного набора данных D с n атрибутами (т.е. 
рассматриваемого в n-мерном пространстве) PCA 
производит поиск k главных компонент - n-мерных 
ортогональных векторов (k≤n), чтобы величина отклонений 
начальных данных была минимальна 
• Метод позволяет уменьшить размерность данных путем 
построения их проекции на пространство меньшей 
размерности, определяемого найденным базисом из 
векторов главных компонент
УМЕНЬШЕНИЕ РАЗМЕРНОСТИ 
МЕТОД ГЛАВНЫХ КОМПОНЕНТ 
• ПРИМЕР: рассмотрим набор данных с 2 атрибутами 
(т.е. в 2-мерном пространстве): 
x2 
x1 
x2 
x1 
p1 
p1 - главная компонента 
p1
УМЕНЬШЕНИЕ РАЗМЕРНОСТИ 
ВЫБОР ПОДМНОЖЕСТВА АТРИБУТОВ 
• Данные могут содержать множество атрибутов, 
однако важными для рассматриваемой задачи 
могут быть лишь некоторые из них 
• ПРИМЕР: пусть по каждому покупателю в 
книжном магазине хранится 3 атрибута - 
возраст, любимый жанр и номер телефона. 
Очевидно, что в задаче прогнозирования 
возможного спроса на новую книгу, атрибут 
номер телефона не является атрибутом, 
влияющим на результат
УМЕНЬШЕНИЕ РАЗМЕРНОСТИ 
ВЫБОР ПОДМНОЖЕСТВА АТРИБУТОВ 
• Целью выбора подмножества атрибутов 
состоит в поиске и исключению атрибутов, не 
относящихся к рассматриваемой задаче или 
оказывающих минимальное влияние 
• Как известно, для множетва из n атрибутов 
существует 2n возможных подмножества, 
поэтому задача поиска оптимального 
подмножества не тривиальна 
• Выбор атрибута в подмножество основывается, 
как правило, на некотором статистическом тесте
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
• Данные методы заменяют исходный набор данных на 
альтернативную (но меньшую по размеру) форму 
представления данных. 
• Основые семейства методов: 
• Параметрические 
• Непараметрические 
• В параметрических методах строится некоторая модель, 
описывающая исходный набор данных, и следовательно набор 
данных может быть описан за счет параметров этой модели. 
Сюда относятся регрессия и логарифмически линейная модель 
• Непараметрические методы, как правило, основаны на 
аггрегации данных и рассмотрении более высоких уровней 
абстракции. К таким методам относятся гистограмма, методы 
кластеризации, семплинг (построение выборок) и OLAP-куб
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
РЕГРЕССИЯ 
• Регрессия позволяет по величине одного или 
нескольких атрибутов находить ожидаемые 
значения другого атрибута 
• Линейная регрессия - это простейший 
алгоритм регресии, заключающийся в 
построении линейной функции, наиболее точно 
(в смысле некоторой функции ошибки) 
приближающей имеющиеся данные 
• Линейная регрессия может быть одномерной и 
многомерной
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ 
• Предположим, что исходный набор данных имеет вид 
• Задача линейной регрессии состоит в построении 
линейной модели зависимости величин yk используя 
значения xk. Для случая одной переменной такая 
зависимость моделируется в виде уравнения прямой: 
hθ (x) =θ 0 +θ1x 
{xk , yk }, k = 1…N 
• Следовательно, нам необходимо найти такие параметры 
θ0 и θ1, чтобы как можно более точно выполнялось: 
hθ (xk ) =θ 0 +θ1xk ≈ yk , k = 1…N
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ 
• Ошибка приближения функцией hθ(x) каждого отдельного 
значения yk будет равна: 
error(k,θ ) = hθ (xk )− yk 
• Используя метод наименьших квадратов (МНК), ошибку 
моделирования всех исходных данных функцией hθ(x) 
можно оценить при помощи квадратичной функции 
ошибок (функции невязки) 
J θ ( ) = 1 
2N 
(hθ (xk )− yk )2 
NΣ 
k=1 
• Оптимальные значений параметров θ0 и θ1 могут быть найдены 
из условия минимальности общей ошибки: 
∗,θ1 
( ∗ ) = min 
J θ 0 
θ 
J θ ( ) = min 
θ0 ,θ1 
1 
2N 
θ 0 +θ1xk − y( k )2 
NΣ 
k=1
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ 
• Решение данной задачи оптимизации может быть выполнено 
по методу градиентного спуска, представляющего собой 
итерационный процесс поиска экстремума функции с помощью 
движения вдоль направления антиградиента 
• На каждом шаге метода мы “подстраиваем” найденные 
параметры по формулам 
θ 0 :=θ 0 −α ∂ 
∂θ 0 
J θ 0 ,θ1 ( ) =θ 0 −α 1 
N 
(θ 0 +θ1xk − yk ) 
NΣ 
k=1 
θ1 :=θ1 −α ∂ 
∂θ1 
J θ 0 ,θ1 ( ) =θ1 −α 1 
N 
θ 0 +θ1xk − y( k )⋅ xk 
NΣ 
k=1 
⎡ 
⎢⎢⎢⎢⎢ 
⎣ 
где α - некоторое положительное число, влияющее на скорость 
сходимости метода (определяет скорость движения)
ЗАДАНИЯ 
• Значения атрибутов рост (см) и вес (кг) для студентов группы имею вид: 
рост вес рост вес рост вес рост вес рост вес 
185 77 163 68 173 82 193 70 175 83 
170 66 188 82 180 84 183 79 165 66 
183 75 185 74 178 100 175 77 178 67 
183 77 165 61 183 84 183 70 188 95 
175 76 185 77 188 84 185 76 178 63 
• Необходимо: 
• вычислить коэффициенты линейной регрессии 
• вычислить невязку на каждом шаге метода градиентного спуска 
• построить график изменения невязки с каждым шагом метода 
градиентного спуска. Что можно контролировать, наблюдая за 
данным графиком? 
• использовать значения α = 0.01, 1.0, 10.0 На что влияет данный 
параметр? 
• вычислить итоговую невязку для найденного уравнения регрессии 
• построить диаграмму рассеяния и прямую линию регрессии
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
САМПЛИНГ 
• Самплинг (samling) заключается в замене 
исходного набора данных D меньшим набором 
данных (выборка), выбранного случайным образом 
• Преимуществом методов самплинга при редукции 
данных состоит том, что цена получения выборки 
пропорциональна размеру выборки (а не размеру N 
исходного набора данных D) 
• Другие методы редукции данных, как правило, 
требуют как минимум одного полного просмотра 
всех исходных данных D
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
МЕТОДЫ САМПЛИНГА 
• Простая случайная выборка без замен 
Выборка получается путем случайного выбора M наблюдений из 
общего числа N наблюдений в исходном наборе данных D (M<N) 
с равной вероятностью попадания в выборку каждого наблюдения 
• Простая случайная выборка с заменами 
Отличается от выборки без замен тем, что выбранное 
наблюдение “возвращается” в исходный набор данных и может 
быть выбрано еще раз 
T1 
T2 
T3 
T4 
T5 
T6 
T7 
T8 
T6 
T8 
T3 
T2 
T5 
T8 
T5 
Простая случайная выборка без замен 
N=8, M=4 
Простая случайная выборка с заменами T2
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
МЕТОДЫ САМПЛИНГА 
• Кластерная выборка 
Если наблюдения в исходном наборе данных D сгруппированы 
в K непересекающихся групп, тогда можно сделать выборку из 
M кластеров (M<K) применив алгоритм простой случайной 
выборки на уровне кластеров 
• ПРИМЕР. При запросе к базе данных выдача информации 
может разбиваться на страницы (например, по 100 записей), 
которые и могут рассматриваться в качестве кластеров 
T201 
T1 
T2 
T3 
… 
T100 
T901 
T301 
T601 
T602 
T603 
… 
T700 
Простая случайная выборка без замен 
N=1000, K=9, M=2
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
МЕТОДЫ САМПЛИНГА 
• Стратифицированная выборка 
Если исходный набор данных D разделен (например, по некоторому 
признаку) на некоторое количество непересекающихся частей 
(страт, strata), тогда можно сделать выборку из каждой страты, 
применив алгоритм простой случайной выборки. 
Стратифицированная выборка обеспечивает наличие в ней 
представителей из каждой страты, даже если некоторые страты 
достаточно малы (асимметрическое распределение) 
Ford 
Ford 
Ford 
Ford 
Chevrolet 
Chevrolet 
Chevrolet 
Chevrolet 
Chevrolet 
Chevrolet 
Range Rover 
Range Rover 
T12 
T57 
T186 
T711 
T12 
T215 
T632 
T715 
T800 
T803 
T24 
T75 
Ford 
Ford 
Chevrolet 
Chevrolet 
Chevrolet 
Range Rover 
T12 
T711 
T215 
T12 
T632 
T75 
Простая случайная выборка без замен
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
OLAP-КУБ 
• OLAP (англ. online analytical processing) это 
технология обработки данных, заключающаяся в 
подготовке суммарной (агрегированной) 
информации на основе больших массивов данных, 
структурированных по многомерному принципу 
• OLAP-куб (куб данных) это форма многомерного 
массива данных, предназначенная для хранения и 
быстрого доступа к предварительно вычисленным 
и агрегированным данным
КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 
ПРИМЕР: OLAP-КУБ 
2011 2012 2013 2014 
год 
Ф1 
Ф2 
Ф3 
Ф4 
филиал 
марка 
Ford 
BMW 
VW 
Opel 
119 
100 
182 
365 
Ф1 Ф2 Ф3 Ф4 
Ford 50 25 35 9 119 
BMW 46 52 0 2 100 
VW 93 12 45 32 182 
Opel 188 42 5 130 365 
377 131 85 173 
377 
131 
173 
85 
50 
46 
93 
188 
25 
52 
12 
42 
35 
0 
45 
5 
9 
2 
32 
130 
2D-разрез за 2014 год 
2014
СЖАТИЕ ДАННЫХ 
• Сжатие данных подразумевает применение некоторого 
алгоритма преобразования для получения уменьшенного 
(сжатого) набора данных из исходного набора 
• Методы уменьшения размерности и алгоритмы 
к о м п а к т н о г о п р е д с т а в л е н и я д а н н ы х м о г у т 
рассматриваться также как частные случаи сжатия данных 
• Существуют два в корне различающихся подхода к 
сжатию данных: 
• Сжатие без потерь 
• Сжатие с потерями
СЖАТИЕ С ПОТЕРЯМИ И БЕЗ ПОТЕРЬ 
• Сжатие без потерь предусматривает преобразование 
представления набора данных таким образом, чтобы затем 
можно было в точности воспроизвести первоначальный набор 
данных путем обратного преобразования. 
• Сжатие с потерями – это представление, которое 
позволяет воспроизводить нечто «очень похожее» на 
первоначальный набор данных. 
• Преимущество использования методов сжатия с потерями 
заключается в том, что они позволяют получать более 
компактные представления данных по сравнению с методами 
сжатия без потерь. 
• ПРИМЕР: Алгоритм MP3 реализует сжатие аудиоданных с 
потерями, а Dolby TrueHD - сжатие без потерь.

Más contenido relacionado

La actualidad más candente

0. основы r
0. основы r0. основы r
0. основы rmsuteam
 
Алгоритмы и структуры данных весна 2014 лекция 2
Алгоритмы и структуры данных весна 2014 лекция 2Алгоритмы и структуры данных весна 2014 лекция 2
Алгоритмы и структуры данных весна 2014 лекция 2Technopark
 
Алгоритмы и структуры данных осень 2013 лекция 2
Алгоритмы и структуры данных осень 2013 лекция 2Алгоритмы и структуры данных осень 2013 лекция 2
Алгоритмы и структуры данных осень 2013 лекция 2Technopark
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Dmitry Kornev
 
Лекция 11. Деревья отрезков (Interval trees)
Лекция 11. Деревья отрезков (Interval trees)Лекция 11. Деревья отрезков (Interval trees)
Лекция 11. Деревья отрезков (Interval trees)Mikhail Kurnosov
 
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)Mikhail Kurnosov
 
Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1Technopark
 
Лекция 9: Декартовы деревья (Treaps, дучи, дерамиды)
Лекция 9: Декартовы деревья (Treaps, дучи, дерамиды)Лекция 9: Декартовы деревья (Treaps, дучи, дерамиды)
Лекция 9: Декартовы деревья (Treaps, дучи, дерамиды)Mikhail Kurnosov
 
Исследование операций и методы оптимизации
Исследование операций и методы оптимизацииИсследование операций и методы оптимизации
Исследование операций и методы оптимизацииJakobow
 
Лекция 2. Алгоритмы сортировки
Лекция 2. Алгоритмы сортировкиЛекция 2. Алгоритмы сортировки
Лекция 2. Алгоритмы сортировкиMikhail Kurnosov
 
Лекция 3. АВЛ-деревья (AVL trees)
Лекция 3. АВЛ-деревья (AVL trees)Лекция 3. АВЛ-деревья (AVL trees)
Лекция 3. АВЛ-деревья (AVL trees)Mikhail Kurnosov
 
Лекция 4. Префиксные деревья (Tries, prefix trees)
Лекция 4. Префиксные деревья (Tries, prefix trees)Лекция 4. Префиксные деревья (Tries, prefix trees)
Лекция 4. Префиксные деревья (Tries, prefix trees)Mikhail Kurnosov
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Technosphere1
 
Лекция 1. Анализ эффективности алгоритмов
Лекция 1. Анализ эффективности алгоритмовЛекция 1. Анализ эффективности алгоритмов
Лекция 1. Анализ эффективности алгоритмовMikhail Kurnosov
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Technosphere1
 
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)Mikhail Kurnosov
 

La actualidad más candente (20)

Алгоритмы сортировки
Алгоритмы сортировкиАлгоритмы сортировки
Алгоритмы сортировки
 
0. основы r
0. основы r0. основы r
0. основы r
 
Алгоритмы поиска
Алгоритмы поискаАлгоритмы поиска
Алгоритмы поиска
 
Алгоритмы и структуры данных весна 2014 лекция 2
Алгоритмы и структуры данных весна 2014 лекция 2Алгоритмы и структуры данных весна 2014 лекция 2
Алгоритмы и структуры данных весна 2014 лекция 2
 
Алгоритмы и структуры данных осень 2013 лекция 2
Алгоритмы и структуры данных осень 2013 лекция 2Алгоритмы и структуры данных осень 2013 лекция 2
Алгоритмы и структуры данных осень 2013 лекция 2
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
Лекция 11. Деревья отрезков (Interval trees)
Лекция 11. Деревья отрезков (Interval trees)Лекция 11. Деревья отрезков (Interval trees)
Лекция 11. Деревья отрезков (Interval trees)
 
Основы языка R
Основы языка RОсновы языка R
Основы языка R
 
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
 
Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1
 
Лекция 9: Декартовы деревья (Treaps, дучи, дерамиды)
Лекция 9: Декартовы деревья (Treaps, дучи, дерамиды)Лекция 9: Декартовы деревья (Treaps, дучи, дерамиды)
Лекция 9: Декартовы деревья (Treaps, дучи, дерамиды)
 
Исследование операций и методы оптимизации
Исследование операций и методы оптимизацииИсследование операций и методы оптимизации
Исследование операций и методы оптимизации
 
Lsa fca spb
Lsa fca spbLsa fca spb
Lsa fca spb
 
Лекция 2. Алгоритмы сортировки
Лекция 2. Алгоритмы сортировкиЛекция 2. Алгоритмы сортировки
Лекция 2. Алгоритмы сортировки
 
Лекция 3. АВЛ-деревья (AVL trees)
Лекция 3. АВЛ-деревья (AVL trees)Лекция 3. АВЛ-деревья (AVL trees)
Лекция 3. АВЛ-деревья (AVL trees)
 
Лекция 4. Префиксные деревья (Tries, prefix trees)
Лекция 4. Префиксные деревья (Tries, prefix trees)Лекция 4. Префиксные деревья (Tries, prefix trees)
Лекция 4. Префиксные деревья (Tries, prefix trees)
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана"
 
Лекция 1. Анализ эффективности алгоритмов
Лекция 1. Анализ эффективности алгоритмовЛекция 1. Анализ эффективности алгоритмов
Лекция 1. Анализ эффективности алгоритмов
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
 
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
Лекция 7. Декартовы деревья (Treaps, дучи, дерамиды)
 

Destacado

Performance Based Hiring Ppt
Performance Based Hiring PptPerformance Based Hiring Ppt
Performance Based Hiring PptHarvey Clay
 
виртуальные внутри и межкорпоративные сообщества практики
виртуальные внутри  и межкорпоративные сообщества практикивиртуальные внутри  и межкорпоративные сообщества практики
виртуальные внутри и межкорпоративные сообщества практикиPavel Gorbunov
 
Wielrenner Tom Dumoulin richt firma op met vriendin
Wielrenner Tom Dumoulin richt firma op met vriendinWielrenner Tom Dumoulin richt firma op met vriendin
Wielrenner Tom Dumoulin richt firma op met vriendinThierry Debels
 
SXSW Conference Tips
SXSW Conference TipsSXSW Conference Tips
SXSW Conference TipsAneta Hall
 
РИФ+КИБ "Когда не нужен отдел юзабилити"
РИФ+КИБ "Когда не нужен отдел юзабилити"РИФ+КИБ "Когда не нужен отдел юзабилити"
РИФ+КИБ "Когда не нужен отдел юзабилити"Ksenia Sternina
 
Gestos manuales concurso nº3
Gestos manuales  concurso nº3Gestos manuales  concurso nº3
Gestos manuales concurso nº3Luis Gil Gil
 
Crisis de valores
Crisis de valoresCrisis de valores
Crisis de valoreslauratec
 
Designing Design Workshops
Designing Design WorkshopsDesigning Design Workshops
Designing Design WorkshopsAdam Connor
 
Bekannte Russlanddeutsche/Известные российские немцы
Bekannte Russlanddeutsche/Известные российские немцыBekannte Russlanddeutsche/Известные российские немцы
Bekannte Russlanddeutsche/Известные российские немцыplutototo
 
Rami Yazje Selected Works Presentation
Rami Yazje Selected Works PresentationRami Yazje Selected Works Presentation
Rami Yazje Selected Works PresentationRami Yazje
 
Peter Howes - Workforce Analytics and Planning
Peter Howes - Workforce Analytics and PlanningPeter Howes - Workforce Analytics and Planning
Peter Howes - Workforce Analytics and PlanningAffero Lab
 
JJUG CCC 20150411 grails3 Spring-boot
JJUG CCC 20150411 grails3 Spring-bootJJUG CCC 20150411 grails3 Spring-boot
JJUG CCC 20150411 grails3 Spring-bootTsuyoshi Yamamoto
 
Mobile Marketing for Health Clubs: A New Way to Acquire Members
Mobile Marketing for Health Clubs: A New Way to Acquire MembersMobile Marketing for Health Clubs: A New Way to Acquire Members
Mobile Marketing for Health Clubs: A New Way to Acquire MembersNetpulse
 
Des conditions d'apprentissage favorables à la Mise en Activités des élèves
Des conditions d'apprentissage favorables à la Mise en Activités des élèvesDes conditions d'apprentissage favorables à la Mise en Activités des élèves
Des conditions d'apprentissage favorables à la Mise en Activités des élèvesMarcel Lebrun
 

Destacado (20)

Tata rfi 2011_print
Tata rfi 2011_printTata rfi 2011_print
Tata rfi 2011_print
 
Performance Based Hiring Ppt
Performance Based Hiring PptPerformance Based Hiring Ppt
Performance Based Hiring Ppt
 
виртуальные внутри и межкорпоративные сообщества практики
виртуальные внутри  и межкорпоративные сообщества практикивиртуальные внутри  и межкорпоративные сообщества практики
виртуальные внутри и межкорпоративные сообщества практики
 
Pavo real
Pavo realPavo real
Pavo real
 
Asta Art1 (Pp Tminimizer)
Asta Art1 (Pp Tminimizer)Asta Art1 (Pp Tminimizer)
Asta Art1 (Pp Tminimizer)
 
90 days projet (1)
90 days projet (1)90 days projet (1)
90 days projet (1)
 
Wielrenner Tom Dumoulin richt firma op met vriendin
Wielrenner Tom Dumoulin richt firma op met vriendinWielrenner Tom Dumoulin richt firma op met vriendin
Wielrenner Tom Dumoulin richt firma op met vriendin
 
SXSW Conference Tips
SXSW Conference TipsSXSW Conference Tips
SXSW Conference Tips
 
РИФ+КИБ "Когда не нужен отдел юзабилити"
РИФ+КИБ "Когда не нужен отдел юзабилити"РИФ+КИБ "Когда не нужен отдел юзабилити"
РИФ+КИБ "Когда не нужен отдел юзабилити"
 
Gestos manuales concurso nº3
Gestos manuales  concurso nº3Gestos manuales  concurso nº3
Gestos manuales concurso nº3
 
Crisis de valores
Crisis de valoresCrisis de valores
Crisis de valores
 
Designing Design Workshops
Designing Design WorkshopsDesigning Design Workshops
Designing Design Workshops
 
Bekannte Russlanddeutsche/Известные российские немцы
Bekannte Russlanddeutsche/Известные российские немцыBekannte Russlanddeutsche/Известные российские немцы
Bekannte Russlanddeutsche/Известные российские немцы
 
Koudetat
KoudetatKoudetat
Koudetat
 
Rami Yazje Selected Works Presentation
Rami Yazje Selected Works PresentationRami Yazje Selected Works Presentation
Rami Yazje Selected Works Presentation
 
Peter Howes - Workforce Analytics and Planning
Peter Howes - Workforce Analytics and PlanningPeter Howes - Workforce Analytics and Planning
Peter Howes - Workforce Analytics and Planning
 
JJUG CCC 20150411 grails3 Spring-boot
JJUG CCC 20150411 grails3 Spring-bootJJUG CCC 20150411 grails3 Spring-boot
JJUG CCC 20150411 grails3 Spring-boot
 
Kiem toan cdcq
Kiem toan cdcqKiem toan cdcq
Kiem toan cdcq
 
Mobile Marketing for Health Clubs: A New Way to Acquire Members
Mobile Marketing for Health Clubs: A New Way to Acquire MembersMobile Marketing for Health Clubs: A New Way to Acquire Members
Mobile Marketing for Health Clubs: A New Way to Acquire Members
 
Des conditions d'apprentissage favorables à la Mise en Activités des élèves
Des conditions d'apprentissage favorables à la Mise en Activités des élèvesDes conditions d'apprentissage favorables à la Mise en Activités des élèves
Des conditions d'apprentissage favorables à la Mise en Activités des élèves
 

Similar a Data Mining - lecture 6 - 2014

!Predictive analytics part_2
!Predictive analytics part_2!Predictive analytics part_2
!Predictive analytics part_2Vladimir Krylov
 
чернякова г.в.
чернякова г.в.чернякова г.в.
чернякова г.в.sharikdp
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Bitworks Software
 
Sapr web3
Sapr web3Sapr web3
Sapr web3Jakobow
 
Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Vladimir Tcherniak
 
284.прогноз ключевых параметров при помощи искусственных нейронных сетей
284.прогноз ключевых параметров при помощи искусственных нейронных сетей284.прогноз ключевых параметров при помощи искусственных нейронных сетей
284.прогноз ключевых параметров при помощи искусственных нейронных сетейivanov1566359955
 
программа синтеза и анализа интерференционных покрытий Film manager
программа синтеза и анализа интерференционных покрытий Film managerпрограмма синтеза и анализа интерференционных покрытий Film manager
программа синтеза и анализа интерференционных покрытий Film managerИван Иванов
 
РЕАЛИЗАЦИЯ РАДИАЛЬНО-БАЗИСНОЙ НЕЙРОННОЙ СЕТИ НА МАССИВНО-ПАРАЛЛЕЛЬНОЙ АРХИТЕК...
РЕАЛИЗАЦИЯ РАДИАЛЬНО-БАЗИСНОЙ НЕЙРОННОЙ СЕТИ НА МАССИВНО-ПАРАЛЛЕЛЬНОЙ АРХИТЕК...РЕАЛИЗАЦИЯ РАДИАЛЬНО-БАЗИСНОЙ НЕЙРОННОЙ СЕТИ НА МАССИВНО-ПАРАЛЛЕЛЬНОЙ АРХИТЕК...
РЕАЛИЗАЦИЯ РАДИАЛЬНО-БАЗИСНОЙ НЕЙРОННОЙ СЕТИ НА МАССИВНО-ПАРАЛЛЕЛЬНОЙ АРХИТЕК...ITMO University
 
Big Data - первые шаги
Big Data - первые шагиBig Data - первые шаги
Big Data - первые шагиAnton Gorokhov
 
Подобедов: Абстрактный Детерминизм
Подобедов: Абстрактный ДетерминизмПодобедов: Абстрактный Детерминизм
Подобедов: Абстрактный ДетерминизмAleximos
 
аксиоматический подход в математике матрицы и определители
аксиоматический подход в математике матрицы и определителиаксиоматический подход в математике матрицы и определители
аксиоматический подход в математике матрицы и определителиAnna1978
 
Лекция 11 Приближенные алгоритмы
Лекция 11 Приближенные алгоритмыЛекция 11 Приближенные алгоритмы
Лекция 11 Приближенные алгоритмыsimple_people
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewKhryashchev
 
Лекция 2 Сортировки, поиск и порядковые статистики
Лекция 2 Сортировки, поиск и порядковые статистикиЛекция 2 Сортировки, поиск и порядковые статистики
Лекция 2 Сортировки, поиск и порядковые статистикиsimple_people
 
ОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, спискиОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, спискиVladimir Parfinenko
 

Similar a Data Mining - lecture 6 - 2014 (20)

!Predictive analytics part_2
!Predictive analytics part_2!Predictive analytics part_2
!Predictive analytics part_2
 
чернякова г.в.
чернякова г.в.чернякова г.в.
чернякова г.в.
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
 
Sapr web3
Sapr web3Sapr web3
Sapr web3
 
Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.Прикладная эконометрика. Лекция 3.
Прикладная эконометрика. Лекция 3.
 
Основы MATLAB. Численные методы
Основы MATLAB. Численные методыОсновы MATLAB. Численные методы
Основы MATLAB. Численные методы
 
284.прогноз ключевых параметров при помощи искусственных нейронных сетей
284.прогноз ключевых параметров при помощи искусственных нейронных сетей284.прогноз ключевых параметров при помощи искусственных нейронных сетей
284.прогноз ключевых параметров при помощи искусственных нейронных сетей
 
программа синтеза и анализа интерференционных покрытий Film manager
программа синтеза и анализа интерференционных покрытий Film managerпрограмма синтеза и анализа интерференционных покрытий Film manager
программа синтеза и анализа интерференционных покрытий Film manager
 
6
66
6
 
РЕАЛИЗАЦИЯ РАДИАЛЬНО-БАЗИСНОЙ НЕЙРОННОЙ СЕТИ НА МАССИВНО-ПАРАЛЛЕЛЬНОЙ АРХИТЕК...
РЕАЛИЗАЦИЯ РАДИАЛЬНО-БАЗИСНОЙ НЕЙРОННОЙ СЕТИ НА МАССИВНО-ПАРАЛЛЕЛЬНОЙ АРХИТЕК...РЕАЛИЗАЦИЯ РАДИАЛЬНО-БАЗИСНОЙ НЕЙРОННОЙ СЕТИ НА МАССИВНО-ПАРАЛЛЕЛЬНОЙ АРХИТЕК...
РЕАЛИЗАЦИЯ РАДИАЛЬНО-БАЗИСНОЙ НЕЙРОННОЙ СЕТИ НА МАССИВНО-ПАРАЛЛЕЛЬНОЙ АРХИТЕК...
 
6.0a
6.0a6.0a
6.0a
 
Big Data - первые шаги
Big Data - первые шагиBig Data - первые шаги
Big Data - первые шаги
 
Подобедов: Абстрактный Детерминизм
Подобедов: Абстрактный ДетерминизмПодобедов: Абстрактный Детерминизм
Подобедов: Абстрактный Детерминизм
 
аксиоматический подход в математике матрицы и определители
аксиоматический подход в математике матрицы и определителиаксиоматический подход в математике матрицы и определители
аксиоматический подход в математике матрицы и определители
 
Лекция 11 Приближенные алгоритмы
Лекция 11 Приближенные алгоритмыЛекция 11 Приближенные алгоритмы
Лекция 11 Приближенные алгоритмы
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_review
 
Основы SciPy
Основы SciPyОсновы SciPy
Основы SciPy
 
Лекция 2 Сортировки, поиск и порядковые статистики
Лекция 2 Сортировки, поиск и порядковые статистикиЛекция 2 Сортировки, поиск и порядковые статистики
Лекция 2 Сортировки, поиск и порядковые статистики
 
ОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, спискиОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, списки
 

Más de Andrii Gakhov

Let's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureLet's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureAndrii Gakhov
 
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Andrii Gakhov
 
Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Andrii Gakhov
 
Implementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaImplementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaAndrii Gakhov
 
Pecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsPecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsAndrii Gakhov
 
Probabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. SimilarityProbabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. SimilarityAndrii Gakhov
 
Probabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. FrequencyProbabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. FrequencyAndrii Gakhov
 
Probabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityProbabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityAndrii Gakhov
 
Вероятностные структуры данных
Вероятностные структуры данныхВероятностные структуры данных
Вероятностные структуры данныхAndrii Gakhov
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryAndrii Gakhov
 
Apache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksApache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksAndrii Gakhov
 
Swagger / Quick Start Guide
Swagger / Quick Start GuideSwagger / Quick Start Guide
Swagger / Quick Start GuideAndrii Gakhov
 
API Days Berlin highlights
API Days Berlin highlightsAPI Days Berlin highlights
API Days Berlin highlightsAndrii Gakhov
 
ELK - What's new and showcases
ELK - What's new and showcasesELK - What's new and showcases
ELK - What's new and showcasesAndrii Gakhov
 
Apache Spark Overview @ ferret
Apache Spark Overview @ ferretApache Spark Overview @ ferret
Apache Spark Overview @ ferretAndrii Gakhov
 
Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Andrii Gakhov
 
Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Andrii Gakhov
 
Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Andrii Gakhov
 

Más de Andrii Gakhov (20)

Let's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureLet's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architecture
 
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
 
Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...
 
DNS Delegation
DNS DelegationDNS Delegation
DNS Delegation
 
Implementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaImplementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and Lua
 
Pecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsPecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food Traditions
 
Probabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. SimilarityProbabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. Similarity
 
Probabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. FrequencyProbabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. Frequency
 
Probabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityProbabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. Cardinality
 
Вероятностные структуры данных
Вероятностные структуры данныхВероятностные структуры данных
Вероятностные структуры данных
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: Theory
 
Apache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksApache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected Talks
 
Swagger / Quick Start Guide
Swagger / Quick Start GuideSwagger / Quick Start Guide
Swagger / Quick Start Guide
 
API Days Berlin highlights
API Days Berlin highlightsAPI Days Berlin highlights
API Days Berlin highlights
 
ELK - What's new and showcases
ELK - What's new and showcasesELK - What's new and showcases
ELK - What's new and showcases
 
Apache Spark Overview @ ferret
Apache Spark Overview @ ferretApache Spark Overview @ ferret
Apache Spark Overview @ ferret
 
Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)
 
Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2
 
Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 

Data Mining - lecture 6 - 2014

  • 1. Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год
  • 2. ЛЕКЦИЯ 4 Подготовка данных (preprocessing). Часть 2
  • 4. Редукция данных (data reduction) применяется для получения меньшего по объему представления данных, которое сохраняет все свойства исходного набора данных (эквивалетный набор данных). Работа с меньшими по объему данными увеличивает возможности анализа, в то время как результат анализа (почти) не отличается от анализа исходных данных. Основные методы редукции данных: • Уменьшение размерности • Компактное представление данных • Сжатие данных
  • 5. УМЕНЬШЕНИЕ РАЗМЕРНОСТИ • Методы уменьшения размерности данных направлены в первую очередь на уменьшение количества рассматриваемых случайных переменных или атрибутов. • Некоторые из основных методов: • Вейвлет-преобразования • Метод главных компонент (PCA) • Выделение подмножества атрибутов
  • 6. УМЕНЬШЕНИЕ РАЗМЕРНОСТИ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ • Дискретное вейвлет-преобразование (ДВП) это метод линейной обработки сигнала, который преобразует исходный вектор X в некоторый вектор той же длины X´, состоящий из вейвлет- коэффициентов • Если мы получаем вектор той же длины, тогда в чем состоит уменьшение размерности? • Само по себе вейвлет-преобразование не уменьшает размерность. Однако, благодаря его свойствам, в векторе X´ можно отбросить часть элементов (положив их равными 0), оставив только самые значимые из них (например, большие некоторого порогового значения). • Полученный вектор X´´ будет содержать большое количество нулевых элементов (т.е. можно оптимизировать вычисления), а применив к нему обратное ДВП все еще можно будет восстановить исходный вектор X (с некоторой ошибкой)
  • 7. УМЕНЬШЕНИЕ РАЗМЕРНОСТИ МЕТОД ГЛАВНЫХ КОМПОНЕНТ • Метод главных компонент (principal component analysis, PCA) - один из основных способов уменьшения размерности данных, потеряв наименьшее количество информации • Для исходного набора данных D с n атрибутами (т.е. рассматриваемого в n-мерном пространстве) PCA производит поиск k главных компонент - n-мерных ортогональных векторов (k≤n), чтобы величина отклонений начальных данных была минимальна • Метод позволяет уменьшить размерность данных путем построения их проекции на пространство меньшей размерности, определяемого найденным базисом из векторов главных компонент
  • 8. УМЕНЬШЕНИЕ РАЗМЕРНОСТИ МЕТОД ГЛАВНЫХ КОМПОНЕНТ • ПРИМЕР: рассмотрим набор данных с 2 атрибутами (т.е. в 2-мерном пространстве): x2 x1 x2 x1 p1 p1 - главная компонента p1
  • 9. УМЕНЬШЕНИЕ РАЗМЕРНОСТИ ВЫБОР ПОДМНОЖЕСТВА АТРИБУТОВ • Данные могут содержать множество атрибутов, однако важными для рассматриваемой задачи могут быть лишь некоторые из них • ПРИМЕР: пусть по каждому покупателю в книжном магазине хранится 3 атрибута - возраст, любимый жанр и номер телефона. Очевидно, что в задаче прогнозирования возможного спроса на новую книгу, атрибут номер телефона не является атрибутом, влияющим на результат
  • 10. УМЕНЬШЕНИЕ РАЗМЕРНОСТИ ВЫБОР ПОДМНОЖЕСТВА АТРИБУТОВ • Целью выбора подмножества атрибутов состоит в поиске и исключению атрибутов, не относящихся к рассматриваемой задаче или оказывающих минимальное влияние • Как известно, для множетва из n атрибутов существует 2n возможных подмножества, поэтому задача поиска оптимального подмножества не тривиальна • Выбор атрибута в подмножество основывается, как правило, на некотором статистическом тесте
  • 11. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ • Данные методы заменяют исходный набор данных на альтернативную (но меньшую по размеру) форму представления данных. • Основые семейства методов: • Параметрические • Непараметрические • В параметрических методах строится некоторая модель, описывающая исходный набор данных, и следовательно набор данных может быть описан за счет параметров этой модели. Сюда относятся регрессия и логарифмически линейная модель • Непараметрические методы, как правило, основаны на аггрегации данных и рассмотрении более высоких уровней абстракции. К таким методам относятся гистограмма, методы кластеризации, семплинг (построение выборок) и OLAP-куб
  • 12. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ РЕГРЕССИЯ • Регрессия позволяет по величине одного или нескольких атрибутов находить ожидаемые значения другого атрибута • Линейная регрессия - это простейший алгоритм регресии, заключающийся в построении линейной функции, наиболее точно (в смысле некоторой функции ошибки) приближающей имеющиеся данные • Линейная регрессия может быть одномерной и многомерной
  • 13. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ • Предположим, что исходный набор данных имеет вид • Задача линейной регрессии состоит в построении линейной модели зависимости величин yk используя значения xk. Для случая одной переменной такая зависимость моделируется в виде уравнения прямой: hθ (x) =θ 0 +θ1x {xk , yk }, k = 1…N • Следовательно, нам необходимо найти такие параметры θ0 и θ1, чтобы как можно более точно выполнялось: hθ (xk ) =θ 0 +θ1xk ≈ yk , k = 1…N
  • 14. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ • Ошибка приближения функцией hθ(x) каждого отдельного значения yk будет равна: error(k,θ ) = hθ (xk )− yk • Используя метод наименьших квадратов (МНК), ошибку моделирования всех исходных данных функцией hθ(x) можно оценить при помощи квадратичной функции ошибок (функции невязки) J θ ( ) = 1 2N (hθ (xk )− yk )2 NΣ k=1 • Оптимальные значений параметров θ0 и θ1 могут быть найдены из условия минимальности общей ошибки: ∗,θ1 ( ∗ ) = min J θ 0 θ J θ ( ) = min θ0 ,θ1 1 2N θ 0 +θ1xk − y( k )2 NΣ k=1
  • 15. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ ОДНОМЕРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ • Решение данной задачи оптимизации может быть выполнено по методу градиентного спуска, представляющего собой итерационный процесс поиска экстремума функции с помощью движения вдоль направления антиградиента • На каждом шаге метода мы “подстраиваем” найденные параметры по формулам θ 0 :=θ 0 −α ∂ ∂θ 0 J θ 0 ,θ1 ( ) =θ 0 −α 1 N (θ 0 +θ1xk − yk ) NΣ k=1 θ1 :=θ1 −α ∂ ∂θ1 J θ 0 ,θ1 ( ) =θ1 −α 1 N θ 0 +θ1xk − y( k )⋅ xk NΣ k=1 ⎡ ⎢⎢⎢⎢⎢ ⎣ где α - некоторое положительное число, влияющее на скорость сходимости метода (определяет скорость движения)
  • 16. ЗАДАНИЯ • Значения атрибутов рост (см) и вес (кг) для студентов группы имею вид: рост вес рост вес рост вес рост вес рост вес 185 77 163 68 173 82 193 70 175 83 170 66 188 82 180 84 183 79 165 66 183 75 185 74 178 100 175 77 178 67 183 77 165 61 183 84 183 70 188 95 175 76 185 77 188 84 185 76 178 63 • Необходимо: • вычислить коэффициенты линейной регрессии • вычислить невязку на каждом шаге метода градиентного спуска • построить график изменения невязки с каждым шагом метода градиентного спуска. Что можно контролировать, наблюдая за данным графиком? • использовать значения α = 0.01, 1.0, 10.0 На что влияет данный параметр? • вычислить итоговую невязку для найденного уравнения регрессии • построить диаграмму рассеяния и прямую линию регрессии
  • 17. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ САМПЛИНГ • Самплинг (samling) заключается в замене исходного набора данных D меньшим набором данных (выборка), выбранного случайным образом • Преимуществом методов самплинга при редукции данных состоит том, что цена получения выборки пропорциональна размеру выборки (а не размеру N исходного набора данных D) • Другие методы редукции данных, как правило, требуют как минимум одного полного просмотра всех исходных данных D
  • 18. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ МЕТОДЫ САМПЛИНГА • Простая случайная выборка без замен Выборка получается путем случайного выбора M наблюдений из общего числа N наблюдений в исходном наборе данных D (M<N) с равной вероятностью попадания в выборку каждого наблюдения • Простая случайная выборка с заменами Отличается от выборки без замен тем, что выбранное наблюдение “возвращается” в исходный набор данных и может быть выбрано еще раз T1 T2 T3 T4 T5 T6 T7 T8 T6 T8 T3 T2 T5 T8 T5 Простая случайная выборка без замен N=8, M=4 Простая случайная выборка с заменами T2
  • 19. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ МЕТОДЫ САМПЛИНГА • Кластерная выборка Если наблюдения в исходном наборе данных D сгруппированы в K непересекающихся групп, тогда можно сделать выборку из M кластеров (M<K) применив алгоритм простой случайной выборки на уровне кластеров • ПРИМЕР. При запросе к базе данных выдача информации может разбиваться на страницы (например, по 100 записей), которые и могут рассматриваться в качестве кластеров T201 T1 T2 T3 … T100 T901 T301 T601 T602 T603 … T700 Простая случайная выборка без замен N=1000, K=9, M=2
  • 20. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ МЕТОДЫ САМПЛИНГА • Стратифицированная выборка Если исходный набор данных D разделен (например, по некоторому признаку) на некоторое количество непересекающихся частей (страт, strata), тогда можно сделать выборку из каждой страты, применив алгоритм простой случайной выборки. Стратифицированная выборка обеспечивает наличие в ней представителей из каждой страты, даже если некоторые страты достаточно малы (асимметрическое распределение) Ford Ford Ford Ford Chevrolet Chevrolet Chevrolet Chevrolet Chevrolet Chevrolet Range Rover Range Rover T12 T57 T186 T711 T12 T215 T632 T715 T800 T803 T24 T75 Ford Ford Chevrolet Chevrolet Chevrolet Range Rover T12 T711 T215 T12 T632 T75 Простая случайная выборка без замен
  • 21. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ OLAP-КУБ • OLAP (англ. online analytical processing) это технология обработки данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу • OLAP-куб (куб данных) это форма многомерного массива данных, предназначенная для хранения и быстрого доступа к предварительно вычисленным и агрегированным данным
  • 22. КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ ПРИМЕР: OLAP-КУБ 2011 2012 2013 2014 год Ф1 Ф2 Ф3 Ф4 филиал марка Ford BMW VW Opel 119 100 182 365 Ф1 Ф2 Ф3 Ф4 Ford 50 25 35 9 119 BMW 46 52 0 2 100 VW 93 12 45 32 182 Opel 188 42 5 130 365 377 131 85 173 377 131 173 85 50 46 93 188 25 52 12 42 35 0 45 5 9 2 32 130 2D-разрез за 2014 год 2014
  • 23. СЖАТИЕ ДАННЫХ • Сжатие данных подразумевает применение некоторого алгоритма преобразования для получения уменьшенного (сжатого) набора данных из исходного набора • Методы уменьшения размерности и алгоритмы к о м п а к т н о г о п р е д с т а в л е н и я д а н н ы х м о г у т рассматриваться также как частные случаи сжатия данных • Существуют два в корне различающихся подхода к сжатию данных: • Сжатие без потерь • Сжатие с потерями
  • 24. СЖАТИЕ С ПОТЕРЯМИ И БЕЗ ПОТЕРЬ • Сжатие без потерь предусматривает преобразование представления набора данных таким образом, чтобы затем можно было в точности воспроизвести первоначальный набор данных путем обратного преобразования. • Сжатие с потерями – это представление, которое позволяет воспроизводить нечто «очень похожее» на первоначальный набор данных. • Преимущество использования методов сжатия с потерями заключается в том, что они позволяют получать более компактные представления данных по сравнению с методами сжатия без потерь. • ПРИМЕР: Алгоритм MP3 реализует сжатие аудиоданных с потерями, а Dolby TrueHD - сжатие без потерь.