SlideShare a Scribd company logo
1 of 26
Download to read offline
Харьковский национальный университет имени В. Н. Каразина 
Факультет компьютерных наук 
ИНТЕЛЛЕКТУАЛЬНЫЙ 
АНАЛИЗ ДАННЫХ 
Data Mining 
Подготовил: 
доцент каф. искусственного интеллекта и программного обеспечения, 
к.ф.-м. н. Гахов Андрей Владимирович 
2014/2015 уч. год
ЛЕКЦИЯ 4 
Подготовка данных (preprocessing). Часть 3
ПРЕОБРАЗОВАНИЕ ДАННЫХ 
ДЛЯ ЧИСЛЕННЫХ АТРИБУТОВ
НОРМАЛИЗАЦИЯ ДАННЫХ 
• Единица измерения может влиять на результат. Описание 
атрибута в меньших единицах измерения (например, в см 
вместо метров) приводит к большему диапазону 
значений и, следовательно, придает данному атрибуту 
больший “вес” 
• Нормализация (стандартизация) данных предназначена 
для устранения зависимости от выбора единицы 
измерения и заключается в преобразовании диапазонов 
значений всех атрибутов к стандартным интервалам 
[-1, 1] или [0, 1] 
• Нормализация данных направлена на придание всем 
атрибутам одинакового “веса”.
НОРМАЛИЗАЦИЯ ДАННЫХ 
• Пусть x - численный атрибут, наблюдаемые 
значения которого есть x1, x2, …, xN 
• Рассмотрим основные методы нормализации 
данных, применяемые на практике: 
• min-max нормализация 
• z-нормализация 
• масштабирование
НОРМАЛИЗАЦИЯ ДАННЫХ 
MIN-MAX НОРМАЛИЗАЦИЯ 
min-max нормализация заключается в применении к 
диапазону значений атрибута x линейного преобразования, 
которое отображает [min(x), max(x)] в [A, B] 
x′i =τ xi ( ) = xi −min(x) 
max(x)−min(x) 
⋅(B − A)+ A 
x ∈[min(x), max(x)]⇒τ (x)∈[A, B] 
• min-max нормализация сохраняет все зависимости и порядок 
оригинальных значений атрибута 
• Если данные содержат доминирующие аномалии (аутлаеры), 
тогда такое преобразование сильно “сожмет” основную массу 
значений к очень маленькому интервалу!
НОРМАЛИЗАЦИЯ ДАННЫХ 
ПРИМЕР: MIN-MAX НОРМАЛИЗАЦИЯ 
Пусть атрибут зарплата принимает следующие 
значения (грн): 3000, 3600, 4700, 5000, 5200, 5200, 
5600, 6000, 6300, 7000, 7000, 11000 
Преобразуем диапазон значений данного атрибута x 
к интервалу [0, 1] при помощи min-max нормализации 
min(x) = 3000, max(x) = 11000⇒ x ∈[3000,11000] 
A = 0, B = 1⇒ x′ =τ (x)∈[0,1] 
x′i =τ xi ( ) = xi − 3000 
8000 
x′3 =τ x3 ( ) =τ (4700) = (4700 − 3000) 
8000 
= 0.2125
НОРМАЛИЗАЦИЯ ДАННЫХ 
Z-НОРМАЛИЗАЦИЯ 
z-нормализация (zero-mean normalization) основывается 
на приведении распределения исходного атрибута x к 
центрированному распределению со стандартным 
отклонением, равным 1 
x′i =τ xi ( ) = xi − x 
σ x 
M[x′] = x′ = 1 
N 
xi − x 
σ i=1 x 
NΣ 
= 1 
σ x 
1 
N 
xi 
NΣ 
i=1 
− x 
⎛ 
⎝ ⎜ 
⎞ 
⎠ ⎟ 
= 0 
D[x′] = M (x′)2 ⎡⎣⎤⎦ 
− (M[x′])2 == M (x′)2 ⎡⎣ 
⎤⎦ 
= M 
⎡ 2 
x − x 
σ x 
⎛ 
⎝ ⎜ 
⎞ 
⎠ ⎟ 
⎣ ⎢⎢ 
⎤ 
⎦ ⎥⎥ 
= 1 
σ x 
2 M (x − x )2 ⎡⎣ 
⎤⎦ 
= D[x] 
σ x 
2 = 1 
• Метод полезен когда максимум (минимум) неизвестны или 
когда данные содержат доминирующие аномалии (аутлаеры)
НОРМАЛИЗАЦИЯ ДАННЫХ 
Z-НОРМАЛИЗАЦИЯ 
• Одна из модификаций метода z-нормализации 
заключается в использовании среднего абсолютного 
отклонения вместо среднеквадратического отклонения 
NΣ 
• Данная модификация более устойчива к аномалиям 
(аутлаерам), т.к. вместо ( − )2 
x x использует x− x , что в 
i i значительно меньшей мере увеличивает влияние аутлаеров, 
которые сильно отклоняются от среднего значения 
x′i =τ xi ( ) = xi − x 
sx 
sx = 1 
N 
xi − x 
i=1 
где
НОРМАЛИЗАЦИЯ ДАННЫХ 
ПРИМЕР: Z-НОРМАЛИЗАЦИЯ 
Пусть атрибут зарплата принимает следующие 
значения (грн): 3000, 3600, 4700, 5000, 5200, 5200, 
5600, 6000, 6300, 7000, 7000, 11000 
Необходимо провести z-нормализацию атрибута 
x = 5800,σ x Ранее мы уже вычислили значения ≈1947 
x′i =τ xi ( ) = xi − 5800 
1947 
x′3 =τ x3 ( ) =τ (4700) = (4700 − 5800) 
1947 
≈ -0.56497
НОРМАЛИЗАЦИЯ ДАННЫХ 
МАСШТАБИРОВАНИЕ 
Масштабирование заключается в изменении 
длины вектора значений атрибута путем 
умножения на константу 
x′i =τ xi ( ) = λ ⋅ xi λ ≠ 0,λ = const 
Длина вектора x уменьшается при λ <1 
и увеличивается, 
если 
λ >1 
• Популярные константы на практике 
λ = 1 
x 
⇒ x′ =τ (x) = x 
x 
⇒ x′ = 1 
λ = 10− p , p = min 
k 
xi 
:max 
10k i=1..N 
xi 
10k 
⎛ 
⎝ ⎜ 
⎞ 
⎠ ⎟ 
≤1 
⎧⎨⎩ 
⎫⎬⎭ 
⇒ x′ =τ (x) = x 
10p ⇒ x′ ∈[−1,1] 
• 
•
НОРМАЛИЗАЦИЯ ДАННЫХ 
ПРИМЕР: МАСШТАБИРОВАНИЕ 
Пусть атрибут зарплата принимает следующие 
значения (грн): 3000, 3600, 4700, 5000, 5200, 5200, 
5600, 6000, 6300, 7000, 7000, 11000 
Необходимо провести масштабирование 
атрибута, чтобы значения были в [-1, 1] 
τ xi ( ) = xi 
105 
xi ( ) 
105 = 0.11 <1⇒ p = 5 
x′3 =τ x3 ( ) =τ (4700) = 4700 
105 = 0.047 
λ = 10− p , max 
i=1..N 
xi ( ) = 11000⇒ 
max 
i=1..N
ЗАДАНИЯ 
Для приведенных примеров нормализации данных 
необходимо: 
• закончить нормализацию всех наблюдений 
• применить масштабирование с 
λ = 1 
визуализировать нормализованные x 
• значение 
• указать возможные аутлаеры в значениях 
• сравнить полученные нормализованные значения 
• как аутлаеры повлияли на полученные значения в 
использованных методах нормализации?
ЗАДАНИЯ 
• Значения атрибутов рост (см) и вес (кг) для студентов группы 
представлены в таблице: 
рост вес рост вес рост вес рост вес рост вес 
185 77 163 68 173 82 193 70 175 83 
170 66 188 82 180 84 183 79 165 66 
183 75 185 74 178 100 175 77 178 67 
183 77 165 61 183 84 183 70 188 95 
175 76 185 77 188 84 185 76 178 63 
• Необходимо: 
• провести нормализацию данных данных атрибутов, чтобы они 
были сравнимы и их различные шкалы не влияли на “вес” 
атрибута 
• применить все известные вам методы нормализации данных 
• выбрать метод нормализации, который, как вам кажется, 
наиболее подходит для рассматриваемой задачи
ДИСКРЕТИЗАЦИЯ
ДИСКРЕТИЗАЦИЯ 
• Под дискретизацией ч и с л е н н о г о а т р и б у т а 
подразумевается замена исходных значений атрибута на 
интервальные или концептуальные метки 
• Например, значения атрибута возраст могут быть 
заменены на 0-10, 11-20, … (интервальные метки) или на 
молодой, взрослый, старый (концептуальные метки) 
• Метки в свою очередь могут быть объединены в понятия 
более высокого уровня, определяя таким образом 
иерархию понятий численного атрибута 
возраст (0-100) 
0-30 31-60 61-100 
0-10 11-20 21-30 31-40 41-50 51-60 61-75 76-90 91-100
ДИСКРЕТИЗАЦИЯ 
• По использованию данных о классе дискретизации разделяют на: 
• дискретизация с учителем (supervised discretization) используют 
информацию о классах данных 
• дискретизация без учителя (unsupervised discretization) НЕ 
используют информацию о классах данных 
По методу построения дискретизации разделяют на: 
• дискретизация сверху-вниз (разбиение) начинается с поиска 
некоторых значений (точек разбиения) для разбиения диапазона 
значений на несколько частей и повторением процедуры на каждом 
из полученных множеств 
• дискретизация снизу-вверх (слияние) начинается с рассмотрения 
всех точек как потенциальных точек разбиения, удаления 
некоторых из них путем объединения соседних значений в 
интервалы и повторением процедуры на полученных интервалах 
Дискретизация данных - это также форма редукции данных
ДИСКРЕТИЗАЦИЯ 
МЕТОДЫ ДИСКРЕТИЗАЦИИ 
• Биннинг 
• Биннинг реализует дискретизацию сверху-вниз без учителя 
• Значения атрибутов дискретизируются путем построения бинов 
одинаковой длины (или частоты) и заменой значений на медиану 
• Гистограмма 
• Гистограмма реализует дискретизацию сверху-вниз без учителя 
• Применяют равночастотные (когда разбиение ведется на 
интервалы с одинаковым количеством попавших в них значений) и 
равномерные гистограммы (когда разбиение ведется на 
интервалы равной длины) 
• Кластерный анализ 
• Кластерный анализ позволяет выделить кластеры в значениях 
атрибута на основе их “близости” в том или ином смысле 
• Кластерный анализ может реализовывать как дискретизацию сверху- 
вниз так и снизу-вверх, укрупняя имеющиеся кластеры
ЗАДАНИЯ 
• Пусть атрибут цена принимает следующие значения 
(грн.): 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 
• Необходимо 
• разбить значения данного атрибута: 
• на 3 бина одинаковой длины 
• на 3 бина с одинаковым количеством значений 
• предложить интервальные и концептуальные метки 
• построить иерархию с 3 уровнями понятий 
• построить 3 кластера по критерию близости цены
ПРЕОБРАЗОВАНИЕ ДАННЫХ 
ДЛЯ НОМИНАТИВНЫХ АТРИБУТОВ
ПОСТРОЕНИЕ ИЕРАРХИЙ 
• Построение иерархий понятий (Concept Hierarchy 
Generation) заключается в обобщении атрибутов более 
общими (высокого уровня) понятиями. Например, 
атрибут город может быть обобщен понятием страна 
• Номинативные атрибуты могут принимать конечное (но 
достаточно большое) количество различных значений без 
отношения порядка (например, атрибут улица). 
• В общем случае построение иерархий может быть 
сложной задачей, требующей экспертных знаний из 
предметной области 
• Если данные хранятся в базах данных, тогда много 
иерархий можно простроить просто на основе схемы БД
ПОСТРОЕНИЕ ИЕРАРХИЙ 
• Основные методы построения иерархий: 
• введение отношения (частичного) порядка 
между атрибутами при помощи пользователя 
или эксперта 
• введение части иерархий путем явной 
группировки данных 
• введение группы атрибутов без их 
частичного упорядочивания 
• определение частичной группы атрибутов
ПОСТРОЕНИЕ ИЕРАРХИЙ 
Введение отношения (частичного) порядка 
между атрибутами при помощи эксперта 
• Как правило, пользователь или эксперт 
предметной области может определить на 
уровне схемы данных отношение частичного 
или полного порядка 
Например, реляционная база данных содержит 
группу атрибутов: улица, город, страна. Иерархия 
может быть построена путем определения 
полного порядка: улица < город < страна
ПОСТРОЕНИЕ ИЕРАРХИЙ 
Введение части иерархий путем явной группировки 
• Заключается в введение новых иерархий, путем 
явного указания группы включаемых в нее значений 
• Фактически это ручное определение иерархий 
(поэтому реализуемо лишь для части иерархий в 
больших базах данных) 
Например, после определения иерархий город и страна 
на уровне схемы данных, мы можем ввести некоторый 
промежуточный уровень область вручную путем 
перечисления принимаемых значений: 
{Харьков, Чугуев, …} ⊂ Харьковская область и 
{Харьковская область, Сумская область, …} ⊂ Украина
ПОСТРОЕНИЕ ИЕРАРХИЙ 
Определение группы атрибутов без упорядочивания 
• Пользователь или эксперт определяют лишь группу 
атрибутов, не указывая их порядок 
• Упорядочивание осуществляется автоматически 
используя информацию о значениях и их количестве 
Например, атрибут (из указанной экспертом группы) 
принимающий наибольшее количество различных значений 
автоматически помещается на низший уровень иерархии 
Такой эвристический подход часто бывает ошибочен! 
Рассмотрим группу атрибутов: год (20 значений), месяц 
(12 значений) и день недели (7 значений). Данный метод 
построит иерархию: год < месяц < день недели
ПОСТРОЕНИЕ ИЕРАРХИЙ 
Определение частичной группы атрибутов 
• Зачастую пользователь не может (или не хочет) полностью 
определить группу атрибутов для построения иерархии 
• Как решение данной проблемы неполной иерархии могут 
применяться семантические связи между атрибутами 
(например, традиционный понятия или концепции в схеме 
данных). Тогда при определении хотя бы одного атрибута 
группы, иерархия может быть дополнена известными 
семантически связанными с ним значениями 
Например, пусть известно, что понятие адрес, как правило, 
включает семантически связанные атрибуты номер дома < улица 
< город < страна. Тогда, если пользователем определен только 
атрибут город, то система автоматически включает все остальные 
атрибуты понятия адрес в иерархию.

More Related Content

What's hot

Sudut antara garis dengan satah
Sudut antara garis dengan satahSudut antara garis dengan satah
Sudut antara garis dengan satah
Suingming Wong
 
SHORITSU+FORGED+STEEL+VALVES
SHORITSU+FORGED+STEEL+VALVESSHORITSU+FORGED+STEEL+VALVES
SHORITSU+FORGED+STEEL+VALVES
Ir. Hadi Budiman
 
soalan sains tahun 6 (section a)
soalan sains tahun 6 (section a)soalan sains tahun 6 (section a)
soalan sains tahun 6 (section a)
Rohayu Yaacob
 

What's hot (20)

Sudut antara garis dengan satah
Sudut antara garis dengan satahSudut antara garis dengan satah
Sudut antara garis dengan satah
 
nilam nikathal-jalaja dileep-supreme court judgement
nilam nikathal-jalaja dileep-supreme court judgementnilam nikathal-jalaja dileep-supreme court judgement
nilam nikathal-jalaja dileep-supreme court judgement
 
Ana taller funcion romano
Ana taller funcion romanoAna taller funcion romano
Ana taller funcion romano
 
LRM - Kerala Survey and Boundaries Act - James joseph Adhikarathil, Your Land...
LRM - Kerala Survey and Boundaries Act - James joseph Adhikarathil, Your Land...LRM - Kerala Survey and Boundaries Act - James joseph Adhikarathil, Your Land...
LRM - Kerala Survey and Boundaries Act - James joseph Adhikarathil, Your Land...
 
3. cerakin nombor
3. cerakin nombor3. cerakin nombor
3. cerakin nombor
 
DSKP KSSM SAINS T4 DAN T5-min (1).pdf
DSKP KSSM SAINS T4 DAN T5-min (1).pdfDSKP KSSM SAINS T4 DAN T5-min (1).pdf
DSKP KSSM SAINS T4 DAN T5-min (1).pdf
 
Matematik tahun 4 - Bundar
Matematik tahun 4 - BundarMatematik tahun 4 - Bundar
Matematik tahun 4 - Bundar
 
Volume kubikasi kayu pohon (vegetasi hutan alam) terukur dari banir hingga be...
Volume kubikasi kayu pohon (vegetasi hutan alam) terukur dari banir hingga be...Volume kubikasi kayu pohon (vegetasi hutan alam) terukur dari banir hingga be...
Volume kubikasi kayu pohon (vegetasi hutan alam) terukur dari banir hingga be...
 
Abakus
AbakusAbakus
Abakus
 
കേരളത്തിലെ ഭൂമി പതിവ് നിയമങ്ങൾ - Land assignment in Kerala - Kerala Land Ass...
കേരളത്തിലെ ഭൂമി പതിവ് നിയമങ്ങൾ  - Land assignment in Kerala - Kerala Land Ass...കേരളത്തിലെ ഭൂമി പതിവ് നിയമങ്ങൾ  - Land assignment in Kerala - Kerala Land Ass...
കേരളത്തിലെ ഭൂമി പതിവ് നിയമങ്ങൾ - Land assignment in Kerala - Kerala Land Ass...
 
Kerala Land Revenue department-Various orders relationg to survey survey
Kerala Land Revenue department-Various orders relationg to survey survey Kerala Land Revenue department-Various orders relationg to survey survey
Kerala Land Revenue department-Various orders relationg to survey survey
 
Note on Kerala Land Assignment Rules.
Note on Kerala Land Assignment Rules.Note on Kerala Land Assignment Rules.
Note on Kerala Land Assignment Rules.
 
Kerala land conservancy act 1957
Kerala land conservancy act 1957Kerala land conservancy act 1957
Kerala land conservancy act 1957
 
SHORITSU+FORGED+STEEL+VALVES
SHORITSU+FORGED+STEEL+VALVESSHORITSU+FORGED+STEEL+VALVES
SHORITSU+FORGED+STEEL+VALVES
 
soalan sains tahun 6 (section a)
soalan sains tahun 6 (section a)soalan sains tahun 6 (section a)
soalan sains tahun 6 (section a)
 
leksham veed orders2018 01-09-
 leksham veed orders2018 01-09- leksham veed orders2018 01-09-
leksham veed orders2018 01-09-
 
KLU Order - Land conversion tharam mattom -WPC- order
KLU Order - Land conversion tharam mattom -WPC- order KLU Order - Land conversion tharam mattom -WPC- order
KLU Order - Land conversion tharam mattom -WPC- order
 
O-RING sizes
O-RING sizesO-RING sizes
O-RING sizes
 
Latih tubi-soalan-latihan-matematik-tahun-5-cuti-bulan-mac-1
Latih tubi-soalan-latihan-matematik-tahun-5-cuti-bulan-mac-1Latih tubi-soalan-latihan-matematik-tahun-5-cuti-bulan-mac-1
Latih tubi-soalan-latihan-matematik-tahun-5-cuti-bulan-mac-1
 
Latihan Pengukuhan Matematik Tahun 3
Latihan Pengukuhan Matematik Tahun 3Latihan Pengukuhan Matematik Tahun 3
Latihan Pengukuhan Matematik Tahun 3
 

Viewers also liked

Bloom filter
Bloom filterBloom filter
Bloom filter
feng lee
 
دوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخ
دوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخدوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخ
دوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخ
Majid Babaie, MBA, PMP
 
power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...
power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...
power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...
victor Nduna
 
Social Media: What Every Australian Retailer Needs to Know
Social Media: What Every Australian Retailer Needs to KnowSocial Media: What Every Australian Retailer Needs to Know
Social Media: What Every Australian Retailer Needs to Know
Sarah Mitchell
 
9. Coursera devdataprod 2015
9. Coursera devdataprod 20159. Coursera devdataprod 2015
9. Coursera devdataprod 2015
Pritam Dey
 

Viewers also liked (20)

Probabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. SimilarityProbabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. Similarity
 
Bloom filter
Bloom filterBloom filter
Bloom filter
 
Bloom filter
Bloom filterBloom filter
Bloom filter
 
Probabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. FrequencyProbabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. Frequency
 
Bloom filters
Bloom filtersBloom filters
Bloom filters
 
Data Mining - lecture 8 - 2014
Data Mining - lecture 8 - 2014Data Mining - lecture 8 - 2014
Data Mining - lecture 8 - 2014
 
Cuckoo Optimization ppt
Cuckoo Optimization pptCuckoo Optimization ppt
Cuckoo Optimization ppt
 
Authentic Connections in an Online World by Mary Scotton, Leah Hunter & Jessi...
Authentic Connections in an Online World by Mary Scotton, Leah Hunter & Jessi...Authentic Connections in an Online World by Mary Scotton, Leah Hunter & Jessi...
Authentic Connections in an Online World by Mary Scotton, Leah Hunter & Jessi...
 
Tarea karla torres
Tarea karla torresTarea karla torres
Tarea karla torres
 
The Farm by BBDO, 2014.
The Farm by BBDO, 2014.The Farm by BBDO, 2014.
The Farm by BBDO, 2014.
 
دوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخ
دوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخدوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخ
دوطبقه سازی بزرگراه ها , تحقق یک رویاست یا واقعیتی تلخ
 
5 amazing tips for interview by Jubaer
5 amazing tips for interview  by Jubaer5 amazing tips for interview  by Jubaer
5 amazing tips for interview by Jubaer
 
power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...
power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...
power point presentation THE POWER OF SOUND AND IMAGES SAFEGUARDING SONG AND ...
 
Social Media: What Every Australian Retailer Needs to Know
Social Media: What Every Australian Retailer Needs to KnowSocial Media: What Every Australian Retailer Needs to Know
Social Media: What Every Australian Retailer Needs to Know
 
ครูยอด
ครูยอดครูยอด
ครูยอด
 
Comics analysis nick fiorentino
Comics analysis nick fiorentinoComics analysis nick fiorentino
Comics analysis nick fiorentino
 
9. Coursera devdataprod 2015
9. Coursera devdataprod 20159. Coursera devdataprod 2015
9. Coursera devdataprod 2015
 
Raspberry Pi + AWS + SoftEtherVPN + RemoteWorks = ?
Raspberry Pi + AWS + SoftEtherVPN + RemoteWorks = ?Raspberry Pi + AWS + SoftEtherVPN + RemoteWorks = ?
Raspberry Pi + AWS + SoftEtherVPN + RemoteWorks = ?
 
MyResearch_ad
MyResearch_adMyResearch_ad
MyResearch_ad
 
鯖江夕景
鯖江夕景鯖江夕景
鯖江夕景
 

Similar to Data Mining - lecture 7 - 2014

0. основы r
0. основы r0. основы r
0. основы r
msuteam
 
чернякова г.в.
чернякова г.в.чернякова г.в.
чернякова г.в.
sharikdp
 
CV2011-2. Lecture 12. Face models.
CV2011-2. Lecture 12.  Face models.CV2011-2. Lecture 12.  Face models.
CV2011-2. Lecture 12. Face models.
Anton Konushin
 
Big Data - первые шаги
Big Data - первые шагиBig Data - первые шаги
Big Data - первые шаги
Anton Gorokhov
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_review
Khryashchev
 
Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)
Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)
Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)
Ontico
 

Similar to Data Mining - lecture 7 - 2014 (20)

Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014
 
Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014
 
Сегментация изображений в компьютерной графике.ppt
Сегментация  изображений в компьютерной графике.pptСегментация  изображений в компьютерной графике.ppt
Сегментация изображений в компьютерной графике.ppt
 
Data Mining - lecture 4 - 2014
Data Mining - lecture 4 - 2014Data Mining - lecture 4 - 2014
Data Mining - lecture 4 - 2014
 
!Predictive analytics part_2
!Predictive analytics part_2!Predictive analytics part_2
!Predictive analytics part_2
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
0. основы r
0. основы r0. основы r
0. основы r
 
Исследование операций и методы оптимизации
Исследование операций и методы оптимизацииИсследование операций и методы оптимизации
Исследование операций и методы оптимизации
 
Лекции по дискретной математике
Лекции по дискретной математикеЛекции по дискретной математике
Лекции по дискретной математике
 
Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
 
Основы MATLAB. Численные методы
Основы MATLAB. Численные методыОсновы MATLAB. Численные методы
Основы MATLAB. Численные методы
 
чернякова г.в.
чернякова г.в.чернякова г.в.
чернякова г.в.
 
CV2011-2. Lecture 12. Face models.
CV2011-2. Lecture 12.  Face models.CV2011-2. Lecture 12.  Face models.
CV2011-2. Lecture 12. Face models.
 
ОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, спискиОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, списки
 
Big Data - первые шаги
Big Data - первые шагиBig Data - первые шаги
Big Data - первые шаги
 
Lsa fca spb
Lsa fca spbLsa fca spb
Lsa fca spb
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_review
 
Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)
Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)
Олег Бартунов, Федор Сигаев, Александр Коротков (PostgreSQL)
 

More from Andrii Gakhov

More from Andrii Gakhov (20)

Let's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureLet's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architecture
 
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
 
Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...
 
DNS Delegation
DNS DelegationDNS Delegation
DNS Delegation
 
Implementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaImplementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and Lua
 
Pecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsPecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food Traditions
 
Probabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityProbabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. Cardinality
 
Вероятностные структуры данных
Вероятностные структуры данныхВероятностные структуры данных
Вероятностные структуры данных
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: Theory
 
Apache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksApache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected Talks
 
Swagger / Quick Start Guide
Swagger / Quick Start GuideSwagger / Quick Start Guide
Swagger / Quick Start Guide
 
API Days Berlin highlights
API Days Berlin highlightsAPI Days Berlin highlights
API Days Berlin highlights
 
ELK - What's new and showcases
ELK - What's new and showcasesELK - What's new and showcases
ELK - What's new and showcases
 
Apache Spark Overview @ ferret
Apache Spark Overview @ ferretApache Spark Overview @ ferret
Apache Spark Overview @ ferret
 
Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)
 
Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014
 
Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014
 
Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2
 
Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 

Data Mining - lecture 7 - 2014

  • 1. Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год
  • 2. ЛЕКЦИЯ 4 Подготовка данных (preprocessing). Часть 3
  • 3. ПРЕОБРАЗОВАНИЕ ДАННЫХ ДЛЯ ЧИСЛЕННЫХ АТРИБУТОВ
  • 4. НОРМАЛИЗАЦИЯ ДАННЫХ • Единица измерения может влиять на результат. Описание атрибута в меньших единицах измерения (например, в см вместо метров) приводит к большему диапазону значений и, следовательно, придает данному атрибуту больший “вес” • Нормализация (стандартизация) данных предназначена для устранения зависимости от выбора единицы измерения и заключается в преобразовании диапазонов значений всех атрибутов к стандартным интервалам [-1, 1] или [0, 1] • Нормализация данных направлена на придание всем атрибутам одинакового “веса”.
  • 5. НОРМАЛИЗАЦИЯ ДАННЫХ • Пусть x - численный атрибут, наблюдаемые значения которого есть x1, x2, …, xN • Рассмотрим основные методы нормализации данных, применяемые на практике: • min-max нормализация • z-нормализация • масштабирование
  • 6. НОРМАЛИЗАЦИЯ ДАННЫХ MIN-MAX НОРМАЛИЗАЦИЯ min-max нормализация заключается в применении к диапазону значений атрибута x линейного преобразования, которое отображает [min(x), max(x)] в [A, B] x′i =τ xi ( ) = xi −min(x) max(x)−min(x) ⋅(B − A)+ A x ∈[min(x), max(x)]⇒τ (x)∈[A, B] • min-max нормализация сохраняет все зависимости и порядок оригинальных значений атрибута • Если данные содержат доминирующие аномалии (аутлаеры), тогда такое преобразование сильно “сожмет” основную массу значений к очень маленькому интервалу!
  • 7. НОРМАЛИЗАЦИЯ ДАННЫХ ПРИМЕР: MIN-MAX НОРМАЛИЗАЦИЯ Пусть атрибут зарплата принимает следующие значения (грн): 3000, 3600, 4700, 5000, 5200, 5200, 5600, 6000, 6300, 7000, 7000, 11000 Преобразуем диапазон значений данного атрибута x к интервалу [0, 1] при помощи min-max нормализации min(x) = 3000, max(x) = 11000⇒ x ∈[3000,11000] A = 0, B = 1⇒ x′ =τ (x)∈[0,1] x′i =τ xi ( ) = xi − 3000 8000 x′3 =τ x3 ( ) =τ (4700) = (4700 − 3000) 8000 = 0.2125
  • 8. НОРМАЛИЗАЦИЯ ДАННЫХ Z-НОРМАЛИЗАЦИЯ z-нормализация (zero-mean normalization) основывается на приведении распределения исходного атрибута x к центрированному распределению со стандартным отклонением, равным 1 x′i =τ xi ( ) = xi − x σ x M[x′] = x′ = 1 N xi − x σ i=1 x NΣ = 1 σ x 1 N xi NΣ i=1 − x ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ = 0 D[x′] = M (x′)2 ⎡⎣⎤⎦ − (M[x′])2 == M (x′)2 ⎡⎣ ⎤⎦ = M ⎡ 2 x − x σ x ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ⎣ ⎢⎢ ⎤ ⎦ ⎥⎥ = 1 σ x 2 M (x − x )2 ⎡⎣ ⎤⎦ = D[x] σ x 2 = 1 • Метод полезен когда максимум (минимум) неизвестны или когда данные содержат доминирующие аномалии (аутлаеры)
  • 9. НОРМАЛИЗАЦИЯ ДАННЫХ Z-НОРМАЛИЗАЦИЯ • Одна из модификаций метода z-нормализации заключается в использовании среднего абсолютного отклонения вместо среднеквадратического отклонения NΣ • Данная модификация более устойчива к аномалиям (аутлаерам), т.к. вместо ( − )2 x x использует x− x , что в i i значительно меньшей мере увеличивает влияние аутлаеров, которые сильно отклоняются от среднего значения x′i =τ xi ( ) = xi − x sx sx = 1 N xi − x i=1 где
  • 10. НОРМАЛИЗАЦИЯ ДАННЫХ ПРИМЕР: Z-НОРМАЛИЗАЦИЯ Пусть атрибут зарплата принимает следующие значения (грн): 3000, 3600, 4700, 5000, 5200, 5200, 5600, 6000, 6300, 7000, 7000, 11000 Необходимо провести z-нормализацию атрибута x = 5800,σ x Ранее мы уже вычислили значения ≈1947 x′i =τ xi ( ) = xi − 5800 1947 x′3 =τ x3 ( ) =τ (4700) = (4700 − 5800) 1947 ≈ -0.56497
  • 11. НОРМАЛИЗАЦИЯ ДАННЫХ МАСШТАБИРОВАНИЕ Масштабирование заключается в изменении длины вектора значений атрибута путем умножения на константу x′i =τ xi ( ) = λ ⋅ xi λ ≠ 0,λ = const Длина вектора x уменьшается при λ <1 и увеличивается, если λ >1 • Популярные константы на практике λ = 1 x ⇒ x′ =τ (x) = x x ⇒ x′ = 1 λ = 10− p , p = min k xi :max 10k i=1..N xi 10k ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ≤1 ⎧⎨⎩ ⎫⎬⎭ ⇒ x′ =τ (x) = x 10p ⇒ x′ ∈[−1,1] • •
  • 12. НОРМАЛИЗАЦИЯ ДАННЫХ ПРИМЕР: МАСШТАБИРОВАНИЕ Пусть атрибут зарплата принимает следующие значения (грн): 3000, 3600, 4700, 5000, 5200, 5200, 5600, 6000, 6300, 7000, 7000, 11000 Необходимо провести масштабирование атрибута, чтобы значения были в [-1, 1] τ xi ( ) = xi 105 xi ( ) 105 = 0.11 <1⇒ p = 5 x′3 =τ x3 ( ) =τ (4700) = 4700 105 = 0.047 λ = 10− p , max i=1..N xi ( ) = 11000⇒ max i=1..N
  • 13. ЗАДАНИЯ Для приведенных примеров нормализации данных необходимо: • закончить нормализацию всех наблюдений • применить масштабирование с λ = 1 визуализировать нормализованные x • значение • указать возможные аутлаеры в значениях • сравнить полученные нормализованные значения • как аутлаеры повлияли на полученные значения в использованных методах нормализации?
  • 14. ЗАДАНИЯ • Значения атрибутов рост (см) и вес (кг) для студентов группы представлены в таблице: рост вес рост вес рост вес рост вес рост вес 185 77 163 68 173 82 193 70 175 83 170 66 188 82 180 84 183 79 165 66 183 75 185 74 178 100 175 77 178 67 183 77 165 61 183 84 183 70 188 95 175 76 185 77 188 84 185 76 178 63 • Необходимо: • провести нормализацию данных данных атрибутов, чтобы они были сравнимы и их различные шкалы не влияли на “вес” атрибута • применить все известные вам методы нормализации данных • выбрать метод нормализации, который, как вам кажется, наиболее подходит для рассматриваемой задачи
  • 16. ДИСКРЕТИЗАЦИЯ • Под дискретизацией ч и с л е н н о г о а т р и б у т а подразумевается замена исходных значений атрибута на интервальные или концептуальные метки • Например, значения атрибута возраст могут быть заменены на 0-10, 11-20, … (интервальные метки) или на молодой, взрослый, старый (концептуальные метки) • Метки в свою очередь могут быть объединены в понятия более высокого уровня, определяя таким образом иерархию понятий численного атрибута возраст (0-100) 0-30 31-60 61-100 0-10 11-20 21-30 31-40 41-50 51-60 61-75 76-90 91-100
  • 17. ДИСКРЕТИЗАЦИЯ • По использованию данных о классе дискретизации разделяют на: • дискретизация с учителем (supervised discretization) используют информацию о классах данных • дискретизация без учителя (unsupervised discretization) НЕ используют информацию о классах данных По методу построения дискретизации разделяют на: • дискретизация сверху-вниз (разбиение) начинается с поиска некоторых значений (точек разбиения) для разбиения диапазона значений на несколько частей и повторением процедуры на каждом из полученных множеств • дискретизация снизу-вверх (слияние) начинается с рассмотрения всех точек как потенциальных точек разбиения, удаления некоторых из них путем объединения соседних значений в интервалы и повторением процедуры на полученных интервалах Дискретизация данных - это также форма редукции данных
  • 18. ДИСКРЕТИЗАЦИЯ МЕТОДЫ ДИСКРЕТИЗАЦИИ • Биннинг • Биннинг реализует дискретизацию сверху-вниз без учителя • Значения атрибутов дискретизируются путем построения бинов одинаковой длины (или частоты) и заменой значений на медиану • Гистограмма • Гистограмма реализует дискретизацию сверху-вниз без учителя • Применяют равночастотные (когда разбиение ведется на интервалы с одинаковым количеством попавших в них значений) и равномерные гистограммы (когда разбиение ведется на интервалы равной длины) • Кластерный анализ • Кластерный анализ позволяет выделить кластеры в значениях атрибута на основе их “близости” в том или ином смысле • Кластерный анализ может реализовывать как дискретизацию сверху- вниз так и снизу-вверх, укрупняя имеющиеся кластеры
  • 19. ЗАДАНИЯ • Пусть атрибут цена принимает следующие значения (грн.): 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 • Необходимо • разбить значения данного атрибута: • на 3 бина одинаковой длины • на 3 бина с одинаковым количеством значений • предложить интервальные и концептуальные метки • построить иерархию с 3 уровнями понятий • построить 3 кластера по критерию близости цены
  • 20. ПРЕОБРАЗОВАНИЕ ДАННЫХ ДЛЯ НОМИНАТИВНЫХ АТРИБУТОВ
  • 21. ПОСТРОЕНИЕ ИЕРАРХИЙ • Построение иерархий понятий (Concept Hierarchy Generation) заключается в обобщении атрибутов более общими (высокого уровня) понятиями. Например, атрибут город может быть обобщен понятием страна • Номинативные атрибуты могут принимать конечное (но достаточно большое) количество различных значений без отношения порядка (например, атрибут улица). • В общем случае построение иерархий может быть сложной задачей, требующей экспертных знаний из предметной области • Если данные хранятся в базах данных, тогда много иерархий можно простроить просто на основе схемы БД
  • 22. ПОСТРОЕНИЕ ИЕРАРХИЙ • Основные методы построения иерархий: • введение отношения (частичного) порядка между атрибутами при помощи пользователя или эксперта • введение части иерархий путем явной группировки данных • введение группы атрибутов без их частичного упорядочивания • определение частичной группы атрибутов
  • 23. ПОСТРОЕНИЕ ИЕРАРХИЙ Введение отношения (частичного) порядка между атрибутами при помощи эксперта • Как правило, пользователь или эксперт предметной области может определить на уровне схемы данных отношение частичного или полного порядка Например, реляционная база данных содержит группу атрибутов: улица, город, страна. Иерархия может быть построена путем определения полного порядка: улица < город < страна
  • 24. ПОСТРОЕНИЕ ИЕРАРХИЙ Введение части иерархий путем явной группировки • Заключается в введение новых иерархий, путем явного указания группы включаемых в нее значений • Фактически это ручное определение иерархий (поэтому реализуемо лишь для части иерархий в больших базах данных) Например, после определения иерархий город и страна на уровне схемы данных, мы можем ввести некоторый промежуточный уровень область вручную путем перечисления принимаемых значений: {Харьков, Чугуев, …} ⊂ Харьковская область и {Харьковская область, Сумская область, …} ⊂ Украина
  • 25. ПОСТРОЕНИЕ ИЕРАРХИЙ Определение группы атрибутов без упорядочивания • Пользователь или эксперт определяют лишь группу атрибутов, не указывая их порядок • Упорядочивание осуществляется автоматически используя информацию о значениях и их количестве Например, атрибут (из указанной экспертом группы) принимающий наибольшее количество различных значений автоматически помещается на низший уровень иерархии Такой эвристический подход часто бывает ошибочен! Рассмотрим группу атрибутов: год (20 значений), месяц (12 значений) и день недели (7 значений). Данный метод построит иерархию: год < месяц < день недели
  • 26. ПОСТРОЕНИЕ ИЕРАРХИЙ Определение частичной группы атрибутов • Зачастую пользователь не может (или не хочет) полностью определить группу атрибутов для построения иерархии • Как решение данной проблемы неполной иерархии могут применяться семантические связи между атрибутами (например, традиционный понятия или концепции в схеме данных). Тогда при определении хотя бы одного атрибута группы, иерархия может быть дополнена известными семантически связанными с ним значениями Например, пусть известно, что понятие адрес, как правило, включает семантически связанные атрибуты номер дома < улица < город < страна. Тогда, если пользователем определен только атрибут город, то система автоматически включает все остальные атрибуты понятия адрес в иерархию.