1. Харьковский национальный университет имени В. Н. Каразина
Факультет компьютерных наук
ИНТЕЛЛЕКТУАЛЬНЫЙ
АНАЛИЗ ДАННЫХ
Data Mining
Подготовил:
доцент каф. искусственного интеллекта и программного обеспечения,
к.ф.-м. н. Гахов Андрей Владимирович
2014/2015 уч. год
4. ПИКСЕЛЬНАЯ ВИЗУАЛИЗАЦИЯ
• Простейший способ визуализации значений
атрибута - использовать пикселы (pixels), где
цвет пиксела отображает значение атрибута
• Для данных с m атрибутами пиксельная
визуализация позволяет построить m
пиксельных диаграмм (одна на атрибут)
• При использовании пиксельной визуализация
данные могут быть отсортированы по одному
из атриутов
5. ПРИМЕР: ПИКСЕЛЬНАЯ ВИЗУАЛИЗАЦИЯ
• Пусть объект покупатель имеет 3 атрибута: зарплата,
количество покупок и возраст
• Рассмотрим следующую пиксельную визуализацию, условно
отсортированную по возрастанию атрибута зарплата.
зарплата количество покупок возраст
• На диаграммах можно увидеть, что наибольшее число покупок совершают люди со
средней (ближе к маленькой) заплатой, а также, что возраст не влияет на зарплату
6. МАТРИЦА ДИАГРАМ РАССЕИВАНИЯ
• Расширяет возможности диаграммы рассеивания для
многомерных наборов данных (много атрибутов)
• Эффективна для
небольших
размерностей
!
• Показывает
зависимости
атрибутов между
собой (например,
долг растет, когда
зарплата
уменьшается)
Заплата
Возраст
Пеня
Долг
7. ЛИЦА ЧЕРНОВА
• Лица Чернова (Chernoff faces) - визуализация многомерных
данных в виде человеческого лица, его отдельных частей.
• Основана на факте, что люди легко распознают лица и без
затруднения воспринимают небольшие изменения в них.
• Для каждого наблюдения рисуется отдельное «лицо», где
относительные значения выбранных атрибутов
представлены как формы и размеры отдельных черт лица
(например, длина носа, угол между бровями, ширина лица).
• Таким образом, наблюдатель может идентифицировать
уникальные для каждой конфигурации значений наглядные
характеристики объектов.
8. • Для каждого “лица” может использоваться до
18 параметров: размер глаза, размер зрачка,
позиция зрачка, нос, размер рта, изгиб рта и т.п.
• В 1981 году Бернард Флури и Ганс Ридвил улучшили
концепцию добавив Лицам Чернова асимметрию и
увеличив количество переменных до 36.
11. • Для многих приложений анализа данных важно
уметь различать объекты данных, а также иметь
критерий, показывающий насколько два объекта
подобны или отличаются между собой
• Кластер - это коллекция объектов данных,
которые подобны между собой и отличны от
объектов других кластеров
12. МАТРИЦА ДАННЫХ И МАТРИЦА ОТЛИЧИЙ
• Рассмотрим n объектов (например, студенты, курсы и т.п.),
представленных m атрибутами каждый (например, рост,
вест и т.п.): x1=(x11, x12, … x1m), x2=(x21, x22, … x2m), …
• Матрица данных (структура объект-атрибут)
представляет все n объектов и их m атрибутов в форме
матрицы n x m:
x11 … x1m
! " !
xn1 # xnm
⎛
⎜⎜⎜
⎝
⎞
⎟⎟⎟
⎠
13. • Матрица расстояний (матрица отличий, dissimilarity
matrix) представляет собой структуру объект-объект,
отображающую в матричной форме отличия (расстояния)
между объектами: 0
d(2,1) 0
d(3,1) d(3,2) 0
! ! ! 0
d(n,1) d(n,2) " " 0
⎛
⎜⎜⎜⎜⎜
⎝
⎞
⎟⎟⎟⎟⎟
⎠
где d(i,j) - функция отличия (расстояние) объекта i от объекта j:
• чем больше d(i,j) тем больше объекты удалены (отличаются)
• d(i,j) = d(j,i)
• d(i,i) = 0
функция подобия sim(i,j) объекта i от объекта j может быть
определена как
sim(i,j) = 1 - d(i,j)
14. ИЗМЕРЕНИЕ ОТЛИЧИЙ
ДЛЯ НОМИНАТИВНЫХ АТРИБУТОВ
• Функция отличия (расстояние) между двумя объектами
i и j может быть вычислена как отношение количество
значений m номинативного атрибута, одинаковых у
обоих объектов, к общему количеству значений p:
d(i, j) = p − m
p
• Пример: рассмотрим 3 объекта с одним номинативным
атрибутом имя: x1=(Сергей) x2=(Иван), x3=(Сергей)
d(1,2) = 1− 0
1
= 1, d(2,3) = 1− 0
1
= 1, d(1,3) = 1−1
1
= 0
15. ИЗМЕРЕНИЕ ОТЛИЧИЙ
ДЛЯ СИММЕТРИЧНЫХ БИНАРНЫХ АТРИБУТОВ
• Для симметричных бинарных атрибутов все значения
одинаково важны
• Построим таблицу сопряженности между двумя объектами
x1 и x2 для бинарного атрибута
xj
1 0 Σ
xi 1 q r q + r
0 s t s + t
Σ q + s r + t q + r + s + t
• Функция отличия (расстояние) между двумя объектами i и j может
быть вычислена как
d(i, j) = r + s
q + r + s + t
16. ИЗМЕРЕНИЕ ОТЛИЧИЙ
ДЛЯ АСИММЕТРИЧНЫХ БИНАРНЫХ АТРИБУТОВ
• Для симметричных бинарных атрибутов все значение 1
рассматривается как более важное
• Функция отличия (расстояние) между двумя объектами i и
j может быть вычислена как
d(i, j) = r + s
q + r + s
• Функция подобия в данном случае называется
коэффициентом Жаккара и равна
sim(i, j) = 1− d(i, j) = q
q + r + s
17. ПРИМЕР: ПОДОБИЕ БИНАРНЫХ АТРИБУТОВ
• Рассмотрим данные журнала пациентов больницы
Пол Жар Кашель Насморк
Сергей (x1) М Да Нет Нет
Иван (x2) М Да Да Нет
Ольга (x3) Ж Да Да Да
• Атрибут пол является симметричным, а жар, кашель и
насморк - асиметричными бинарными атрибутами
• Вычислим отличия только на основе симптомов
болезни - асимметричных атрибутов:
d(x1, x2 ) = 0 +1
4
= 0.25, d(x1, x3 ) = 0 + 2
6
= 0.33, d(x2 , x3 ) = 0 +1
6
= 0.166
Симптомы Ольги и Ивана наиболее похожи, в то время как для Ольги и
Сергея они наиболее отличаются
18. ИЗМЕРЕНИЕ ОТЛИЧИЙ
ДЛЯ ЧИСЛЕННЫХ АТРИБУТОВ
• Для численных атрибутов в качестве меры отличия
применяются метрики расстояний: евклидова,
манхэттенская, метрики Минковского, Чебышёва и др.
• Функция расстояния d(i,j) будет называться
метрикой, если
• d(i,j) ≥ 0
• d(i,i) = 0
• d(i,j) = d(j,i)
• d(i,j) ≤ d(i,k) + d(k,j) для любого k
19. • Евклидова метрика - геометрическое расстояние
между двумя объектами i и j в многомерном
пространстве, вычисляемое по теореме Пифагора:
d(i, j) = (xi1 − xj1)2 + (xi2 − xj 2 )2 +…+ (xim − xjm )2
• Манхэттенская метрика - расстояние между двумя
объектами i и j в многомерном пространстве,
вычисляемое как сумма модулей разностей их
координат:
d(i, j) = xi1 − xj1 + xi2 − xj 2 +…+ xim − xjm
20. • метрика Минковского (Lp-норма) - обобщение
расстояния между двумя объектами i и j введенное
Евклидовой и манхэттенской метриками:
• метрика Чебышёва (L∞-норма) - обобщение
расстояния между двумя объектами i и j
введенное метрикой Минковского при
d(i, j) = lim
p→∞
xik − xjk
p
mΣ
k=1
⎛
⎝ ⎜
⎞
⎠ ⎟
1
p
m
= max
k
xik − xjk
d(i, j) = xi1 − xj1
p + xi2 − xj 2
p +…+ xim − xjm
p
p , p ≥1, p ∈!
m→∞
22. ИЗМЕРЕНИЕ ОТЛИЧИЙ
ДЛЯ ПОРЯДКОВЫХ АТРИБУТОВ
• Пусть порядковый атрибут может принимать M различных
значений, которые могут быть упорядочены как
• Заменяем каждое из значений порядкового атрибута на
соответствующее значение
• Т.к. каждый атрибут имеет различное число принимаемых
значений, то для сравнения между собой таких атрибутов
необходимо нормализовать значения на интервал [0,1]:
!
r ∈{1,2,…M}
z = r −1
M −1
{1,2,…M}
• После нормализации для порядковых атрибутов можно
применять любую из функций расстояния, введенных ранее
для численных атрибутов
23. ИЗМЕРЕНИЕ ОТЛИЧИЙ
ДЛЯ АТРИБУТОВ СМЕШАННЫХ ТИПОВ
• Как правило, для реальных объектов атрибутами
одновременно выступают данные различных типов
• Функцию расстояния для смешанных атрибутов можно
вычислить по формуле:
d(i, j) =
δij
k ⋅dij
k
mΣ
k=1
δij
k
mΣ
k=1
где dk - значение функции расстояния для атрибута k в
ij
зависимости от его типа (нормализованые на [0,1])
δij
k =
0,
0,
1,
⎧
или отсутствуют
иначе
⎨ ⎪
⎩ ⎪ xik xjk
xik = xjk = 0 для бинарного асимметрического атрибута
24. КОСИНУСНОЕ ПОДОБИЕ
• Широко применяется для вычисления подобия между
двумя текстовыми документами
• Каждый документ представляется как частотный
вектор термов.
• В качестве термов могут быть выбраны, например, слова.
Тогда документ можно представить в виде вектора, где
на i-й позиции стоит частота слова wi в документе.
• Такие вектора будут разреженными (т.к. число слов в
документе намного меньше числа всех рассматриваемых
слов), поэтому уже введенные функции расстояния могут
быть не эффективны
25. • Рассмотрим два документа, заданных векторами термов:
x = x1, x2 ,…, xm ( ), y = y1, y2 ,…, ym ( )
• Косинусное подобие (косинусный коэффициент,
коэффициент Охаи) вычисляется по формуле:
sim(x, y) = (x, y)
x ⋅ y
, sim(x, y)∈[0,1]
mΣ
x = xk
2
k=1
mΣ
, y = yk
2
k=1
mΣ
, (x, y) = x i ⋅yi
k=1
• Если рассматривается бинарный атрибут (например, вместо
частоты слова берется 1 если слово встречается в документе
хотя бы 1 раз, и 0 - иначе), то косинусное подобие равно
функции расстояния Танимото:
sim(x, y) = (x, y)
(x, x)+ (y, y)− (x, y)
26. ПРИМЕР: КОСИНУСНОЕ ПОДОБИЕ
• Рассмотрим два документа, представленные частотными векторами
термов:
x = (5,0,3,0,2,0,0,2,0,0)
y = (3,0,2,0,1,1,0,1,0,1)
• Вычислим косинусное подобие:
(x, y) = 5 ⋅ 3+ 0 + 3⋅2 + 0 + 2 ⋅1+ 0 + 0 + 2 ⋅1+ 0 + 0 = 25
x = 52 + 02 + 32 + 02 + 22 + 02 + 02 + 22 + 02 + 02 ≈ 6.48
y = 32 + 02 + 22 + 02 +12 +12 + 02 +12 + 02 +12 ≈ 4.12
sim(x, y) = 25
6.48 ⋅ 4.12
≈ 0.94
Таким образом, рассматриваемые 2 документа очень близки с
точки зрения косинусного расстояния.