Data Mining - lecture 4 - 2014

Харьковский национальный университет имени В. Н. Каразина
Факультет компьютерных наук
ИНТЕЛЛЕКТУАЛЬНЫЙ
АНАЛИЗ ДАННЫХ
Data Mining
Подготовил:
доцент каф. искусственного интеллекта и программного обеспечения,
к.ф.-м. н. Гахов Андрей Владимирович
2014/2015 уч. год

ЛЕКЦИЯ 3
Узнаем больше о своих данных. Часть 2

ВИЗУАЛИЗАЦИЯ ДАННЫХ

ПИКСЕЛЬНАЯ ВИЗУАЛИЗАЦИЯ
• Простейший способ визуализации значений
атрибута - использовать пикселы (pixels), где
цвет пиксела отображает значение атрибута
• Для данных с m атрибутами пиксельная
визуализация позволяет построить m
пиксельных диаграмм (одна на атрибут)
• При использовании пиксельной визуализация
данные могут быть отсортированы по одному
из атриутов

ПРИМЕР: ПИКСЕЛЬНАЯ ВИЗУАЛИЗАЦИЯ
• Пусть объект покупатель имеет 3 атрибута: зарплата,
количество покупок и возраст
• Рассмотрим следующую пиксельную визуализацию, условно
отсортированную по возрастанию атрибута зарплата.
зарплата количество покупок возраст
• На диаграммах можно увидеть, что наибольшее число покупок совершают люди со
средней (ближе к маленькой) заплатой, а также, что возраст не влияет на зарплату

МАТРИЦА ДИАГРАМ РАССЕИВАНИЯ
• Расширяет возможности диаграммы рассеивания для
многомерных наборов данных (много атрибутов)
• Эффективна для
небольших
размерностей
!
• Показывает
зависимости
атрибутов между
собой (например,
долг растет, когда
зарплата
уменьшается)
Заплата
Возраст
Пеня
Долг

ЛИЦА ЧЕРНОВА
• Лица Чернова (Chernoff faces) - визуализация многомерных
данных в виде человеческого лица, его отдельных частей.
• Основана на факте, что люди легко распознают лица и без
затруднения воспринимают небольшие изменения в них.
• Для каждого наблюдения рисуется отдельное «лицо», где
относительные значения выбранных атрибутов
представлены как формы и размеры отдельных черт лица
(например, длина носа, угол между бровями, ширина лица).
• Таким образом, наблюдатель может идентифицировать
уникальные для каждой конфигурации значений наглядные
характеристики объектов.

• Для каждого “лица” может использоваться до
18 параметров: размер глаза, размер зрачка,
позиция зрачка, нос, размер рта, изгиб рта и т.п.
• В 1981 году Бернард Флури и Ганс Ридвил улучшили
концепцию добавив Лицам Чернова асимметрию и
увеличив количество переменных до 36.

ДРУГИЕ ПОПУЛЯРНЫЕ МЕТОДЫ ВИЗУАЛИЗАЦИИ
• Параллельные координаты
• Визуализация проекций
• Иерархическая визуализация
• Облако тегов
• Stick figures
• Hyperbox

ИЗМЕРЕНИЕ ПОДОБИЯ И
РАЗЛИЧИЯ ДАННЫХ

• Для многих приложений анализа данных важно
уметь различать объекты данных, а также иметь
критерий, показывающий насколько два объекта
подобны или отличаются между собой
• Кластер - это коллекция объектов данных,
которые подобны между собой и отличны от
объектов других кластеров

МАТРИЦА ДАННЫХ И МАТРИЦА ОТЛИЧИЙ
• Рассмотрим n объектов (например, студенты, курсы и т.п.),
представленных m атрибутами каждый (например, рост,
вест и т.п.): x1=(x11, x12, … x1m), x2=(x21, x22, … x2m), …
• Матрица данных (структура объект-атрибут)
представляет все n объектов и их m атрибутов в форме
матрицы n x m:
x11 … x1m
! " !
xn1 # xnm
⎛
⎜⎜⎜
⎝
⎞
⎟⎟⎟
⎠

• Матрица расстояний (матрица отличий, dissimilarity
matrix) представляет собой структуру объект-объект,
отображающую в матричной форме отличия (расстояния)
между объектами: 0
d(2,1) 0
d(3,1) d(3,2) 0
! ! ! 0
d(n,1) d(n,2) " " 0
⎛
⎜⎜⎜⎜⎜
⎝
⎞
⎟⎟⎟⎟⎟
⎠
где d(i,j) - функция отличия (расстояние) объекта i от объекта j:
• чем больше d(i,j) тем больше объекты удалены (отличаются)
• d(i,j) = d(j,i)
• d(i,i) = 0
функция подобия sim(i,j) объекта i от объекта j может быть
определена как
sim(i,j) = 1 - d(i,j)

ИЗМЕРЕНИЕ ОТЛИЧИЙ
ДЛЯ НОМИНАТИВНЫХ АТРИБУТОВ
• Функция отличия (расстояние) между двумя объектами
i и j может быть вычислена как отношение количество
значений m номинативного атрибута, одинаковых у
обоих объектов, к общему количеству значений p:
d(i, j) = p − m
p
• Пример: рассмотрим 3 объекта с одним номинативным
атрибутом имя: x1=(Сергей) x2=(Иван), x3=(Сергей)
d(1,2) = 1− 0
1
= 1, d(2,3) = 1− 0
1
= 1, d(1,3) = 1−1
1
= 0

ДЛЯ СИММЕТРИЧНЫХ БИНАРНЫХ АТРИБУТОВ
• Для симметричных бинарных атрибутов все значения
одинаково важны
• Построим таблицу сопряженности между двумя объектами
x1 и x2 для бинарного атрибута
xj
1 0 Σ
xi 1 q r q + r
0 s t s + t
Σ q + s r + t q + r + s + t
• Функция отличия (расстояние) между двумя объектами i и j может
быть вычислена как
d(i, j) = r + s
q + r + s + t

ДЛЯ АСИММЕТРИЧНЫХ БИНАРНЫХ АТРИБУТОВ
• Для симметричных бинарных атрибутов все значение 1
рассматривается как более важное
• Функция отличия (расстояние) между двумя объектами i и
j может быть вычислена как
d(i, j) = r + s
q + r + s
• Функция подобия в данном случае называется
коэффициентом Жаккара и равна
sim(i, j) = 1− d(i, j) = q
q + r + s

ПРИМЕР: ПОДОБИЕ БИНАРНЫХ АТРИБУТОВ
• Рассмотрим данные журнала пациентов больницы
Пол Жар Кашель Насморк
Сергей (x1) М Да Нет Нет
Иван (x2) М Да Да Нет
Ольга (x3) Ж Да Да Да
• Атрибут пол является симметричным, а жар, кашель и
насморк - асиметричными бинарными атрибутами
• Вычислим отличия только на основе симптомов
болезни - асимметричных атрибутов:
d(x1, x2 ) = 0 +1
4
= 0.25, d(x1, x3 ) = 0 + 2
6
= 0.33, d(x2 , x3 ) = 0 +1
6
= 0.166
Симптомы Ольги и Ивана наиболее похожи, в то время как для Ольги и
Сергея они наиболее отличаются

ДЛЯ ЧИСЛЕННЫХ АТРИБУТОВ
• Для численных атрибутов в качестве меры отличия
применяются метрики расстояний: евклидова,
манхэттенская, метрики Минковского, Чебышёва и др.
• Функция расстояния d(i,j) будет называться
метрикой, если
• d(i,j) ≥ 0
• d(i,i) = 0
• d(i,j) = d(j,i)
• d(i,j) ≤ d(i,k) + d(k,j) для любого k

• Евклидова метрика - геометрическое расстояние
между двумя объектами i и j в многомерном
пространстве, вычисляемое по теореме Пифагора:
d(i, j) = (xi1 − xj1)2 + (xi2 − xj 2 )2 +…+ (xim − xjm )2
• Манхэттенская метрика - расстояние между двумя
объектами i и j в многомерном пространстве,
вычисляемое как сумма модулей разностей их
координат:
d(i, j) = xi1 − xj1 + xi2 − xj 2 +…+ xim − xjm

• метрика Минковского (Lp-норма) - обобщение
расстояния между двумя объектами i и j введенное
Евклидовой и манхэттенской метриками:
• метрика Чебышёва (L∞-норма) - обобщение
расстояния между двумя объектами i и j
введенное метрикой Минковского при
d(i, j) = lim
p→∞
xik − xjk
p
mΣ
k=1
⎛
⎝ ⎜
⎞
⎠ ⎟
1
p
m
= max
k
xik − xjk
d(i, j) = xi1 − xj1
p + xi2 − xj 2
p +…+ xim − xjm
p
p , p ≥1, p ∈!
m→∞

ПРИМЕР: ПОДОБИЕ ЧИСЛЕННЫХ АТРИБУТОВ
• Рассмотрим 2 объекта, заданные векторами со
значениями некоторых численных атрибутов:
x = (5,0,3,0,2,0,0,2,0,0)
y = (3,0,2,0,1,1,0,1,0,1)
Вычислим расстояния между данными объектами
• Евклидова метрика
d(x, y) = (5 − 3)2 + 02 + (3− 2)2 + 02 + (2 −1)2 + (0 −1)2 + 02 + (2 −1)2 + 02 + 02 ≈ 2.84
• Манхэттенская метрика
d(x, y) = 5 − 3 + 0 + 3− 2 + 0 + 2 −1 + 0 −1 + 0 + 2 −1 + 0 + 0 = 6
• L∞-норма
d(x, y) = max 5 − 3 ,0, 3− 2 ( ,0, 2 −1 , 0 −1 ,0, 2 −1 ,0,0) = 2

ДЛЯ ПОРЯДКОВЫХ АТРИБУТОВ
• Пусть порядковый атрибут может принимать M различных
значений, которые могут быть упорядочены как
• Заменяем каждое из значений порядкового атрибута на
соответствующее значение
• Т.к. каждый атрибут имеет различное число принимаемых
значений, то для сравнения между собой таких атрибутов
необходимо нормализовать значения на интервал [0,1]:
!
r ∈{1,2,…M}
z = r −1
M −1
{1,2,…M}
• После нормализации для порядковых атрибутов можно
применять любую из функций расстояния, введенных ранее
для численных атрибутов

ДЛЯ АТРИБУТОВ СМЕШАННЫХ ТИПОВ
• Как правило, для реальных объектов атрибутами
одновременно выступают данные различных типов
• Функцию расстояния для смешанных атрибутов можно
вычислить по формуле:
d(i, j) =
δij
k ⋅dij
k
mΣ
k=1
δij
k
mΣ
k=1
где dk - значение функции расстояния для атрибута k в
ij
зависимости от его типа (нормализованые на [0,1])
δij
k =
0,
0,
1,
⎧
или отсутствуют
иначе
⎨ ⎪
⎩ ⎪ xik xjk
xik = xjk = 0 для бинарного асимметрического атрибута

КОСИНУСНОЕ ПОДОБИЕ
• Широко применяется для вычисления подобия между
двумя текстовыми документами
• Каждый документ представляется как частотный
вектор термов.
• В качестве термов могут быть выбраны, например, слова.
Тогда документ можно представить в виде вектора, где
на i-й позиции стоит частота слова wi в документе.
• Такие вектора будут разреженными (т.к. число слов в
документе намного меньше числа всех рассматриваемых
слов), поэтому уже введенные функции расстояния могут
быть не эффективны

• Рассмотрим два документа, заданных векторами термов:
x = x1, x2 ,…, xm ( ), y = y1, y2 ,…, ym ( )
• Косинусное подобие (косинусный коэффициент,
коэффициент Охаи) вычисляется по формуле:
sim(x, y) = (x, y)
x ⋅ y
, sim(x, y)∈[0,1]
mΣ
x = xk
2
k=1
mΣ
, y = yk
2
k=1
mΣ
, (x, y) = x i ⋅yi
k=1
• Если рассматривается бинарный атрибут (например, вместо
частоты слова берется 1 если слово встречается в документе
хотя бы 1 раз, и 0 - иначе), то косинусное подобие равно
функции расстояния Танимото:
sim(x, y) = (x, y)
(x, x)+ (y, y)− (x, y)

ПРИМЕР: КОСИНУСНОЕ ПОДОБИЕ
• Рассмотрим два документа, представленные частотными векторами
термов:
x = (5,0,3,0,2,0,0,2,0,0)
y = (3,0,2,0,1,1,0,1,0,1)
• Вычислим косинусное подобие:
(x, y) = 5 ⋅ 3+ 0 + 3⋅2 + 0 + 2 ⋅1+ 0 + 0 + 2 ⋅1+ 0 + 0 = 25
x = 52 + 02 + 32 + 02 + 22 + 02 + 02 + 22 + 02 + 02 ≈ 6.48
y = 32 + 02 + 22 + 02 +12 +12 + 02 +12 + 02 +12 ≈ 4.12
sim(x, y) = 25
6.48 ⋅ 4.12
≈ 0.94
Таким образом, рассматриваемые 2 документа очень близки с
точки зрения косинусного расстояния.

Data Mining - lecture 4 - 2014

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Data Mining - lecture 4 - 2014

Similar a Data Mining - lecture 4 - 2014 (20)

Más de Andrii Gakhov

Más de Andrii Gakhov (20)

Data Mining - lecture 4 - 2014