SlideShare una empresa de Scribd logo
1 de 26
Descargar para leer sin conexión
Харьковский национальный университет имени В. Н. Каразина 
Факультет компьютерных наук 
ИНТЕЛЛЕКТУАЛЬНЫЙ 
АНАЛИЗ ДАННЫХ 
Data Mining 
Подготовил: 
доцент каф. искусственного интеллекта и программного обеспечения, 
к.ф.-м. н. Гахов Андрей Владимирович 
2014/2015 уч. год
ЛЕКЦИЯ 3 
Узнаем больше о своих данных. Часть 2
ВИЗУАЛИЗАЦИЯ ДАННЫХ
ПИКСЕЛЬНАЯ ВИЗУАЛИЗАЦИЯ 
• Простейший способ визуализации значений 
атрибута - использовать пикселы (pixels), где 
цвет пиксела отображает значение атрибута 
• Для данных с m атрибутами пиксельная 
визуализация позволяет построить m 
пиксельных диаграмм (одна на атрибут) 
• При использовании пиксельной визуализация 
данные могут быть отсортированы по одному 
из атриутов
ПРИМЕР: ПИКСЕЛЬНАЯ ВИЗУАЛИЗАЦИЯ 
• Пусть объект покупатель имеет 3 атрибута: зарплата, 
количество покупок и возраст 
• Рассмотрим следующую пиксельную визуализацию, условно 
отсортированную по возрастанию атрибута зарплата. 
зарплата количество покупок возраст 
• На диаграммах можно увидеть, что наибольшее число покупок совершают люди со 
средней (ближе к маленькой) заплатой, а также, что возраст не влияет на зарплату
МАТРИЦА ДИАГРАМ РАССЕИВАНИЯ 
• Расширяет возможности диаграммы рассеивания для 
многомерных наборов данных (много атрибутов) 
• Эффективна для 
небольших 
размерностей 
! 
• Показывает 
зависимости 
атрибутов между 
собой (например, 
долг растет, когда 
зарплата 
уменьшается) 
Заплата 
Возраст 
Пеня 
Долг
ЛИЦА ЧЕРНОВА 
• Лица Чернова (Chernoff faces) - визуализация многомерных 
данных в виде человеческого лица, его отдельных частей. 
• Основана на факте, что люди легко распознают лица и без 
затруднения воспринимают небольшие изменения в них. 
• Для каждого наблюдения рисуется отдельное «лицо», где 
относительные значения выбранных атрибутов 
представлены как формы и размеры отдельных черт лица 
(например, длина носа, угол между бровями, ширина лица). 
• Таким образом, наблюдатель может идентифицировать 
уникальные для каждой конфигурации значений наглядные 
характеристики объектов.
• Для каждого “лица” может использоваться до 
18 параметров: размер глаза, размер зрачка, 
позиция зрачка, нос, размер рта, изгиб рта и т.п. 
• В 1981 году Бернард Флури и Ганс Ридвил улучшили 
концепцию добавив Лицам Чернова асимметрию и 
увеличив количество переменных до 36.
ДРУГИЕ ПОПУЛЯРНЫЕ МЕТОДЫ ВИЗУАЛИЗАЦИИ 
• Параллельные координаты 
• Визуализация проекций 
• Иерархическая визуализация 
• Облако тегов 
• Stick figures 
• Hyperbox
ИЗМЕРЕНИЕ ПОДОБИЯ И 
РАЗЛИЧИЯ ДАННЫХ
• Для многих приложений анализа данных важно 
уметь различать объекты данных, а также иметь 
критерий, показывающий насколько два объекта 
подобны или отличаются между собой 
• Кластер - это коллекция объектов данных, 
которые подобны между собой и отличны от 
объектов других кластеров
МАТРИЦА ДАННЫХ И МАТРИЦА ОТЛИЧИЙ 
• Рассмотрим n объектов (например, студенты, курсы и т.п.), 
представленных m атрибутами каждый (например, рост, 
вест и т.п.): x1=(x11, x12, … x1m), x2=(x21, x22, … x2m), … 
• Матрица данных (структура объект-атрибут) 
представляет все n объектов и их m атрибутов в форме 
матрицы n x m: 
x11 … x1m 
! " ! 
xn1 # xnm 
⎛ 
⎜⎜⎜ 
⎝ 
⎞ 
⎟⎟⎟ 
⎠
• Матрица расстояний (матрица отличий, dissimilarity 
matrix) представляет собой структуру объект-объект, 
отображающую в матричной форме отличия (расстояния) 
между объектами: 0 
d(2,1) 0 
d(3,1) d(3,2) 0 
! ! ! 0 
d(n,1) d(n,2) " " 0 
⎛ 
⎜⎜⎜⎜⎜ 
⎝ 
⎞ 
⎟⎟⎟⎟⎟ 
⎠ 
где d(i,j) - функция отличия (расстояние) объекта i от объекта j: 
• чем больше d(i,j) тем больше объекты удалены (отличаются) 
• d(i,j) = d(j,i) 
• d(i,i) = 0 
функция подобия sim(i,j) объекта i от объекта j может быть 
определена как 
sim(i,j) = 1 - d(i,j)
ИЗМЕРЕНИЕ ОТЛИЧИЙ 
ДЛЯ НОМИНАТИВНЫХ АТРИБУТОВ 
• Функция отличия (расстояние) между двумя объектами 
i и j может быть вычислена как отношение количество 
значений m номинативного атрибута, одинаковых у 
обоих объектов, к общему количеству значений p: 
d(i, j) = p − m 
p 
• Пример: рассмотрим 3 объекта с одним номинативным 
атрибутом имя: x1=(Сергей) x2=(Иван), x3=(Сергей) 
d(1,2) = 1− 0 
1 
= 1, d(2,3) = 1− 0 
1 
= 1, d(1,3) = 1−1 
1 
= 0
ИЗМЕРЕНИЕ ОТЛИЧИЙ 
ДЛЯ СИММЕТРИЧНЫХ БИНАРНЫХ АТРИБУТОВ 
• Для симметричных бинарных атрибутов все значения 
одинаково важны 
• Построим таблицу сопряженности между двумя объектами 
x1 и x2 для бинарного атрибута 
xj 
1 0 Σ 
xi 1 q r q + r 
0 s t s + t 
Σ q + s r + t q + r + s + t 
• Функция отличия (расстояние) между двумя объектами i и j может 
быть вычислена как 
d(i, j) = r + s 
q + r + s + t
ИЗМЕРЕНИЕ ОТЛИЧИЙ 
ДЛЯ АСИММЕТРИЧНЫХ БИНАРНЫХ АТРИБУТОВ 
• Для симметричных бинарных атрибутов все значение 1 
рассматривается как более важное 
• Функция отличия (расстояние) между двумя объектами i и 
j может быть вычислена как 
d(i, j) = r + s 
q + r + s 
• Функция подобия в данном случае называется 
коэффициентом Жаккара и равна 
sim(i, j) = 1− d(i, j) = q 
q + r + s
ПРИМЕР: ПОДОБИЕ БИНАРНЫХ АТРИБУТОВ 
• Рассмотрим данные журнала пациентов больницы 
Пол Жар Кашель Насморк 
Сергей (x1) М Да Нет Нет 
Иван (x2) М Да Да Нет 
Ольга (x3) Ж Да Да Да 
• Атрибут пол является симметричным, а жар, кашель и 
насморк - асиметричными бинарными атрибутами 
• Вычислим отличия только на основе симптомов 
болезни - асимметричных атрибутов: 
d(x1, x2 ) = 0 +1 
4 
= 0.25, d(x1, x3 ) = 0 + 2 
6 
= 0.33, d(x2 , x3 ) = 0 +1 
6 
= 0.166 
Симптомы Ольги и Ивана наиболее похожи, в то время как для Ольги и 
Сергея они наиболее отличаются
ИЗМЕРЕНИЕ ОТЛИЧИЙ 
ДЛЯ ЧИСЛЕННЫХ АТРИБУТОВ 
• Для численных атрибутов в качестве меры отличия 
применяются метрики расстояний: евклидова, 
манхэттенская, метрики Минковского, Чебышёва и др. 
• Функция расстояния d(i,j) будет называться 
метрикой, если 
• d(i,j) ≥ 0 
• d(i,i) = 0 
• d(i,j) = d(j,i) 
• d(i,j) ≤ d(i,k) + d(k,j) для любого k
• Евклидова метрика - геометрическое расстояние 
между двумя объектами i и j в многомерном 
пространстве, вычисляемое по теореме Пифагора: 
d(i, j) = (xi1 − xj1)2 + (xi2 − xj 2 )2 +…+ (xim − xjm )2 
• Манхэттенская метрика - расстояние между двумя 
объектами i и j в многомерном пространстве, 
вычисляемое как сумма модулей разностей их 
координат: 
d(i, j) = xi1 − xj1 + xi2 − xj 2 +…+ xim − xjm
• метрика Минковского (Lp-норма) - обобщение 
расстояния между двумя объектами i и j введенное 
Евклидовой и манхэттенской метриками: 
• метрика Чебышёва (L∞-норма) - обобщение 
расстояния между двумя объектами i и j 
введенное метрикой Минковского при 
d(i, j) = lim 
p→∞ 
xik − xjk 
p 
mΣ 
k=1 
⎛ 
⎝ ⎜ 
⎞ 
⎠ ⎟ 
1 
p 
m 
= max 
k 
xik − xjk 
d(i, j) = xi1 − xj1 
p + xi2 − xj 2 
p +…+ xim − xjm 
p 
p , p ≥1, p ∈! 
m→∞
ПРИМЕР: ПОДОБИЕ ЧИСЛЕННЫХ АТРИБУТОВ 
• Рассмотрим 2 объекта, заданные векторами со 
значениями некоторых численных атрибутов: 
x = (5,0,3,0,2,0,0,2,0,0) 
y = (3,0,2,0,1,1,0,1,0,1) 
Вычислим расстояния между данными объектами 
• Евклидова метрика 
d(x, y) = (5 − 3)2 + 02 + (3− 2)2 + 02 + (2 −1)2 + (0 −1)2 + 02 + (2 −1)2 + 02 + 02 ≈ 2.84 
• Манхэттенская метрика 
d(x, y) = 5 − 3 + 0 + 3− 2 + 0 + 2 −1 + 0 −1 + 0 + 2 −1 + 0 + 0 = 6 
• L∞-норма 
d(x, y) = max 5 − 3 ,0, 3− 2 ( ,0, 2 −1 , 0 −1 ,0, 2 −1 ,0,0) = 2
ИЗМЕРЕНИЕ ОТЛИЧИЙ 
ДЛЯ ПОРЯДКОВЫХ АТРИБУТОВ 
• Пусть порядковый атрибут может принимать M различных 
значений, которые могут быть упорядочены как 
• Заменяем каждое из значений порядкового атрибута на 
соответствующее значение 
• Т.к. каждый атрибут имеет различное число принимаемых 
значений, то для сравнения между собой таких атрибутов 
необходимо нормализовать значения на интервал [0,1]: 
! 
r ∈{1,2,…M} 
z = r −1 
M −1 
{1,2,…M} 
• После нормализации для порядковых атрибутов можно 
применять любую из функций расстояния, введенных ранее 
для численных атрибутов
ИЗМЕРЕНИЕ ОТЛИЧИЙ 
ДЛЯ АТРИБУТОВ СМЕШАННЫХ ТИПОВ 
• Как правило, для реальных объектов атрибутами 
одновременно выступают данные различных типов 
• Функцию расстояния для смешанных атрибутов можно 
вычислить по формуле: 
d(i, j) = 
δij 
k ⋅dij 
k 
mΣ 
k=1 
δij 
k 
mΣ 
k=1 
где dk - значение функции расстояния для атрибута k в 
ij 
зависимости от его типа (нормализованые на [0,1]) 
δij 
k = 
0, 
0, 
1, 
⎧ 
или отсутствуют 
иначе 
⎨ ⎪ 
⎩ ⎪ xik xjk 
xik = xjk = 0 для бинарного асимметрического атрибута
КОСИНУСНОЕ ПОДОБИЕ 
• Широко применяется для вычисления подобия между 
двумя текстовыми документами 
• Каждый документ представляется как частотный 
вектор термов. 
• В качестве термов могут быть выбраны, например, слова. 
Тогда документ можно представить в виде вектора, где 
на i-й позиции стоит частота слова wi в документе. 
• Такие вектора будут разреженными (т.к. число слов в 
документе намного меньше числа всех рассматриваемых 
слов), поэтому уже введенные функции расстояния могут 
быть не эффективны
• Рассмотрим два документа, заданных векторами термов: 
x = x1, x2 ,…, xm ( ), y = y1, y2 ,…, ym ( ) 
• Косинусное подобие (косинусный коэффициент, 
коэффициент Охаи) вычисляется по формуле: 
sim(x, y) = (x, y) 
x ⋅ y 
, sim(x, y)∈[0,1] 
mΣ 
x = xk 
2 
k=1 
mΣ 
, y = yk 
2 
k=1 
mΣ 
, (x, y) = x i ⋅yi 
k=1 
• Если рассматривается бинарный атрибут (например, вместо 
частоты слова берется 1 если слово встречается в документе 
хотя бы 1 раз, и 0 - иначе), то косинусное подобие равно 
функции расстояния Танимото: 
sim(x, y) = (x, y) 
(x, x)+ (y, y)− (x, y)
ПРИМЕР: КОСИНУСНОЕ ПОДОБИЕ 
• Рассмотрим два документа, представленные частотными векторами 
термов: 
x = (5,0,3,0,2,0,0,2,0,0) 
y = (3,0,2,0,1,1,0,1,0,1) 
• Вычислим косинусное подобие: 
(x, y) = 5 ⋅ 3+ 0 + 3⋅2 + 0 + 2 ⋅1+ 0 + 0 + 2 ⋅1+ 0 + 0 = 25 
x = 52 + 02 + 32 + 02 + 22 + 02 + 02 + 22 + 02 + 02 ≈ 6.48 
y = 32 + 02 + 22 + 02 +12 +12 + 02 +12 + 02 +12 ≈ 4.12 
sim(x, y) = 25 
6.48 ⋅ 4.12 
≈ 0.94 
Таким образом, рассматриваемые 2 документа очень близки с 
точки зрения косинусного расстояния.

Más contenido relacionado

La actualidad más candente

Алгоритмы и структуры данных весна 2014 лекция 2
Алгоритмы и структуры данных весна 2014 лекция 2Алгоритмы и структуры данных весна 2014 лекция 2
Алгоритмы и структуры данных весна 2014 лекция 2
Technopark
 
Алгоритмы и структуры данных осень 2013 лекция 2
Алгоритмы и структуры данных осень 2013 лекция 2Алгоритмы и структуры данных осень 2013 лекция 2
Алгоритмы и структуры данных осень 2013 лекция 2
Technopark
 
Лекция 2: Абстрактные типы данных. Алгоритмы сортировки
Лекция 2: Абстрактные типы данных. Алгоритмы сортировкиЛекция 2: Абстрактные типы данных. Алгоритмы сортировки
Лекция 2: Абстрактные типы данных. Алгоритмы сортировки
Mikhail Kurnosov
 

La actualidad más candente (20)

Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов"
 
Алгоритмы сортировки
Алгоритмы сортировкиАлгоритмы сортировки
Алгоритмы сортировки
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана"
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes"
 
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
 
Алгоритмы и структуры данных весна 2014 лекция 2
Алгоритмы и структуры данных весна 2014 лекция 2Алгоритмы и структуры данных весна 2014 лекция 2
Алгоритмы и структуры данных весна 2014 лекция 2
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
 
Алгоритмы и структуры данных осень 2013 лекция 2
Алгоритмы и структуры данных осень 2013 лекция 2Алгоритмы и структуры данных осень 2013 лекция 2
Алгоритмы и структуры данных осень 2013 лекция 2
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining"
 
Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"
 
Основы языка R
Основы языка RОсновы языка R
Основы языка R
 
L6: Метод опорных векторов
L6: Метод опорных векторовL6: Метод опорных векторов
L6: Метод опорных векторов
 
Алгоритмы поиска
Алгоритмы поискаАлгоритмы поиска
Алгоритмы поиска
 
Лекция 2. Алгоритмы сортировки
Лекция 2. Алгоритмы сортировкиЛекция 2. Алгоритмы сортировки
Лекция 2. Алгоритмы сортировки
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
 
Разведочный анализ данных: создание графиков в системе R
Разведочный анализ данных: создание графиков в системе RРазведочный анализ данных: создание графиков в системе R
Разведочный анализ данных: создание графиков в системе R
 
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"
 
L2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокL2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибок
 
Лекция 1. Анализ эффективности алгоритмов
Лекция 1. Анализ эффективности алгоритмовЛекция 1. Анализ эффективности алгоритмов
Лекция 1. Анализ эффективности алгоритмов
 
Лекция 2: Абстрактные типы данных. Алгоритмы сортировки
Лекция 2: Абстрактные типы данных. Алгоритмы сортировкиЛекция 2: Абстрактные типы данных. Алгоритмы сортировки
Лекция 2: Абстрактные типы данных. Алгоритмы сортировки
 

Destacado

Google Analytics ユニークユーザーの期間別集計の差違
Google Analytics ユニークユーザーの期間別集計の差違Google Analytics ユニークユーザーの期間別集計の差違
Google Analytics ユニークユーザーの期間別集計の差違
Masashi Imahashi
 
แด่คุณครู..
แด่คุณครู..แด่คุณครู..
แด่คุณครู..
Chakgrit Podapol
 
РОБОТ - КОНСУЛЬТАНТ
РОБОТ - КОНСУЛЬТАНТРОБОТ - КОНСУЛЬТАНТ
РОБОТ - КОНСУЛЬТАНТ
kulibin
 

Destacado (20)

Google Analytics ユニークユーザーの期間別集計の差違
Google Analytics ユニークユーザーの期間別集計の差違Google Analytics ユニークユーザーの期間別集計の差違
Google Analytics ユニークユーザーの期間別集計の差違
 
テストです。すいません・・・。
テストです。すいません・・・。テストです。すいません・・・。
テストです。すいません・・・。
 
スタディツアー事業化計画~新しい福利厚生の形~
スタディツアー事業化計画~新しい福利厚生の形~
スタディツアー事業化計画~新しい福利厚生の形~
スタディツアー事業化計画~新しい福利厚生の形~
 
黏性传播(高级定制版)
黏性传播(高级定制版)黏性传播(高级定制版)
黏性传播(高级定制版)
 
Estado de minas 20 de julho de 2011 - capa chico lobo
Estado de minas   20 de julho de 2011 - capa chico loboEstado de minas   20 de julho de 2011 - capa chico lobo
Estado de minas 20 de julho de 2011 - capa chico lobo
 
Elementos arquitectonicos en una obra
Elementos arquitectonicos en una obraElementos arquitectonicos en una obra
Elementos arquitectonicos en una obra
 
International Volunteerism
International VolunteerismInternational Volunteerism
International Volunteerism
 
แด่คุณครู..
แด่คุณครู..แด่คุณครู..
แด่คุณครู..
 
Faby actividad 12
Faby actividad 12Faby actividad 12
Faby actividad 12
 
Copyright..or copy wrong!?
Copyright..or copy wrong!?Copyright..or copy wrong!?
Copyright..or copy wrong!?
 
CP Resume 2016
CP Resume 2016CP Resume 2016
CP Resume 2016
 
페이스북 매거진
페이스북 매거진페이스북 매거진
페이스북 매거진
 
感人的漫畫
感人的漫畫感人的漫畫
感人的漫畫
 
User experience design and the Semantic Web
User experience design and the Semantic WebUser experience design and the Semantic Web
User experience design and the Semantic Web
 
JULIAN STEVEN MAZUERA CICLO 6 A
JULIAN STEVEN MAZUERA  CICLO 6 AJULIAN STEVEN MAZUERA  CICLO 6 A
JULIAN STEVEN MAZUERA CICLO 6 A
 
How to Conduct a Brand Audit 080715
How to Conduct a Brand Audit   080715How to Conduct a Brand Audit   080715
How to Conduct a Brand Audit 080715
 
優力鈣
優力鈣優力鈣
優力鈣
 
ملوك العراق
ملوك العراقملوك العراق
ملوك العراق
 
Colaboración recíproca
Colaboración recíprocaColaboración recíproca
Colaboración recíproca
 
РОБОТ - КОНСУЛЬТАНТ
РОБОТ - КОНСУЛЬТАНТРОБОТ - КОНСУЛЬТАНТ
РОБОТ - КОНСУЛЬТАНТ
 

Similar a Data Mining - lecture 4 - 2014

CV2011-2. Lecture 12. Face models.
CV2011-2. Lecture 12.  Face models.CV2011-2. Lecture 12.  Face models.
CV2011-2. Lecture 12. Face models.
Anton Konushin
 
20100919 computer vision_konushin_lecture02
20100919 computer vision_konushin_lecture0220100919 computer vision_konushin_lecture02
20100919 computer vision_konushin_lecture02
Computer Science Club
 
распознавание автомобильного номера в условиях зашумлённости»
распознавание автомобильного номера в условиях зашумлённости»распознавание автомобильного номера в условиях зашумлённости»
распознавание автомобильного номера в условиях зашумлённости»
seik0ixtem
 
20100919 computer vision_konushin_lecture03
20100919 computer vision_konushin_lecture0320100919 computer vision_konushin_lecture03
20100919 computer vision_konushin_lecture03
Computer Science Club
 
20120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture0420120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture04
Computer Science Club
 
CV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic videoCV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic video
Anton Konushin
 
Анализ данных. Лекция 2
Анализ данных. Лекция 2Анализ данных. Лекция 2
Анализ данных. Лекция 2
Sergey Khlebnikov
 

Similar a Data Mining - lecture 4 - 2014 (20)

Lsa fca spb
Lsa fca spbLsa fca spb
Lsa fca spb
 
ОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, спискиОПК № 5 – Составные типы данных, списки
ОПК № 5 – Составные типы данных, списки
 
CV2011-2. Lecture 12. Face models.
CV2011-2. Lecture 12.  Face models.CV2011-2. Lecture 12.  Face models.
CV2011-2. Lecture 12. Face models.
 
20100919 computer vision_konushin_lecture02
20100919 computer vision_konushin_lecture0220100919 computer vision_konushin_lecture02
20100919 computer vision_konushin_lecture02
 
Советский суперкомпьютер К-340А и секретные вычисления
Советский суперкомпьютер К-340А и секретные вычисленияСоветский суперкомпьютер К-340А и секретные вычисления
Советский суперкомпьютер К-340А и секретные вычисления
 
Алгебраические типы данных
Алгебраические типы данныхАлгебраические типы данных
Алгебраические типы данных
 
Сегментация изображений в компьютерной графике.ppt
Сегментация  изображений в компьютерной графике.pptСегментация  изображений в компьютерной графике.ppt
Сегментация изображений в компьютерной графике.ppt
 
распознавание автомобильного номера в условиях зашумлённости»
распознавание автомобильного номера в условиях зашумлённости»распознавание автомобильного номера в условиях зашумлённости»
распознавание автомобильного номера в условиях зашумлённости»
 
Лекции по дискретной математике
Лекции по дискретной математикеЛекции по дискретной математике
Лекции по дискретной математике
 
Основы MATLAB. Численные методы
Основы MATLAB. Численные методыОсновы MATLAB. Численные методы
Основы MATLAB. Численные методы
 
Введение в Learning To Rank
Введение в Learning To RankВведение в Learning To Rank
Введение в Learning To Rank
 
Soboland Sat
Soboland SatSoboland Sat
Soboland Sat
 
M
MM
M
 
20100919 computer vision_konushin_lecture03
20100919 computer vision_konushin_lecture0320100919 computer vision_konushin_lecture03
20100919 computer vision_konushin_lecture03
 
20120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture0420120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture04
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
CV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic videoCV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic video
 
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
 
Анализ данных. Лекция 2
Анализ данных. Лекция 2Анализ данных. Лекция 2
Анализ данных. Лекция 2
 

Más de Andrii Gakhov

Más de Andrii Gakhov (20)

Let's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureLet's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architecture
 
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
 
Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...
 
DNS Delegation
DNS DelegationDNS Delegation
DNS Delegation
 
Implementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaImplementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and Lua
 
Pecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsPecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food Traditions
 
Probabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. SimilarityProbabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. Similarity
 
Probabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. FrequencyProbabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. Frequency
 
Probabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityProbabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. Cardinality
 
Вероятностные структуры данных
Вероятностные структуры данныхВероятностные структуры данных
Вероятностные структуры данных
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: Theory
 
Apache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksApache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected Talks
 
Swagger / Quick Start Guide
Swagger / Quick Start GuideSwagger / Quick Start Guide
Swagger / Quick Start Guide
 
API Days Berlin highlights
API Days Berlin highlightsAPI Days Berlin highlights
API Days Berlin highlights
 
ELK - What's new and showcases
ELK - What's new and showcasesELK - What's new and showcases
ELK - What's new and showcases
 
Apache Spark Overview @ ferret
Apache Spark Overview @ ferretApache Spark Overview @ ferret
Apache Spark Overview @ ferret
 
Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014Data Mining - lecture 5 - 2014
Data Mining - lecture 5 - 2014
 
Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)
 
Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014Data Mining - lecture 2 - 2014
Data Mining - lecture 2 - 2014
 
Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014
 

Data Mining - lecture 4 - 2014

  • 1. Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год
  • 2. ЛЕКЦИЯ 3 Узнаем больше о своих данных. Часть 2
  • 4. ПИКСЕЛЬНАЯ ВИЗУАЛИЗАЦИЯ • Простейший способ визуализации значений атрибута - использовать пикселы (pixels), где цвет пиксела отображает значение атрибута • Для данных с m атрибутами пиксельная визуализация позволяет построить m пиксельных диаграмм (одна на атрибут) • При использовании пиксельной визуализация данные могут быть отсортированы по одному из атриутов
  • 5. ПРИМЕР: ПИКСЕЛЬНАЯ ВИЗУАЛИЗАЦИЯ • Пусть объект покупатель имеет 3 атрибута: зарплата, количество покупок и возраст • Рассмотрим следующую пиксельную визуализацию, условно отсортированную по возрастанию атрибута зарплата. зарплата количество покупок возраст • На диаграммах можно увидеть, что наибольшее число покупок совершают люди со средней (ближе к маленькой) заплатой, а также, что возраст не влияет на зарплату
  • 6. МАТРИЦА ДИАГРАМ РАССЕИВАНИЯ • Расширяет возможности диаграммы рассеивания для многомерных наборов данных (много атрибутов) • Эффективна для небольших размерностей ! • Показывает зависимости атрибутов между собой (например, долг растет, когда зарплата уменьшается) Заплата Возраст Пеня Долг
  • 7. ЛИЦА ЧЕРНОВА • Лица Чернова (Chernoff faces) - визуализация многомерных данных в виде человеческого лица, его отдельных частей. • Основана на факте, что люди легко распознают лица и без затруднения воспринимают небольшие изменения в них. • Для каждого наблюдения рисуется отдельное «лицо», где относительные значения выбранных атрибутов представлены как формы и размеры отдельных черт лица (например, длина носа, угол между бровями, ширина лица). • Таким образом, наблюдатель может идентифицировать уникальные для каждой конфигурации значений наглядные характеристики объектов.
  • 8. • Для каждого “лица” может использоваться до 18 параметров: размер глаза, размер зрачка, позиция зрачка, нос, размер рта, изгиб рта и т.п. • В 1981 году Бернард Флури и Ганс Ридвил улучшили концепцию добавив Лицам Чернова асимметрию и увеличив количество переменных до 36.
  • 9. ДРУГИЕ ПОПУЛЯРНЫЕ МЕТОДЫ ВИЗУАЛИЗАЦИИ • Параллельные координаты • Визуализация проекций • Иерархическая визуализация • Облако тегов • Stick figures • Hyperbox
  • 10. ИЗМЕРЕНИЕ ПОДОБИЯ И РАЗЛИЧИЯ ДАННЫХ
  • 11. • Для многих приложений анализа данных важно уметь различать объекты данных, а также иметь критерий, показывающий насколько два объекта подобны или отличаются между собой • Кластер - это коллекция объектов данных, которые подобны между собой и отличны от объектов других кластеров
  • 12. МАТРИЦА ДАННЫХ И МАТРИЦА ОТЛИЧИЙ • Рассмотрим n объектов (например, студенты, курсы и т.п.), представленных m атрибутами каждый (например, рост, вест и т.п.): x1=(x11, x12, … x1m), x2=(x21, x22, … x2m), … • Матрица данных (структура объект-атрибут) представляет все n объектов и их m атрибутов в форме матрицы n x m: x11 … x1m ! " ! xn1 # xnm ⎛ ⎜⎜⎜ ⎝ ⎞ ⎟⎟⎟ ⎠
  • 13. • Матрица расстояний (матрица отличий, dissimilarity matrix) представляет собой структуру объект-объект, отображающую в матричной форме отличия (расстояния) между объектами: 0 d(2,1) 0 d(3,1) d(3,2) 0 ! ! ! 0 d(n,1) d(n,2) " " 0 ⎛ ⎜⎜⎜⎜⎜ ⎝ ⎞ ⎟⎟⎟⎟⎟ ⎠ где d(i,j) - функция отличия (расстояние) объекта i от объекта j: • чем больше d(i,j) тем больше объекты удалены (отличаются) • d(i,j) = d(j,i) • d(i,i) = 0 функция подобия sim(i,j) объекта i от объекта j может быть определена как sim(i,j) = 1 - d(i,j)
  • 14. ИЗМЕРЕНИЕ ОТЛИЧИЙ ДЛЯ НОМИНАТИВНЫХ АТРИБУТОВ • Функция отличия (расстояние) между двумя объектами i и j может быть вычислена как отношение количество значений m номинативного атрибута, одинаковых у обоих объектов, к общему количеству значений p: d(i, j) = p − m p • Пример: рассмотрим 3 объекта с одним номинативным атрибутом имя: x1=(Сергей) x2=(Иван), x3=(Сергей) d(1,2) = 1− 0 1 = 1, d(2,3) = 1− 0 1 = 1, d(1,3) = 1−1 1 = 0
  • 15. ИЗМЕРЕНИЕ ОТЛИЧИЙ ДЛЯ СИММЕТРИЧНЫХ БИНАРНЫХ АТРИБУТОВ • Для симметричных бинарных атрибутов все значения одинаково важны • Построим таблицу сопряженности между двумя объектами x1 и x2 для бинарного атрибута xj 1 0 Σ xi 1 q r q + r 0 s t s + t Σ q + s r + t q + r + s + t • Функция отличия (расстояние) между двумя объектами i и j может быть вычислена как d(i, j) = r + s q + r + s + t
  • 16. ИЗМЕРЕНИЕ ОТЛИЧИЙ ДЛЯ АСИММЕТРИЧНЫХ БИНАРНЫХ АТРИБУТОВ • Для симметричных бинарных атрибутов все значение 1 рассматривается как более важное • Функция отличия (расстояние) между двумя объектами i и j может быть вычислена как d(i, j) = r + s q + r + s • Функция подобия в данном случае называется коэффициентом Жаккара и равна sim(i, j) = 1− d(i, j) = q q + r + s
  • 17. ПРИМЕР: ПОДОБИЕ БИНАРНЫХ АТРИБУТОВ • Рассмотрим данные журнала пациентов больницы Пол Жар Кашель Насморк Сергей (x1) М Да Нет Нет Иван (x2) М Да Да Нет Ольга (x3) Ж Да Да Да • Атрибут пол является симметричным, а жар, кашель и насморк - асиметричными бинарными атрибутами • Вычислим отличия только на основе симптомов болезни - асимметричных атрибутов: d(x1, x2 ) = 0 +1 4 = 0.25, d(x1, x3 ) = 0 + 2 6 = 0.33, d(x2 , x3 ) = 0 +1 6 = 0.166 Симптомы Ольги и Ивана наиболее похожи, в то время как для Ольги и Сергея они наиболее отличаются
  • 18. ИЗМЕРЕНИЕ ОТЛИЧИЙ ДЛЯ ЧИСЛЕННЫХ АТРИБУТОВ • Для численных атрибутов в качестве меры отличия применяются метрики расстояний: евклидова, манхэттенская, метрики Минковского, Чебышёва и др. • Функция расстояния d(i,j) будет называться метрикой, если • d(i,j) ≥ 0 • d(i,i) = 0 • d(i,j) = d(j,i) • d(i,j) ≤ d(i,k) + d(k,j) для любого k
  • 19. • Евклидова метрика - геометрическое расстояние между двумя объектами i и j в многомерном пространстве, вычисляемое по теореме Пифагора: d(i, j) = (xi1 − xj1)2 + (xi2 − xj 2 )2 +…+ (xim − xjm )2 • Манхэттенская метрика - расстояние между двумя объектами i и j в многомерном пространстве, вычисляемое как сумма модулей разностей их координат: d(i, j) = xi1 − xj1 + xi2 − xj 2 +…+ xim − xjm
  • 20. • метрика Минковского (Lp-норма) - обобщение расстояния между двумя объектами i и j введенное Евклидовой и манхэттенской метриками: • метрика Чебышёва (L∞-норма) - обобщение расстояния между двумя объектами i и j введенное метрикой Минковского при d(i, j) = lim p→∞ xik − xjk p mΣ k=1 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 1 p m = max k xik − xjk d(i, j) = xi1 − xj1 p + xi2 − xj 2 p +…+ xim − xjm p p , p ≥1, p ∈! m→∞
  • 21. ПРИМЕР: ПОДОБИЕ ЧИСЛЕННЫХ АТРИБУТОВ • Рассмотрим 2 объекта, заданные векторами со значениями некоторых численных атрибутов: x = (5,0,3,0,2,0,0,2,0,0) y = (3,0,2,0,1,1,0,1,0,1) Вычислим расстояния между данными объектами • Евклидова метрика d(x, y) = (5 − 3)2 + 02 + (3− 2)2 + 02 + (2 −1)2 + (0 −1)2 + 02 + (2 −1)2 + 02 + 02 ≈ 2.84 • Манхэттенская метрика d(x, y) = 5 − 3 + 0 + 3− 2 + 0 + 2 −1 + 0 −1 + 0 + 2 −1 + 0 + 0 = 6 • L∞-норма d(x, y) = max 5 − 3 ,0, 3− 2 ( ,0, 2 −1 , 0 −1 ,0, 2 −1 ,0,0) = 2
  • 22. ИЗМЕРЕНИЕ ОТЛИЧИЙ ДЛЯ ПОРЯДКОВЫХ АТРИБУТОВ • Пусть порядковый атрибут может принимать M различных значений, которые могут быть упорядочены как • Заменяем каждое из значений порядкового атрибута на соответствующее значение • Т.к. каждый атрибут имеет различное число принимаемых значений, то для сравнения между собой таких атрибутов необходимо нормализовать значения на интервал [0,1]: ! r ∈{1,2,…M} z = r −1 M −1 {1,2,…M} • После нормализации для порядковых атрибутов можно применять любую из функций расстояния, введенных ранее для численных атрибутов
  • 23. ИЗМЕРЕНИЕ ОТЛИЧИЙ ДЛЯ АТРИБУТОВ СМЕШАННЫХ ТИПОВ • Как правило, для реальных объектов атрибутами одновременно выступают данные различных типов • Функцию расстояния для смешанных атрибутов можно вычислить по формуле: d(i, j) = δij k ⋅dij k mΣ k=1 δij k mΣ k=1 где dk - значение функции расстояния для атрибута k в ij зависимости от его типа (нормализованые на [0,1]) δij k = 0, 0, 1, ⎧ или отсутствуют иначе ⎨ ⎪ ⎩ ⎪ xik xjk xik = xjk = 0 для бинарного асимметрического атрибута
  • 24. КОСИНУСНОЕ ПОДОБИЕ • Широко применяется для вычисления подобия между двумя текстовыми документами • Каждый документ представляется как частотный вектор термов. • В качестве термов могут быть выбраны, например, слова. Тогда документ можно представить в виде вектора, где на i-й позиции стоит частота слова wi в документе. • Такие вектора будут разреженными (т.к. число слов в документе намного меньше числа всех рассматриваемых слов), поэтому уже введенные функции расстояния могут быть не эффективны
  • 25. • Рассмотрим два документа, заданных векторами термов: x = x1, x2 ,…, xm ( ), y = y1, y2 ,…, ym ( ) • Косинусное подобие (косинусный коэффициент, коэффициент Охаи) вычисляется по формуле: sim(x, y) = (x, y) x ⋅ y , sim(x, y)∈[0,1] mΣ x = xk 2 k=1 mΣ , y = yk 2 k=1 mΣ , (x, y) = x i ⋅yi k=1 • Если рассматривается бинарный атрибут (например, вместо частоты слова берется 1 если слово встречается в документе хотя бы 1 раз, и 0 - иначе), то косинусное подобие равно функции расстояния Танимото: sim(x, y) = (x, y) (x, x)+ (y, y)− (x, y)
  • 26. ПРИМЕР: КОСИНУСНОЕ ПОДОБИЕ • Рассмотрим два документа, представленные частотными векторами термов: x = (5,0,3,0,2,0,0,2,0,0) y = (3,0,2,0,1,1,0,1,0,1) • Вычислим косинусное подобие: (x, y) = 5 ⋅ 3+ 0 + 3⋅2 + 0 + 2 ⋅1+ 0 + 0 + 2 ⋅1+ 0 + 0 = 25 x = 52 + 02 + 32 + 02 + 22 + 02 + 02 + 22 + 02 + 02 ≈ 6.48 y = 32 + 02 + 22 + 02 +12 +12 + 02 +12 + 02 +12 ≈ 4.12 sim(x, y) = 25 6.48 ⋅ 4.12 ≈ 0.94 Таким образом, рассматриваемые 2 документа очень близки с точки зрения косинусного расстояния.