Minería de Datos
Juan C. Garcia-Ojeda, PhD(c), MSc., Ing.
jcgarciao@gmail.com
Minería de Datos
“Knowledge is Power” Francis Bacon
http://upload.wikimedia.org/wikipedia/commons/a/a7/Pourbus_Francis_Bac...
Descubirmiento del Conocimiento y
Minería de Datos
 TEMARIO
 Fundamentos
 Representación del Conocimiento
 Clasificaci...
Fundamentos
 ¿Porqué son necesarios KDD y DM?
 ¿Qué es el descubrimiento del conocimiento en
bases de datos (KDD)?
 ¿Qu...
Motivación
 Información: Conjunto de patrones o
modelos especificados como reglas de
clasificación o asociación, entre ot...
Motivación
 Creciente Volúmen de Datos
 Bases de Datos
 Almacenes de Datos (Datawerehouse)
 Archivos
 ¿Capacidad de a...
Motivación
 Riqueza de datos recolectados, almacenados y a
los que se ha dado un mantenimiento.
 Incapacidad para descub...
Motivación
 Los grandes volúmenes de datos han rebasado
la capacidad de analizarlos usando las técnicas
tradicionales de ...
Descubrimiento del conocimiento en
Bases de Datos (KDD)
 KDD es el proceso de preparación de los datos,
extracción de pat...
Minería de Datos
 La minería de datos es el proceso de extraer
información válida, novedosa, comprensible y
potencialment...
Minería de Datos
 Es el proceso de extraer información válida,
novedosa, comprensible y potencialmente útil.
 Informació...
Minería de Datos
 Validez : Nivel de certidumbre de la
información.
 Al ser menos formal puede haber más mentiras.
 “Cu...
Minería de Datos
 Novedosa : La información obtenida era
desconocida
 Evaluada por el ser humano
 Verdades universales
...
Minería de Datos
 Comprensible : La información obtenida debe ser
legible al usuario.
 “Los atributos: genero y tipo de ...
Minería de Datos
 Caso 1: Salud Pública
 Información:
 Válida:
 Novedosa:
 Comprensible:
 Útil:
Minería de Datos
 Es la búsqueda de relaciones y patrones globales
escondidos en los datos que existen en BD
grandes.
 L...
Multidisciplinario
 Bases de Datos
 Inteligencia Artificial
 Algoritmos
 Computación del alto rendimiento
 Estadístic...
Aplicaciones
 Comercio
 Salud
 Astronomía
 Sistemas de Información Geográfica
 Detección de Fraudes
 Servicios Banca...
Ética
 Uso de los datos
 Responsabilidad
 Aplicado a Gente
 (Blanca – Negra)
 Discriminación
 Sexual
 Racial (áreas...
Deducción vs. Inducción
 Una BD es un almacén de información
confiable. Su propósito es recuperar
eficientemente la infor...
Deducción vs. Inducción
 La diferencia radica en que la deducción es el
resultado de enunciados correctos acerca del
mund...
Minería de Datos
 Los patrones están representados en términos de
una estructura que puede ser examinada,
razonada y usad...
Minería de Datos
 Toma de decisiones
 Representación
 Clasificación
 Agrupamiento
 Visualización
Minería de Datos
 Entrada: Conceptos, instancias y atributos
 Proceso: Técnica de aprendizaje (Minería)
 Salida: Repres...
Minería de Datos
 El concepto: lo que hay que aprender
 Los datos dados al aprendiz toma la forma de un
conjunto de inst...
Ambiente Temperatura Humedad Viento Golf
lluvioso templado normal No Jugar
lluvioso templado alta No Jugar
lluvioso templa...
Salida
 Descripción del concepto: lo que hay que
aprender (inteligible y operacional)
 La salida incluye una descripción...
Proceso: Estilos de
Aprendizaje
 Clasificación
 Asociación
 Agrupamiento
 Predicción Numérica
Aprendizaje Automático
 Un sistema de este tipo utiliza observaciones
codificadas, frecuentemente almacenadas en
un conju...
Minería de Datos
 Supervisado (Dirigida): La meta principal es
predecir, estimar, clasificar ó caracterizar el
comportami...
Clasificación
Clasificación
 Minería de datos dirigida: su objetivo es
clasificar ó caracterizar el comportamiento de un
atributo parti...
Árboles de Decisión
Ambiente
Soleado Nublado Lluvia
Humedad VientoClase Jugar
Alta Normal Si No
Clase Jugar Clase JugarCla...
Árboles de Decisión
 Utiliza la técnica de Divide y Conquista
 Procedimiento inductivo
 La salida es un árbol de decisi...
Árboles de Decisión
 Clasifica patrones con atributos no numéricos
 Mejorado con el uso del radio de ganancia
 Variacio...
Árboles de Decisión
 Puede expresarse recursivamente
 Seleccionar un atributo
 Colocar una rama para cada valor del atr...
Ejemplo
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Rubio Azul O
Alto Rojo Azul O
Alto Rubio Café...
Por Atributo
Ojos Clase
Azul A
Azul A
Azul O
Azul O
Azul O
Café A
Café A
Café A
Estatura Clase
Alto A
Alto O
Alto O
Alto A...
¿Cuál es el mejor atributo?
 Intuitivamente, cualquier hoja con instancias de
solo una clase no tendrá que dividirse desp...
Medida de Pureza
 Información.
 Se mide en fracciones de bit, y frecuentemente
es menor a 1.
 Se asocia a cada nodo y s...
Información
 Propiedades esperadas
 Cuando queda una sola clase, la información debe
ser cero
 Cuando el número de inst...
Entropía
 Información del Sistema
 Información del atributo
 Información de cada rama
 Ganancia del atributo
 Se busc...
Información del Sistema
 La entropía del sistema es
bit954.0)
8
3
(*log*)
8
3
()
8
5
(*log*)
8
5
( 22 
Ejemplo
 Ganancia de información al probar la
caracteristicas de Cabello
negro rojo
rubio
cabello
Estatura Cabello Ojos C...
 Entropía sistema: 0.954 bit
 • Entropía de la rama negro: 0
 • Entropía de la rama rojo: 0
 • Entropía de la rama rub...
Ejemplo
 Ganancia de información al evaluar cabello:
 Entropía (I) - Entropía (I, cabello)
= 0.954 - 0.5 = 0.454 bit
Ejemplo
 Ganancia al evaluar los ojos
azul
cafe
ojos
Estatura Cabello Ojos Clase
Alto Rubio Café A
Bajo Rubio Café A
Alto...
 Entropía sistema: 0.954 bit
 Entropía de la rama café: 0
 Entropía de la rama azul:
 Entropía de ojos respecto al sis...
Ejemplo
 Ganancia de información al evaluar ojos:
 Entropía (I) - Entropía (I, ojos)
= 0.954 – 0.607 = 0.347 bit
negro
rojo
rubio
cabello
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Negro Café A
Estatura Cabell...
Ambiente Temperatura Humedad Viento Golf
lluvioso templado normal No Jugar
lluvioso templado alta No Jugar
lluvioso frio n...
Ambiente Temperatura
Jugar
Jugar
No
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
Ju...
Humedad Viento
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
No
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
No
Jugar...
Información del Sistemas
 No se considera ningun atributo
940.0
5305.04097.0
)
14
5
(log*)
14
5
()
14
9
(log*)
14
9
(])5,...
Información
 De cada rama
 ISoleado ([2,3])=0.5287+0.4421  0.971
 INublado ([4,0])=0
 ILluvioso ([3,2]) = 0.4421 + 0....
Ganancia
 GAmbiente = IS – IAmbiente
 = 0.940 – 0.693 = 0.247
 GTemperatura = IS – ITemperatura
 =0.940 – 0.911 = 0.02...
Ambiente
soleado
……
Temperatura
No
Jugar
No
Jugar
Jugar
caliente
frio
Jugar
No
Jugar
templado
Ambiente
soleado
……
Humedad
...
Ambiente – Soleado
 ISAmbiente = 0.971
 ITemperatura = 0.4
 GTemperatura = 0.571
 IHumedad = 0
 GHumedad = 0.971
 IV...
Ambiente – Lluvioso
 ISAmbiente = 0.971
 ITemperatura = 0.95098
 GTemperatura = 0.20
 IHumedad = 0.95098
 GHumedad = ...
Ambiente
Soleado
Humedad
Jugar
normal
No
Jugar
alta
Viento
Lluvioso
Nublado
Jugar
No
Jugar
Si
Jugar
No
Arboles de Decisión
a < b
b < c a < c
a < c b < cOrder is
a < b < c
Order is
b < a < c
Order is
a < c < b
Order is
c < a <...
Atributos
 Numéricos
 Binario
 Seleccionar un punto
 Calcular la información de la misma forma
 Preprocesamiento: Ord...
Atributos
 Faltantes
 ¿es relevante?
 Ignorar instancias
 un nuevo valor del atributo
 Dividir y enviar a cada rama e...
Applet de Prueba
 Para hacer algunos experimentos y comprobar
resultados, pueden acudir a la siguiente
dirección:
 http:...
Reglas de Clasificación
Reglas de Clasificación :
Antecedente → Consecuente
 Antecedente: precondiciones, son la serie de
pruebas que se realizan...
Modelo Estadístico
 Todos los atributos contribuyen
 Los atributos se consideran:
 Iguales en importancia
 Independien...
Modelo Estadistico
 Está basado en la regla de probabilidad
condicional de Bayes
 Si se tiene una hipótesis H, y una evi...
Naïve Bayes
 Los números encontrados se convierten en
probabilidades normalizandolos de forma que
sumen 1
][
]|[]|[]|[]|[...
Ejemplo
AmbienteGolf Temperatura Golf Humedad Golf Viento Golf
lluvioso Jugar calor Jugar alta Jugar No Jugar
lluvioso Jug...
Frecuencias
Probabilidades Observadas
Probabilidad a Priori
Ambiente Temperatura Humedad Viento
Jugar No Jugar Jugar No Ju...
Ejemplo
Ambiente Temperatura Humedad Viento
Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar
Soleado 2 3 Calien...
Ejemplo
 Nuevo día
Ambiente Temperatura Humedad Viento Golf
Soleado Frio Alta Si ?
Posibilidad de Jugar = 2/9*3/9*3/9*3/9...
Ejercicio Lentes de Contacto
Lentes de Contacto
Edad Problema Astigmatismo Prod. Lágrimas Lentes
Joven Miopía No Reducida ...
Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D
Adulto 2 5 0Hipermetropia 2 7 1Si 4 6 0Normal 4 3 3
Anciano 0 ...
Soluciones
 Ej1)
 Pos B = (2/4)*(2/4)*(4/4)*(0)*(4/21) = 0
 Pos D = (2/3)*(1/3)*(0)*(0)*(3/21) = 0
 Pos N = (3/14)*(7/...
Problemas
 Valores de un atributo que no se presentan.
 La probabilidad de la clase dado que el atributo
tiene el valor ...
Problemas
 Valores Faltantes
 Nueva instancia: se omite
 Conj. Entrenamiento: no cuenta
 Atributos numéricos
 Se supo...
Atributos Numéricos
n
x
x
n
i
i
 1
1
][
1
2




n
xx
n
i
i

2
2
2
)(
2
1
)( 




x
exf
Ejemplo
Ambiente Temperatura Humedad Viento Golf
nublado 64 65Si Jugar
lluvioso 65 70Si No Jugar
lluvioso 68 80No Jugar
so...
Ambiente Temperatura Humedad Viento Golf
Jugar
No
Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar
Solead...
Ejemplo
 Posibilidad Jugar:
 (2/9)*0.034*0.0221*(3/9)*(9/14) =0.000036
 Pos No Jugar
 (3/5)*0.0279*0.038*(3/5)*(5/14) ...
Inferencia de Reglas
 Algoritmo de cobertura.
 Considerar cada clase buscando la forma de
cubrir todas las instancias en...
Método PRISM
 Para cada clase se busca construir las reglas
(agregando términos), que cubran todas las
instancias de esa ...
x
y
b
b
b
b
bb
b
b
b
b
ba
a
a
aa
b
b
b
b
b
b
b
b
b
b
ba
a
a
a
a
1.2
y 2.6
b
b
b
b
b
b
b
b
b
bb
a
a
a
a
a
1.2
x>1.2
y>2.6
b...
Método PRISM
 Para cada clase C
 Inicializar E con el conjunto de instancias
Mientras E contenga instancias de la clase ...
Método PRISM
 Considerar agregar A=v en el lado Izquierdo de
R
 Seleccionar A y v que maximicen la precisión
p/t (si exi...
Lentes de Contacto
Edad Problema Astigmatismo Prod. Lágrimas Lentes
Joven Miopía No Reducida Ninguno
Joven Miopía No Norma...
Ejemplo: Lentes
 Si ?  Duros
 Edad
 Joven 2/8 0.25
 Adulto 1/8 0.125
 Anciano 1/8 0.125
 Problema
 Miopía 3/12 0.2...
 Si (Astigmatismo = Si)  ?  Duros
 Edad
 Joven 2/4 0.5
 Adulto 1/4 0.25
 Anciano 1/4 0.25
 Problema
 Miopía 3/6 0...
 Si (Astigmatismo = Si  Producción de Lágrimas=Normal)  ?
 Duros
 Edad
 Joven 2/2 1
 Adulto 1/2 0.5
 Anciano 1/2 0...
Reglas para Lentes = Duros
 Si (Astigmatismo = Si  Producción de
Lágrimas=Normal  Problema=Miopía)  Duros
 Si (Edad =...
Reglas de Asociación
Reglas de Asociación
 Similares a las reglas de clasificación
 Pueden predecir cualquier atributo, no solo la
clase, o p...
Reglas de Asociación
 Se centra el interés en las reglas que aplican a
un número grande de instancias y que tiene una
pre...
Reglas de Asociación
 Son similares a las reglas de clasificación.
 Cualquier expresión puede ocurrir del lado derecho
d...
Reglas de Asociación
 Los 1-itemset se obtienen con la frecuencia de
 cada item.
 Los candidatos de los n-itemset se ob...
 Los candidatos de los 2-itemset se obtienen del
1-itemset: Se buscan pares de valores de
atributos diferentes.
 Valores...
Ambiente Temperatura Humedad Viento Golf
lluvioso templado normal No Jugar
lluvioso templado alta No Jugar
lluvioso frio n...
1-ITEM-SORT 2-ITEM
Nublado(4) Nublado(4) Calor(4) 1
Lluvioso(5) Nublado(4) Frio(4) 1
Soleado(5) Nublado(4) Templado(6) 2
C...
1-ITEM-SORT Soleado(5) Calor(4) 2
Nublado(4) Soleado(5) Frio(4) 1
Lluvioso(5) Soleado(5) Templado(6) 2
Soleado(5) Soleado(...
1-ITEM-SORT Templado(4) Alta(7) 4
Nublado(4) Templado(4) Normal(7) 2
Lluvioso(5) Templado(4) No(6) 3
Soleado(5) Templado(4...
Reglas de Asociación
 Candidatos de los n-itemset se obtienen del (n-
1)-itemset.
 Los candidatos de los 3-itemset se ob...
2-ITEM 3-ITEM
Nublado Calor 2Nublado Calor Alta 1
Nublado Alta 2Nublado Calor Normal 1
Nublado Normal 2Nublado Calor Norma...
4-ITEMSET
Nublado Calor No Jugar 2
Lluvioso Templado No Jugar 2
Lluvioso Normal No Jugar 2
Soleado Calor Alta No Jugar 2
S...
Itemsets Generados
 La cantidad de elementos por itemsets son:
 1-itemsets 12
 2-itemsets 47
 3-itemsets 39
 4-itemse...
Reglas de asociación
 Las reglas se obtienen a partir de los itemsets
Humedad = normal, Viento = no, Golf = jugar
 Esto ...
Reglas de Asociación cov
1humedad=normal viento=no  golf=jugar 4
2temperatura=frio  humedad=normal 4
3ambiente=nublado...
4-Itemset
 Elementos 3-ITEMSET (A,B,C), (A, B, D),
(A,C,D), (A,C,E), (B,C,D)
 Potenciales ITESMSET-4 (A, B, C, D), (A, C...
Conjunto Final de Reglas
 3 Reglas con cobertura 4
 5 Reglas con cobertura 3
 50 Reglas con cobertura 2
 Total 58 Regl...
Regla de los 3-Itemset
 (A, B, C)
1. Si A, B  C
2. Si B, C  A
3. Si A, C  B
4. Si A  B, C
5. Si B  A, C
6. Si C  A,...
Agrupamiento (Clustering)
Agrupamiento (Clustering)
 Las técnicas de agrupamiento se aplican cuando
no hay propiamente una clase que predecir sino
...
Diagramas
 En el agrupamiento, la salida es un diagrama que
muestra como las instancias forman grupos.
 Se asocia un núm...
1 2 3
a 0,4 0,1 0,5
b 0,1 0,8 0,1
c 0,3 0,3 0,4
d 0,1 0,1 0,8
e 0,4 0,1 0,5
f 0,1 0,4 0,5
g 0,7 0,2 0,1
h
…
e
c
b
d
j
h
a
...
Agrupamiento
 Los mapeos auto-organizables: forma
especializada de red neuronal.
 K-Medias (K-Means): agrupamiento itera...
Minería de Datos
 Dependiendo de la meta que se persigue en la
minería de datos, se requiere la aplicación de
una técnica...
Diferencias
 Analizar la respuesta a una oferta
 Entradas: Finanzas, Estilo de vida
 Projecto 1: producir un modelo que...
Minería de Datos
 Dirigida: La meta principal es predecir, estimar,
clasificar ó caracterizar el comportamiento de
algun ...
Agrupamiento (Clustering)
 Las técnicas de agrupamiento se aplican cuando
no hay propiamente una clase que predecir sino
...
Agrupamiento
 Se genera un diagrama que muestra cómo las
instancias forman grupos.
 En el caso más simple, se asocia un ...
Agrupamiento
 Algunos algoritmos permiten que una
 instancia pertenezca a dos grupos (clusters)
 La representación se p...
Agrupamiento
 Otros algoritmos
asocian a las
instancias con los
grupos de manera
probabilística.
 En este caso para
cada...
Agrupamiento
 Otros producen una
estructura jerárquica de
clusters.
 Los elementos unidos
en niveles inferiores
tienen u...
Agrupamiento
 Enfoques matemáticos.
 Los métodos son Divisivos y Aglomerativos
 Se define alguna medida del valor de la...
Métodos Divisivos
 Inician considerando todas las instancias como
parte de un gran grupo (cluster) .
 El cluster inicial...
Métodos Aglomerativos
 Otros métodos son llamados aglomerativos.
 Iniciar con cada instancia en un grupo (cluster).
 It...
Agrupamiento
 Los mapeos auto-organizables: forma
especializada de red neuronal.
 K-Medias (K-Means): agrupamiento itera...
Agrupamiento Iterativo Basado en
Distancia
K- Medias
 K-medias es uno de los algoritmos más
ampliamente utilizado en herr...
K-Medias
 ¿Cómo funciona?
 Divide el conjunto de datos en un número
predeterminado de clusters.
 Ese número es K, de aq...
K-Medias
 ¿Cómo funciona?
 La media es lo que los estadistas llaman
promedio.
 En este caso la media se refiere a la ub...
K-Medias
 ¿Ubicación? ¡Hablamos de Registros en una
Base de Datos!
 La respuesta viene de la geometría:
 Para formar lo...
K-Medias
 El valor de cada atributo es interpretado como
una distancia a partir del origen y a lo largo del
eje correspon...
Algoritmo
 Las instancias son asignadas a clusters a través
de un proceso iterativo que inicia con clusters
centrados en ...
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10
Punto X Y
A 1,2 1
B 1,4 2
C 2 1,1
D 2,5 1,5
E 3,6 1,7
F 0,7 3
G 1,3 6
H 1,9 7,3
I 3 6,9
J 3...
Algoritmo
 Se seleccionan K puntos al azar cómo centros de
los clusters (F, N y O).
 Las instancias se asignan al centro...
Algoritmo
 Se
seleccionan K
puntos y se
asignan las
instancias al
centro del
cluster más
cercano
0
1
2
3
4
5
6
7
8
0 2 4 ...
Límites
 Para dibujar los limites entre los clusters, basta
con recordar que si se tienen 2 puntos X y Y,
todos los punto...
Ejemplo
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7 8 9 10
Semilla 1
Semilla 2
Semilla 3
Asignación
Punto X Y DF DN DO
A 1,2 1 2,06 3,50 5,37
B 1,4 2 1,22 2,56 4,85
C 2 1,1 2,30 3,07 4,61
D 2,5 1,5 2,34 2,55 3,9...
Algoritmo
 Después se calculará el centroide, es decir, la
media de todas las instancias.
 Estos centroides serán los nu...
Ejemplo
Grupo1 Grupo2 Grupo3
Punto X Y Punto X Y Punto X Y
A 1,2 1 E 3,6 1,7 O 6,1 3,2
B 1,4 2 G 1,3 6 P 8 5,5
C 2 1,1 H 1...
Ejemplo
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10
Clustering
 Si hay más de una dimensión, la distancia
euclidiana se calcula de la misma forma:
 En el caso de la media, ...
Consecuencias
 Tipo de preguntas que se pueden
responder
 Es una técnica de aprendizaje no dirigido, por lo
que puede se...
Consecuencias
 Preparación de los datos
 Seleccionando diferentes medidas de distancias, el
clustering se puede aplicar ...
Consecuencias
 Seleccionar el número adecuado para K
 Si el número no iguala a la estructura natural de
los datos, los r...
Consecuencias
 Los mejores conjuntos de clusters, son aquellos
en los que la distancia entre los miembros:
 Del mismo cl...
Interpretación
 ¡Cuando no se sabe lo que se está buscando, no
se reconoce cuando se ha encontrado!
 Existen algunos enf...
Soporte TIC
http://www.youtube.com/watch?v=m7kpIBGEdkI
Próxima SlideShare
Cargando en…5
×

Mineríade datos

981 visualizaciones

Publicado el

Minería de Datos Diferente Métodos

Publicado en: Ingeniería
0 comentarios
2 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

Sin descargas
Visualizaciones
Visualizaciones totales
981
En SlideShare
0
De insertados
0
Número de insertados
4
Acciones
Compartido
0
Descargas
28
Comentarios
0
Recomendaciones
2
Insertados 0
No insertados

No hay notas en la diapositiva.

Mineríade datos

  1. 1. Minería de Datos Juan C. Garcia-Ojeda, PhD(c), MSc., Ing. jcgarciao@gmail.com
  2. 2. Minería de Datos “Knowledge is Power” Francis Bacon http://upload.wikimedia.org/wikipedia/commons/a/a7/Pourbus_Francis_Bacon.jpg
  3. 3. Descubirmiento del Conocimiento y Minería de Datos  TEMARIO  Fundamentos  Representación del Conocimiento  Clasificación  Asociación  Agrupamiento
  4. 4. Fundamentos  ¿Porqué son necesarios KDD y DM?  ¿Qué es el descubrimiento del conocimiento en bases de datos (KDD)?  ¿Qué es la minería de datos (DM)?  ¿Cuáles son los objetivos?  ¿Que disciplinas intervienen?
  5. 5. Motivación  Información: Conjunto de patrones o modelos especificados como reglas de clasificación o asociación, entre otros. ITESM-UNAB, Curso Minería de Datos, 2003
  6. 6. Motivación  Creciente Volúmen de Datos  Bases de Datos  Almacenes de Datos (Datawerehouse)  Archivos  ¿Capacidad de análisis? ITESM-UNAB, Curso Minería de Datos, 2003
  7. 7. Motivación  Riqueza de datos recolectados, almacenados y a los que se ha dado un mantenimiento.  Incapacidad para descubrir la información inmersa en los datos. ¿cómo?  Técnicas Estadísticas
  8. 8. Motivación  Los grandes volúmenes de datos han rebasado la capacidad de analizarlos usando las técnicas tradicionales de análisis de la información.  Extraer el conocimiento para tomar buenas decisiones (e.g., tratamiento médico, promoción y prevención) y aprovechar las oportunidades
  9. 9. Descubrimiento del conocimiento en Bases de Datos (KDD)  KDD es el proceso de preparación de los datos, extracción de patrones, y validación de los modelos o predicción; mientras que Minería de Datos e refiere únicamente a la extracción de patrones. Datos Datos Elegidos Datos Transformados Patrones Conocimiento Interpretación Minería de DatosSelección de los Datos Pre-procesamiento Transformación
  10. 10. Minería de Datos  La minería de datos es el proceso de extraer información válida, novedosa, comprensible y potencialmente útil.  El aprendizaje automático ofrece las técnicas para la Minería de datos. Datos Minería de Datos Decisión Información Conocimiento fácilmente útil Integración de los Datos
  11. 11. Minería de Datos  Es el proceso de extraer información válida, novedosa, comprensible y potencialmente útil.  Información (Niveles)  Datos: Datos en bruto  Información: Manipulación de variables  Conocimiento: Atribución a causas  Sabiduria: Saber sopesar el conocimiento
  12. 12. Minería de Datos  Validez : Nivel de certidumbre de la información.  Al ser menos formal puede haber más mentiras.  “Cuando se compran pañales se compran bebidas alcohólicas en el 50% de los casos”
  13. 13. Minería de Datos  Novedosa : La información obtenida era desconocida  Evaluada por el ser humano  Verdades universales “Si el genero del sujeto es femenino, entonces puede ser que consulte al ginecólogo” ó “Si el genero del sujeto es masculino, entonces no consulta al ginecólogo”
  14. 14. Minería de Datos  Comprensible : La información obtenida debe ser legible al usuario.  “Los atributos: genero y tipo de doctor tienen una correlación de .....”  “Si el genero del sujeto es masculino, entonces no consulta al ginecólogo”  Útil : Ayuda a tomar una decisión ó a predecir un comportamiento
  15. 15. Minería de Datos  Caso 1: Salud Pública  Información:  Válida:  Novedosa:  Comprensible:  Útil:
  16. 16. Minería de Datos  Es la búsqueda de relaciones y patrones globales escondidos en los datos que existen en BD grandes.  La relación entre los datos del paciente y su diagnóstico medico.  Estas relaciones representan conocimiento valioso acerca de la base de datos y los objetos en ella, así como de si la BD es un espejo fiel, del mundo registrado por ella.
  17. 17. Multidisciplinario  Bases de Datos  Inteligencia Artificial  Algoritmos  Computación del alto rendimiento  Estadística  Visualización  Aprendizaje automático  Minería de Datos  Reconocimiento de Patrones  Adquisición y Representación del Conocimiento
  18. 18. Aplicaciones  Comercio  Salud  Astronomía  Sistemas de Información Geográfica  Detección de Fraudes  Servicios Bancarios  Internet
  19. 19. Ética  Uso de los datos  Responsabilidad  Aplicado a Gente  (Blanca – Negra)  Discriminación  Sexual  Racial (áreas)  Religiosa  Información Personal  ¿cómo será usada?  ¿Para qué?  ¿Protección?  ¿vender, compartir?
  20. 20. Deducción vs. Inducción  Una BD es un almacén de información confiable. Su propósito es recuperar eficientemente la información almacenada en, o inferida de la BD.  Desde una perspectiva lógica, dos técnicas de inferencia pueden distinguirse:  Deducción  Inducción
  21. 21. Deducción vs. Inducción  La diferencia radica en que la deducción es el resultado de enunciados correctos acerca del mundo real (si la BD es correcta), mientras que la inducción es el resultado de los enunciados soportados en la BD (pueden no ser verdaderos en el mundo real).  Inducción: Selección de las regularidades y reglas más plausibles, soportadas por la BD.  La minería de Datos es una forma de aprendizaje inductivo
  22. 22. Minería de Datos  Los patrones están representados en términos de una estructura que puede ser examinada, razonada y usada para tomar decisiones futuras.  La minería de datos trata de encontrar y describir patrones estructurales en los datos con el fin de ayudarnos a explicarlos y hacer predicciones.
  23. 23. Minería de Datos  Toma de decisiones  Representación  Clasificación  Agrupamiento  Visualización
  24. 24. Minería de Datos  Entrada: Conceptos, instancias y atributos  Proceso: Técnica de aprendizaje (Minería)  Salida: Representación del conocimiento Aprendizaje (patrones) SalidaEntrada
  25. 25. Minería de Datos  El concepto: lo que hay que aprender  Los datos dados al aprendiz toma la forma de un conjunto de instancias.  Cada instancia se caracteriza por un conjunto de atributos (características) que miden aspectos diferentes de la instancia (numéricos, nominales y categóricos ordinales)
  26. 26. Ambiente Temperatura Humedad Viento Golf lluvioso templado normal No Jugar lluvioso templado alta No Jugar lluvioso templado alta Si No Jugar lluvioso frio normal No Jugar lluvioso frio normal Si No Jugar nublado templado alta Si Jugar nublado frio normal Si Jugar nublado calor normal No Jugar nublado templado alta No Jugar soleado templado normal Si Jugar soleado templado alta No No Jugar soleado frio normal No Jugar soleado calor alta Si No Jugar soleado calor alta No No Jugar Atributos Concepto I n s t a n c i a s
  27. 27. Salida  Descripción del concepto: lo que hay que aprender (inteligible y operacional)  La salida incluye una descripción de la estructura, como representación explícita del conocimiento adquirido y que puede usarse para clasificar ejemplos nuevos.
  28. 28. Proceso: Estilos de Aprendizaje  Clasificación  Asociación  Agrupamiento  Predicción Numérica
  29. 29. Aprendizaje Automático  Un sistema de este tipo utiliza observaciones codificadas, frecuentemente almacenadas en un conjunto llamado de entrenamiento.  En el aprendizaje supervisado, el sistema busca descripciones para las clases definidas por el usuario y en el no supervisado construye un sumario del conjunto de entrenamiento, como un conjunto de clases descubiertas y sus descripciones.
  30. 30. Minería de Datos  Supervisado (Dirigida): La meta principal es predecir, estimar, clasificar ó caracterizar el comportamiento de algún atributo, previamente identificado, en términos de un conjunto de variables de entrada.  No Supervisado (No dirigida): La meta es descubrir una estructura en el conjunto de datos
  31. 31. Clasificación
  32. 32. Clasificación  Minería de datos dirigida: su objetivo es clasificar ó caracterizar el comportamiento de un atributo particular, en términos del resto.  Árboles  Reglas
  33. 33. Árboles de Decisión Ambiente Soleado Nublado Lluvia Humedad VientoClase Jugar Alta Normal Si No Clase Jugar Clase JugarClase No JugarClase No Jugar Tecnologías: ID3,C4.5,C5, Indice GINI
  34. 34. Árboles de Decisión  Utiliza la técnica de Divide y Conquista  Procedimiento inductivo  La salida es un árbol de decisión  Desarrollada y refinada por Ross Quinlan en la Universidad de Sydney(Australia)  Conocido como ID3
  35. 35. Árboles de Decisión  Clasifica patrones con atributos no numéricos  Mejorado con el uso del radio de ganancia  Variaciones  C4.5,  C5
  36. 36. Árboles de Decisión  Puede expresarse recursivamente  Seleccionar un atributo  Colocar una rama para cada valor del atributo  Dividir las instancias en subconjuntos uno por cada valor  Repetir el proceso para cada rama utilizando el sub- conjunto apropiado  Si las instancias de una rama son de la misma clase, el proceso termina para esa rama.
  37. 37. Ejemplo Estatura Cabello Ojos Clase Alto Negro Azul A Bajo Negro Azul A Alto Rubio Azul O Alto Rojo Azul O Alto Rubio Café A Bajo Rubio Azul O Bajo Rubio Café A Alto negro Café A
  38. 38. Por Atributo Ojos Clase Azul A Azul A Azul O Azul O Azul O Café A Café A Café A Estatura Clase Alto A Alto O Alto O Alto A Alto A Bajo A Bajo O Bajo A Cabello Clase Negro A Negro A Negro A Rojo O Rubio O Rubio A Rubio O Rubio A
  39. 39. ¿Cuál es el mejor atributo?  Intuitivamente, cualquier hoja con instancias de solo una clase no tendrá que dividirse después.  Se desea que quede un árbol pequeño.  Medida de la pureza de cada nodo.  Escoger el atributo que produzca los nodos hijos mas puros.
  40. 40. Medida de Pureza  Información.  Se mide en fracciones de bit, y frecuentemente es menor a 1.  Se asocia a cada nodo y se calcula con base al número de instancias de cada clase en él.  Representa la cantidad de información esperada que sería necesaria para especificar la clase de una instancia dada.
  41. 41. Información  Propiedades esperadas  Cuando queda una sola clase, la información debe ser cero  Cuando el número de instancias de cada clase es igual, la información alcanza su máximo valor  La función que satisface estas propiedades es conocida como entropía
  42. 42. Entropía  Información del Sistema  Información del atributo  Información de cada rama  Ganancia del atributo  Se busca el atributo que provee la mayor ganancia en información. )(log),...,,( 2 1 21 ni n i n pppppEntropia  
  43. 43. Información del Sistema  La entropía del sistema es bit954.0) 8 3 (*log*) 8 3 () 8 5 (*log*) 8 5 ( 22 
  44. 44. Ejemplo  Ganancia de información al probar la caracteristicas de Cabello negro rojo rubio cabello Estatura Cabello Ojos Clase Alto Negro Azul A Bajo Negro Azul A Alto Negro Café A Estatura Cabello Ojos Clase Alto Rojo Azul O Estatura Cabello Ojos Clase Alto Rubio Azul O Alto Rubio Café A Bajo Rubio Azul O Bajo Rubio Café A
  45. 45.  Entropía sistema: 0.954 bit  • Entropía de la rama negro: 0  • Entropía de la rama rojo: 0  • Entropía de la rama rubio:  Entropía de cabello respecto al sistema: bit1) 2 1 (*log*) 2 1 () 2 1 (*log*) 2 1 ( 22  bit5.0)1(*) 8 4 ()0(*) 8 1 ()0(*) 8 3 ( 
  46. 46. Ejemplo  Ganancia de información al evaluar cabello:  Entropía (I) - Entropía (I, cabello) = 0.954 - 0.5 = 0.454 bit
  47. 47. Ejemplo  Ganancia al evaluar los ojos azul cafe ojos Estatura Cabello Ojos Clase Alto Rubio Café A Bajo Rubio Café A Alto negro Café A Estatura Cabello Ojos Clase Alto Negro Azul A Bajo Negro Azul A Alto Rubio Azul O Alto Rojo Azul O Bajo Rubio Azul O
  48. 48.  Entropía sistema: 0.954 bit  Entropía de la rama café: 0  Entropía de la rama azul:  Entropía de ojos respecto al sistema: bit971.0) 5 3 (*log*) 5 3 () 5 2 (*log*) 5 2 ( 22  bit607.0)0(*) 8 3 ()971.0(*) 8 5 ( 
  49. 49. Ejemplo  Ganancia de información al evaluar ojos:  Entropía (I) - Entropía (I, ojos) = 0.954 – 0.607 = 0.347 bit
  50. 50. negro rojo rubio cabello Estatura Cabello Ojos Clase Alto Negro Azul A Bajo Negro Azul A Alto Negro Café A Estatura Cabello Ojos Clase Alto Rojo Azul O azul cafe ojos Estatura Cabello Ojos Clase Alto Rubio Café A Bajo Rubio Café A Alto negro Café A Estatura Cabello Ojos Clase Alto Negro Azul A Bajo Negro Azul A Alto Rubio Azul O Alto Rojo Azul O Bajo Rubio Azul O
  51. 51. Ambiente Temperatura Humedad Viento Golf lluvioso templado normal No Jugar lluvioso templado alta No Jugar lluvioso frio normal No Jugar nublado templado alta Si Jugar nublado frio normal Si Jugar nublado calor normal No Jugar nublado calor alta No Jugar soleado templado normal Si Jugar soleado frio normal No Jugar lluvioso templado alta Si No Jugar lluvioso frio normal Si No Jugar soleado templado alta No No Jugar soleado calor alta Si No Jugar soleado calor alta No No Jugar
  52. 52. Ambiente Temperatura Jugar Jugar No Jugar No Jugar No Jugar Jugar Jugar Jugar Jugar Jugar Jugar Jugar No Jugar No Jugar Jugar Jugar No Jugar No Jugar Jugar Jugar Jugar No Jugar soleado nublado lluvioso caliente frio Jugar Jugar Jugar Jugar No Jugar No Jugar templado
  53. 53. Humedad Viento Jugar Jugar Jugar No Jugar No Jugar No Jugar No Jugar No Jugar Jugar Jugar Jugar Jugar Jugar Jugar No Jugar Jugar Jugar Jugar Jugar Jugar Jugar No Jugar No Jugar Jugar Jugar Jugar No Jugar No Jugar No Jugar alta normal nosi
  54. 54. Información del Sistemas  No se considera ningun atributo 940.0 5305.04097.0 ) 14 5 (log*) 14 5 () 14 9 (log*) 14 9 (])5,9([ 22   IS
  55. 55. Información  De cada rama  ISoleado ([2,3])=0.5287+0.4421  0.971  INublado ([4,0])=0  ILluvioso ([3,2]) = 0.4421 + 0.5287  0.971  Del atributo  IAmbiente = 693.0 971.0* 14 5 0*) 14 4 (971.0*) 14 5 (  
  56. 56. Ganancia  GAmbiente = IS – IAmbiente  = 0.940 – 0.693 = 0.247  GTemperatura = IS – ITemperatura  =0.940 – 0.911 = 0.029  GHumeda = IS – IHumedad  =0.940 – 0.788 = 0.152  GViento = IS – IViento  =0.940 – 0.892 = 0.048
  57. 57. Ambiente soleado …… Temperatura No Jugar No Jugar Jugar caliente frio Jugar No Jugar templado Ambiente soleado …… Humedad No Jugar No Jugar No Jugar Jugar Jugar alta normal Ambiente soleado …… Viento Jugar Jugar No Jugar No Jugar Jugar No Jugar alta no
  58. 58. Ambiente – Soleado  ISAmbiente = 0.971  ITemperatura = 0.4  GTemperatura = 0.571  IHumedad = 0  GHumedad = 0.971  IViento = 0.95098  Gviento = 0.020
  59. 59. Ambiente – Lluvioso  ISAmbiente = 0.971  ITemperatura = 0.95098  GTemperatura = 0.20  IHumedad = 0.95098  GHumedad = 0.20  IViento = 0  Gviento = 0.971
  60. 60. Ambiente Soleado Humedad Jugar normal No Jugar alta Viento Lluvioso Nublado Jugar No Jugar Si Jugar No
  61. 61. Arboles de Decisión a < b b < c a < c a < c b < cOrder is a < b < c Order is b < a < c Order is a < c < b Order is c < a < b Order is b < c < a Order is c < b < a Si (a<b)^(b<c)  a < b < c • Si (a<b)^(b>c)^(a<c)  a < c < b ... • Si (a>b)^(a>c)^(b>c)  c < b < a
  62. 62. Atributos  Numéricos  Binario  Seleccionar un punto  Calcular la información de la misma forma  Preprocesamiento: Ordenar  ¿Reordenar?
  63. 63. Atributos  Faltantes  ¿es relevante?  Ignorar instancias  un nuevo valor del atributo  Dividir y enviar a cada rama en proporción al número de instancias que van a cada rama considerando el conjunto de entrenamiento.
  64. 64. Applet de Prueba  Para hacer algunos experimentos y comprobar resultados, pueden acudir a la siguiente dirección:  http://webdocs.cs.ualberta.ca/~aixplore/learning/ DecisionTrees/Applet/DecisionTreeApplet.html
  65. 65. Reglas de Clasificación
  66. 66. Reglas de Clasificación : Antecedente → Consecuente  Antecedente: precondiciones, son la serie de pruebas que se realizan sobre los atributos.  Conjuntivas ("cumplen para que la regla tenga éxito”)  Pueden ser expresiones lógicas.  Consecuente: conclusión, da la clase o clases que aplican a las instancias cubiertas por la regla  Las reglas son disyuntivas  Posibles conflictos Tecnologías: 1-Rule PRISM
  67. 67. Modelo Estadístico  Todos los atributos contribuyen  Los atributos se consideran:  Iguales en importancia  Independientes  Se toma en cuenta la frecuencia del par atributo- valor por clase  No realista, ¡pero funciona!
  68. 68. Modelo Estadistico  Está basado en la regla de probabilidad condicional de Bayes  Si se tiene una hipótesis H, y una evidencia E entonces:  P[H|E] = P[E|H] P[H]/ P[E]  H : Play=Yes  E : Combinación de valores del nuevo día
  69. 69. Naïve Bayes  Los números encontrados se convierten en probabilidades normalizandolos de forma que sumen 1 ][ ]|[]|[]|[]|[ ]|[ 4321 EP HEPHEPHEPHEP EHP   ]|[...]|[ ][]|[...]|[ ]|[ 1 1 1 m n HEPHEP HPHEPHEP EHP   
  70. 70. Ejemplo AmbienteGolf Temperatura Golf Humedad Golf Viento Golf lluvioso Jugar calor Jugar alta Jugar No Jugar lluvioso Jugar calor Jugar alta Jugar No Jugar lluvioso Jugar calor No Jugar alta Jugar No Jugar lluvioso No Jugar calor No Jugar alta No Jugar No Jugar lluvioso No Jugar frio Jugar alta No Jugar No Jugar nublado Jugar frio Jugar alta No Jugar No Jugar nublado Jugar frio Jugar alta No Jugar No No Jugar nublado Jugar frio No Jugar normal Jugar No No Jugar nublado Jugar templado Jugar normal Jugar Si Jugar soleado Jugar templado Jugar normal Jugar Si Jugar soleado Jugar templado Jugar normal Jugar Si Jugar soleado No Jugar templado Jugar normal Jugar Si No Jugar soleado No Jugar templado No Jugar normal Jugar Si No Jugar soleado No Jugar templado No Jugar normal No Jugar Si No Jugar
  71. 71. Frecuencias Probabilidades Observadas Probabilidad a Priori Ambiente Temperatura Humedad Viento Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Soleado Caliente Alta Si Nublado Templado Normal No Lluvia Frio Golf Jugar No Jugar
  72. 72. Ejemplo Ambiente Temperatura Humedad Viento Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Soleado 2 3 Caliente 2 2 Alta 3 4 Si 3 3 Nublado 4 0 Templado 4 2 Normal 6 1 No 6 2 Lluvia 3 2 Frio 3 1 Ambiente Temperatura Humedad Viento Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Soleado 2/9 3/5 Caliente 2/9 2/5 Alta 3/9 4/5 Si 3/9 3/5 Nublado 4/9 0/5 Templado 4/9 2/5 Normal 6/9 1/5 No 6/9 2/5 Lluvia 3/9 2/5 Frio 3/9 1/5 Golf Golf Jugar No Jugar Jugar No Jugar 9 5 9/14 5/14
  73. 73. Ejemplo  Nuevo día Ambiente Temperatura Humedad Viento Golf Soleado Frio Alta Si ? Posibilidad de Jugar = 2/9*3/9*3/9*3/9*9/14 = 0.0053 Posibilidad de No Jugar = 3/5*1/5*4/5*3/5*5/14 = 0.0206 Probabilidad de Jugar = 0.0053/(0.0053+0.0206) = 20.5% Probabilidad de No Jugar = 0.0206/(0.0053+0.0206) = 79.5%
  74. 74. Ejercicio Lentes de Contacto Lentes de Contacto Edad Problema Astigmatismo Prod. Lágrimas Lentes Joven Miopía No Reducida Ninguno Joven Miopía No Normal Blandos Joven Miopía Si Reducida Ninguno Joven Miopía Si Normal Duros Joven Hipermetropía No Reducida Ninguno Joven Hipermetropía No Normal Blandos Joven Hipermetropía Si Reducida Ninguno Joven Hipermetropía Si Normal Duros Adulto Miopía No Reducida Ninguno Adulto Miopía No Normal Blandos Adulto Miopía Si Reducida Ninguno Adulto Miopía Si Normal Duros Adulto Hipermetropía No Reducida Ninguno Adulto Hipermetropía No Normal Blandos Adulto Hipermetropía Si Reducida Ninguno Adulto Hipermetropía Si Normal Ninguno Anciano Miopía No Reducida Ninguno Anciano Miopía No Normal Ninguno Anciano Miopía Si Reducida Ninguno Anciano Miopía Si Normal Duros Anciano Hipermetropía No Reducida Ninguno Anciano Hipermetropía No Normal Blandos Anciano Hipermetropía Si Reducida Ninguno Anciano Hipermetropía Si Normal Ninguno
  75. 75. Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D Adulto 2 5 0Hipermetropia 2 7 1Si 4 6 0Normal 4 3 3 Anciano 0 6 1Miopia 2 7 2No 0 8 3Reducido 0 11 0 Joven 2 3 2 Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D Adulto 2/4 5/14 0/3Hipermetropia 2/4 7/14 1/3Si 4/4 6/14 0Normal 4/4 3/14 3/3 Anciano 0/4 6/14 1/3Miopia 2/4 7/14 2/3No 0/4 8/14 3/3Reducido 0/4 11/14 0/3 Joven Lentes B N D 4 14 3 4/21 14/21 3/21 Edad Problema Astigmatismo Lagrimeo Lentes Joven Hipermetropia No Reducida ? Adulto Miopia Si Normal ? Anciano Hipermetropia No Normal ?
  76. 76. Soluciones  Ej1)  Pos B = (2/4)*(2/4)*(4/4)*(0)*(4/21) = 0  Pos D = (2/3)*(1/3)*(0)*(0)*(3/21) = 0  Pos N = (3/14)*(7/14)*(6/14)*(11/14)*(14/21)=0.024 Pr=100%  Ej2)  Pos B = (2/4)*(2/4)*(0)*(1)*(4/21) = 0  Pos D = (0)*(1/3)*(3/4)*(1)*(3/21) = 0  Pos N = (5/14)*(7/14)*(8/14)*(3/14)*(14/21)=0.00145 Pr=100%  Ej3)  Pos B = (0/14)*… = 0  Pos D = (1/3)*(1/3)*(0)*… = 0  Pos N = (6/14)*(7/14)*(6/14)*(3/14)*(14/21)=0.00131
  77. 77. Problemas  Valores de un atributo que no se presentan.  La probabilidad de la clase dado que el atributo tiene el valor ausente sería cero causando que todo el término sea cero.  La corrección es agregar uno a cada valor y compensar. (Estimador de Laplace MF. P) 2/9, 3/9, 4/9 cambian por 3/12, 4/12, 5/12
  78. 78. Problemas  Valores Faltantes  Nueva instancia: se omite  Conj. Entrenamiento: no cuenta  Atributos numéricos  Se supone que tienen una distribución de probabilidad “Normal” o “Gaussiana”  Se calcula la media x y la desviación estándar
  79. 79. Atributos Numéricos n x x n i i  1 1 ][ 1 2     n xx n i i  2 2 2 )( 2 1 )(      x exf
  80. 80. Ejemplo Ambiente Temperatura Humedad Viento Golf nublado 64 65Si Jugar lluvioso 65 70Si No Jugar lluvioso 68 80No Jugar soleado 69 70No Jugar lluvioso 70 96No Jugar lluvioso 71 91Si No Jugar soleado 72 95No No Jugar nublado 72 90Si Jugar lluvioso 75 80No Jugar soleado 75 70Si Jugar soleado 80 90Si No Jugar nublado 81 75No Jugar nublado 83 86No Jugar soleado 85 85No No Jugar
  81. 81. Ambiente Temperatura Humedad Viento Golf Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Soleado 2 3 85 85 86 85 No 6 2 9 5 Templado 4 0 70 80 96 90 Si 3 3 Lluvia 3 2 68 65 80 70 64 72 65 95 69 71 70 91 75 80 75 70 72 90 81 75 Soleado 2/9 3/5Media 73 74,6Media 79,1 86,2 No 6/9 2/5 9/14 5/14 Templado 4/9 0/5DesEst 6,2 7,9DesEst 10,2 9,7 Si 3/9 3/5 Lluvia 3/9 2/5 Ambiente Temperatura Humedad Viento Golf Soleado 66 90 Si ? 0340.0 2.6*2 1 )|66( 2 2 )2.6(2 )7366(   eJugarTf 
  82. 82. Ejemplo  Posibilidad Jugar:  (2/9)*0.034*0.0221*(3/9)*(9/14) =0.000036  Pos No Jugar  (3/5)*0.0279*0.038*(3/5)*(5/14) =0.000136  Probabilidad Jugar:  0.000036/(0.000036+0.000136)=20.9%  Probabilidad No Jugar:  0.000136/(0.000036+0.000136)=79.1%
  83. 83. Inferencia de Reglas  Algoritmo de cobertura.  Considerar cada clase buscando la forma de cubrir todas las instancias en la clase, y al mismo tiempo excluir a las instancias que no pertenecen a la clase.  Es llamado de cobertura porque en cada etapa se identifica una regla que “cubre” la mayoría de las instancias.
  84. 84. Método PRISM  Para cada clase se busca construir las reglas (agregando términos), que cubran todas las instancias de esa clase.  Al agregar un termino, suponga que la nueva regla cubre un total de t instancias, de las cuales p son ejemplos de la clase y t-p están en otras clases (errores de la regla).  • Escoger el término que maximiza p/t
  85. 85. x y b b b b bb b b b b ba a a aa b b b b b b b b b b ba a a a a 1.2 y 2.6 b b b b b b b b b bb a a a a a 1.2 x>1.2 y>2.6 b No Si No Si ab Espacio de las Instancias Regla hasta el momento Regla después de añadir un nuevo término
  86. 86. Método PRISM  Para cada clase C  Inicializar E con el conjunto de instancias Mientras E contenga instancias de la clase C  Crear la regla R: ?  C  Hasta que R sea perfecta (o  más atributos) haz:  Para cada atributo A no mencionado en R, y valor v
  87. 87. Método PRISM  Considerar agregar A=v en el lado Izquierdo de R  Seleccionar A y v que maximicen la precisión p/t (si existen iguales escoger el de mayor p)  Agregar A=v a R  Eliminar las instancias cubiertas por R de E
  88. 88. Lentes de Contacto Edad Problema Astigmatismo Prod. Lágrimas Lentes Joven Miopía No Reducida Ninguno Joven Miopía No Normal Blandos Joven Miopía Si Reducida Ninguno Joven Miopía Si Normal Duros Joven Hipermetropía No Reducida Ninguno Joven Hipermetropía No Normal Blandos Joven Hipermetropía Si Reducida Ninguno Joven Hipermetropía Si Normal Duros Adulto Miopía No Reducida Ninguno Adulto Miopía No Normal Blandos Adulto Miopía Si Reducida Ninguno Adulto Miopía Si Normal Duros Adulto Hipermetropía No Reducida Ninguno Adulto Hipermetropía No Normal Blandos Adulto Hipermetropía Si Reducida Ninguno Adulto Hipermetropía Si Normal Ninguno Anciano Miopía No Reducida Ninguno Anciano Miopía No Normal Ninguno Anciano Miopía Si Reducida Ninguno Anciano Miopía Si Normal Duros Anciano Hipermetropía No Reducida Ninguno Anciano Hipermetropía No Normal Blandos Anciano Hipermetropía Si Reducida Ninguno Anciano Hipermetropía Si Normal Ninguno
  89. 89. Ejemplo: Lentes  Si ?  Duros  Edad  Joven 2/8 0.25  Adulto 1/8 0.125  Anciano 1/8 0.125  Problema  Miopía 3/12 0.25  Hipermetropía 1/12 0.083  Astigmatismo  Si 4/12 0.333  No 0/12 0  Producción de Lágrimas  Reducida 0/12 0  Normal 4/12 0.333 Si (Astigmatismo = Si)  Duros
  90. 90.  Si (Astigmatismo = Si)  ?  Duros  Edad  Joven 2/4 0.5  Adulto 1/4 0.25  Anciano 1/4 0.25  Problema  Miopía 3/6 0.5  Hipermetropía 1/6 0.166  Producción de Lágrimas  Reducida 0/6 0  Normal 4/6 0.666 Si (Astigmatismo = Si)  (Producción de Lágrimas=Normal)  Duros Lentes de Contacto Edad Problema Astigmatismo Prod. Lágrimas Lentes Joven Miopía Si Reducida Ninguno Joven Miopía Si Normal Duros Joven Hipermetropía Si Reducida Ninguno Joven Hipermetropía Si Normal Duros Adulto Miopía Si Reducida Ninguno Adulto Miopía Si Normal Duros Adulto Hipermetropía Si Reducida Ninguno Adulto Hipermetropía Si Normal Ninguno Anciano Miopía Si Reducida Ninguno Anciano Miopía Si Normal Duros Anciano Hipermetropía Si Reducida Ninguno Anciano Hipermetropía Si Normal Ninguno
  91. 91.  Si (Astigmatismo = Si  Producción de Lágrimas=Normal)  ?  Duros  Edad  Joven 2/2 1  Adulto 1/2 0.5  Anciano 1/2 0.5  Problema  Miopía 3/3 1  Hipermetropía 1/3 0.333 Si (Astigmatismo = Si  Producción de Lágrimas=Normal  Problema=Miopía)  Duros Lentes de Contacto Edad Problema Astigmatismo Prod. Lágrimas Lentes Joven Miopía Si Normal Duros Joven Hipermetropía Si Normal Duros Adulto Miopía Si Normal Duros Adulto Hipermetropía Si Normal Ninguno Anciano Miopía Si Normal Duros Anciano Hipermetropía Si Normal Ninguno
  92. 92. Reglas para Lentes = Duros  Si (Astigmatismo = Si  Producción de Lágrimas=Normal  Problema=Miopía)  Duros  Si (Edad = Joven  Astigmatismo = Si  Producción de Lágrimas = Normal)  Duros
  93. 93. Reglas de Asociación
  94. 94. Reglas de Asociación  Similares a las reglas de clasificación  Pueden predecir cualquier atributo, no solo la clase, o predecir combinaciones de atributos.  Las diferentes reglas de asociación expresan diferentes regularidades que yacen en el conjunto de datos y generalmente predicen cosa diferentes.
  95. 95. Reglas de Asociación  Se centra el interés en las reglas que aplican a un número grande de instancias y que tiene una precisión alta en las instancias en las que aplica.  La cobertura de una regla de asociación es el número de instancias para las cuales ella predice correctamente (soporte).  La precisión (confianza) es el número de instancias que predice correctamente, expresado como una proporción de todas las instancias a las que se aplica
  96. 96. Reglas de Asociación  Son similares a las reglas de clasificación.  Cualquier expresión puede ocurrir del lado derecho de la regla.  Puede utilizarse el mismo procedimiento de inducción de reglas para cada posible combinación de atributos.  Pares de atributo - valor que tengan una cobertura mínima (item)  Combinaciones de items (itemset)
  97. 97. Reglas de Asociación  Los 1-itemset se obtienen con la frecuencia de  cada item.  Los candidatos de los n-itemset se obtienen del (n-1)-itemset.  Los candidatos de los 2-itemset se obtienen del 1-itemset: Se buscan pares de valores de atributos diferentes. !)!( ! rrn n r n       
  98. 98.  Los candidatos de los 2-itemset se obtienen del 1-itemset: Se buscan pares de valores de atributos diferentes.  Valores: Atr 1: A, B, C Valores Atri 2: D, E  Quedan: (A,D), (A, E), (B, D), (B, E), (C,D),(C,E)  Se elimina: (A, B), (A, C), (B,C), (D, E) ya que son valores del mismo atributo. 10 2*6 120 !2)!25( !5 !)!( !           rrn n r n
  99. 99. Ambiente Temperatura Humedad Viento Golf lluvioso templado normal No Jugar lluvioso templado alta No Jugar lluvioso frio normal No Jugar nublado templado alta Si Jugar nublado frio normal Si Jugar nublado calor normal No Jugar nublado calor alta No Jugar soleado templado normal Si Jugar soleado frio normal No Jugar lluvioso templado alta Si No Jugar lluvioso frio normal Si No Jugar soleado templado alta No No Jugar soleado calor alta Si No Jugar soleado calor alta No No Jugar
  100. 100. 1-ITEM-SORT 2-ITEM Nublado(4) Nublado(4) Calor(4) 1 Lluvioso(5) Nublado(4) Frio(4) 1 Soleado(5) Nublado(4) Templado(6) 2 Calor(4) Nublado(4) Alta(7) 2 Frio(4) Nublado(4) Normal(7) 2 Templado(6) Nublado(4) No(6) 2 Alta(7) Nublado(4) Si(8) 2 Normal(7) Nublado(4) No Jugar(5) 0 No(6) Nublado(4) Jugar(9) 4 Si(8) Lluvioso(5) Calor(4) 0 No Jugar(5) Lluvioso(5) Frio(4) 2 Jugar(9) Lluvioso(5) Templado(6) 3 Lluvioso(5) Alta(7) 2 Lluvioso(5) Normal(7) 3 Lluvioso(5) No(6) 3 Lluvioso(5) Si(8) 2 Lluvioso(5) No Jugar(5) 2 Lluvioso(5) Jugar(9) 3
  101. 101. 1-ITEM-SORT Soleado(5) Calor(4) 2 Nublado(4) Soleado(5) Frio(4) 1 Lluvioso(5) Soleado(5) Templado(6) 2 Soleado(5) Soleado(5) Alta(7) 3 Calor(4) Soleado(5) Normal(7) 2 Frio(4) Soleado(5) No(6) 3 Templado(6) Soleado(5) Si(8) 2 Alta(7) Soleado(5) No Jugar(5) 3 Normal(7) Soleado(5) Jugar(9) 2 No(6) Calor(4) Alta(7) 3 Si(8) Calor(4) Normal(7) 1 No Jugar(5) Calor(4) No(6) 3 Jugar(9) Calor(4) Si(8) 1 Calor(4) No Jugar(5) 2 Calor(4) Jugar(9) 2 Frio(4) Alta(7) 0 Frio(4) Normal(7) 4 Frio(4) No(6) 2 Frio(4) Si(8) 2 Frio(4) No Jugar(5) 1 Frio(4) Jugar(9) 3
  102. 102. 1-ITEM-SORT Templado(4) Alta(7) 4 Nublado(4) Templado(4) Normal(7) 2 Lluvioso(5) Templado(4) No(6) 3 Soleado(5) Templado(4) Si(8) 3 Calor(4) Templado(4) No Jugar(5) 2 Frio(4) Templado(4) Jugar(9) 4 Templado(6) Alta(7) No(6) 4 Alta(7) Alta(7) Si(8) 3 Normal(7) Alta(7) No Jugar(5) 4 No(6) Alta(7) Jugar(9) 3 Si(8) Normal(7) No(6) 4 No Jugar(5) Normal(7) Si(8) 3 Jugar(9) Normal(7) No Jugar(5) 1 Normal(7) Jugar(9) 6 No(6) No Jugar(5) 2 No(6) Jugar(9) 6 Si(8) No Jugar(5) 3 Si(8) Jugar(9) 3
  103. 103. Reglas de Asociación  Candidatos de los n-itemset se obtienen del (n- 1)-itemset.  Los candidatos de los 3-itemset se obtienen del 2-itemset de la siguiente forma:  Deben coincidir en los (n-2) elementos del itemset  2-ITEMSET: (A, B), (A, C), (B,C), (B, C)  Potenciales: (A, B, C), (B, C, D)  Quedan: (A, B, C)  Se elimina: (B, C, D) ya que (C, D) no existe
  104. 104. 2-ITEM 3-ITEM Nublado Calor 2Nublado Calor Alta 1 Nublado Alta 2Nublado Calor Normal 1 Nublado Normal 2Nublado Calor Normal 2 Nublado No 2Nublado Calor Si 0 Nublado Si 2Nublado Calor Jugar 4 Nublado Jugar 4Nublado Alta Normal 1 Calor Alta 2Nublado Alta Si 1 Calor No 3Nublado Alta Jugar 2 Calor No Jugar 2Nublado Normal Normal 1 Calor Jugar 3Nublado Normal Si 1 Alta No 3Nublado Normal Jugar 2 Alta Si 2Nublado No Jugar 3 Alta No Jugar 2Nublado Si Jugar 2 Alta Jugar 3Lluvioso Frio Alta 0 Normal No Jugar 2Lluvioso Frio Normal 2 Normal Jugar 2Lluvioso Frio No 1 Normal No Jugar 3Lluvioso Frio Si 1 No No Jugar 2Lluvioso Frio No Jugar 1 No Jugar 3Lluvioso Frio Jugar 1 Si No Jugar 2Lluvioso Templado Alta 2 Si Jugar 3Lluvioso Templado Normal 1
  105. 105. 4-ITEMSET Nublado Calor No Jugar 2 Lluvioso Templado No Jugar 2 Lluvioso Normal No Jugar 2 Soleado Calor Alta No Jugar 2 Soleado Alta No No Jugar 2 Frio Normal No Jugar 2
  106. 106. Itemsets Generados  La cantidad de elementos por itemsets son:  1-itemsets 12  2-itemsets 47  3-itemsets 39  4-itemsets 7
  107. 107. Reglas de asociación  Las reglas se obtienen a partir de los itemsets Humedad = normal, Viento = no, Golf = jugar  Esto nos lleva a las 7 reglas potenciales:  If Humedad = normal  Viento = no  Golf = Jugar 4/4  If Humedad = normal  Golf = jugar  Viento = no 4/6  If Viento = no  Golf = jugar  Humedad = normal 4/7  If Humedad = normal  Viento = no  Golf = jugar 4/6  If Viento = no  Humedad = normal  Golf = jugar 4/8
  108. 108. Reglas de Asociación cov 1humedad=normal viento=no  golf=jugar 4 2temperatura=frio  humedad=normal 4 3ambiente=nublado  golf=jugar 4 4temperatura = frio  golf = jugar  humedad = normal 3 5ambiente=lluvioso  viento =no  golf=jugar 3 6ambiente=lluvioso  golf=jugar  viento=no 3 7ambiente=soleado  humedad=alta  golf=no jugar 3 8ambiente=soleado  golf=no jugar  humedad=alta 3 9temperatura=frio  viento=no  humedad=normal  golf=jugar 2 10temperatura=frio  viento=no humedad=normal  golf=jugar 2 11temperatura=frio  viento=no golf=jugar  humedad=normal 2 12ambiente=lluvioso humedad=normal  viento=no  golf=jugar 2 13ambiente=lluvioso humedad=normal  golf=jugar  viento=no 2 14ambiente=lluvioso temperatura=templado  viento=no  golf=jugar 2 15ambiente=lluvioso temperatura=templado  golf=jugar  viento=no 2 16temperatura=templado  viento=no  golf=jugar  ambiente=lluvioso 2 17ambiente=nublado temperatura=calor  viento=no  golf=jugar 2 18ambiente=nublado viento=no  temperatura=calor  golf=jugar 2 19temperatura=calor  golf=jugar  ambiente=nublado viento=no 2 20ambiente=nublado  temperatura=calor viento=no  golf=jugar 2 21ambiente=nublado  temperatura=calor golf=jugar  viento=no 2 22ambiente=nublado  viento=no golf=jugar  temperatura=calor 2 23temperatura=calor  viento = no  golf = jugar  ambiente = nublado 2 … 58ambiente=soleado temperatura=calor  humedad=alta 2
  109. 109. 4-Itemset  Elementos 3-ITEMSET (A,B,C), (A, B, D), (A,C,D), (A,C,E), (B,C,D)  Potenciales ITESMSET-4 (A, B, C, D), (A, C, D, E)  Queda (A, B, C, D)  Se elimina (A, C, D, E) porque (C, D, E) no existe (no cumple la cobertura)
  110. 110. Conjunto Final de Reglas  3 Reglas con cobertura 4  5 Reglas con cobertura 3  50 Reglas con cobertura 2  Total 58 Reglas
  111. 111. Regla de los 3-Itemset  (A, B, C) 1. Si A, B  C 2. Si B, C  A 3. Si A, C  B 4. Si A  B, C 5. Si B  A, C 6. Si C  A, B 7. Si -  A, B, C
  112. 112. Agrupamiento (Clustering)
  113. 113. Agrupamiento (Clustering)  Las técnicas de agrupamiento se aplican cuando no hay propiamente una clase que predecir sino cuando las instancias se dividen en grupos de forma natural.  Es una técnica de minería de datos no dirigida.  El agrupamiento requiere de técnicas diferentes a las de clasificación y asociación.
  114. 114. Diagramas  En el agrupamiento, la salida es un diagrama que muestra como las instancias forman grupos.  Se asocia un número de grupo a cada instancia  grupos disjuntos  grupos traslapados  probabilidad de pertenencia a un grupo  Jerarquía
  115. 115. 1 2 3 a 0,4 0,1 0,5 b 0,1 0,8 0,1 c 0,3 0,3 0,4 d 0,1 0,1 0,8 e 0,4 0,1 0,5 f 0,1 0,4 0,5 g 0,7 0,2 0,1 h … e c b d j h a k g i f i f bc e h d a j kg g a c i e d k b j f h
  116. 116. Agrupamiento  Los mapeos auto-organizables: forma especializada de red neuronal.  K-Medias (K-Means): agrupamiento iterativo basado en distancias.  Agrupamiento incremental.  EM-Algorithm: Expectation Maximization.
  117. 117. Minería de Datos  Dependiendo de la meta que se persigue en la minería de datos, se requiere la aplicación de una técnica diferente.  Metas:  Prescriptiva: automatizar el proceso de toma de decisiones (clasificación, predicción).  Descriptiva: Incrementar el entendimiento de lo que sucede en los datos y del mundo que reflejan. (agrupamiento - clustering)
  118. 118. Diferencias  Analizar la respuesta a una oferta  Entradas: Finanzas, Estilo de vida  Projecto 1: producir un modelo que dé a cada prospecto una puntuación de cómo responderá a la oferta  Projecto 2: Entender las causas de la respuesta para mejorar futuros esfuerzos
  119. 119. Minería de Datos  Dirigida: La meta principal es predecir, estimar, clasificar ó caracterizar el comportamiento de algun atributo, prevíamente identificado, en términos de un conjunto de variables de entrada.  No dirigida: La meta es descubrir una estructura en el conjunto de datos
  120. 120. Agrupamiento (Clustering)  Las técnicas de agrupamiento se aplican cuando no hay propiamente una clase que predecir sino cuando las instancias se dividen en grupos de forma natural.  Es una técnica de minería de datos no dirigida.  El agrupamiento requiere de técnicas diferentes a las de clasificación y asociación
  121. 121. Agrupamiento  Se genera un diagrama que muestra cómo las instancias forman grupos.  En el caso más simple, se asocia un número de grupo a cada instancia. Se colocan las instancias en dos dimensiones y se particiona el espacio para mostrar cada cluster (disjuntos). e c b d j h a k g i f
  122. 122. Agrupamiento  Algunos algoritmos permiten que una  instancia pertenezca a dos grupos (clusters)  La representación se puede visualizar mediante diagramas de Venn i f bc e h d a j kg
  123. 123. Agrupamiento  Otros algoritmos asocian a las instancias con los grupos de manera probabilística.  En este caso para cada instancia existe una probabilidad o grado de pertenencia a cada 1 2 3 a 0,4 0,1 0,5 b 0,1 0,8 0,1 c 0,3 0,3 0,4 d 0,1 0,1 0,8 e 0,4 0,1 0,5 f 0,1 0,4 0,5 g 0,7 0,2 0,1 h …
  124. 124. Agrupamiento  Otros producen una estructura jerárquica de clusters.  Los elementos unidos en niveles inferiores tienen una mayor cohesión que los de niveles superiores. g a c i e d k b j f h
  125. 125. Agrupamiento  Enfoques matemáticos.  Los métodos son Divisivos y Aglomerativos  Se define alguna medida del valor de la partición del conjunto de clusters.  La medida es almacenada para decidir al final del proceso cuál partición es la mejor.
  126. 126. Métodos Divisivos  Inician considerando todas las instancias como parte de un gran grupo (cluster) .  El cluster inicial se divide en dos o más clusters.  Estos clusters se dividen sucesivamente.  Hasta que cada instancia tiene su propio cluster.
  127. 127. Métodos Aglomerativos  Otros métodos son llamados aglomerativos.  Iniciar con cada instancia en un grupo (cluster).  Iterativamente se combinan los clusters.  Termina cuando sólo hay un cluster.
  128. 128. Agrupamiento  Los mapeos auto-organizables: forma especializada de red neuronal.  K-Medias (K-Means): agrupamiento iterativo basado en distancias.  Agrupamiento incremental  EM-Algorithm: Expectation Maximization
  129. 129. Agrupamiento Iterativo Basado en Distancia K- Medias  K-medias es uno de los algoritmos más ampliamente utilizado en herramientas comerciales de minería de datos.  K-medias trabaja mejor cuando la entrada de datos es numérica principalmente.
  130. 130. K-Medias  ¿Cómo funciona?  Divide el conjunto de datos en un número predeterminado de clusters.  Ese número es K, de aquí el nombre.
  131. 131. K-Medias  ¿Cómo funciona?  La media es lo que los estadistas llaman promedio.  En este caso la media se refiere a la ubicación promedio de los miembros de un grupo en particular.
  132. 132. K-Medias  ¿Ubicación? ¡Hablamos de Registros en una Base de Datos!  La respuesta viene de la geometría:  Para formar los clusters, cada instancia es asociada a un punto en el “espacio de instancias”  Ese espacio tiene tantas dimensiones como atributos hay en las instancias.
  133. 133. K-Medias  El valor de cada atributo es interpretado como una distancia a partir del origen y a lo largo del eje correspondiente.  Para que la interpretación sea útil, los atributos deben ser convertidos a números y éstos deben normalizarse para que los cambios en las dimensiones sean comparables.
  134. 134. Algoritmo  Las instancias son asignadas a clusters a través de un proceso iterativo que inicia con clusters centrados en localidades aleatorias en el espacio de instancias y mueve los centroides del cluster hasta que alguno de ellos se encuentre en realidad en el centro de algún cluster.
  135. 135. 0 1 2 3 4 5 6 7 8 0 2 4 6 8 10 Punto X Y A 1,2 1 B 1,4 2 C 2 1,1 D 2,5 1,5 E 3,6 1,7 F 0,7 3 G 1,3 6 H 1,9 7,3 I 3 6,9 J 3,3 6 K 4 6 L 2,3 5 M 3,5 5 N 3 4 O 6,1 3,2 P 8 5,5 Q 9,1 4,9 R 8,1 4 S 8,6 3 T 7,5 2  El parámetro K indica el número de cluster que se seleccionarán en este caso K=3
  136. 136. Algoritmo  Se seleccionan K puntos al azar cómo centros de los clusters (F, N y O).  Las instancias se asignan al centro del cluster más cercano considerando la distancia de Euclidiana. 2 22 2 1121 212211 )()(),( ,, yxyxPPD yyPxxP  
  137. 137. Algoritmo  Se seleccionan K puntos y se asignan las instancias al centro del cluster más cercano 0 1 2 3 4 5 6 7 8 0 2 4 6 8 10 Semilla 1 Semilla 2 Semilla 3
  138. 138. Límites  Para dibujar los limites entre los clusters, basta con recordar que si se tienen 2 puntos X y Y, todos los puntos que están equidistantes desde X y Y, caen en la línea que está a la mitad del segmento que une a X y Y, y es perpendicular.  Asi el punto del cuadro es asignado a el cluster controlado por el centroide 2.
  139. 139. Ejemplo 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 9 10 Semilla 1 Semilla 2 Semilla 3
  140. 140. Asignación Punto X Y DF DN DO A 1,2 1 2,06 3,50 5,37 B 1,4 2 1,22 2,56 4,85 C 2 1,1 2,30 3,07 4,61 D 2,5 1,5 2,34 2,55 3,98 E 3,6 1,7 3,18 2,38 2,92 F 0,7 3 0,00 2,51 5,40 G 1,3 6 3,06 2,62 5,56 H 1,9 7,3 4,46 3,48 5,87 I 3 6,9 4,53 2,90 4,83 J 3,3 6 3,97 2,02 3,96 K 4 6 4,46 2,24 3,50 L 2,3 5 2,56 1,22 4,20 M 3,5 5 3,44 1,12 3,16 N 3 4 2,51 0,00 3,20 O 6,1 3,2 5,40 3,20 0,00 P 8 5,5 7,72 5,22 2,98 Q 9,1 4,9 8,61 6,17 3,45 R 8,1 4 7,47 5,10 2,15 S 8,6 3 7,90 5,69 2,51 T 7,5 2 6,87 4,92 1,84 0 1 2 3 4 5 6 7 8 0 2 4 6 8 10
  141. 141. Algoritmo  Después se calculará el centroide, es decir, la media de todas las instancias.  Estos centroides serán los nuevos centros de los clusters y el proceso se repite.  La iteración continúa hasta que los mismos puntos son asignados a cada cluster en rondas consecutivas. En este momento los centroides se han estabilizado.
  142. 142. Ejemplo Grupo1 Grupo2 Grupo3 Punto X Y Punto X Y Punto X Y A 1,2 1 E 3,6 1,7 O 6,1 3,2 B 1,4 2 G 1,3 6 P 8 5,5 C 2 1,1 H 1,9 7,3 Q 9,1 4,9 D 2,5 1,5 I 3 6,9 R 8,1 4 F 0,7 3 J 3,3 6 S 8,6 3 1,56 1,72 K 4 6 T 7,5 2 L 2,3 5 7,9 3,8 M 3,5 5 N 3 4 2,88 5,3 Medias
  143. 143. Ejemplo 0 1 2 3 4 5 6 7 8 0 2 4 6 8 10
  144. 144. Clustering  Si hay más de una dimensión, la distancia euclidiana se calcula de la misma forma:  En el caso de la media, se calcula la media para cada dimensión.      ni i ii yxPPD yyPxxP 1 2 21 212211 )(),( ,,
  145. 145. Consecuencias  Tipo de preguntas que se pueden responder  Es una técnica de aprendizaje no dirigido, por lo que puede ser aplicada sin un conocimiento a priori de la estructura a ser descubierta.  Dado que los grupos detectados automáticamente no tienen una interpretación natural distinta, es difícil poner los resultados en práctica.
  146. 146. Consecuencias  Preparación de los datos  Seleccionando diferentes medidas de distancias, el clustering se puede aplicar a cualquier tipo de datos (distancia entre textos). Sin embargo, la más usada es la distancia Euclidiana.
  147. 147. Consecuencias  Seleccionar el número adecuado para K  Si el número no iguala a la estructura natural de los datos, los resultados no son buenos.  Si no se tiene una razón a priori para elegir el número se debe probar con varios valores.
  148. 148. Consecuencias  Los mejores conjuntos de clusters, son aquellos en los que la distancia entre los miembros:  Del mismo cluster es pequeña  De clusters adyacentes es grande
  149. 149. Interpretación  ¡Cuando no se sabe lo que se está buscando, no se reconoce cuando se ha encontrado!  Existen algunos enfoques para interpretar.  Construir un árbol de decisión para explicar cómo asignar las instancias al cluster correcto.  Visualización para ver como se afectan los clusters con los cambios.
  150. 150. Soporte TIC http://www.youtube.com/watch?v=m7kpIBGEdkI

×