Mineríade datos

Minería de Datos
Juan C. Garcia-Ojeda, PhD(c), MSc., Ing.
jcgarciao@gmail.com

Minería de Datos
“Knowledge is Power” Francis Bacon
http://upload.wikimedia.org/wikipedia/commons/a/a7/Pourbus_Francis_Bacon.jpg

Descubirmiento del Conocimiento y
Minería de Datos
 TEMARIO
 Fundamentos
 Representación del Conocimiento
 Clasificación
 Asociación
 Agrupamiento

Fundamentos
 ¿Porqué son necesarios KDD y DM?
 ¿Qué es el descubrimiento del conocimiento en
bases de datos (KDD)?
 ¿Qué es la minería de datos (DM)?
 ¿Cuáles son los objetivos?
 ¿Que disciplinas intervienen?

Motivación
 Información: Conjunto de patrones o
modelos especificados como reglas de
clasificación o asociación, entre otros.
ITESM-UNAB, Curso Minería de Datos, 2003

Motivación
 Creciente Volúmen de Datos
 Bases de Datos
 Almacenes de Datos (Datawerehouse)
 Archivos
 ¿Capacidad de análisis?
ITESM-UNAB, Curso Minería de Datos, 2003

Motivación
 Riqueza de datos recolectados, almacenados y a
los que se ha dado un mantenimiento.
 Incapacidad para descubrir la información
inmersa en los datos. ¿cómo?
 Técnicas Estadísticas

Motivación
 Los grandes volúmenes de datos han rebasado
la capacidad de analizarlos usando las técnicas
tradicionales de análisis de la información.
 Extraer el conocimiento para tomar buenas
decisiones (e.g., tratamiento médico, promoción y
prevención) y aprovechar las oportunidades

Descubrimiento del conocimiento en
Bases de Datos (KDD)
 KDD es el proceso de preparación de los datos,
extracción de patrones, y validación de los
modelos o predicción; mientras que Minería de
Datos e refiere únicamente a la extracción de
patrones.
Datos
Datos
Elegidos
Datos
Transformados
Patrones Conocimiento
Interpretación
Minería de DatosSelección
de los Datos
Pre-procesamiento
Transformación

Minería de Datos
 La minería de datos es el proceso de extraer
información válida, novedosa, comprensible y
potencialmente útil.
 El aprendizaje automático ofrece las técnicas
para la Minería de datos.
Datos
Minería de
Datos
Decisión
Información
Conocimiento
fácilmente útil
Integración
de los Datos

Minería de Datos
 Es el proceso de extraer información válida,
novedosa, comprensible y potencialmente útil.
 Información (Niveles)
 Datos: Datos en bruto
 Información: Manipulación de variables
 Conocimiento: Atribución a causas
 Sabiduria: Saber sopesar el conocimiento

Minería de Datos
 Validez : Nivel de certidumbre de la
información.
 Al ser menos formal puede haber más mentiras.
 “Cuando se compran pañales se compran bebidas
alcohólicas en el 50% de los casos”

Minería de Datos
 Novedosa : La información obtenida era
desconocida
 Evaluada por el ser humano
 Verdades universales
“Si el genero del sujeto es femenino,
entonces puede ser que consulte al
ginecólogo” ó
“Si el genero del sujeto es masculino,
entonces no consulta al ginecólogo”

Minería de Datos
 Comprensible : La información obtenida debe ser
legible al usuario.
 “Los atributos: genero y tipo de doctor tienen una
correlación de .....”
 “Si el genero del sujeto es masculino, entonces no
consulta al ginecólogo”
 Útil : Ayuda a tomar una decisión ó a predecir
un comportamiento

Minería de Datos
 Caso 1: Salud Pública
 Información:
 Válida:
 Novedosa:
 Comprensible:
 Útil:

Minería de Datos
 Es la búsqueda de relaciones y patrones globales
escondidos en los datos que existen en BD
grandes.
 La relación entre los datos del paciente y su
diagnóstico medico.
 Estas relaciones representan conocimiento
valioso acerca de la base de datos y los objetos
en ella, así como de si la BD es un espejo fiel, del
mundo registrado por ella.

Multidisciplinario
 Bases de Datos
 Inteligencia Artificial
 Algoritmos
 Computación del alto rendimiento
 Estadística
 Visualización
 Aprendizaje automático
 Minería de Datos
 Reconocimiento de Patrones
 Adquisición y Representación del Conocimiento

Aplicaciones
 Comercio
 Salud
 Astronomía
 Sistemas de Información Geográfica
 Detección de Fraudes
 Servicios Bancarios
 Internet

Ética
 Uso de los datos
 Responsabilidad
 Aplicado a Gente
 (Blanca – Negra)
 Discriminación
 Sexual
 Racial (áreas)
 Religiosa
 Información Personal
 ¿cómo será usada?
 ¿Para qué?
 ¿Protección?
 ¿vender, compartir?

Deducción vs. Inducción
 Una BD es un almacén de información
confiable. Su propósito es recuperar
eficientemente la información almacenada en, o
inferida de la BD.
 Desde una perspectiva lógica, dos técnicas de
inferencia pueden distinguirse:
 Deducción
 Inducción

Deducción vs. Inducción
 La diferencia radica en que la deducción es el
resultado de enunciados correctos acerca del
mundo real (si la BD es correcta), mientras que
la inducción es el resultado de los enunciados
soportados en la BD (pueden no ser verdaderos
en el mundo real).
 Inducción: Selección de las regularidades y
reglas más plausibles, soportadas por la BD.
 La minería de Datos es una forma de
aprendizaje inductivo

Minería de Datos
 Los patrones están representados en términos de
una estructura que puede ser examinada,
razonada y usada para tomar decisiones futuras.
 La minería de datos trata de encontrar y describir
patrones estructurales en los datos con el fin
de ayudarnos a explicarlos y hacer predicciones.

Minería de Datos
 Toma de decisiones
 Representación
 Clasificación
 Agrupamiento
 Visualización

Minería de Datos
 Entrada: Conceptos, instancias y atributos
 Proceso: Técnica de aprendizaje (Minería)
 Salida: Representación del conocimiento
Aprendizaje
(patrones)
SalidaEntrada

Minería de Datos
 El concepto: lo que hay que aprender
 Los datos dados al aprendiz toma la forma de un
conjunto de instancias.
 Cada instancia se caracteriza por un conjunto
de atributos (características) que miden
aspectos diferentes de la instancia (numéricos,
nominales y categóricos ordinales)

Ambiente Temperatura Humedad Viento Golf
lluvioso templado normal No Jugar
lluvioso templado alta No Jugar
lluvioso templado alta Si No Jugar
lluvioso frio normal No Jugar
lluvioso frio normal Si No Jugar
nublado templado alta Si Jugar
nublado frio normal Si Jugar
nublado calor normal No Jugar
nublado templado alta No Jugar
soleado templado normal Si Jugar
soleado templado alta No No Jugar
soleado frio normal No Jugar
soleado calor alta Si No Jugar
soleado calor alta No No Jugar
Atributos Concepto
I
n
s
t
a
n
c
i
a
s

Salida
 Descripción del concepto: lo que hay que
aprender (inteligible y operacional)
 La salida incluye una descripción de la
estructura, como representación explícita del
conocimiento adquirido y que puede usarse
para clasificar ejemplos nuevos.

Proceso: Estilos de
Aprendizaje
 Clasificación
 Asociación
 Agrupamiento
 Predicción Numérica

Aprendizaje Automático
 Un sistema de este tipo utiliza observaciones
codificadas, frecuentemente almacenadas en
un conjunto llamado de entrenamiento.
 En el aprendizaje supervisado, el sistema
busca descripciones para las clases definidas
por el usuario y en el no supervisado
construye un sumario del conjunto de
entrenamiento, como un conjunto de clases
descubiertas y sus descripciones.

Minería de Datos
 Supervisado (Dirigida): La meta principal es
predecir, estimar, clasificar ó caracterizar el
comportamiento de algún atributo, previamente
identificado, en términos de un conjunto de
variables de entrada.
 No Supervisado (No dirigida): La meta es
descubrir una estructura en el conjunto de datos

Clasificación
 Minería de datos dirigida: su objetivo es
clasificar ó caracterizar el comportamiento de un
atributo particular, en términos del resto.
 Árboles
 Reglas

Árboles de Decisión
Ambiente
Soleado Nublado Lluvia
Humedad VientoClase Jugar
Alta Normal Si No
Clase Jugar Clase JugarClase No JugarClase No Jugar
Tecnologías:
ID3,C4.5,C5,
Indice GINI

 Utiliza la técnica de Divide y Conquista
 Procedimiento inductivo
 La salida es un árbol de decisión
 Desarrollada y refinada por Ross Quinlan en la
Universidad de Sydney(Australia)
 Conocido como ID3

 Clasifica patrones con atributos no numéricos
 Mejorado con el uso del radio de ganancia
 Variaciones
 C4.5,
 C5

 Puede expresarse recursivamente
 Seleccionar un atributo
 Colocar una rama para cada valor del atributo
 Dividir las instancias en subconjuntos uno por cada
valor
 Repetir el proceso para cada rama utilizando el sub-
conjunto apropiado
 Si las instancias de una rama son de la misma clase, el
proceso termina para esa rama.

Ejemplo
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Rubio Azul O
Alto Rojo Azul O
Alto Rubio Café A
Bajo Rubio Azul O
Bajo Rubio Café A
Alto negro Café A

Por Atributo
Ojos Clase
Azul A
Azul A
Azul O
Azul O
Azul O
Café A
Café A
Café A
Estatura Clase
Alto A
Alto O
Alto O
Alto A
Alto A
Bajo A
Bajo O
Bajo A
Cabello Clase
Negro A
Negro A
Negro A
Rojo O
Rubio O
Rubio A
Rubio O
Rubio A

¿Cuál es el mejor atributo?
 Intuitivamente, cualquier hoja con instancias de
solo una clase no tendrá que dividirse después.
 Se desea que quede un árbol pequeño.
 Medida de la pureza de cada nodo.
 Escoger el atributo que produzca los nodos hijos
mas puros.

Medida de Pureza
 Información.
 Se mide en fracciones de bit, y frecuentemente
es menor a 1.
 Se asocia a cada nodo y se calcula con base al
número de instancias de cada clase en él.
 Representa la cantidad de información esperada
que sería necesaria para especificar la clase de
una instancia dada.

Información
 Propiedades esperadas
 Cuando queda una sola clase, la información debe
ser cero
 Cuando el número de instancias de cada clase es
igual, la información alcanza su máximo valor
 La función que satisface estas propiedades es
conocida como entropía

Entropía
 Información del Sistema
 Información del atributo
 Información de cada rama
 Ganancia del atributo
 Se busca el atributo que provee la mayor
ganancia en información.
)(log),...,,( 2
1
21 ni
n
i
n pppppEntropia  

Información del Sistema
 La entropía del sistema es
bit954.0)
8
3
(*log*)
8
3
()
8
5
(*log*)
8
5
( 22 

Ejemplo
 Ganancia de información al probar la
caracteristicas de Cabello
negro rojo
rubio
cabello
Alto Negro Azul A
Bajo Negro Azul A
Alto Negro Café A
Alto Rojo Azul O
Alto Rubio Azul O
Alto Rubio Café A
Bajo Rubio Azul O
Bajo Rubio Café A

 Entropía sistema: 0.954 bit
 • Entropía de la rama negro: 0
 • Entropía de la rama rojo: 0
 • Entropía de la rama rubio:
 Entropía de cabello respecto al sistema:
bit1)
2
1
(*log*)
2
1
()
2
1
(*log*)
2
1
( 22 
bit5.0)1(*)
8
4
()0(*)
8
1
()0(*)
8
3
( 

Ejemplo
 Ganancia de información al evaluar cabello:
 Entropía (I) - Entropía (I, cabello)
= 0.954 - 0.5 = 0.454 bit

Ejemplo
 Ganancia al evaluar los ojos
azul
cafe
ojos
Alto Rubio Café A
Bajo Rubio Café A
Alto negro Café A
Alto Negro Azul A
Bajo Negro Azul A
Alto Rubio Azul O
Alto Rojo Azul O
Bajo Rubio Azul O

 Entropía sistema: 0.954 bit
 Entropía de la rama café: 0
 Entropía de la rama azul:
 Entropía de ojos respecto al sistema:
bit971.0)
5
3
(*log*)
5
3
()
5
2
(*log*)
5
2
( 22 
bit607.0)0(*)
8
3
()971.0(*)
8
5
( 

Ejemplo
 Ganancia de información al evaluar ojos:
 Entropía (I) - Entropía (I, ojos)
= 0.954 – 0.607 = 0.347 bit

negro
rojo
rubio
cabello
Alto Negro Azul A
Bajo Negro Azul A
Alto Negro Café A
Alto Rojo Azul O
azul cafe
ojos
Alto Rubio Café A
Bajo Rubio Café A
Alto negro Café A
Alto Negro Azul A
Bajo Negro Azul A
Alto Rubio Azul O
Alto Rojo Azul O
Bajo Rubio Azul O

lluvioso templado normal No Jugar
lluvioso templado alta No Jugar
lluvioso frio normal No Jugar
nublado templado alta Si Jugar
nublado frio normal Si Jugar
nublado calor normal No Jugar
nublado calor alta No Jugar
soleado templado normal Si Jugar
soleado frio normal No Jugar
lluvioso templado alta Si No Jugar
lluvioso frio normal Si No Jugar
soleado templado alta No No Jugar
soleado calor alta Si No Jugar
soleado calor alta No No Jugar

Ambiente Temperatura
Jugar
Jugar
No
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
Jugar
No
Jugar
soleado
nublado
lluvioso caliente frio
Jugar
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
templado

Humedad Viento
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
No
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
No
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
No
Jugar
alta normal nosi

Información del Sistemas
 No se considera ningun atributo
940.0
5305.04097.0
)
14
5
(log*)
14
5
()
14
9
(log*)
14
9
(])5,9([ 22


IS

Información
 De cada rama
 ISoleado ([2,3])=0.5287+0.4421  0.971
 INublado ([4,0])=0
 ILluvioso ([3,2]) = 0.4421 + 0.5287  0.971
 Del atributo
 IAmbiente =
693.0
971.0*
14
5
0*)
14
4
(971.0*)
14
5
(



Ganancia
 GAmbiente = IS – IAmbiente
 = 0.940 – 0.693 = 0.247
 GTemperatura = IS – ITemperatura
 =0.940 – 0.911 = 0.029
 GHumeda = IS – IHumedad
 =0.940 – 0.788 = 0.152
 GViento = IS – IViento
 =0.940 – 0.892 = 0.048

Ambiente
soleado
……
Temperatura
No
Jugar
No
Jugar
Jugar
caliente
frio
Jugar
No
Jugar
templado
Ambiente
soleado
……
Humedad
No
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
alta normal
Ambiente
soleado
……
Viento
Jugar
Jugar
No
Jugar
No
Jugar
Jugar
No
Jugar
alta no

Ambiente – Soleado
 ISAmbiente = 0.971
 ITemperatura = 0.4
 GTemperatura = 0.571
 IHumedad = 0
 GHumedad = 0.971
 IViento = 0.95098
 Gviento = 0.020

Ambiente – Lluvioso
 ISAmbiente = 0.971
 ITemperatura = 0.95098
 GTemperatura = 0.20
 IHumedad = 0.95098
 GHumedad = 0.20
 IViento = 0
 Gviento = 0.971

Ambiente
Soleado
Humedad
Jugar
normal
No
Jugar
alta
Viento
Lluvioso
Nublado
Jugar
No
Jugar
Si
Jugar
No

Arboles de Decisión
a < b
b < c a < c
a < c b < cOrder is
a < b < c
Order is
b < a < c
Order is
a < c < b
Order is
c < a < b
Order is
b < c < a
Order is
c < b < a
Si (a<b)^(b<c)  a < b < c
• Si (a<b)^(b>c)^(a<c)  a < c < b
...
• Si (a>b)^(a>c)^(b>c)  c < b < a

Atributos
 Numéricos
 Binario
 Seleccionar un punto
 Calcular la información de la misma forma
 Preprocesamiento: Ordenar
 ¿Reordenar?

Atributos
 Faltantes
 ¿es relevante?
 Ignorar instancias
 un nuevo valor del atributo
 Dividir y enviar a cada rama en proporción al
número de instancias que van a cada rama
considerando el conjunto de entrenamiento.

Applet de Prueba
 Para hacer algunos experimentos y comprobar
resultados, pueden acudir a la siguiente
dirección:
 http://webdocs.cs.ualberta.ca/~aixplore/learning/
DecisionTrees/Applet/DecisionTreeApplet.html

Reglas de Clasificación :
Antecedente → Consecuente
 Antecedente: precondiciones, son la serie de
pruebas que se realizan sobre los atributos.
 Conjuntivas ("cumplen para que la regla tenga
éxito”)
 Pueden ser expresiones lógicas.
 Consecuente: conclusión, da la clase o clases
que aplican a las instancias cubiertas por la
regla
 Las reglas son disyuntivas
 Posibles conflictos
Tecnologías:
1-Rule
PRISM

Modelo Estadístico
 Todos los atributos contribuyen
 Los atributos se consideran:
 Iguales en importancia
 Independientes
 Se toma en cuenta la frecuencia del par atributo-
valor por clase
 No realista, ¡pero funciona!

Modelo Estadistico
 Está basado en la regla de probabilidad
condicional de Bayes
 Si se tiene una hipótesis H, y una evidencia E
entonces:
 P[H|E] = P[E|H] P[H]/ P[E]
 H : Play=Yes
 E : Combinación de valores del nuevo día

Naïve Bayes
 Los números encontrados se convierten en
probabilidades normalizandolos de forma que
sumen 1
][
]|[]|[]|[]|[
]|[ 4321
EP
HEPHEPHEPHEP
EHP


]|[...]|[
][]|[...]|[
]|[
1
1
1
m
n
HEPHEP
HPHEPHEP
EHP




Ejemplo
AmbienteGolf Temperatura Golf Humedad Golf Viento Golf
lluvioso Jugar calor Jugar alta Jugar No Jugar
lluvioso Jugar calor Jugar alta Jugar No Jugar
lluvioso Jugar calor No Jugar alta Jugar No Jugar
lluvioso No Jugar calor No Jugar alta No Jugar No Jugar
lluvioso No Jugar frio Jugar alta No Jugar No Jugar
nublado Jugar frio Jugar alta No Jugar No Jugar
nublado Jugar frio Jugar alta No Jugar No No Jugar
nublado Jugar frio No Jugar normal Jugar No No Jugar
nublado Jugar templado Jugar normal Jugar Si Jugar
soleado Jugar templado Jugar normal Jugar Si Jugar
soleado Jugar templado Jugar normal Jugar Si Jugar
soleado No Jugar templado Jugar normal Jugar Si No Jugar
soleado No Jugar templado No Jugar normal Jugar Si No Jugar
soleado No Jugar templado No Jugar normal No Jugar Si No Jugar

Frecuencias
Probabilidades Observadas
Probabilidad a Priori
Ambiente Temperatura Humedad Viento
Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar
Soleado Caliente Alta Si
Nublado Templado Normal No
Lluvia Frio
Golf
Jugar No Jugar

Ejemplo
Soleado 2 3 Caliente 2 2 Alta 3 4 Si 3 3
Nublado 4 0 Templado 4 2 Normal 6 1 No 6 2
Lluvia 3 2 Frio 3 1
Soleado 2/9 3/5 Caliente 2/9 2/5 Alta 3/9 4/5 Si 3/9 3/5
Nublado 4/9 0/5 Templado 4/9 2/5 Normal 6/9 1/5 No 6/9 2/5
Lluvia 3/9 2/5 Frio 3/9 1/5
Golf Golf
Jugar No Jugar Jugar No Jugar
9 5 9/14 5/14

Ejemplo
 Nuevo día
Soleado Frio Alta Si ?
Posibilidad de Jugar = 2/9*3/9*3/9*3/9*9/14 = 0.0053
Posibilidad de No Jugar = 3/5*1/5*4/5*3/5*5/14 = 0.0206
Probabilidad de Jugar = 0.0053/(0.0053+0.0206) = 20.5%
Probabilidad de No Jugar = 0.0206/(0.0053+0.0206) = 79.5%

Ejercicio Lentes de Contacto
Lentes de Contacto
Edad Problema Astigmatismo Prod. Lágrimas Lentes
Joven Miopía No Reducida Ninguno
Joven Miopía No Normal Blandos
Joven Miopía Si Reducida Ninguno
Joven Miopía Si Normal Duros
Joven Hipermetropía No Reducida Ninguno
Joven Hipermetropía No Normal Blandos
Joven Hipermetropía Si Reducida Ninguno
Joven Hipermetropía Si Normal Duros
Adulto Miopía No Reducida Ninguno
Adulto Miopía No Normal Blandos
Adulto Miopía Si Reducida Ninguno
Adulto Miopía Si Normal Duros
Adulto Hipermetropía No Reducida Ninguno
Adulto Hipermetropía No Normal Blandos
Adulto Hipermetropía Si Reducida Ninguno
Adulto Hipermetropía Si Normal Ninguno
Anciano Miopía No Reducida Ninguno
Anciano Miopía No Normal Ninguno
Anciano Miopía Si Reducida Ninguno
Anciano Miopía Si Normal Duros
Anciano Hipermetropía No Reducida Ninguno
Anciano Hipermetropía No Normal Blandos
Anciano Hipermetropía Si Reducida Ninguno
Anciano Hipermetropía Si Normal Ninguno

Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D
Adulto 2 5 0Hipermetropia 2 7 1Si 4 6 0Normal 4 3 3
Anciano 0 6 1Miopia 2 7 2No 0 8 3Reducido 0 11 0
Joven 2 3 2
Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D
Adulto 2/4 5/14 0/3Hipermetropia 2/4 7/14 1/3Si 4/4 6/14 0Normal 4/4 3/14 3/3
Anciano 0/4 6/14 1/3Miopia 2/4 7/14 2/3No 0/4 8/14 3/3Reducido 0/4 11/14 0/3
Joven
Lentes
B N D
4 14 3
4/21 14/21 3/21
Edad Problema Astigmatismo Lagrimeo Lentes
Joven Hipermetropia No Reducida ?
Adulto Miopia Si Normal ?
Anciano Hipermetropia No Normal ?

Soluciones
 Ej1)
 Pos B = (2/4)*(2/4)*(4/4)*(0)*(4/21) = 0
 Pos D = (2/3)*(1/3)*(0)*(0)*(3/21) = 0
 Pos N = (3/14)*(7/14)*(6/14)*(11/14)*(14/21)=0.024 Pr=100%
 Ej2)
 Pos B = (2/4)*(2/4)*(0)*(1)*(4/21) = 0
 Pos D = (0)*(1/3)*(3/4)*(1)*(3/21) = 0
 Pos N = (5/14)*(7/14)*(8/14)*(3/14)*(14/21)=0.00145
Pr=100%
 Ej3)
 Pos B = (0/14)*… = 0
 Pos D = (1/3)*(1/3)*(0)*… = 0
 Pos N = (6/14)*(7/14)*(6/14)*(3/14)*(14/21)=0.00131

Problemas
 Valores de un atributo que no se presentan.
 La probabilidad de la clase dado que el atributo
tiene el valor ausente sería cero causando que
todo el término sea cero.
 La corrección es agregar uno a cada valor y
compensar. (Estimador de Laplace MF. P) 2/9,
3/9, 4/9 cambian por 3/12, 4/12, 5/12

Problemas
 Valores Faltantes
 Nueva instancia: se omite
 Conj. Entrenamiento: no cuenta
 Atributos numéricos
 Se supone que tienen una distribución de
probabilidad “Normal” o “Gaussiana”
 Se calcula la media x y la desviación estándar

Atributos Numéricos
n
x
x
n
i
i
 1
1
][
1
2




n
xx
n
i
i

2
2
2
)(
2
1
)( 




x
exf

Ejemplo
nublado 64 65Si Jugar
lluvioso 65 70Si No Jugar
lluvioso 68 80No Jugar
soleado 69 70No Jugar
lluvioso 71 91Si No Jugar
soleado 72 95No No Jugar
nublado 72 90Si Jugar
soleado 75 70Si Jugar
soleado 80 90Si No Jugar
nublado 81 75No Jugar
nublado 83 86No Jugar
soleado 85 85No No Jugar

Jugar
No
Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar
Soleado 2 3 85 85 86 85 No 6 2 9 5
Templado 4 0 70 80 96 90 Si 3 3
Lluvia 3 2 68 65 80 70
64 72 65 95
69 71 70 91
75 80
75 70
72 90
81 75
Soleado 2/9 3/5Media 73 74,6Media 79,1 86,2 No 6/9 2/5 9/14 5/14
Templado 4/9 0/5DesEst 6,2 7,9DesEst 10,2 9,7 Si 3/9 3/5
Lluvia 3/9 2/5
Golf
Soleado 66 90 Si
? 0340.0
2.6*2
1
)|66(
2
2
)2.6(2
)7366(


eJugarTf


Ejemplo
 Posibilidad Jugar:
 (2/9)*0.034*0.0221*(3/9)*(9/14) =0.000036
 Pos No Jugar
 (3/5)*0.0279*0.038*(3/5)*(5/14) =0.000136
 Probabilidad Jugar:
 0.000036/(0.000036+0.000136)=20.9%
 Probabilidad No Jugar:
 0.000136/(0.000036+0.000136)=79.1%

Inferencia de Reglas
 Algoritmo de cobertura.
 Considerar cada clase buscando la forma de
cubrir todas las instancias en la clase, y al mismo
tiempo excluir a las instancias que no pertenecen
a la clase.
 Es llamado de cobertura porque en cada etapa
se identifica una regla que “cubre” la mayoría de
las instancias.

Método PRISM
 Para cada clase se busca construir las reglas
(agregando términos), que cubran todas las
instancias de esa clase.
 Al agregar un termino, suponga que la nueva
regla cubre un total de t instancias, de las cuales
p son ejemplos de la clase y t-p están en otras
clases (errores de la regla).
 • Escoger el término que maximiza p/t

x
y
b
b
b
b
bb
b
b
b
b
ba
a
a
aa
b
b
b
b
b
b
b
b
b
b
ba
a
a
a
a
1.2
y 2.6
b
b
b
b
b
b
b
b
b
bb
a
a
a
a
a
1.2
x>1.2
y>2.6
b
No Si
No Si
ab
Espacio de
las Instancias
Regla hasta
el momento
Regla después
de añadir un
nuevo término

Método PRISM
 Para cada clase C
 Inicializar E con el conjunto de instancias
Mientras E contenga instancias de la clase C
 Crear la regla R: ?  C
 Hasta que R sea perfecta (o  más atributos)
haz:
 Para cada atributo A no mencionado en R, y
valor v

Método PRISM
 Considerar agregar A=v en el lado Izquierdo de
R
 Seleccionar A y v que maximicen la precisión
p/t (si existen iguales escoger el de mayor p)
 Agregar A=v a R
 Eliminar las instancias cubiertas por R de E

Lentes de Contacto
Joven Miopía No Reducida Ninguno
Joven Miopía No Normal Blandos
Joven Hipermetropía No Reducida Ninguno
Joven Hipermetropía No Normal Blandos
Adulto Miopía No Reducida Ninguno
Adulto Miopía No Normal Blandos
Adulto Hipermetropía No Reducida Ninguno
Adulto Hipermetropía No Normal Blandos
Anciano Miopía No Reducida Ninguno
Anciano Miopía No Normal Ninguno
Anciano Hipermetropía No Reducida Ninguno
Anciano Hipermetropía No Normal Blandos

Ejemplo: Lentes
 Si ?  Duros
 Edad
 Joven 2/8 0.25
 Adulto 1/8 0.125
 Anciano 1/8 0.125
 Problema
 Miopía 3/12 0.25
 Hipermetropía 1/12 0.083
 Astigmatismo
 Si 4/12 0.333
 No 0/12 0
 Producción de Lágrimas
 Reducida 0/12 0
 Normal 4/12 0.333
Si (Astigmatismo = Si)  Duros

 Si (Astigmatismo = Si)  ?  Duros
 Edad
 Joven 2/4 0.5
 Adulto 1/4 0.25
 Anciano 1/4 0.25
 Problema
 Miopía 3/6 0.5
 Producción de Lágrimas
 Reducida 0/6 0
 Normal 4/6 0.666
Si (Astigmatismo = Si)  (Producción de Lágrimas=Normal)  Duros
Lentes de Contacto

 Si (Astigmatismo = Si  Producción de Lágrimas=Normal)  ?
 Duros
 Edad
 Joven 2/2 1
 Adulto 1/2 0.5
 Anciano 1/2 0.5
 Problema
 Miopía 3/3 1
Si (Astigmatismo = Si  Producción de Lágrimas=Normal 
Problema=Miopía)  Duros
Lentes de Contacto

Reglas para Lentes = Duros
 Si (Astigmatismo = Si  Producción de
Lágrimas=Normal  Problema=Miopía)  Duros
 Si (Edad = Joven  Astigmatismo = Si 
Producción de Lágrimas = Normal)  Duros

Reglas de Asociación
 Similares a las reglas de clasificación
 Pueden predecir cualquier atributo, no solo la
clase, o predecir combinaciones de atributos.
 Las diferentes reglas de asociación expresan
diferentes regularidades que yacen en el
conjunto de datos y generalmente predicen cosa
diferentes.

 Se centra el interés en las reglas que aplican a
un número grande de instancias y que tiene una
precisión alta en las instancias en las que aplica.
 La cobertura de una regla de asociación es el
número de instancias para las cuales ella predice
correctamente (soporte).
 La precisión (confianza) es el número de
instancias que predice correctamente, expresado
como una proporción de todas las instancias a
las que se aplica

 Son similares a las reglas de clasificación.
 Cualquier expresión puede ocurrir del lado derecho
de la regla.
 Puede utilizarse el mismo procedimiento de inducción
de reglas para cada posible combinación de atributos.
 Pares de atributo - valor que tengan una cobertura
mínima (item)
 Combinaciones de items (itemset)

 Los 1-itemset se obtienen con la frecuencia de
 cada item.
 Los candidatos de los n-itemset se obtienen del
(n-1)-itemset.
 Los candidatos de los 2-itemset se obtienen del
1-itemset: Se buscan pares de valores de
atributos diferentes.
!)!(
!
rrn
n
r
n








1-itemset: Se buscan pares de valores de
atributos diferentes.
 Valores: Atr 1: A, B, C Valores Atri 2: D, E
 Quedan: (A,D), (A, E), (B, D), (B, E), (C,D),(C,E)
 Se elimina: (A, B), (A, C), (B,C), (D, E) ya que son
valores del mismo atributo.
10
2*6
120
!2)!25(
!5
!)!(
!










rrn
n
r
n

1-ITEM-SORT 2-ITEM
Nublado(4) Nublado(4) Calor(4) 1
Lluvioso(5) Nublado(4) Frio(4) 1
Soleado(5) Nublado(4) Templado(6) 2
Calor(4) Nublado(4) Alta(7) 2
Frio(4) Nublado(4) Normal(7) 2
Templado(6) Nublado(4) No(6) 2
Alta(7) Nublado(4) Si(8) 2
Normal(7) Nublado(4) No Jugar(5) 0
No(6) Nublado(4) Jugar(9) 4
Si(8) Lluvioso(5) Calor(4) 0
No Jugar(5) Lluvioso(5) Frio(4) 2
Jugar(9) Lluvioso(5) Templado(6) 3
Lluvioso(5) Alta(7) 2
Lluvioso(5) Normal(7) 3
Lluvioso(5) No(6) 3
Lluvioso(5) Si(8) 2
Lluvioso(5) No Jugar(5) 2
Lluvioso(5) Jugar(9) 3

1-ITEM-SORT Soleado(5) Calor(4) 2
Nublado(4) Soleado(5) Frio(4) 1
Lluvioso(5) Soleado(5) Templado(6) 2
Soleado(5) Soleado(5) Alta(7) 3
Calor(4) Soleado(5) Normal(7) 2
Frio(4) Soleado(5) No(6) 3
Templado(6) Soleado(5) Si(8) 2
Alta(7) Soleado(5) No Jugar(5) 3
Normal(7) Soleado(5) Jugar(9) 2
No(6) Calor(4) Alta(7) 3
Si(8) Calor(4) Normal(7) 1
No Jugar(5) Calor(4) No(6) 3
Jugar(9) Calor(4) Si(8) 1
Calor(4) No Jugar(5) 2
Calor(4) Jugar(9) 2
Frio(4) Alta(7) 0
Frio(4) Normal(7) 4
Frio(4) No(6) 2
Frio(4) Si(8) 2
Frio(4) No Jugar(5) 1
Frio(4) Jugar(9) 3

1-ITEM-SORT Templado(4) Alta(7) 4
Nublado(4) Templado(4) Normal(7) 2
Lluvioso(5) Templado(4) No(6) 3
Soleado(5) Templado(4) Si(8) 3
Calor(4) Templado(4) No Jugar(5) 2
Frio(4) Templado(4) Jugar(9) 4
Templado(6) Alta(7) No(6) 4
Alta(7) Alta(7) Si(8) 3
Normal(7) Alta(7) No Jugar(5) 4
No(6) Alta(7) Jugar(9) 3
Si(8) Normal(7) No(6) 4
No Jugar(5) Normal(7) Si(8) 3
Jugar(9) Normal(7) No Jugar(5) 1
Normal(7) Jugar(9) 6
No(6) No Jugar(5) 2
No(6) Jugar(9) 6
Si(8) No Jugar(5) 3
Si(8) Jugar(9) 3

 Candidatos de los n-itemset se obtienen del (n-
1)-itemset.
2-itemset de la siguiente forma:
 Deben coincidir en los (n-2) elementos del
itemset
 2-ITEMSET: (A, B), (A, C), (B,C), (B, C)
 Potenciales: (A, B, C), (B, C, D)
 Quedan: (A, B, C)
 Se elimina: (B, C, D) ya que (C, D) no existe

2-ITEM 3-ITEM
Nublado Calor 2Nublado Calor Alta 1
Nublado Alta 2Nublado Calor Normal 1
Nublado Normal 2Nublado Calor Normal 2
Nublado No 2Nublado Calor Si 0
Nublado Si 2Nublado Calor Jugar 4
Nublado Jugar 4Nublado Alta Normal 1
Calor Alta 2Nublado Alta Si 1
Calor No 3Nublado Alta Jugar 2
Calor No Jugar 2Nublado Normal Normal 1
Calor Jugar 3Nublado Normal Si 1
Alta No 3Nublado Normal Jugar 2
Alta Si 2Nublado No Jugar 3
Alta No Jugar 2Nublado Si Jugar 2
Alta Jugar 3Lluvioso Frio Alta 0
Normal No Jugar 2Lluvioso Frio Normal 2
Normal Jugar 2Lluvioso Frio No 1
Normal No Jugar 3Lluvioso Frio Si 1
No No Jugar 2Lluvioso Frio No Jugar 1
No Jugar 3Lluvioso Frio Jugar 1
Si No Jugar 2Lluvioso Templado Alta 2
Si Jugar 3Lluvioso Templado Normal 1

4-ITEMSET
Nublado Calor No Jugar 2
Lluvioso Templado No Jugar 2
Lluvioso Normal No Jugar 2
Soleado Calor Alta No Jugar 2
Soleado Alta No No Jugar 2
Frio Normal No Jugar 2

Itemsets Generados
 La cantidad de elementos por itemsets son:
 1-itemsets 12
 2-itemsets 47
 3-itemsets 39
 4-itemsets 7

Reglas de asociación
 Las reglas se obtienen a partir de los itemsets
Humedad = normal, Viento = no, Golf = jugar
 Esto nos lleva a las 7 reglas potenciales:
 If Humedad = normal  Viento = no  Golf = Jugar
4/4
 If Humedad = normal  Golf = jugar  Viento = no
4/6
 If Viento = no  Golf = jugar  Humedad = normal
4/7
 If Humedad = normal  Viento = no  Golf = jugar
4/6
 If Viento = no  Humedad = normal  Golf = jugar
4/8

Reglas de Asociación cov
1humedad=normal viento=no  golf=jugar 4
2temperatura=frio  humedad=normal 4
3ambiente=nublado  golf=jugar 4
4temperatura = frio  golf = jugar  humedad = normal 3
5ambiente=lluvioso  viento =no  golf=jugar 3
6ambiente=lluvioso  golf=jugar  viento=no 3
7ambiente=soleado  humedad=alta  golf=no jugar 3
8ambiente=soleado  golf=no jugar  humedad=alta 3
9temperatura=frio  viento=no  humedad=normal  golf=jugar 2
10temperatura=frio  viento=no humedad=normal  golf=jugar 2
11temperatura=frio  viento=no golf=jugar  humedad=normal 2
12ambiente=lluvioso humedad=normal  viento=no  golf=jugar 2
13ambiente=lluvioso humedad=normal  golf=jugar  viento=no 2
14ambiente=lluvioso temperatura=templado  viento=no  golf=jugar 2
15ambiente=lluvioso temperatura=templado  golf=jugar  viento=no 2
16temperatura=templado  viento=no  golf=jugar  ambiente=lluvioso 2
17ambiente=nublado temperatura=calor  viento=no  golf=jugar 2
18ambiente=nublado viento=no  temperatura=calor  golf=jugar 2
19temperatura=calor  golf=jugar  ambiente=nublado viento=no 2
20ambiente=nublado  temperatura=calor viento=no  golf=jugar 2
21ambiente=nublado  temperatura=calor golf=jugar  viento=no 2
22ambiente=nublado  viento=no golf=jugar  temperatura=calor 2
23temperatura=calor  viento = no  golf = jugar  ambiente = nublado 2
…
58ambiente=soleado temperatura=calor  humedad=alta 2

4-Itemset
 Elementos 3-ITEMSET (A,B,C), (A, B, D),
(A,C,D), (A,C,E), (B,C,D)
 Potenciales ITESMSET-4 (A, B, C, D), (A, C, D,
E)
 Queda (A, B, C, D)
 Se elimina (A, C, D, E) porque (C, D, E) no existe
(no cumple la cobertura)

Conjunto Final de Reglas
 3 Reglas con cobertura 4
 Total 58 Reglas

Regla de los 3-Itemset
 (A, B, C)
1. Si A, B  C
2. Si B, C  A
3. Si A, C  B
4. Si A  B, C
5. Si B  A, C
6. Si C  A, B
7. Si -  A, B, C

Agrupamiento (Clustering)
 Las técnicas de agrupamiento se aplican cuando
no hay propiamente una clase que predecir sino
cuando las instancias se dividen en grupos de
forma natural.
 Es una técnica de minería de datos no dirigida.
 El agrupamiento requiere de técnicas diferentes a
las de clasificación y asociación.

Diagramas
 En el agrupamiento, la salida es un diagrama que
muestra como las instancias forman grupos.
 Se asocia un número de grupo a cada instancia
 grupos disjuntos
 grupos traslapados
 probabilidad de pertenencia a un grupo
 Jerarquía

1 2 3
a 0,4 0,1 0,5
b 0,1 0,8 0,1
c 0,3 0,3 0,4
d 0,1 0,1 0,8
e 0,4 0,1 0,5
f 0,1 0,4 0,5
g 0,7 0,2 0,1
h
…
e
c
b
d
j
h
a
k
g
i f
i
f
bc
e
h
d
a
j
kg
g a c i e d k b j f h

Agrupamiento
 Los mapeos auto-organizables: forma
especializada de red neuronal.
 K-Medias (K-Means): agrupamiento iterativo
basado en distancias.
 Agrupamiento incremental.
 EM-Algorithm: Expectation Maximization.

Minería de Datos
 Dependiendo de la meta que se persigue en la
minería de datos, se requiere la aplicación de
una técnica diferente.
 Metas:
 Prescriptiva: automatizar el proceso de toma de
decisiones (clasificación, predicción).
 Descriptiva: Incrementar el entendimiento de lo
que sucede en los datos y del mundo que reflejan.
(agrupamiento - clustering)

Diferencias
 Analizar la respuesta a una oferta
 Entradas: Finanzas, Estilo de vida
 Projecto 1: producir un modelo que dé a cada
prospecto una puntuación de cómo responderá a
la oferta
 Projecto 2: Entender las causas de la respuesta
para mejorar futuros esfuerzos

Minería de Datos
 Dirigida: La meta principal es predecir, estimar,
clasificar ó caracterizar el comportamiento de
algun atributo, prevíamente identificado, en
términos de un conjunto de variables de entrada.
 No dirigida: La meta es descubrir una estructura
en el conjunto de datos

Agrupamiento (Clustering)
 Las técnicas de agrupamiento se aplican cuando
no hay propiamente una clase que predecir sino
cuando las instancias se dividen en grupos de
forma natural.
 Es una técnica de minería de datos no dirigida.
 El agrupamiento requiere de técnicas diferentes a
las de clasificación y asociación

Agrupamiento
 Se genera un diagrama que muestra cómo las
instancias forman grupos.
 En el caso más simple, se asocia un número de
grupo a cada instancia. Se colocan las instancias
en dos dimensiones y se particiona el espacio
para mostrar cada cluster (disjuntos).
e
c
b
d
j
h
a
k
g
i
f

Agrupamiento
 Algunos algoritmos permiten que una
 instancia pertenezca a dos grupos (clusters)
 La representación se puede visualizar mediante
diagramas de Venn
i
f
bc
e
h
d
a
j
kg

Agrupamiento
 Otros algoritmos
asocian a las
instancias con los
grupos de manera
probabilística.
 En este caso para
cada instancia
existe una
probabilidad o
grado de
pertenencia a cada
1 2 3
a 0,4 0,1 0,5
b 0,1 0,8 0,1
c 0,3 0,3 0,4
d 0,1 0,1 0,8
e 0,4 0,1 0,5
f 0,1 0,4 0,5
g 0,7 0,2 0,1
h
…

Agrupamiento
 Otros producen una
estructura jerárquica de
clusters.
 Los elementos unidos
en niveles inferiores
tienen una mayor
cohesión que los de
niveles superiores.
g a c i e d k b j f h

Agrupamiento
 Enfoques matemáticos.
 Los métodos son Divisivos y Aglomerativos
 Se define alguna medida del valor de la partición
del conjunto de clusters.
 La medida es almacenada para decidir al final del
proceso cuál partición es la mejor.

Métodos Divisivos
 Inician considerando todas las instancias como
parte de un gran grupo (cluster) .
 El cluster inicial se divide en dos o más clusters.
 Estos clusters se dividen sucesivamente.
 Hasta que cada instancia tiene su propio cluster.

Métodos Aglomerativos
 Otros métodos son llamados aglomerativos.
 Iniciar con cada instancia en un grupo (cluster).
 Iterativamente se combinan los clusters.
 Termina cuando sólo hay un cluster.

Agrupamiento
 Los mapeos auto-organizables: forma
especializada de red neuronal.
 K-Medias (K-Means): agrupamiento iterativo
basado en distancias.
 Agrupamiento incremental
 EM-Algorithm: Expectation Maximization

Agrupamiento Iterativo Basado en
Distancia
K- Medias
 K-medias es uno de los algoritmos más
ampliamente utilizado en herramientas
comerciales de minería de datos.
 K-medias trabaja mejor cuando la entrada de
datos es numérica principalmente.

K-Medias
 ¿Cómo funciona?
 Divide el conjunto de datos en un número
predeterminado de clusters.
 Ese número es K, de aquí el nombre.

K-Medias
 ¿Cómo funciona?
 La media es lo que los estadistas llaman
promedio.
 En este caso la media se refiere a la ubicación
promedio de los miembros de un grupo en
particular.

K-Medias
 ¿Ubicación? ¡Hablamos de Registros en una
Base de Datos!
 La respuesta viene de la geometría:
 Para formar los clusters, cada instancia es
asociada a un punto en el “espacio de instancias”
 Ese espacio tiene tantas dimensiones como
atributos hay en las instancias.

K-Medias
 El valor de cada atributo es interpretado como
una distancia a partir del origen y a lo largo del
eje correspondiente.
 Para que la interpretación sea útil, los atributos
deben ser convertidos a números y éstos deben
normalizarse para que los cambios en las
dimensiones sean comparables.

Algoritmo
 Las instancias son asignadas a clusters a través
de un proceso iterativo que inicia con clusters
centrados en localidades aleatorias en el espacio
de instancias y mueve los centroides del cluster
hasta que alguno de ellos se encuentre en
realidad en el centro de algún cluster.

0
1
2
3
4
5
6
7
8
0 2 4 6 8 10
Punto X Y
A 1,2 1
B 1,4 2
C 2 1,1
D 2,5 1,5
E 3,6 1,7
F 0,7 3
G 1,3 6
H 1,9 7,3
I 3 6,9
J 3,3 6
K 4 6
L 2,3 5
M 3,5 5
N 3 4
O 6,1 3,2
P 8 5,5
Q 9,1 4,9
R 8,1 4
S 8,6 3
T 7,5 2
 El parámetro K indica el
número de cluster que se
seleccionarán en este caso
K=3

Algoritmo
 Se seleccionan K puntos al azar cómo centros de
los clusters (F, N y O).
 Las instancias se asignan al centro del cluster
más cercano considerando la distancia de
Euclidiana.
2
22
2
1121
212211
)()(),(
,,
yxyxPPD
yyPxxP



Algoritmo
 Se
seleccionan K
puntos y se
asignan las
instancias al
centro del
cluster más
cercano
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10
Semilla 1
Semilla 2
Semilla 3

Límites
 Para dibujar los limites entre los clusters, basta
con recordar que si se tienen 2 puntos X y Y,
todos los puntos que están equidistantes desde X
y Y, caen en la línea que está a la mitad del
segmento que une a X y Y, y es perpendicular.
 Asi el punto del cuadro es asignado a el cluster
controlado por el centroide 2.

Ejemplo
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7 8 9 10
Semilla 1
Semilla 2
Semilla 3

Asignación
Punto X Y DF DN DO
A 1,2 1 2,06 3,50 5,37
B 1,4 2 1,22 2,56 4,85
C 2 1,1 2,30 3,07 4,61
D 2,5 1,5 2,34 2,55 3,98
E 3,6 1,7 3,18 2,38 2,92
F 0,7 3 0,00 2,51 5,40
G 1,3 6 3,06 2,62 5,56
H 1,9 7,3 4,46 3,48 5,87
I 3 6,9 4,53 2,90 4,83
J 3,3 6 3,97 2,02 3,96
K 4 6 4,46 2,24 3,50
L 2,3 5 2,56 1,22 4,20
M 3,5 5 3,44 1,12 3,16
N 3 4 2,51 0,00 3,20
O 6,1 3,2 5,40 3,20 0,00
P 8 5,5 7,72 5,22 2,98
Q 9,1 4,9 8,61 6,17 3,45
R 8,1 4 7,47 5,10 2,15
S 8,6 3 7,90 5,69 2,51
T 7,5 2 6,87 4,92 1,84
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10

Algoritmo
 Después se calculará el centroide, es decir, la
media de todas las instancias.
 Estos centroides serán los nuevos centros de los
clusters y el proceso se repite.
 La iteración continúa hasta que los mismos
puntos son asignados a cada cluster en rondas
consecutivas. En este momento los centroides se
han estabilizado.

Ejemplo
Grupo1 Grupo2 Grupo3
Punto X Y Punto X Y Punto X Y
A 1,2 1 E 3,6 1,7 O 6,1 3,2
B 1,4 2 G 1,3 6 P 8 5,5
C 2 1,1 H 1,9 7,3 Q 9,1 4,9
D 2,5 1,5 I 3 6,9 R 8,1 4
F 0,7 3 J 3,3 6 S 8,6 3
1,56 1,72 K 4 6 T 7,5 2
L 2,3 5 7,9 3,8
M 3,5 5
N 3 4
2,88 5,3
Medias

Ejemplo
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10

Clustering
 Si hay más de una dimensión, la distancia
euclidiana se calcula de la misma forma:
 En el caso de la media, se calcula la media para
cada dimensión.





ni
i
ii yxPPD
yyPxxP
1
2
21
212211
)(),(
,,

Consecuencias
 Tipo de preguntas que se pueden
responder
 Es una técnica de aprendizaje no dirigido, por lo
que puede ser aplicada sin un conocimiento a priori
de la estructura a ser descubierta.
 Dado que los grupos detectados automáticamente
no tienen una interpretación natural distinta, es
difícil poner los resultados en práctica.

Consecuencias
 Preparación de los datos
 Seleccionando diferentes medidas de distancias, el
clustering se puede aplicar a cualquier tipo de datos
(distancia entre textos). Sin embargo, la más usada
es la distancia Euclidiana.

Consecuencias
 Seleccionar el número adecuado para K
 Si el número no iguala a la estructura natural de
los datos, los resultados no son buenos.
 Si no se tiene una razón a priori para elegir el
número se debe probar con varios valores.

Consecuencias
 Los mejores conjuntos de clusters, son aquellos
en los que la distancia entre los miembros:
 Del mismo cluster es pequeña
 De clusters adyacentes es grande

Interpretación
 ¡Cuando no se sabe lo que se está buscando, no
se reconoce cuando se ha encontrado!
 Existen algunos enfoques para interpretar.
 Construir un árbol de decisión para explicar cómo
asignar las instancias al cluster correcto.
 Visualización para ver como se afectan los
clusters con los cambios.

Soporte TIC
http://www.youtube.com/watch?v=m7kpIBGEdkI

Mineríade datos

Recomendados

Recomendados

Más contenido relacionado

Similar a Mineríade datos

Similar a Mineríade datos (20)

Más de Juan Carlos García Ojeda

Más de Juan Carlos García Ojeda (13)

Último

Último (20)

Mineríade datos