2. Minería de Datos
“Knowledge is Power” Francis Bacon
http://upload.wikimedia.org/wikipedia/commons/a/a7/Pourbus_Francis_Bacon.jpg
3. Descubirmiento del Conocimiento y
Minería de Datos
TEMARIO
Fundamentos
Representación del Conocimiento
Clasificación
Asociación
Agrupamiento
4. Fundamentos
¿Porqué son necesarios KDD y DM?
¿Qué es el descubrimiento del conocimiento en
bases de datos (KDD)?
¿Qué es la minería de datos (DM)?
¿Cuáles son los objetivos?
¿Que disciplinas intervienen?
5. Motivación
Información: Conjunto de patrones o
modelos especificados como reglas de
clasificación o asociación, entre otros.
ITESM-UNAB, Curso Minería de Datos, 2003
6. Motivación
Creciente Volúmen de Datos
Bases de Datos
Almacenes de Datos (Datawerehouse)
Archivos
¿Capacidad de análisis?
ITESM-UNAB, Curso Minería de Datos, 2003
7. Motivación
Riqueza de datos recolectados, almacenados y a
los que se ha dado un mantenimiento.
Incapacidad para descubrir la información
inmersa en los datos. ¿cómo?
Técnicas Estadísticas
8. Motivación
Los grandes volúmenes de datos han rebasado
la capacidad de analizarlos usando las técnicas
tradicionales de análisis de la información.
Extraer el conocimiento para tomar buenas
decisiones (e.g., tratamiento médico, promoción y
prevención) y aprovechar las oportunidades
9. Descubrimiento del conocimiento en
Bases de Datos (KDD)
KDD es el proceso de preparación de los datos,
extracción de patrones, y validación de los
modelos o predicción; mientras que Minería de
Datos e refiere únicamente a la extracción de
patrones.
Datos
Datos
Elegidos
Datos
Transformados
Patrones Conocimiento
Interpretación
Minería de DatosSelección
de los Datos
Pre-procesamiento
Transformación
10. Minería de Datos
La minería de datos es el proceso de extraer
información válida, novedosa, comprensible y
potencialmente útil.
El aprendizaje automático ofrece las técnicas
para la Minería de datos.
Datos
Minería de
Datos
Decisión
Información
Conocimiento
fácilmente útil
Integración
de los Datos
11. Minería de Datos
Es el proceso de extraer información válida,
novedosa, comprensible y potencialmente útil.
Información (Niveles)
Datos: Datos en bruto
Información: Manipulación de variables
Conocimiento: Atribución a causas
Sabiduria: Saber sopesar el conocimiento
12. Minería de Datos
Validez : Nivel de certidumbre de la
información.
Al ser menos formal puede haber más mentiras.
“Cuando se compran pañales se compran bebidas
alcohólicas en el 50% de los casos”
13. Minería de Datos
Novedosa : La información obtenida era
desconocida
Evaluada por el ser humano
Verdades universales
“Si el genero del sujeto es femenino,
entonces puede ser que consulte al
ginecólogo” ó
“Si el genero del sujeto es masculino,
entonces no consulta al ginecólogo”
14. Minería de Datos
Comprensible : La información obtenida debe ser
legible al usuario.
“Los atributos: genero y tipo de doctor tienen una
correlación de .....”
“Si el genero del sujeto es masculino, entonces no
consulta al ginecólogo”
Útil : Ayuda a tomar una decisión ó a predecir
un comportamiento
15. Minería de Datos
Caso 1: Salud Pública
Información:
Válida:
Novedosa:
Comprensible:
Útil:
16. Minería de Datos
Es la búsqueda de relaciones y patrones globales
escondidos en los datos que existen en BD
grandes.
La relación entre los datos del paciente y su
diagnóstico medico.
Estas relaciones representan conocimiento
valioso acerca de la base de datos y los objetos
en ella, así como de si la BD es un espejo fiel, del
mundo registrado por ella.
17. Multidisciplinario
Bases de Datos
Inteligencia Artificial
Algoritmos
Computación del alto rendimiento
Estadística
Visualización
Aprendizaje automático
Minería de Datos
Reconocimiento de Patrones
Adquisición y Representación del Conocimiento
18. Aplicaciones
Comercio
Salud
Astronomía
Sistemas de Información Geográfica
Detección de Fraudes
Servicios Bancarios
Internet
19. Ética
Uso de los datos
Responsabilidad
Aplicado a Gente
(Blanca – Negra)
Discriminación
Sexual
Racial (áreas)
Religiosa
Información Personal
¿cómo será usada?
¿Para qué?
¿Protección?
¿vender, compartir?
20. Deducción vs. Inducción
Una BD es un almacén de información
confiable. Su propósito es recuperar
eficientemente la información almacenada en, o
inferida de la BD.
Desde una perspectiva lógica, dos técnicas de
inferencia pueden distinguirse:
Deducción
Inducción
21. Deducción vs. Inducción
La diferencia radica en que la deducción es el
resultado de enunciados correctos acerca del
mundo real (si la BD es correcta), mientras que
la inducción es el resultado de los enunciados
soportados en la BD (pueden no ser verdaderos
en el mundo real).
Inducción: Selección de las regularidades y
reglas más plausibles, soportadas por la BD.
La minería de Datos es una forma de
aprendizaje inductivo
22. Minería de Datos
Los patrones están representados en términos de
una estructura que puede ser examinada,
razonada y usada para tomar decisiones futuras.
La minería de datos trata de encontrar y describir
patrones estructurales en los datos con el fin
de ayudarnos a explicarlos y hacer predicciones.
23. Minería de Datos
Toma de decisiones
Representación
Clasificación
Agrupamiento
Visualización
24. Minería de Datos
Entrada: Conceptos, instancias y atributos
Proceso: Técnica de aprendizaje (Minería)
Salida: Representación del conocimiento
Aprendizaje
(patrones)
SalidaEntrada
25. Minería de Datos
El concepto: lo que hay que aprender
Los datos dados al aprendiz toma la forma de un
conjunto de instancias.
Cada instancia se caracteriza por un conjunto
de atributos (características) que miden
aspectos diferentes de la instancia (numéricos,
nominales y categóricos ordinales)
26. Ambiente Temperatura Humedad Viento Golf
lluvioso templado normal No Jugar
lluvioso templado alta No Jugar
lluvioso templado alta Si No Jugar
lluvioso frio normal No Jugar
lluvioso frio normal Si No Jugar
nublado templado alta Si Jugar
nublado frio normal Si Jugar
nublado calor normal No Jugar
nublado templado alta No Jugar
soleado templado normal Si Jugar
soleado templado alta No No Jugar
soleado frio normal No Jugar
soleado calor alta Si No Jugar
soleado calor alta No No Jugar
Atributos Concepto
I
n
s
t
a
n
c
i
a
s
27. Salida
Descripción del concepto: lo que hay que
aprender (inteligible y operacional)
La salida incluye una descripción de la
estructura, como representación explícita del
conocimiento adquirido y que puede usarse
para clasificar ejemplos nuevos.
29. Aprendizaje Automático
Un sistema de este tipo utiliza observaciones
codificadas, frecuentemente almacenadas en
un conjunto llamado de entrenamiento.
En el aprendizaje supervisado, el sistema
busca descripciones para las clases definidas
por el usuario y en el no supervisado
construye un sumario del conjunto de
entrenamiento, como un conjunto de clases
descubiertas y sus descripciones.
30. Minería de Datos
Supervisado (Dirigida): La meta principal es
predecir, estimar, clasificar ó caracterizar el
comportamiento de algún atributo, previamente
identificado, en términos de un conjunto de
variables de entrada.
No Supervisado (No dirigida): La meta es
descubrir una estructura en el conjunto de datos
32. Clasificación
Minería de datos dirigida: su objetivo es
clasificar ó caracterizar el comportamiento de un
atributo particular, en términos del resto.
Árboles
Reglas
33. Árboles de Decisión
Ambiente
Soleado Nublado Lluvia
Humedad VientoClase Jugar
Alta Normal Si No
Clase Jugar Clase JugarClase No JugarClase No Jugar
Tecnologías:
ID3,C4.5,C5,
Indice GINI
34. Árboles de Decisión
Utiliza la técnica de Divide y Conquista
Procedimiento inductivo
La salida es un árbol de decisión
Desarrollada y refinada por Ross Quinlan en la
Universidad de Sydney(Australia)
Conocido como ID3
35. Árboles de Decisión
Clasifica patrones con atributos no numéricos
Mejorado con el uso del radio de ganancia
Variaciones
C4.5,
C5
36. Árboles de Decisión
Puede expresarse recursivamente
Seleccionar un atributo
Colocar una rama para cada valor del atributo
Dividir las instancias en subconjuntos uno por cada
valor
Repetir el proceso para cada rama utilizando el sub-
conjunto apropiado
Si las instancias de una rama son de la misma clase, el
proceso termina para esa rama.
37. Ejemplo
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Rubio Azul O
Alto Rojo Azul O
Alto Rubio Café A
Bajo Rubio Azul O
Bajo Rubio Café A
Alto negro Café A
38. Por Atributo
Ojos Clase
Azul A
Azul A
Azul O
Azul O
Azul O
Café A
Café A
Café A
Estatura Clase
Alto A
Alto O
Alto O
Alto A
Alto A
Bajo A
Bajo O
Bajo A
Cabello Clase
Negro A
Negro A
Negro A
Rojo O
Rubio O
Rubio A
Rubio O
Rubio A
39. ¿Cuál es el mejor atributo?
Intuitivamente, cualquier hoja con instancias de
solo una clase no tendrá que dividirse después.
Se desea que quede un árbol pequeño.
Medida de la pureza de cada nodo.
Escoger el atributo que produzca los nodos hijos
mas puros.
40. Medida de Pureza
Información.
Se mide en fracciones de bit, y frecuentemente
es menor a 1.
Se asocia a cada nodo y se calcula con base al
número de instancias de cada clase en él.
Representa la cantidad de información esperada
que sería necesaria para especificar la clase de
una instancia dada.
41. Información
Propiedades esperadas
Cuando queda una sola clase, la información debe
ser cero
Cuando el número de instancias de cada clase es
igual, la información alcanza su máximo valor
La función que satisface estas propiedades es
conocida como entropía
42. Entropía
Información del Sistema
Información del atributo
Información de cada rama
Ganancia del atributo
Se busca el atributo que provee la mayor
ganancia en información.
)(log),...,,( 2
1
21 ni
n
i
n pppppEntropia
43. Información del Sistema
La entropía del sistema es
bit954.0)
8
3
(*log*)
8
3
()
8
5
(*log*)
8
5
( 22
44. Ejemplo
Ganancia de información al probar la
caracteristicas de Cabello
negro rojo
rubio
cabello
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Negro Café A
Estatura Cabello Ojos Clase
Alto Rojo Azul O
Estatura Cabello Ojos Clase
Alto Rubio Azul O
Alto Rubio Café A
Bajo Rubio Azul O
Bajo Rubio Café A
45. Entropía sistema: 0.954 bit
• Entropía de la rama negro: 0
• Entropía de la rama rojo: 0
• Entropía de la rama rubio:
Entropía de cabello respecto al sistema:
bit1)
2
1
(*log*)
2
1
()
2
1
(*log*)
2
1
( 22
bit5.0)1(*)
8
4
()0(*)
8
1
()0(*)
8
3
(
46. Ejemplo
Ganancia de información al evaluar cabello:
Entropía (I) - Entropía (I, cabello)
= 0.954 - 0.5 = 0.454 bit
47. Ejemplo
Ganancia al evaluar los ojos
azul
cafe
ojos
Estatura Cabello Ojos Clase
Alto Rubio Café A
Bajo Rubio Café A
Alto negro Café A
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Rubio Azul O
Alto Rojo Azul O
Bajo Rubio Azul O
48. Entropía sistema: 0.954 bit
Entropía de la rama café: 0
Entropía de la rama azul:
Entropía de ojos respecto al sistema:
bit971.0)
5
3
(*log*)
5
3
()
5
2
(*log*)
5
2
( 22
bit607.0)0(*)
8
3
()971.0(*)
8
5
(
49. Ejemplo
Ganancia de información al evaluar ojos:
Entropía (I) - Entropía (I, ojos)
= 0.954 – 0.607 = 0.347 bit
50. negro
rojo
rubio
cabello
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Negro Café A
Estatura Cabello Ojos Clase
Alto Rojo Azul O
azul cafe
ojos
Estatura Cabello Ojos Clase
Alto Rubio Café A
Bajo Rubio Café A
Alto negro Café A
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Rubio Azul O
Alto Rojo Azul O
Bajo Rubio Azul O
51. Ambiente Temperatura Humedad Viento Golf
lluvioso templado normal No Jugar
lluvioso templado alta No Jugar
lluvioso frio normal No Jugar
nublado templado alta Si Jugar
nublado frio normal Si Jugar
nublado calor normal No Jugar
nublado calor alta No Jugar
soleado templado normal Si Jugar
soleado frio normal No Jugar
lluvioso templado alta Si No Jugar
lluvioso frio normal Si No Jugar
soleado templado alta No No Jugar
soleado calor alta Si No Jugar
soleado calor alta No No Jugar
61. Arboles de Decisión
a < b
b < c a < c
a < c b < cOrder is
a < b < c
Order is
b < a < c
Order is
a < c < b
Order is
c < a < b
Order is
b < c < a
Order is
c < b < a
Si (a<b)^(b<c) a < b < c
• Si (a<b)^(b>c)^(a<c) a < c < b
...
• Si (a>b)^(a>c)^(b>c) c < b < a
62. Atributos
Numéricos
Binario
Seleccionar un punto
Calcular la información de la misma forma
Preprocesamiento: Ordenar
¿Reordenar?
63. Atributos
Faltantes
¿es relevante?
Ignorar instancias
un nuevo valor del atributo
Dividir y enviar a cada rama en proporción al
número de instancias que van a cada rama
considerando el conjunto de entrenamiento.
64. Applet de Prueba
Para hacer algunos experimentos y comprobar
resultados, pueden acudir a la siguiente
dirección:
http://webdocs.cs.ualberta.ca/~aixplore/learning/
DecisionTrees/Applet/DecisionTreeApplet.html
66. Reglas de Clasificación :
Antecedente → Consecuente
Antecedente: precondiciones, son la serie de
pruebas que se realizan sobre los atributos.
Conjuntivas ("cumplen para que la regla tenga
éxito”)
Pueden ser expresiones lógicas.
Consecuente: conclusión, da la clase o clases
que aplican a las instancias cubiertas por la
regla
Las reglas son disyuntivas
Posibles conflictos
Tecnologías:
1-Rule
PRISM
67. Modelo Estadístico
Todos los atributos contribuyen
Los atributos se consideran:
Iguales en importancia
Independientes
Se toma en cuenta la frecuencia del par atributo-
valor por clase
No realista, ¡pero funciona!
68. Modelo Estadistico
Está basado en la regla de probabilidad
condicional de Bayes
Si se tiene una hipótesis H, y una evidencia E
entonces:
P[H|E] = P[E|H] P[H]/ P[E]
H : Play=Yes
E : Combinación de valores del nuevo día
69. Naïve Bayes
Los números encontrados se convierten en
probabilidades normalizandolos de forma que
sumen 1
][
]|[]|[]|[]|[
]|[ 4321
EP
HEPHEPHEPHEP
EHP
]|[...]|[
][]|[...]|[
]|[
1
1
1
m
n
HEPHEP
HPHEPHEP
EHP
70. Ejemplo
AmbienteGolf Temperatura Golf Humedad Golf Viento Golf
lluvioso Jugar calor Jugar alta Jugar No Jugar
lluvioso Jugar calor Jugar alta Jugar No Jugar
lluvioso Jugar calor No Jugar alta Jugar No Jugar
lluvioso No Jugar calor No Jugar alta No Jugar No Jugar
lluvioso No Jugar frio Jugar alta No Jugar No Jugar
nublado Jugar frio Jugar alta No Jugar No Jugar
nublado Jugar frio Jugar alta No Jugar No No Jugar
nublado Jugar frio No Jugar normal Jugar No No Jugar
nublado Jugar templado Jugar normal Jugar Si Jugar
soleado Jugar templado Jugar normal Jugar Si Jugar
soleado Jugar templado Jugar normal Jugar Si Jugar
soleado No Jugar templado Jugar normal Jugar Si No Jugar
soleado No Jugar templado No Jugar normal Jugar Si No Jugar
soleado No Jugar templado No Jugar normal No Jugar Si No Jugar
71. Frecuencias
Probabilidades Observadas
Probabilidad a Priori
Ambiente Temperatura Humedad Viento
Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar
Soleado Caliente Alta Si
Nublado Templado Normal No
Lluvia Frio
Golf
Jugar No Jugar
72. Ejemplo
Ambiente Temperatura Humedad Viento
Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar
Soleado 2 3 Caliente 2 2 Alta 3 4 Si 3 3
Nublado 4 0 Templado 4 2 Normal 6 1 No 6 2
Lluvia 3 2 Frio 3 1
Ambiente Temperatura Humedad Viento
Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar
Soleado 2/9 3/5 Caliente 2/9 2/5 Alta 3/9 4/5 Si 3/9 3/5
Nublado 4/9 0/5 Templado 4/9 2/5 Normal 6/9 1/5 No 6/9 2/5
Lluvia 3/9 2/5 Frio 3/9 1/5
Golf Golf
Jugar No Jugar Jugar No Jugar
9 5 9/14 5/14
73. Ejemplo
Nuevo día
Ambiente Temperatura Humedad Viento Golf
Soleado Frio Alta Si ?
Posibilidad de Jugar = 2/9*3/9*3/9*3/9*9/14 = 0.0053
Posibilidad de No Jugar = 3/5*1/5*4/5*3/5*5/14 = 0.0206
Probabilidad de Jugar = 0.0053/(0.0053+0.0206) = 20.5%
Probabilidad de No Jugar = 0.0206/(0.0053+0.0206) = 79.5%
74. Ejercicio Lentes de Contacto
Lentes de Contacto
Edad Problema Astigmatismo Prod. Lágrimas Lentes
Joven Miopía No Reducida Ninguno
Joven Miopía No Normal Blandos
Joven Miopía Si Reducida Ninguno
Joven Miopía Si Normal Duros
Joven Hipermetropía No Reducida Ninguno
Joven Hipermetropía No Normal Blandos
Joven Hipermetropía Si Reducida Ninguno
Joven Hipermetropía Si Normal Duros
Adulto Miopía No Reducida Ninguno
Adulto Miopía No Normal Blandos
Adulto Miopía Si Reducida Ninguno
Adulto Miopía Si Normal Duros
Adulto Hipermetropía No Reducida Ninguno
Adulto Hipermetropía No Normal Blandos
Adulto Hipermetropía Si Reducida Ninguno
Adulto Hipermetropía Si Normal Ninguno
Anciano Miopía No Reducida Ninguno
Anciano Miopía No Normal Ninguno
Anciano Miopía Si Reducida Ninguno
Anciano Miopía Si Normal Duros
Anciano Hipermetropía No Reducida Ninguno
Anciano Hipermetropía No Normal Blandos
Anciano Hipermetropía Si Reducida Ninguno
Anciano Hipermetropía Si Normal Ninguno
75. Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D
Adulto 2 5 0Hipermetropia 2 7 1Si 4 6 0Normal 4 3 3
Anciano 0 6 1Miopia 2 7 2No 0 8 3Reducido 0 11 0
Joven 2 3 2
Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D
Adulto 2/4 5/14 0/3Hipermetropia 2/4 7/14 1/3Si 4/4 6/14 0Normal 4/4 3/14 3/3
Anciano 0/4 6/14 1/3Miopia 2/4 7/14 2/3No 0/4 8/14 3/3Reducido 0/4 11/14 0/3
Joven
Lentes
B N D
4 14 3
4/21 14/21 3/21
Edad Problema Astigmatismo Lagrimeo Lentes
Joven Hipermetropia No Reducida ?
Adulto Miopia Si Normal ?
Anciano Hipermetropia No Normal ?
76. Soluciones
Ej1)
Pos B = (2/4)*(2/4)*(4/4)*(0)*(4/21) = 0
Pos D = (2/3)*(1/3)*(0)*(0)*(3/21) = 0
Pos N = (3/14)*(7/14)*(6/14)*(11/14)*(14/21)=0.024 Pr=100%
Ej2)
Pos B = (2/4)*(2/4)*(0)*(1)*(4/21) = 0
Pos D = (0)*(1/3)*(3/4)*(1)*(3/21) = 0
Pos N = (5/14)*(7/14)*(8/14)*(3/14)*(14/21)=0.00145
Pr=100%
Ej3)
Pos B = (0/14)*… = 0
Pos D = (1/3)*(1/3)*(0)*… = 0
Pos N = (6/14)*(7/14)*(6/14)*(3/14)*(14/21)=0.00131
77. Problemas
Valores de un atributo que no se presentan.
La probabilidad de la clase dado que el atributo
tiene el valor ausente sería cero causando que
todo el término sea cero.
La corrección es agregar uno a cada valor y
compensar. (Estimador de Laplace MF. P) 2/9,
3/9, 4/9 cambian por 3/12, 4/12, 5/12
78. Problemas
Valores Faltantes
Nueva instancia: se omite
Conj. Entrenamiento: no cuenta
Atributos numéricos
Se supone que tienen una distribución de
probabilidad “Normal” o “Gaussiana”
Se calcula la media x y la desviación estándar
83. Inferencia de Reglas
Algoritmo de cobertura.
Considerar cada clase buscando la forma de
cubrir todas las instancias en la clase, y al mismo
tiempo excluir a las instancias que no pertenecen
a la clase.
Es llamado de cobertura porque en cada etapa
se identifica una regla que “cubre” la mayoría de
las instancias.
84. Método PRISM
Para cada clase se busca construir las reglas
(agregando términos), que cubran todas las
instancias de esa clase.
Al agregar un termino, suponga que la nueva
regla cubre un total de t instancias, de las cuales
p son ejemplos de la clase y t-p están en otras
clases (errores de la regla).
• Escoger el término que maximiza p/t
86. Método PRISM
Para cada clase C
Inicializar E con el conjunto de instancias
Mientras E contenga instancias de la clase C
Crear la regla R: ? C
Hasta que R sea perfecta (o más atributos)
haz:
Para cada atributo A no mencionado en R, y
valor v
87. Método PRISM
Considerar agregar A=v en el lado Izquierdo de
R
Seleccionar A y v que maximicen la precisión
p/t (si existen iguales escoger el de mayor p)
Agregar A=v a R
Eliminar las instancias cubiertas por R de E
88. Lentes de Contacto
Edad Problema Astigmatismo Prod. Lágrimas Lentes
Joven Miopía No Reducida Ninguno
Joven Miopía No Normal Blandos
Joven Miopía Si Reducida Ninguno
Joven Miopía Si Normal Duros
Joven Hipermetropía No Reducida Ninguno
Joven Hipermetropía No Normal Blandos
Joven Hipermetropía Si Reducida Ninguno
Joven Hipermetropía Si Normal Duros
Adulto Miopía No Reducida Ninguno
Adulto Miopía No Normal Blandos
Adulto Miopía Si Reducida Ninguno
Adulto Miopía Si Normal Duros
Adulto Hipermetropía No Reducida Ninguno
Adulto Hipermetropía No Normal Blandos
Adulto Hipermetropía Si Reducida Ninguno
Adulto Hipermetropía Si Normal Ninguno
Anciano Miopía No Reducida Ninguno
Anciano Miopía No Normal Ninguno
Anciano Miopía Si Reducida Ninguno
Anciano Miopía Si Normal Duros
Anciano Hipermetropía No Reducida Ninguno
Anciano Hipermetropía No Normal Blandos
Anciano Hipermetropía Si Reducida Ninguno
Anciano Hipermetropía Si Normal Ninguno
89. Ejemplo: Lentes
Si ? Duros
Edad
Joven 2/8 0.25
Adulto 1/8 0.125
Anciano 1/8 0.125
Problema
Miopía 3/12 0.25
Hipermetropía 1/12 0.083
Astigmatismo
Si 4/12 0.333
No 0/12 0
Producción de Lágrimas
Reducida 0/12 0
Normal 4/12 0.333
Si (Astigmatismo = Si) Duros
90. Si (Astigmatismo = Si) ? Duros
Edad
Joven 2/4 0.5
Adulto 1/4 0.25
Anciano 1/4 0.25
Problema
Miopía 3/6 0.5
Hipermetropía 1/6 0.166
Producción de Lágrimas
Reducida 0/6 0
Normal 4/6 0.666
Si (Astigmatismo = Si) (Producción de Lágrimas=Normal) Duros
Lentes de Contacto
Edad Problema Astigmatismo Prod. Lágrimas Lentes
Joven Miopía Si Reducida Ninguno
Joven Miopía Si Normal Duros
Joven Hipermetropía Si Reducida Ninguno
Joven Hipermetropía Si Normal Duros
Adulto Miopía Si Reducida Ninguno
Adulto Miopía Si Normal Duros
Adulto Hipermetropía Si Reducida Ninguno
Adulto Hipermetropía Si Normal Ninguno
Anciano Miopía Si Reducida Ninguno
Anciano Miopía Si Normal Duros
Anciano Hipermetropía Si Reducida Ninguno
Anciano Hipermetropía Si Normal Ninguno
91. Si (Astigmatismo = Si Producción de Lágrimas=Normal) ?
Duros
Edad
Joven 2/2 1
Adulto 1/2 0.5
Anciano 1/2 0.5
Problema
Miopía 3/3 1
Hipermetropía 1/3 0.333
Si (Astigmatismo = Si Producción de Lágrimas=Normal
Problema=Miopía) Duros
Lentes de Contacto
Edad Problema Astigmatismo Prod. Lágrimas Lentes
Joven Miopía Si Normal Duros
Joven Hipermetropía Si Normal Duros
Adulto Miopía Si Normal Duros
Adulto Hipermetropía Si Normal Ninguno
Anciano Miopía Si Normal Duros
Anciano Hipermetropía Si Normal Ninguno
92. Reglas para Lentes = Duros
Si (Astigmatismo = Si Producción de
Lágrimas=Normal Problema=Miopía) Duros
Si (Edad = Joven Astigmatismo = Si
Producción de Lágrimas = Normal) Duros
94. Reglas de Asociación
Similares a las reglas de clasificación
Pueden predecir cualquier atributo, no solo la
clase, o predecir combinaciones de atributos.
Las diferentes reglas de asociación expresan
diferentes regularidades que yacen en el
conjunto de datos y generalmente predicen cosa
diferentes.
95. Reglas de Asociación
Se centra el interés en las reglas que aplican a
un número grande de instancias y que tiene una
precisión alta en las instancias en las que aplica.
La cobertura de una regla de asociación es el
número de instancias para las cuales ella predice
correctamente (soporte).
La precisión (confianza) es el número de
instancias que predice correctamente, expresado
como una proporción de todas las instancias a
las que se aplica
96. Reglas de Asociación
Son similares a las reglas de clasificación.
Cualquier expresión puede ocurrir del lado derecho
de la regla.
Puede utilizarse el mismo procedimiento de inducción
de reglas para cada posible combinación de atributos.
Pares de atributo - valor que tengan una cobertura
mínima (item)
Combinaciones de items (itemset)
97. Reglas de Asociación
Los 1-itemset se obtienen con la frecuencia de
cada item.
Los candidatos de los n-itemset se obtienen del
(n-1)-itemset.
Los candidatos de los 2-itemset se obtienen del
1-itemset: Se buscan pares de valores de
atributos diferentes.
!)!(
!
rrn
n
r
n
98. Los candidatos de los 2-itemset se obtienen del
1-itemset: Se buscan pares de valores de
atributos diferentes.
Valores: Atr 1: A, B, C Valores Atri 2: D, E
Quedan: (A,D), (A, E), (B, D), (B, E), (C,D),(C,E)
Se elimina: (A, B), (A, C), (B,C), (D, E) ya que son
valores del mismo atributo.
10
2*6
120
!2)!25(
!5
!)!(
!
rrn
n
r
n
99. Ambiente Temperatura Humedad Viento Golf
lluvioso templado normal No Jugar
lluvioso templado alta No Jugar
lluvioso frio normal No Jugar
nublado templado alta Si Jugar
nublado frio normal Si Jugar
nublado calor normal No Jugar
nublado calor alta No Jugar
soleado templado normal Si Jugar
soleado frio normal No Jugar
lluvioso templado alta Si No Jugar
lluvioso frio normal Si No Jugar
soleado templado alta No No Jugar
soleado calor alta Si No Jugar
soleado calor alta No No Jugar
103. Reglas de Asociación
Candidatos de los n-itemset se obtienen del (n-
1)-itemset.
Los candidatos de los 3-itemset se obtienen del
2-itemset de la siguiente forma:
Deben coincidir en los (n-2) elementos del
itemset
2-ITEMSET: (A, B), (A, C), (B,C), (B, C)
Potenciales: (A, B, C), (B, C, D)
Quedan: (A, B, C)
Se elimina: (B, C, D) ya que (C, D) no existe
104. 2-ITEM 3-ITEM
Nublado Calor 2Nublado Calor Alta 1
Nublado Alta 2Nublado Calor Normal 1
Nublado Normal 2Nublado Calor Normal 2
Nublado No 2Nublado Calor Si 0
Nublado Si 2Nublado Calor Jugar 4
Nublado Jugar 4Nublado Alta Normal 1
Calor Alta 2Nublado Alta Si 1
Calor No 3Nublado Alta Jugar 2
Calor No Jugar 2Nublado Normal Normal 1
Calor Jugar 3Nublado Normal Si 1
Alta No 3Nublado Normal Jugar 2
Alta Si 2Nublado No Jugar 3
Alta No Jugar 2Nublado Si Jugar 2
Alta Jugar 3Lluvioso Frio Alta 0
Normal No Jugar 2Lluvioso Frio Normal 2
Normal Jugar 2Lluvioso Frio No 1
Normal No Jugar 3Lluvioso Frio Si 1
No No Jugar 2Lluvioso Frio No Jugar 1
No Jugar 3Lluvioso Frio Jugar 1
Si No Jugar 2Lluvioso Templado Alta 2
Si Jugar 3Lluvioso Templado Normal 1
105. 4-ITEMSET
Nublado Calor No Jugar 2
Lluvioso Templado No Jugar 2
Lluvioso Normal No Jugar 2
Soleado Calor Alta No Jugar 2
Soleado Alta No No Jugar 2
Frio Normal No Jugar 2
106. Itemsets Generados
La cantidad de elementos por itemsets son:
1-itemsets 12
2-itemsets 47
3-itemsets 39
4-itemsets 7
107. Reglas de asociación
Las reglas se obtienen a partir de los itemsets
Humedad = normal, Viento = no, Golf = jugar
Esto nos lleva a las 7 reglas potenciales:
If Humedad = normal Viento = no Golf = Jugar
4/4
If Humedad = normal Golf = jugar Viento = no
4/6
If Viento = no Golf = jugar Humedad = normal
4/7
If Humedad = normal Viento = no Golf = jugar
4/6
If Viento = no Humedad = normal Golf = jugar
4/8
113. Agrupamiento (Clustering)
Las técnicas de agrupamiento se aplican cuando
no hay propiamente una clase que predecir sino
cuando las instancias se dividen en grupos de
forma natural.
Es una técnica de minería de datos no dirigida.
El agrupamiento requiere de técnicas diferentes a
las de clasificación y asociación.
114. Diagramas
En el agrupamiento, la salida es un diagrama que
muestra como las instancias forman grupos.
Se asocia un número de grupo a cada instancia
grupos disjuntos
grupos traslapados
probabilidad de pertenencia a un grupo
Jerarquía
115. 1 2 3
a 0,4 0,1 0,5
b 0,1 0,8 0,1
c 0,3 0,3 0,4
d 0,1 0,1 0,8
e 0,4 0,1 0,5
f 0,1 0,4 0,5
g 0,7 0,2 0,1
h
…
e
c
b
d
j
h
a
k
g
i f
i
f
bc
e
h
d
a
j
kg
g a c i e d k b j f h
116. Agrupamiento
Los mapeos auto-organizables: forma
especializada de red neuronal.
K-Medias (K-Means): agrupamiento iterativo
basado en distancias.
Agrupamiento incremental.
EM-Algorithm: Expectation Maximization.
117. Minería de Datos
Dependiendo de la meta que se persigue en la
minería de datos, se requiere la aplicación de
una técnica diferente.
Metas:
Prescriptiva: automatizar el proceso de toma de
decisiones (clasificación, predicción).
Descriptiva: Incrementar el entendimiento de lo
que sucede en los datos y del mundo que reflejan.
(agrupamiento - clustering)
118. Diferencias
Analizar la respuesta a una oferta
Entradas: Finanzas, Estilo de vida
Projecto 1: producir un modelo que dé a cada
prospecto una puntuación de cómo responderá a
la oferta
Projecto 2: Entender las causas de la respuesta
para mejorar futuros esfuerzos
119. Minería de Datos
Dirigida: La meta principal es predecir, estimar,
clasificar ó caracterizar el comportamiento de
algun atributo, prevíamente identificado, en
términos de un conjunto de variables de entrada.
No dirigida: La meta es descubrir una estructura
en el conjunto de datos
120. Agrupamiento (Clustering)
Las técnicas de agrupamiento se aplican cuando
no hay propiamente una clase que predecir sino
cuando las instancias se dividen en grupos de
forma natural.
Es una técnica de minería de datos no dirigida.
El agrupamiento requiere de técnicas diferentes a
las de clasificación y asociación
121. Agrupamiento
Se genera un diagrama que muestra cómo las
instancias forman grupos.
En el caso más simple, se asocia un número de
grupo a cada instancia. Se colocan las instancias
en dos dimensiones y se particiona el espacio
para mostrar cada cluster (disjuntos).
e
c
b
d
j
h
a
k
g
i
f
122. Agrupamiento
Algunos algoritmos permiten que una
instancia pertenezca a dos grupos (clusters)
La representación se puede visualizar mediante
diagramas de Venn
i
f
bc
e
h
d
a
j
kg
123. Agrupamiento
Otros algoritmos
asocian a las
instancias con los
grupos de manera
probabilística.
En este caso para
cada instancia
existe una
probabilidad o
grado de
pertenencia a cada
1 2 3
a 0,4 0,1 0,5
b 0,1 0,8 0,1
c 0,3 0,3 0,4
d 0,1 0,1 0,8
e 0,4 0,1 0,5
f 0,1 0,4 0,5
g 0,7 0,2 0,1
h
…
124. Agrupamiento
Otros producen una
estructura jerárquica de
clusters.
Los elementos unidos
en niveles inferiores
tienen una mayor
cohesión que los de
niveles superiores.
g a c i e d k b j f h
125. Agrupamiento
Enfoques matemáticos.
Los métodos son Divisivos y Aglomerativos
Se define alguna medida del valor de la partición
del conjunto de clusters.
La medida es almacenada para decidir al final del
proceso cuál partición es la mejor.
126. Métodos Divisivos
Inician considerando todas las instancias como
parte de un gran grupo (cluster) .
El cluster inicial se divide en dos o más clusters.
Estos clusters se dividen sucesivamente.
Hasta que cada instancia tiene su propio cluster.
127. Métodos Aglomerativos
Otros métodos son llamados aglomerativos.
Iniciar con cada instancia en un grupo (cluster).
Iterativamente se combinan los clusters.
Termina cuando sólo hay un cluster.
128. Agrupamiento
Los mapeos auto-organizables: forma
especializada de red neuronal.
K-Medias (K-Means): agrupamiento iterativo
basado en distancias.
Agrupamiento incremental
EM-Algorithm: Expectation Maximization
129. Agrupamiento Iterativo Basado en
Distancia
K- Medias
K-medias es uno de los algoritmos más
ampliamente utilizado en herramientas
comerciales de minería de datos.
K-medias trabaja mejor cuando la entrada de
datos es numérica principalmente.
130. K-Medias
¿Cómo funciona?
Divide el conjunto de datos en un número
predeterminado de clusters.
Ese número es K, de aquí el nombre.
131. K-Medias
¿Cómo funciona?
La media es lo que los estadistas llaman
promedio.
En este caso la media se refiere a la ubicación
promedio de los miembros de un grupo en
particular.
132. K-Medias
¿Ubicación? ¡Hablamos de Registros en una
Base de Datos!
La respuesta viene de la geometría:
Para formar los clusters, cada instancia es
asociada a un punto en el “espacio de instancias”
Ese espacio tiene tantas dimensiones como
atributos hay en las instancias.
133. K-Medias
El valor de cada atributo es interpretado como
una distancia a partir del origen y a lo largo del
eje correspondiente.
Para que la interpretación sea útil, los atributos
deben ser convertidos a números y éstos deben
normalizarse para que los cambios en las
dimensiones sean comparables.
134. Algoritmo
Las instancias son asignadas a clusters a través
de un proceso iterativo que inicia con clusters
centrados en localidades aleatorias en el espacio
de instancias y mueve los centroides del cluster
hasta que alguno de ellos se encuentre en
realidad en el centro de algún cluster.
135. 0
1
2
3
4
5
6
7
8
0 2 4 6 8 10
Punto X Y
A 1,2 1
B 1,4 2
C 2 1,1
D 2,5 1,5
E 3,6 1,7
F 0,7 3
G 1,3 6
H 1,9 7,3
I 3 6,9
J 3,3 6
K 4 6
L 2,3 5
M 3,5 5
N 3 4
O 6,1 3,2
P 8 5,5
Q 9,1 4,9
R 8,1 4
S 8,6 3
T 7,5 2
El parámetro K indica el
número de cluster que se
seleccionarán en este caso
K=3
136. Algoritmo
Se seleccionan K puntos al azar cómo centros de
los clusters (F, N y O).
Las instancias se asignan al centro del cluster
más cercano considerando la distancia de
Euclidiana.
2
22
2
1121
212211
)()(),(
,,
yxyxPPD
yyPxxP
137. Algoritmo
Se
seleccionan K
puntos y se
asignan las
instancias al
centro del
cluster más
cercano
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10
Semilla 1
Semilla 2
Semilla 3
138. Límites
Para dibujar los limites entre los clusters, basta
con recordar que si se tienen 2 puntos X y Y,
todos los puntos que están equidistantes desde X
y Y, caen en la línea que está a la mitad del
segmento que une a X y Y, y es perpendicular.
Asi el punto del cuadro es asignado a el cluster
controlado por el centroide 2.
140. Asignación
Punto X Y DF DN DO
A 1,2 1 2,06 3,50 5,37
B 1,4 2 1,22 2,56 4,85
C 2 1,1 2,30 3,07 4,61
D 2,5 1,5 2,34 2,55 3,98
E 3,6 1,7 3,18 2,38 2,92
F 0,7 3 0,00 2,51 5,40
G 1,3 6 3,06 2,62 5,56
H 1,9 7,3 4,46 3,48 5,87
I 3 6,9 4,53 2,90 4,83
J 3,3 6 3,97 2,02 3,96
K 4 6 4,46 2,24 3,50
L 2,3 5 2,56 1,22 4,20
M 3,5 5 3,44 1,12 3,16
N 3 4 2,51 0,00 3,20
O 6,1 3,2 5,40 3,20 0,00
P 8 5,5 7,72 5,22 2,98
Q 9,1 4,9 8,61 6,17 3,45
R 8,1 4 7,47 5,10 2,15
S 8,6 3 7,90 5,69 2,51
T 7,5 2 6,87 4,92 1,84
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10
141. Algoritmo
Después se calculará el centroide, es decir, la
media de todas las instancias.
Estos centroides serán los nuevos centros de los
clusters y el proceso se repite.
La iteración continúa hasta que los mismos
puntos son asignados a cada cluster en rondas
consecutivas. En este momento los centroides se
han estabilizado.
142. Ejemplo
Grupo1 Grupo2 Grupo3
Punto X Y Punto X Y Punto X Y
A 1,2 1 E 3,6 1,7 O 6,1 3,2
B 1,4 2 G 1,3 6 P 8 5,5
C 2 1,1 H 1,9 7,3 Q 9,1 4,9
D 2,5 1,5 I 3 6,9 R 8,1 4
F 0,7 3 J 3,3 6 S 8,6 3
1,56 1,72 K 4 6 T 7,5 2
L 2,3 5 7,9 3,8
M 3,5 5
N 3 4
2,88 5,3
Medias
144. Clustering
Si hay más de una dimensión, la distancia
euclidiana se calcula de la misma forma:
En el caso de la media, se calcula la media para
cada dimensión.
ni
i
ii yxPPD
yyPxxP
1
2
21
212211
)(),(
,,
145. Consecuencias
Tipo de preguntas que se pueden
responder
Es una técnica de aprendizaje no dirigido, por lo
que puede ser aplicada sin un conocimiento a priori
de la estructura a ser descubierta.
Dado que los grupos detectados automáticamente
no tienen una interpretación natural distinta, es
difícil poner los resultados en práctica.
146. Consecuencias
Preparación de los datos
Seleccionando diferentes medidas de distancias, el
clustering se puede aplicar a cualquier tipo de datos
(distancia entre textos). Sin embargo, la más usada
es la distancia Euclidiana.
147. Consecuencias
Seleccionar el número adecuado para K
Si el número no iguala a la estructura natural de
los datos, los resultados no son buenos.
Si no se tiene una razón a priori para elegir el
número se debe probar con varios valores.
148. Consecuencias
Los mejores conjuntos de clusters, son aquellos
en los que la distancia entre los miembros:
Del mismo cluster es pequeña
De clusters adyacentes es grande
149. Interpretación
¡Cuando no se sabe lo que se está buscando, no
se reconoce cuando se ha encontrado!
Existen algunos enfoques para interpretar.
Construir un árbol de decisión para explicar cómo
asignar las instancias al cluster correcto.
Visualización para ver como se afectan los
clusters con los cambios.