SlideShare una empresa de Scribd logo
1 de 150
Minería de Datos
Juan C. Garcia-Ojeda, PhD(c), MSc., Ing.
jcgarciao@gmail.com
Minería de Datos
“Knowledge is Power” Francis Bacon
http://upload.wikimedia.org/wikipedia/commons/a/a7/Pourbus_Francis_Bacon.jpg
Descubirmiento del Conocimiento y
Minería de Datos
 TEMARIO
 Fundamentos
 Representación del Conocimiento
 Clasificación
 Asociación
 Agrupamiento
Fundamentos
 ¿Porqué son necesarios KDD y DM?
 ¿Qué es el descubrimiento del conocimiento en
bases de datos (KDD)?
 ¿Qué es la minería de datos (DM)?
 ¿Cuáles son los objetivos?
 ¿Que disciplinas intervienen?
Motivación
 Información: Conjunto de patrones o
modelos especificados como reglas de
clasificación o asociación, entre otros.
ITESM-UNAB, Curso Minería de Datos, 2003
Motivación
 Creciente Volúmen de Datos
 Bases de Datos
 Almacenes de Datos (Datawerehouse)
 Archivos
 ¿Capacidad de análisis?
ITESM-UNAB, Curso Minería de Datos, 2003
Motivación
 Riqueza de datos recolectados, almacenados y a
los que se ha dado un mantenimiento.
 Incapacidad para descubrir la información
inmersa en los datos. ¿cómo?
 Técnicas Estadísticas
Motivación
 Los grandes volúmenes de datos han rebasado
la capacidad de analizarlos usando las técnicas
tradicionales de análisis de la información.
 Extraer el conocimiento para tomar buenas
decisiones (e.g., tratamiento médico, promoción y
prevención) y aprovechar las oportunidades
Descubrimiento del conocimiento en
Bases de Datos (KDD)
 KDD es el proceso de preparación de los datos,
extracción de patrones, y validación de los
modelos o predicción; mientras que Minería de
Datos e refiere únicamente a la extracción de
patrones.
Datos
Datos
Elegidos
Datos
Transformados
Patrones Conocimiento
Interpretación
Minería de DatosSelección
de los Datos
Pre-procesamiento
Transformación
Minería de Datos
 La minería de datos es el proceso de extraer
información válida, novedosa, comprensible y
potencialmente útil.
 El aprendizaje automático ofrece las técnicas
para la Minería de datos.
Datos
Minería de
Datos
Decisión
Información
Conocimiento
fácilmente útil
Integración
de los Datos
Minería de Datos
 Es el proceso de extraer información válida,
novedosa, comprensible y potencialmente útil.
 Información (Niveles)
 Datos: Datos en bruto
 Información: Manipulación de variables
 Conocimiento: Atribución a causas
 Sabiduria: Saber sopesar el conocimiento
Minería de Datos
 Validez : Nivel de certidumbre de la
información.
 Al ser menos formal puede haber más mentiras.
 “Cuando se compran pañales se compran bebidas
alcohólicas en el 50% de los casos”
Minería de Datos
 Novedosa : La información obtenida era
desconocida
 Evaluada por el ser humano
 Verdades universales
“Si el genero del sujeto es femenino,
entonces puede ser que consulte al
ginecólogo” ó
“Si el genero del sujeto es masculino,
entonces no consulta al ginecólogo”
Minería de Datos
 Comprensible : La información obtenida debe ser
legible al usuario.
 “Los atributos: genero y tipo de doctor tienen una
correlación de .....”
 “Si el genero del sujeto es masculino, entonces no
consulta al ginecólogo”
 Útil : Ayuda a tomar una decisión ó a predecir
un comportamiento
Minería de Datos
 Caso 1: Salud Pública
 Información:
 Válida:
 Novedosa:
 Comprensible:
 Útil:
Minería de Datos
 Es la búsqueda de relaciones y patrones globales
escondidos en los datos que existen en BD
grandes.
 La relación entre los datos del paciente y su
diagnóstico medico.
 Estas relaciones representan conocimiento
valioso acerca de la base de datos y los objetos
en ella, así como de si la BD es un espejo fiel, del
mundo registrado por ella.
Multidisciplinario
 Bases de Datos
 Inteligencia Artificial
 Algoritmos
 Computación del alto rendimiento
 Estadística
 Visualización
 Aprendizaje automático
 Minería de Datos
 Reconocimiento de Patrones
 Adquisición y Representación del Conocimiento
Aplicaciones
 Comercio
 Salud
 Astronomía
 Sistemas de Información Geográfica
 Detección de Fraudes
 Servicios Bancarios
 Internet
Ética
 Uso de los datos
 Responsabilidad
 Aplicado a Gente
 (Blanca – Negra)
 Discriminación
 Sexual
 Racial (áreas)
 Religiosa
 Información Personal
 ¿cómo será usada?
 ¿Para qué?
 ¿Protección?
 ¿vender, compartir?
Deducción vs. Inducción
 Una BD es un almacén de información
confiable. Su propósito es recuperar
eficientemente la información almacenada en, o
inferida de la BD.
 Desde una perspectiva lógica, dos técnicas de
inferencia pueden distinguirse:
 Deducción
 Inducción
Deducción vs. Inducción
 La diferencia radica en que la deducción es el
resultado de enunciados correctos acerca del
mundo real (si la BD es correcta), mientras que
la inducción es el resultado de los enunciados
soportados en la BD (pueden no ser verdaderos
en el mundo real).
 Inducción: Selección de las regularidades y
reglas más plausibles, soportadas por la BD.
 La minería de Datos es una forma de
aprendizaje inductivo
Minería de Datos
 Los patrones están representados en términos de
una estructura que puede ser examinada,
razonada y usada para tomar decisiones futuras.
 La minería de datos trata de encontrar y describir
patrones estructurales en los datos con el fin
de ayudarnos a explicarlos y hacer predicciones.
Minería de Datos
 Toma de decisiones
 Representación
 Clasificación
 Agrupamiento
 Visualización
Minería de Datos
 Entrada: Conceptos, instancias y atributos
 Proceso: Técnica de aprendizaje (Minería)
 Salida: Representación del conocimiento
Aprendizaje
(patrones)
SalidaEntrada
Minería de Datos
 El concepto: lo que hay que aprender
 Los datos dados al aprendiz toma la forma de un
conjunto de instancias.
 Cada instancia se caracteriza por un conjunto
de atributos (características) que miden
aspectos diferentes de la instancia (numéricos,
nominales y categóricos ordinales)
Ambiente Temperatura Humedad Viento Golf
lluvioso templado normal No Jugar
lluvioso templado alta No Jugar
lluvioso templado alta Si No Jugar
lluvioso frio normal No Jugar
lluvioso frio normal Si No Jugar
nublado templado alta Si Jugar
nublado frio normal Si Jugar
nublado calor normal No Jugar
nublado templado alta No Jugar
soleado templado normal Si Jugar
soleado templado alta No No Jugar
soleado frio normal No Jugar
soleado calor alta Si No Jugar
soleado calor alta No No Jugar
Atributos Concepto
I
n
s
t
a
n
c
i
a
s
Salida
 Descripción del concepto: lo que hay que
aprender (inteligible y operacional)
 La salida incluye una descripción de la
estructura, como representación explícita del
conocimiento adquirido y que puede usarse
para clasificar ejemplos nuevos.
Proceso: Estilos de
Aprendizaje
 Clasificación
 Asociación
 Agrupamiento
 Predicción Numérica
Aprendizaje Automático
 Un sistema de este tipo utiliza observaciones
codificadas, frecuentemente almacenadas en
un conjunto llamado de entrenamiento.
 En el aprendizaje supervisado, el sistema
busca descripciones para las clases definidas
por el usuario y en el no supervisado
construye un sumario del conjunto de
entrenamiento, como un conjunto de clases
descubiertas y sus descripciones.
Minería de Datos
 Supervisado (Dirigida): La meta principal es
predecir, estimar, clasificar ó caracterizar el
comportamiento de algún atributo, previamente
identificado, en términos de un conjunto de
variables de entrada.
 No Supervisado (No dirigida): La meta es
descubrir una estructura en el conjunto de datos
Clasificación
Clasificación
 Minería de datos dirigida: su objetivo es
clasificar ó caracterizar el comportamiento de un
atributo particular, en términos del resto.
 Árboles
 Reglas
Árboles de Decisión
Ambiente
Soleado Nublado Lluvia
Humedad VientoClase Jugar
Alta Normal Si No
Clase Jugar Clase JugarClase No JugarClase No Jugar
Tecnologías:
ID3,C4.5,C5,
Indice GINI
Árboles de Decisión
 Utiliza la técnica de Divide y Conquista
 Procedimiento inductivo
 La salida es un árbol de decisión
 Desarrollada y refinada por Ross Quinlan en la
Universidad de Sydney(Australia)
 Conocido como ID3
Árboles de Decisión
 Clasifica patrones con atributos no numéricos
 Mejorado con el uso del radio de ganancia
 Variaciones
 C4.5,
 C5
Árboles de Decisión
 Puede expresarse recursivamente
 Seleccionar un atributo
 Colocar una rama para cada valor del atributo
 Dividir las instancias en subconjuntos uno por cada
valor
 Repetir el proceso para cada rama utilizando el sub-
conjunto apropiado
 Si las instancias de una rama son de la misma clase, el
proceso termina para esa rama.
Ejemplo
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Rubio Azul O
Alto Rojo Azul O
Alto Rubio Café A
Bajo Rubio Azul O
Bajo Rubio Café A
Alto negro Café A
Por Atributo
Ojos Clase
Azul A
Azul A
Azul O
Azul O
Azul O
Café A
Café A
Café A
Estatura Clase
Alto A
Alto O
Alto O
Alto A
Alto A
Bajo A
Bajo O
Bajo A
Cabello Clase
Negro A
Negro A
Negro A
Rojo O
Rubio O
Rubio A
Rubio O
Rubio A
¿Cuál es el mejor atributo?
 Intuitivamente, cualquier hoja con instancias de
solo una clase no tendrá que dividirse después.
 Se desea que quede un árbol pequeño.
 Medida de la pureza de cada nodo.
 Escoger el atributo que produzca los nodos hijos
mas puros.
Medida de Pureza
 Información.
 Se mide en fracciones de bit, y frecuentemente
es menor a 1.
 Se asocia a cada nodo y se calcula con base al
número de instancias de cada clase en él.
 Representa la cantidad de información esperada
que sería necesaria para especificar la clase de
una instancia dada.
Información
 Propiedades esperadas
 Cuando queda una sola clase, la información debe
ser cero
 Cuando el número de instancias de cada clase es
igual, la información alcanza su máximo valor
 La función que satisface estas propiedades es
conocida como entropía
Entropía
 Información del Sistema
 Información del atributo
 Información de cada rama
 Ganancia del atributo
 Se busca el atributo que provee la mayor
ganancia en información.
)(log),...,,( 2
1
21 ni
n
i
n pppppEntropia  
Información del Sistema
 La entropía del sistema es
bit954.0)
8
3
(*log*)
8
3
()
8
5
(*log*)
8
5
( 22 
Ejemplo
 Ganancia de información al probar la
caracteristicas de Cabello
negro rojo
rubio
cabello
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Negro Café A
Estatura Cabello Ojos Clase
Alto Rojo Azul O
Estatura Cabello Ojos Clase
Alto Rubio Azul O
Alto Rubio Café A
Bajo Rubio Azul O
Bajo Rubio Café A
 Entropía sistema: 0.954 bit
 • Entropía de la rama negro: 0
 • Entropía de la rama rojo: 0
 • Entropía de la rama rubio:
 Entropía de cabello respecto al sistema:
bit1)
2
1
(*log*)
2
1
()
2
1
(*log*)
2
1
( 22 
bit5.0)1(*)
8
4
()0(*)
8
1
()0(*)
8
3
( 
Ejemplo
 Ganancia de información al evaluar cabello:
 Entropía (I) - Entropía (I, cabello)
= 0.954 - 0.5 = 0.454 bit
Ejemplo
 Ganancia al evaluar los ojos
azul
cafe
ojos
Estatura Cabello Ojos Clase
Alto Rubio Café A
Bajo Rubio Café A
Alto negro Café A
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Rubio Azul O
Alto Rojo Azul O
Bajo Rubio Azul O
 Entropía sistema: 0.954 bit
 Entropía de la rama café: 0
 Entropía de la rama azul:
 Entropía de ojos respecto al sistema:
bit971.0)
5
3
(*log*)
5
3
()
5
2
(*log*)
5
2
( 22 
bit607.0)0(*)
8
3
()971.0(*)
8
5
( 
Ejemplo
 Ganancia de información al evaluar ojos:
 Entropía (I) - Entropía (I, ojos)
= 0.954 – 0.607 = 0.347 bit
negro
rojo
rubio
cabello
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Negro Café A
Estatura Cabello Ojos Clase
Alto Rojo Azul O
azul cafe
ojos
Estatura Cabello Ojos Clase
Alto Rubio Café A
Bajo Rubio Café A
Alto negro Café A
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Rubio Azul O
Alto Rojo Azul O
Bajo Rubio Azul O
Ambiente Temperatura Humedad Viento Golf
lluvioso templado normal No Jugar
lluvioso templado alta No Jugar
lluvioso frio normal No Jugar
nublado templado alta Si Jugar
nublado frio normal Si Jugar
nublado calor normal No Jugar
nublado calor alta No Jugar
soleado templado normal Si Jugar
soleado frio normal No Jugar
lluvioso templado alta Si No Jugar
lluvioso frio normal Si No Jugar
soleado templado alta No No Jugar
soleado calor alta Si No Jugar
soleado calor alta No No Jugar
Ambiente Temperatura
Jugar
Jugar
No
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
Jugar
No
Jugar
soleado
nublado
lluvioso caliente frio
Jugar
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
templado
Humedad Viento
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
No
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
No
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
No
Jugar
alta normal nosi
Información del Sistemas
 No se considera ningun atributo
940.0
5305.04097.0
)
14
5
(log*)
14
5
()
14
9
(log*)
14
9
(])5,9([ 22


IS
Información
 De cada rama
 ISoleado ([2,3])=0.5287+0.4421  0.971
 INublado ([4,0])=0
 ILluvioso ([3,2]) = 0.4421 + 0.5287  0.971
 Del atributo
 IAmbiente =
693.0
971.0*
14
5
0*)
14
4
(971.0*)
14
5
(


Ganancia
 GAmbiente = IS – IAmbiente
 = 0.940 – 0.693 = 0.247
 GTemperatura = IS – ITemperatura
 =0.940 – 0.911 = 0.029
 GHumeda = IS – IHumedad
 =0.940 – 0.788 = 0.152
 GViento = IS – IViento
 =0.940 – 0.892 = 0.048
Ambiente
soleado
……
Temperatura
No
Jugar
No
Jugar
Jugar
caliente
frio
Jugar
No
Jugar
templado
Ambiente
soleado
……
Humedad
No
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
alta normal
Ambiente
soleado
……
Viento
Jugar
Jugar
No
Jugar
No
Jugar
Jugar
No
Jugar
alta no
Ambiente – Soleado
 ISAmbiente = 0.971
 ITemperatura = 0.4
 GTemperatura = 0.571
 IHumedad = 0
 GHumedad = 0.971
 IViento = 0.95098
 Gviento = 0.020
Ambiente – Lluvioso
 ISAmbiente = 0.971
 ITemperatura = 0.95098
 GTemperatura = 0.20
 IHumedad = 0.95098
 GHumedad = 0.20
 IViento = 0
 Gviento = 0.971
Ambiente
Soleado
Humedad
Jugar
normal
No
Jugar
alta
Viento
Lluvioso
Nublado
Jugar
No
Jugar
Si
Jugar
No
Arboles de Decisión
a < b
b < c a < c
a < c b < cOrder is
a < b < c
Order is
b < a < c
Order is
a < c < b
Order is
c < a < b
Order is
b < c < a
Order is
c < b < a
Si (a<b)^(b<c)  a < b < c
• Si (a<b)^(b>c)^(a<c)  a < c < b
...
• Si (a>b)^(a>c)^(b>c)  c < b < a
Atributos
 Numéricos
 Binario
 Seleccionar un punto
 Calcular la información de la misma forma
 Preprocesamiento: Ordenar
 ¿Reordenar?
Atributos
 Faltantes
 ¿es relevante?
 Ignorar instancias
 un nuevo valor del atributo
 Dividir y enviar a cada rama en proporción al
número de instancias que van a cada rama
considerando el conjunto de entrenamiento.
Applet de Prueba
 Para hacer algunos experimentos y comprobar
resultados, pueden acudir a la siguiente
dirección:
 http://webdocs.cs.ualberta.ca/~aixplore/learning/
DecisionTrees/Applet/DecisionTreeApplet.html
Reglas de Clasificación
Reglas de Clasificación :
Antecedente → Consecuente
 Antecedente: precondiciones, son la serie de
pruebas que se realizan sobre los atributos.
 Conjuntivas ("cumplen para que la regla tenga
éxito”)
 Pueden ser expresiones lógicas.
 Consecuente: conclusión, da la clase o clases
que aplican a las instancias cubiertas por la
regla
 Las reglas son disyuntivas
 Posibles conflictos
Tecnologías:
1-Rule
PRISM
Modelo Estadístico
 Todos los atributos contribuyen
 Los atributos se consideran:
 Iguales en importancia
 Independientes
 Se toma en cuenta la frecuencia del par atributo-
valor por clase
 No realista, ¡pero funciona!
Modelo Estadistico
 Está basado en la regla de probabilidad
condicional de Bayes
 Si se tiene una hipótesis H, y una evidencia E
entonces:
 P[H|E] = P[E|H] P[H]/ P[E]
 H : Play=Yes
 E : Combinación de valores del nuevo día
Naïve Bayes
 Los números encontrados se convierten en
probabilidades normalizandolos de forma que
sumen 1
][
]|[]|[]|[]|[
]|[ 4321
EP
HEPHEPHEPHEP
EHP


]|[...]|[
][]|[...]|[
]|[
1
1
1
m
n
HEPHEP
HPHEPHEP
EHP



Ejemplo
AmbienteGolf Temperatura Golf Humedad Golf Viento Golf
lluvioso Jugar calor Jugar alta Jugar No Jugar
lluvioso Jugar calor Jugar alta Jugar No Jugar
lluvioso Jugar calor No Jugar alta Jugar No Jugar
lluvioso No Jugar calor No Jugar alta No Jugar No Jugar
lluvioso No Jugar frio Jugar alta No Jugar No Jugar
nublado Jugar frio Jugar alta No Jugar No Jugar
nublado Jugar frio Jugar alta No Jugar No No Jugar
nublado Jugar frio No Jugar normal Jugar No No Jugar
nublado Jugar templado Jugar normal Jugar Si Jugar
soleado Jugar templado Jugar normal Jugar Si Jugar
soleado Jugar templado Jugar normal Jugar Si Jugar
soleado No Jugar templado Jugar normal Jugar Si No Jugar
soleado No Jugar templado No Jugar normal Jugar Si No Jugar
soleado No Jugar templado No Jugar normal No Jugar Si No Jugar
Frecuencias
Probabilidades Observadas
Probabilidad a Priori
Ambiente Temperatura Humedad Viento
Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar
Soleado Caliente Alta Si
Nublado Templado Normal No
Lluvia Frio
Golf
Jugar No Jugar
Ejemplo
Ambiente Temperatura Humedad Viento
Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar
Soleado 2 3 Caliente 2 2 Alta 3 4 Si 3 3
Nublado 4 0 Templado 4 2 Normal 6 1 No 6 2
Lluvia 3 2 Frio 3 1
Ambiente Temperatura Humedad Viento
Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar
Soleado 2/9 3/5 Caliente 2/9 2/5 Alta 3/9 4/5 Si 3/9 3/5
Nublado 4/9 0/5 Templado 4/9 2/5 Normal 6/9 1/5 No 6/9 2/5
Lluvia 3/9 2/5 Frio 3/9 1/5
Golf Golf
Jugar No Jugar Jugar No Jugar
9 5 9/14 5/14
Ejemplo
 Nuevo día
Ambiente Temperatura Humedad Viento Golf
Soleado Frio Alta Si ?
Posibilidad de Jugar = 2/9*3/9*3/9*3/9*9/14 = 0.0053
Posibilidad de No Jugar = 3/5*1/5*4/5*3/5*5/14 = 0.0206
Probabilidad de Jugar = 0.0053/(0.0053+0.0206) = 20.5%
Probabilidad de No Jugar = 0.0206/(0.0053+0.0206) = 79.5%
Ejercicio Lentes de Contacto
Lentes de Contacto
Edad Problema Astigmatismo Prod. Lágrimas Lentes
Joven Miopía No Reducida Ninguno
Joven Miopía No Normal Blandos
Joven Miopía Si Reducida Ninguno
Joven Miopía Si Normal Duros
Joven Hipermetropía No Reducida Ninguno
Joven Hipermetropía No Normal Blandos
Joven Hipermetropía Si Reducida Ninguno
Joven Hipermetropía Si Normal Duros
Adulto Miopía No Reducida Ninguno
Adulto Miopía No Normal Blandos
Adulto Miopía Si Reducida Ninguno
Adulto Miopía Si Normal Duros
Adulto Hipermetropía No Reducida Ninguno
Adulto Hipermetropía No Normal Blandos
Adulto Hipermetropía Si Reducida Ninguno
Adulto Hipermetropía Si Normal Ninguno
Anciano Miopía No Reducida Ninguno
Anciano Miopía No Normal Ninguno
Anciano Miopía Si Reducida Ninguno
Anciano Miopía Si Normal Duros
Anciano Hipermetropía No Reducida Ninguno
Anciano Hipermetropía No Normal Blandos
Anciano Hipermetropía Si Reducida Ninguno
Anciano Hipermetropía Si Normal Ninguno
Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D
Adulto 2 5 0Hipermetropia 2 7 1Si 4 6 0Normal 4 3 3
Anciano 0 6 1Miopia 2 7 2No 0 8 3Reducido 0 11 0
Joven 2 3 2
Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D
Adulto 2/4 5/14 0/3Hipermetropia 2/4 7/14 1/3Si 4/4 6/14 0Normal 4/4 3/14 3/3
Anciano 0/4 6/14 1/3Miopia 2/4 7/14 2/3No 0/4 8/14 3/3Reducido 0/4 11/14 0/3
Joven
Lentes
B N D
4 14 3
4/21 14/21 3/21
Edad Problema Astigmatismo Lagrimeo Lentes
Joven Hipermetropia No Reducida ?
Adulto Miopia Si Normal ?
Anciano Hipermetropia No Normal ?
Soluciones
 Ej1)
 Pos B = (2/4)*(2/4)*(4/4)*(0)*(4/21) = 0
 Pos D = (2/3)*(1/3)*(0)*(0)*(3/21) = 0
 Pos N = (3/14)*(7/14)*(6/14)*(11/14)*(14/21)=0.024 Pr=100%
 Ej2)
 Pos B = (2/4)*(2/4)*(0)*(1)*(4/21) = 0
 Pos D = (0)*(1/3)*(3/4)*(1)*(3/21) = 0
 Pos N = (5/14)*(7/14)*(8/14)*(3/14)*(14/21)=0.00145
Pr=100%
 Ej3)
 Pos B = (0/14)*… = 0
 Pos D = (1/3)*(1/3)*(0)*… = 0
 Pos N = (6/14)*(7/14)*(6/14)*(3/14)*(14/21)=0.00131
Problemas
 Valores de un atributo que no se presentan.
 La probabilidad de la clase dado que el atributo
tiene el valor ausente sería cero causando que
todo el término sea cero.
 La corrección es agregar uno a cada valor y
compensar. (Estimador de Laplace MF. P) 2/9,
3/9, 4/9 cambian por 3/12, 4/12, 5/12
Problemas
 Valores Faltantes
 Nueva instancia: se omite
 Conj. Entrenamiento: no cuenta
 Atributos numéricos
 Se supone que tienen una distribución de
probabilidad “Normal” o “Gaussiana”
 Se calcula la media x y la desviación estándar
Atributos Numéricos
n
x
x
n
i
i
 1
1
][
1
2




n
xx
n
i
i

2
2
2
)(
2
1
)( 




x
exf
Ejemplo
Ambiente Temperatura Humedad Viento Golf
nublado 64 65Si Jugar
lluvioso 65 70Si No Jugar
lluvioso 68 80No Jugar
soleado 69 70No Jugar
lluvioso 70 96No Jugar
lluvioso 71 91Si No Jugar
soleado 72 95No No Jugar
nublado 72 90Si Jugar
lluvioso 75 80No Jugar
soleado 75 70Si Jugar
soleado 80 90Si No Jugar
nublado 81 75No Jugar
nublado 83 86No Jugar
soleado 85 85No No Jugar
Ambiente Temperatura Humedad Viento Golf
Jugar
No
Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar
Soleado 2 3 85 85 86 85 No 6 2 9 5
Templado 4 0 70 80 96 90 Si 3 3
Lluvia 3 2 68 65 80 70
64 72 65 95
69 71 70 91
75 80
75 70
72 90
81 75
Soleado 2/9 3/5Media 73 74,6Media 79,1 86,2 No 6/9 2/5 9/14 5/14
Templado 4/9 0/5DesEst 6,2 7,9DesEst 10,2 9,7 Si 3/9 3/5
Lluvia 3/9 2/5
Ambiente Temperatura Humedad Viento
Golf
Soleado 66 90 Si
? 0340.0
2.6*2
1
)|66(
2
2
)2.6(2
)7366(


eJugarTf

Ejemplo
 Posibilidad Jugar:
 (2/9)*0.034*0.0221*(3/9)*(9/14) =0.000036
 Pos No Jugar
 (3/5)*0.0279*0.038*(3/5)*(5/14) =0.000136
 Probabilidad Jugar:
 0.000036/(0.000036+0.000136)=20.9%
 Probabilidad No Jugar:
 0.000136/(0.000036+0.000136)=79.1%
Inferencia de Reglas
 Algoritmo de cobertura.
 Considerar cada clase buscando la forma de
cubrir todas las instancias en la clase, y al mismo
tiempo excluir a las instancias que no pertenecen
a la clase.
 Es llamado de cobertura porque en cada etapa
se identifica una regla que “cubre” la mayoría de
las instancias.
Método PRISM
 Para cada clase se busca construir las reglas
(agregando términos), que cubran todas las
instancias de esa clase.
 Al agregar un termino, suponga que la nueva
regla cubre un total de t instancias, de las cuales
p son ejemplos de la clase y t-p están en otras
clases (errores de la regla).
 • Escoger el término que maximiza p/t
x
y
b
b
b
b
bb
b
b
b
b
ba
a
a
aa
b
b
b
b
b
b
b
b
b
b
ba
a
a
a
a
1.2
y 2.6
b
b
b
b
b
b
b
b
b
bb
a
a
a
a
a
1.2
x>1.2
y>2.6
b
No Si
No Si
ab
Espacio de
las Instancias
Regla hasta
el momento
Regla después
de añadir un
nuevo término
Método PRISM
 Para cada clase C
 Inicializar E con el conjunto de instancias
Mientras E contenga instancias de la clase C
 Crear la regla R: ?  C
 Hasta que R sea perfecta (o  más atributos)
haz:
 Para cada atributo A no mencionado en R, y
valor v
Método PRISM
 Considerar agregar A=v en el lado Izquierdo de
R
 Seleccionar A y v que maximicen la precisión
p/t (si existen iguales escoger el de mayor p)
 Agregar A=v a R
 Eliminar las instancias cubiertas por R de E
Lentes de Contacto
Edad Problema Astigmatismo Prod. Lágrimas Lentes
Joven Miopía No Reducida Ninguno
Joven Miopía No Normal Blandos
Joven Miopía Si Reducida Ninguno
Joven Miopía Si Normal Duros
Joven Hipermetropía No Reducida Ninguno
Joven Hipermetropía No Normal Blandos
Joven Hipermetropía Si Reducida Ninguno
Joven Hipermetropía Si Normal Duros
Adulto Miopía No Reducida Ninguno
Adulto Miopía No Normal Blandos
Adulto Miopía Si Reducida Ninguno
Adulto Miopía Si Normal Duros
Adulto Hipermetropía No Reducida Ninguno
Adulto Hipermetropía No Normal Blandos
Adulto Hipermetropía Si Reducida Ninguno
Adulto Hipermetropía Si Normal Ninguno
Anciano Miopía No Reducida Ninguno
Anciano Miopía No Normal Ninguno
Anciano Miopía Si Reducida Ninguno
Anciano Miopía Si Normal Duros
Anciano Hipermetropía No Reducida Ninguno
Anciano Hipermetropía No Normal Blandos
Anciano Hipermetropía Si Reducida Ninguno
Anciano Hipermetropía Si Normal Ninguno
Ejemplo: Lentes
 Si ?  Duros
 Edad
 Joven 2/8 0.25
 Adulto 1/8 0.125
 Anciano 1/8 0.125
 Problema
 Miopía 3/12 0.25
 Hipermetropía 1/12 0.083
 Astigmatismo
 Si 4/12 0.333
 No 0/12 0
 Producción de Lágrimas
 Reducida 0/12 0
 Normal 4/12 0.333
Si (Astigmatismo = Si)  Duros
 Si (Astigmatismo = Si)  ?  Duros
 Edad
 Joven 2/4 0.5
 Adulto 1/4 0.25
 Anciano 1/4 0.25
 Problema
 Miopía 3/6 0.5
 Hipermetropía 1/6 0.166
 Producción de Lágrimas
 Reducida 0/6 0
 Normal 4/6 0.666
Si (Astigmatismo = Si)  (Producción de Lágrimas=Normal)  Duros
Lentes de Contacto
Edad Problema Astigmatismo Prod. Lágrimas Lentes
Joven Miopía Si Reducida Ninguno
Joven Miopía Si Normal Duros
Joven Hipermetropía Si Reducida Ninguno
Joven Hipermetropía Si Normal Duros
Adulto Miopía Si Reducida Ninguno
Adulto Miopía Si Normal Duros
Adulto Hipermetropía Si Reducida Ninguno
Adulto Hipermetropía Si Normal Ninguno
Anciano Miopía Si Reducida Ninguno
Anciano Miopía Si Normal Duros
Anciano Hipermetropía Si Reducida Ninguno
Anciano Hipermetropía Si Normal Ninguno
 Si (Astigmatismo = Si  Producción de Lágrimas=Normal)  ?
 Duros
 Edad
 Joven 2/2 1
 Adulto 1/2 0.5
 Anciano 1/2 0.5
 Problema
 Miopía 3/3 1
 Hipermetropía 1/3 0.333
Si (Astigmatismo = Si  Producción de Lágrimas=Normal 
Problema=Miopía)  Duros
Lentes de Contacto
Edad Problema Astigmatismo Prod. Lágrimas Lentes
Joven Miopía Si Normal Duros
Joven Hipermetropía Si Normal Duros
Adulto Miopía Si Normal Duros
Adulto Hipermetropía Si Normal Ninguno
Anciano Miopía Si Normal Duros
Anciano Hipermetropía Si Normal Ninguno
Reglas para Lentes = Duros
 Si (Astigmatismo = Si  Producción de
Lágrimas=Normal  Problema=Miopía)  Duros
 Si (Edad = Joven  Astigmatismo = Si 
Producción de Lágrimas = Normal)  Duros
Reglas de Asociación
Reglas de Asociación
 Similares a las reglas de clasificación
 Pueden predecir cualquier atributo, no solo la
clase, o predecir combinaciones de atributos.
 Las diferentes reglas de asociación expresan
diferentes regularidades que yacen en el
conjunto de datos y generalmente predicen cosa
diferentes.
Reglas de Asociación
 Se centra el interés en las reglas que aplican a
un número grande de instancias y que tiene una
precisión alta en las instancias en las que aplica.
 La cobertura de una regla de asociación es el
número de instancias para las cuales ella predice
correctamente (soporte).
 La precisión (confianza) es el número de
instancias que predice correctamente, expresado
como una proporción de todas las instancias a
las que se aplica
Reglas de Asociación
 Son similares a las reglas de clasificación.
 Cualquier expresión puede ocurrir del lado derecho
de la regla.
 Puede utilizarse el mismo procedimiento de inducción
de reglas para cada posible combinación de atributos.
 Pares de atributo - valor que tengan una cobertura
mínima (item)
 Combinaciones de items (itemset)
Reglas de Asociación
 Los 1-itemset se obtienen con la frecuencia de
 cada item.
 Los candidatos de los n-itemset se obtienen del
(n-1)-itemset.
 Los candidatos de los 2-itemset se obtienen del
1-itemset: Se buscan pares de valores de
atributos diferentes.
!)!(
!
rrn
n
r
n







 Los candidatos de los 2-itemset se obtienen del
1-itemset: Se buscan pares de valores de
atributos diferentes.
 Valores: Atr 1: A, B, C Valores Atri 2: D, E
 Quedan: (A,D), (A, E), (B, D), (B, E), (C,D),(C,E)
 Se elimina: (A, B), (A, C), (B,C), (D, E) ya que son
valores del mismo atributo.
10
2*6
120
!2)!25(
!5
!)!(
!










rrn
n
r
n
Ambiente Temperatura Humedad Viento Golf
lluvioso templado normal No Jugar
lluvioso templado alta No Jugar
lluvioso frio normal No Jugar
nublado templado alta Si Jugar
nublado frio normal Si Jugar
nublado calor normal No Jugar
nublado calor alta No Jugar
soleado templado normal Si Jugar
soleado frio normal No Jugar
lluvioso templado alta Si No Jugar
lluvioso frio normal Si No Jugar
soleado templado alta No No Jugar
soleado calor alta Si No Jugar
soleado calor alta No No Jugar
1-ITEM-SORT 2-ITEM
Nublado(4) Nublado(4) Calor(4) 1
Lluvioso(5) Nublado(4) Frio(4) 1
Soleado(5) Nublado(4) Templado(6) 2
Calor(4) Nublado(4) Alta(7) 2
Frio(4) Nublado(4) Normal(7) 2
Templado(6) Nublado(4) No(6) 2
Alta(7) Nublado(4) Si(8) 2
Normal(7) Nublado(4) No Jugar(5) 0
No(6) Nublado(4) Jugar(9) 4
Si(8) Lluvioso(5) Calor(4) 0
No Jugar(5) Lluvioso(5) Frio(4) 2
Jugar(9) Lluvioso(5) Templado(6) 3
Lluvioso(5) Alta(7) 2
Lluvioso(5) Normal(7) 3
Lluvioso(5) No(6) 3
Lluvioso(5) Si(8) 2
Lluvioso(5) No Jugar(5) 2
Lluvioso(5) Jugar(9) 3
1-ITEM-SORT Soleado(5) Calor(4) 2
Nublado(4) Soleado(5) Frio(4) 1
Lluvioso(5) Soleado(5) Templado(6) 2
Soleado(5) Soleado(5) Alta(7) 3
Calor(4) Soleado(5) Normal(7) 2
Frio(4) Soleado(5) No(6) 3
Templado(6) Soleado(5) Si(8) 2
Alta(7) Soleado(5) No Jugar(5) 3
Normal(7) Soleado(5) Jugar(9) 2
No(6) Calor(4) Alta(7) 3
Si(8) Calor(4) Normal(7) 1
No Jugar(5) Calor(4) No(6) 3
Jugar(9) Calor(4) Si(8) 1
Calor(4) No Jugar(5) 2
Calor(4) Jugar(9) 2
Frio(4) Alta(7) 0
Frio(4) Normal(7) 4
Frio(4) No(6) 2
Frio(4) Si(8) 2
Frio(4) No Jugar(5) 1
Frio(4) Jugar(9) 3
1-ITEM-SORT Templado(4) Alta(7) 4
Nublado(4) Templado(4) Normal(7) 2
Lluvioso(5) Templado(4) No(6) 3
Soleado(5) Templado(4) Si(8) 3
Calor(4) Templado(4) No Jugar(5) 2
Frio(4) Templado(4) Jugar(9) 4
Templado(6) Alta(7) No(6) 4
Alta(7) Alta(7) Si(8) 3
Normal(7) Alta(7) No Jugar(5) 4
No(6) Alta(7) Jugar(9) 3
Si(8) Normal(7) No(6) 4
No Jugar(5) Normal(7) Si(8) 3
Jugar(9) Normal(7) No Jugar(5) 1
Normal(7) Jugar(9) 6
No(6) No Jugar(5) 2
No(6) Jugar(9) 6
Si(8) No Jugar(5) 3
Si(8) Jugar(9) 3
Reglas de Asociación
 Candidatos de los n-itemset se obtienen del (n-
1)-itemset.
 Los candidatos de los 3-itemset se obtienen del
2-itemset de la siguiente forma:
 Deben coincidir en los (n-2) elementos del
itemset
 2-ITEMSET: (A, B), (A, C), (B,C), (B, C)
 Potenciales: (A, B, C), (B, C, D)
 Quedan: (A, B, C)
 Se elimina: (B, C, D) ya que (C, D) no existe
2-ITEM 3-ITEM
Nublado Calor 2Nublado Calor Alta 1
Nublado Alta 2Nublado Calor Normal 1
Nublado Normal 2Nublado Calor Normal 2
Nublado No 2Nublado Calor Si 0
Nublado Si 2Nublado Calor Jugar 4
Nublado Jugar 4Nublado Alta Normal 1
Calor Alta 2Nublado Alta Si 1
Calor No 3Nublado Alta Jugar 2
Calor No Jugar 2Nublado Normal Normal 1
Calor Jugar 3Nublado Normal Si 1
Alta No 3Nublado Normal Jugar 2
Alta Si 2Nublado No Jugar 3
Alta No Jugar 2Nublado Si Jugar 2
Alta Jugar 3Lluvioso Frio Alta 0
Normal No Jugar 2Lluvioso Frio Normal 2
Normal Jugar 2Lluvioso Frio No 1
Normal No Jugar 3Lluvioso Frio Si 1
No No Jugar 2Lluvioso Frio No Jugar 1
No Jugar 3Lluvioso Frio Jugar 1
Si No Jugar 2Lluvioso Templado Alta 2
Si Jugar 3Lluvioso Templado Normal 1
4-ITEMSET
Nublado Calor No Jugar 2
Lluvioso Templado No Jugar 2
Lluvioso Normal No Jugar 2
Soleado Calor Alta No Jugar 2
Soleado Alta No No Jugar 2
Frio Normal No Jugar 2
Itemsets Generados
 La cantidad de elementos por itemsets son:
 1-itemsets 12
 2-itemsets 47
 3-itemsets 39
 4-itemsets 7
Reglas de asociación
 Las reglas se obtienen a partir de los itemsets
Humedad = normal, Viento = no, Golf = jugar
 Esto nos lleva a las 7 reglas potenciales:
 If Humedad = normal  Viento = no  Golf = Jugar
4/4
 If Humedad = normal  Golf = jugar  Viento = no
4/6
 If Viento = no  Golf = jugar  Humedad = normal
4/7
 If Humedad = normal  Viento = no  Golf = jugar
4/6
 If Viento = no  Humedad = normal  Golf = jugar
4/8
Reglas de Asociación cov
1humedad=normal viento=no  golf=jugar 4
2temperatura=frio  humedad=normal 4
3ambiente=nublado  golf=jugar 4
4temperatura = frio  golf = jugar  humedad = normal 3
5ambiente=lluvioso  viento =no  golf=jugar 3
6ambiente=lluvioso  golf=jugar  viento=no 3
7ambiente=soleado  humedad=alta  golf=no jugar 3
8ambiente=soleado  golf=no jugar  humedad=alta 3
9temperatura=frio  viento=no  humedad=normal  golf=jugar 2
10temperatura=frio  viento=no humedad=normal  golf=jugar 2
11temperatura=frio  viento=no golf=jugar  humedad=normal 2
12ambiente=lluvioso humedad=normal  viento=no  golf=jugar 2
13ambiente=lluvioso humedad=normal  golf=jugar  viento=no 2
14ambiente=lluvioso temperatura=templado  viento=no  golf=jugar 2
15ambiente=lluvioso temperatura=templado  golf=jugar  viento=no 2
16temperatura=templado  viento=no  golf=jugar  ambiente=lluvioso 2
17ambiente=nublado temperatura=calor  viento=no  golf=jugar 2
18ambiente=nublado viento=no  temperatura=calor  golf=jugar 2
19temperatura=calor  golf=jugar  ambiente=nublado viento=no 2
20ambiente=nublado  temperatura=calor viento=no  golf=jugar 2
21ambiente=nublado  temperatura=calor golf=jugar  viento=no 2
22ambiente=nublado  viento=no golf=jugar  temperatura=calor 2
23temperatura=calor  viento = no  golf = jugar  ambiente = nublado 2
…
58ambiente=soleado temperatura=calor  humedad=alta 2
4-Itemset
 Elementos 3-ITEMSET (A,B,C), (A, B, D),
(A,C,D), (A,C,E), (B,C,D)
 Potenciales ITESMSET-4 (A, B, C, D), (A, C, D,
E)
 Queda (A, B, C, D)
 Se elimina (A, C, D, E) porque (C, D, E) no existe
(no cumple la cobertura)
Conjunto Final de Reglas
 3 Reglas con cobertura 4
 5 Reglas con cobertura 3
 50 Reglas con cobertura 2
 Total 58 Reglas
Regla de los 3-Itemset
 (A, B, C)
1. Si A, B  C
2. Si B, C  A
3. Si A, C  B
4. Si A  B, C
5. Si B  A, C
6. Si C  A, B
7. Si -  A, B, C
Agrupamiento (Clustering)
Agrupamiento (Clustering)
 Las técnicas de agrupamiento se aplican cuando
no hay propiamente una clase que predecir sino
cuando las instancias se dividen en grupos de
forma natural.
 Es una técnica de minería de datos no dirigida.
 El agrupamiento requiere de técnicas diferentes a
las de clasificación y asociación.
Diagramas
 En el agrupamiento, la salida es un diagrama que
muestra como las instancias forman grupos.
 Se asocia un número de grupo a cada instancia
 grupos disjuntos
 grupos traslapados
 probabilidad de pertenencia a un grupo
 Jerarquía
1 2 3
a 0,4 0,1 0,5
b 0,1 0,8 0,1
c 0,3 0,3 0,4
d 0,1 0,1 0,8
e 0,4 0,1 0,5
f 0,1 0,4 0,5
g 0,7 0,2 0,1
h
…
e
c
b
d
j
h
a
k
g
i f
i
f
bc
e
h
d
a
j
kg
g a c i e d k b j f h
Agrupamiento
 Los mapeos auto-organizables: forma
especializada de red neuronal.
 K-Medias (K-Means): agrupamiento iterativo
basado en distancias.
 Agrupamiento incremental.
 EM-Algorithm: Expectation Maximization.
Minería de Datos
 Dependiendo de la meta que se persigue en la
minería de datos, se requiere la aplicación de
una técnica diferente.
 Metas:
 Prescriptiva: automatizar el proceso de toma de
decisiones (clasificación, predicción).
 Descriptiva: Incrementar el entendimiento de lo
que sucede en los datos y del mundo que reflejan.
(agrupamiento - clustering)
Diferencias
 Analizar la respuesta a una oferta
 Entradas: Finanzas, Estilo de vida
 Projecto 1: producir un modelo que dé a cada
prospecto una puntuación de cómo responderá a
la oferta
 Projecto 2: Entender las causas de la respuesta
para mejorar futuros esfuerzos
Minería de Datos
 Dirigida: La meta principal es predecir, estimar,
clasificar ó caracterizar el comportamiento de
algun atributo, prevíamente identificado, en
términos de un conjunto de variables de entrada.
 No dirigida: La meta es descubrir una estructura
en el conjunto de datos
Agrupamiento (Clustering)
 Las técnicas de agrupamiento se aplican cuando
no hay propiamente una clase que predecir sino
cuando las instancias se dividen en grupos de
forma natural.
 Es una técnica de minería de datos no dirigida.
 El agrupamiento requiere de técnicas diferentes a
las de clasificación y asociación
Agrupamiento
 Se genera un diagrama que muestra cómo las
instancias forman grupos.
 En el caso más simple, se asocia un número de
grupo a cada instancia. Se colocan las instancias
en dos dimensiones y se particiona el espacio
para mostrar cada cluster (disjuntos).
e
c
b
d
j
h
a
k
g
i
f
Agrupamiento
 Algunos algoritmos permiten que una
 instancia pertenezca a dos grupos (clusters)
 La representación se puede visualizar mediante
diagramas de Venn
i
f
bc
e
h
d
a
j
kg
Agrupamiento
 Otros algoritmos
asocian a las
instancias con los
grupos de manera
probabilística.
 En este caso para
cada instancia
existe una
probabilidad o
grado de
pertenencia a cada
1 2 3
a 0,4 0,1 0,5
b 0,1 0,8 0,1
c 0,3 0,3 0,4
d 0,1 0,1 0,8
e 0,4 0,1 0,5
f 0,1 0,4 0,5
g 0,7 0,2 0,1
h
…
Agrupamiento
 Otros producen una
estructura jerárquica de
clusters.
 Los elementos unidos
en niveles inferiores
tienen una mayor
cohesión que los de
niveles superiores.
g a c i e d k b j f h
Agrupamiento
 Enfoques matemáticos.
 Los métodos son Divisivos y Aglomerativos
 Se define alguna medida del valor de la partición
del conjunto de clusters.
 La medida es almacenada para decidir al final del
proceso cuál partición es la mejor.
Métodos Divisivos
 Inician considerando todas las instancias como
parte de un gran grupo (cluster) .
 El cluster inicial se divide en dos o más clusters.
 Estos clusters se dividen sucesivamente.
 Hasta que cada instancia tiene su propio cluster.
Métodos Aglomerativos
 Otros métodos son llamados aglomerativos.
 Iniciar con cada instancia en un grupo (cluster).
 Iterativamente se combinan los clusters.
 Termina cuando sólo hay un cluster.
Agrupamiento
 Los mapeos auto-organizables: forma
especializada de red neuronal.
 K-Medias (K-Means): agrupamiento iterativo
basado en distancias.
 Agrupamiento incremental
 EM-Algorithm: Expectation Maximization
Agrupamiento Iterativo Basado en
Distancia
K- Medias
 K-medias es uno de los algoritmos más
ampliamente utilizado en herramientas
comerciales de minería de datos.
 K-medias trabaja mejor cuando la entrada de
datos es numérica principalmente.
K-Medias
 ¿Cómo funciona?
 Divide el conjunto de datos en un número
predeterminado de clusters.
 Ese número es K, de aquí el nombre.
K-Medias
 ¿Cómo funciona?
 La media es lo que los estadistas llaman
promedio.
 En este caso la media se refiere a la ubicación
promedio de los miembros de un grupo en
particular.
K-Medias
 ¿Ubicación? ¡Hablamos de Registros en una
Base de Datos!
 La respuesta viene de la geometría:
 Para formar los clusters, cada instancia es
asociada a un punto en el “espacio de instancias”
 Ese espacio tiene tantas dimensiones como
atributos hay en las instancias.
K-Medias
 El valor de cada atributo es interpretado como
una distancia a partir del origen y a lo largo del
eje correspondiente.
 Para que la interpretación sea útil, los atributos
deben ser convertidos a números y éstos deben
normalizarse para que los cambios en las
dimensiones sean comparables.
Algoritmo
 Las instancias son asignadas a clusters a través
de un proceso iterativo que inicia con clusters
centrados en localidades aleatorias en el espacio
de instancias y mueve los centroides del cluster
hasta que alguno de ellos se encuentre en
realidad en el centro de algún cluster.
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10
Punto X Y
A 1,2 1
B 1,4 2
C 2 1,1
D 2,5 1,5
E 3,6 1,7
F 0,7 3
G 1,3 6
H 1,9 7,3
I 3 6,9
J 3,3 6
K 4 6
L 2,3 5
M 3,5 5
N 3 4
O 6,1 3,2
P 8 5,5
Q 9,1 4,9
R 8,1 4
S 8,6 3
T 7,5 2
 El parámetro K indica el
número de cluster que se
seleccionarán en este caso
K=3
Algoritmo
 Se seleccionan K puntos al azar cómo centros de
los clusters (F, N y O).
 Las instancias se asignan al centro del cluster
más cercano considerando la distancia de
Euclidiana.
2
22
2
1121
212211
)()(),(
,,
yxyxPPD
yyPxxP


Algoritmo
 Se
seleccionan K
puntos y se
asignan las
instancias al
centro del
cluster más
cercano
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10
Semilla 1
Semilla 2
Semilla 3
Límites
 Para dibujar los limites entre los clusters, basta
con recordar que si se tienen 2 puntos X y Y,
todos los puntos que están equidistantes desde X
y Y, caen en la línea que está a la mitad del
segmento que une a X y Y, y es perpendicular.
 Asi el punto del cuadro es asignado a el cluster
controlado por el centroide 2.
Ejemplo
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7 8 9 10
Semilla 1
Semilla 2
Semilla 3
Asignación
Punto X Y DF DN DO
A 1,2 1 2,06 3,50 5,37
B 1,4 2 1,22 2,56 4,85
C 2 1,1 2,30 3,07 4,61
D 2,5 1,5 2,34 2,55 3,98
E 3,6 1,7 3,18 2,38 2,92
F 0,7 3 0,00 2,51 5,40
G 1,3 6 3,06 2,62 5,56
H 1,9 7,3 4,46 3,48 5,87
I 3 6,9 4,53 2,90 4,83
J 3,3 6 3,97 2,02 3,96
K 4 6 4,46 2,24 3,50
L 2,3 5 2,56 1,22 4,20
M 3,5 5 3,44 1,12 3,16
N 3 4 2,51 0,00 3,20
O 6,1 3,2 5,40 3,20 0,00
P 8 5,5 7,72 5,22 2,98
Q 9,1 4,9 8,61 6,17 3,45
R 8,1 4 7,47 5,10 2,15
S 8,6 3 7,90 5,69 2,51
T 7,5 2 6,87 4,92 1,84
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10
Algoritmo
 Después se calculará el centroide, es decir, la
media de todas las instancias.
 Estos centroides serán los nuevos centros de los
clusters y el proceso se repite.
 La iteración continúa hasta que los mismos
puntos son asignados a cada cluster en rondas
consecutivas. En este momento los centroides se
han estabilizado.
Ejemplo
Grupo1 Grupo2 Grupo3
Punto X Y Punto X Y Punto X Y
A 1,2 1 E 3,6 1,7 O 6,1 3,2
B 1,4 2 G 1,3 6 P 8 5,5
C 2 1,1 H 1,9 7,3 Q 9,1 4,9
D 2,5 1,5 I 3 6,9 R 8,1 4
F 0,7 3 J 3,3 6 S 8,6 3
1,56 1,72 K 4 6 T 7,5 2
L 2,3 5 7,9 3,8
M 3,5 5
N 3 4
2,88 5,3
Medias
Ejemplo
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10
Clustering
 Si hay más de una dimensión, la distancia
euclidiana se calcula de la misma forma:
 En el caso de la media, se calcula la media para
cada dimensión.





ni
i
ii yxPPD
yyPxxP
1
2
21
212211
)(),(
,,
Consecuencias
 Tipo de preguntas que se pueden
responder
 Es una técnica de aprendizaje no dirigido, por lo
que puede ser aplicada sin un conocimiento a priori
de la estructura a ser descubierta.
 Dado que los grupos detectados automáticamente
no tienen una interpretación natural distinta, es
difícil poner los resultados en práctica.
Consecuencias
 Preparación de los datos
 Seleccionando diferentes medidas de distancias, el
clustering se puede aplicar a cualquier tipo de datos
(distancia entre textos). Sin embargo, la más usada
es la distancia Euclidiana.
Consecuencias
 Seleccionar el número adecuado para K
 Si el número no iguala a la estructura natural de
los datos, los resultados no son buenos.
 Si no se tiene una razón a priori para elegir el
número se debe probar con varios valores.
Consecuencias
 Los mejores conjuntos de clusters, son aquellos
en los que la distancia entre los miembros:
 Del mismo cluster es pequeña
 De clusters adyacentes es grande
Interpretación
 ¡Cuando no se sabe lo que se está buscando, no
se reconoce cuando se ha encontrado!
 Existen algunos enfoques para interpretar.
 Construir un árbol de decisión para explicar cómo
asignar las instancias al cluster correcto.
 Visualización para ver como se afectan los
clusters con los cambios.
Soporte TIC
http://www.youtube.com/watch?v=m7kpIBGEdkI

Más contenido relacionado

Similar a Mineríade datos

Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos04071977
 
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxIntroduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxAnonymousEoGAaTF
 
Mineria de Datos.pdf
Mineria de Datos.pdfMineria de Datos.pdf
Mineria de Datos.pdfhenry913654
 
Del dato al código - Codificación abierta
Del dato al código - Codificación abiertaDel dato al código - Codificación abierta
Del dato al código - Codificación abiertaProducción Virtual CIE
 
_Mundo de los Datos (1).pdf
_Mundo de los Datos  (1).pdf_Mundo de los Datos  (1).pdf
_Mundo de los Datos (1).pdfKamZee1
 
Mineria1 2010
Mineria1 2010Mineria1 2010
Mineria1 2010cristian
 
Mineria De Datos Secuenciales
Mineria De Datos SecuencialesMineria De Datos Secuenciales
Mineria De Datos SecuencialesMarilyn Jaramillo
 
Charla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecasCharla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecasFelipe Vera (Prodigio Consultores)
 
BDAS-2017 | Deep Learning para Extracción de Valor en Contenidos Digitales
BDAS-2017 | Deep Learning para Extracción de Valor en Contenidos DigitalesBDAS-2017 | Deep Learning para Extracción de Valor en Contenidos Digitales
BDAS-2017 | Deep Learning para Extracción de Valor en Contenidos DigitalesBig-Data-Summit
 
Arquitectura de datos empresariales actividad 2
Arquitectura de datos empresariales   actividad 2Arquitectura de datos empresariales   actividad 2
Arquitectura de datos empresariales actividad 2CarlosTenelema1
 
organización de datos
organización de datosorganización de datos
organización de datosYorgelisMendez
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
Sistemas de recomendación: tipos y evaluación
Sistemas de recomendación: tipos y evaluaciónSistemas de recomendación: tipos y evaluación
Sistemas de recomendación: tipos y evaluaciónBlanca Alicia Vargas Govea
 
Pass - Algoritmos de clasificacion
Pass - Algoritmos de clasificacionPass - Algoritmos de clasificacion
Pass - Algoritmos de clasificacionFabricio Quintanilla
 
B Datos _MICELI
B Datos _MICELIB Datos _MICELI
B Datos _MICELImiceli
 
Las batallas del data scientist
Las batallas del data scientistLas batallas del data scientist
Las batallas del data scientistJesús Montes
 

Similar a Mineríade datos (20)

Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxIntroduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
 
Mineria de Datos.pdf
Mineria de Datos.pdfMineria de Datos.pdf
Mineria de Datos.pdf
 
Del dato al código - Codificación abierta
Del dato al código - Codificación abiertaDel dato al código - Codificación abierta
Del dato al código - Codificación abierta
 
_Mundo de los Datos (1).pdf
_Mundo de los Datos  (1).pdf_Mundo de los Datos  (1).pdf
_Mundo de los Datos (1).pdf
 
02 extraccion de conocimiento
02 extraccion de conocimiento02 extraccion de conocimiento
02 extraccion de conocimiento
 
Mineria1 2010
Mineria1 2010Mineria1 2010
Mineria1 2010
 
Mineria De Datos Secuenciales
Mineria De Datos SecuencialesMineria De Datos Secuenciales
Mineria De Datos Secuenciales
 
Charla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecasCharla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecas
 
BDAS-2017 | Deep Learning para Extracción de Valor en Contenidos Digitales
BDAS-2017 | Deep Learning para Extracción de Valor en Contenidos DigitalesBDAS-2017 | Deep Learning para Extracción de Valor en Contenidos Digitales
BDAS-2017 | Deep Learning para Extracción de Valor en Contenidos Digitales
 
Trabaj
TrabajTrabaj
Trabaj
 
Información Estructurada
Información Estructurada  Información Estructurada
Información Estructurada
 
Arquitectura de datos empresariales actividad 2
Arquitectura de datos empresariales   actividad 2Arquitectura de datos empresariales   actividad 2
Arquitectura de datos empresariales actividad 2
 
organización de datos
organización de datosorganización de datos
organización de datos
 
REDES NEURONALES.pptx
REDES NEURONALES.pptxREDES NEURONALES.pptx
REDES NEURONALES.pptx
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Sistemas de recomendación: tipos y evaluación
Sistemas de recomendación: tipos y evaluaciónSistemas de recomendación: tipos y evaluación
Sistemas de recomendación: tipos y evaluación
 
Pass - Algoritmos de clasificacion
Pass - Algoritmos de clasificacionPass - Algoritmos de clasificacion
Pass - Algoritmos de clasificacion
 
B Datos _MICELI
B Datos _MICELIB Datos _MICELI
B Datos _MICELI
 
Las batallas del data scientist
Las batallas del data scientistLas batallas del data scientist
Las batallas del data scientist
 

Más de Juan Carlos García Ojeda (13)

Enlace esteganografia
Enlace esteganografiaEnlace esteganografia
Enlace esteganografia
 
Discrecional Aprendizaje de Máquin Cádula Impar
Discrecional Aprendizaje de Máquin Cádula ImparDiscrecional Aprendizaje de Máquin Cádula Impar
Discrecional Aprendizaje de Máquin Cádula Impar
 
Discrecional Aprendizaje de Máquinas Cedula Par
Discrecional Aprendizaje de Máquinas Cedula ParDiscrecional Aprendizaje de Máquinas Cedula Par
Discrecional Aprendizaje de Máquinas Cedula Par
 
Exercicio k means
Exercicio k meansExercicio k means
Exercicio k means
 
Segundo parcialsimulacro
Segundo parcialsimulacroSegundo parcialsimulacro
Segundo parcialsimulacro
 
Taller Aprendizaje M´squina
Taller Aprendizaje M´squinaTaller Aprendizaje M´squina
Taller Aprendizaje M´squina
 
Solucion bano unisex
Solucion bano unisexSolucion bano unisex
Solucion bano unisex
 
Ejercicio sincronización
Ejercicio sincronizaciónEjercicio sincronización
Ejercicio sincronización
 
Sistemas Multiagente
Sistemas MultiagenteSistemas Multiagente
Sistemas Multiagente
 
Hilos semaforos
Hilos semaforosHilos semaforos
Hilos semaforos
 
Ejercicio ID3 Datos Numericos
Ejercicio ID3 Datos NumericosEjercicio ID3 Datos Numericos
Ejercicio ID3 Datos Numericos
 
Planning Evacuation Routes with the P-graph Framework
Planning Evacuation Routes with the P-graph FrameworkPlanning Evacuation Routes with the P-graph Framework
Planning Evacuation Routes with the P-graph Framework
 
1. introducción a Agentes
1. introducción a Agentes1. introducción a Agentes
1. introducción a Agentes
 

Último

SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPJosLuisFrancoCaldern
 
CICLO DE DEMING que se encarga en como mejorar una empresa
CICLO DE DEMING que se encarga en como mejorar una empresaCICLO DE DEMING que se encarga en como mejorar una empresa
CICLO DE DEMING que se encarga en como mejorar una empresaSHERELYNSAMANTHAPALO1
 
Caldera Recuperadora de químicos en celulosa tipos y funcionamiento
Caldera Recuperadora de químicos en celulosa  tipos y funcionamientoCaldera Recuperadora de químicos en celulosa  tipos y funcionamiento
Caldera Recuperadora de químicos en celulosa tipos y funcionamientoRobertoAlejandroCast6
 
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdfECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdffredyflores58
 
Unidad 3 Administracion de inventarios.pptx
Unidad 3 Administracion de inventarios.pptxUnidad 3 Administracion de inventarios.pptx
Unidad 3 Administracion de inventarios.pptxEverardoRuiz8
 
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONAL
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONALCHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONAL
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONALKATHIAMILAGRITOSSANC
 
Calavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfCalavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfyoseka196
 
Propositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicacionesPropositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicaciones025ca20
 
TALLER PAEC preparatoria directamente de la secretaria de educación pública
TALLER PAEC preparatoria directamente de la secretaria de educación públicaTALLER PAEC preparatoria directamente de la secretaria de educación pública
TALLER PAEC preparatoria directamente de la secretaria de educación públicaSantiagoSanchez353883
 
Comite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxComite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxClaudiaPerez86192
 
Sesion 02 Patentes REGISTRO EN INDECOPI PERU
Sesion 02 Patentes REGISTRO EN INDECOPI PERUSesion 02 Patentes REGISTRO EN INDECOPI PERU
Sesion 02 Patentes REGISTRO EN INDECOPI PERUMarcosAlvarezSalinas
 
TEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIAS
TEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIASTEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIAS
TEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIASfranzEmersonMAMANIOC
 
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdf
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdfPresentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdf
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdfMIGUELANGELCONDORIMA4
 
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptxguillermosantana15
 
Flujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxFlujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxEduardoSnchezHernnde5
 
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...Francisco Javier Mora Serrano
 
PPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptx
PPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptxPPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptx
PPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptxSergioGJimenezMorean
 
Una estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTUna estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTFundación YOD YOD
 
Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...
Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...
Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...SuannNeyraChongShing
 
Presentación Proyecto Trabajo Creativa Profesional Azul.pdf
Presentación Proyecto Trabajo Creativa Profesional Azul.pdfPresentación Proyecto Trabajo Creativa Profesional Azul.pdf
Presentación Proyecto Trabajo Creativa Profesional Azul.pdfMirthaFernandez12
 

Último (20)

SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
 
CICLO DE DEMING que se encarga en como mejorar una empresa
CICLO DE DEMING que se encarga en como mejorar una empresaCICLO DE DEMING que se encarga en como mejorar una empresa
CICLO DE DEMING que se encarga en como mejorar una empresa
 
Caldera Recuperadora de químicos en celulosa tipos y funcionamiento
Caldera Recuperadora de químicos en celulosa  tipos y funcionamientoCaldera Recuperadora de químicos en celulosa  tipos y funcionamiento
Caldera Recuperadora de químicos en celulosa tipos y funcionamiento
 
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdfECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
 
Unidad 3 Administracion de inventarios.pptx
Unidad 3 Administracion de inventarios.pptxUnidad 3 Administracion de inventarios.pptx
Unidad 3 Administracion de inventarios.pptx
 
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONAL
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONALCHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONAL
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONAL
 
Calavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfCalavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdf
 
Propositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicacionesPropositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicaciones
 
TALLER PAEC preparatoria directamente de la secretaria de educación pública
TALLER PAEC preparatoria directamente de la secretaria de educación públicaTALLER PAEC preparatoria directamente de la secretaria de educación pública
TALLER PAEC preparatoria directamente de la secretaria de educación pública
 
Comite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxComite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptx
 
Sesion 02 Patentes REGISTRO EN INDECOPI PERU
Sesion 02 Patentes REGISTRO EN INDECOPI PERUSesion 02 Patentes REGISTRO EN INDECOPI PERU
Sesion 02 Patentes REGISTRO EN INDECOPI PERU
 
TEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIAS
TEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIASTEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIAS
TEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIAS
 
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdf
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdfPresentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdf
Presentación N° 1 INTRODUCCIÓN Y CONCEPTOS DE GESTIÓN AMBIENTAL.pdf
 
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
¿QUE SON LOS AGENTES FISICOS Y QUE CUIDADOS TENER.pptx
 
Flujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxFlujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptx
 
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...
 
PPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptx
PPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptxPPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptx
PPT SERVIDOR ESCUELA PERU EDUCA LINUX v7.pptx
 
Una estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTUna estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NIST
 
Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...
Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...
Polimeros.LAS REACCIONES DE POLIMERIZACION QUE ES COMO EN QUIMICA LLAMAMOS A ...
 
Presentación Proyecto Trabajo Creativa Profesional Azul.pdf
Presentación Proyecto Trabajo Creativa Profesional Azul.pdfPresentación Proyecto Trabajo Creativa Profesional Azul.pdf
Presentación Proyecto Trabajo Creativa Profesional Azul.pdf
 

Mineríade datos

  • 1. Minería de Datos Juan C. Garcia-Ojeda, PhD(c), MSc., Ing. jcgarciao@gmail.com
  • 2. Minería de Datos “Knowledge is Power” Francis Bacon http://upload.wikimedia.org/wikipedia/commons/a/a7/Pourbus_Francis_Bacon.jpg
  • 3. Descubirmiento del Conocimiento y Minería de Datos  TEMARIO  Fundamentos  Representación del Conocimiento  Clasificación  Asociación  Agrupamiento
  • 4. Fundamentos  ¿Porqué son necesarios KDD y DM?  ¿Qué es el descubrimiento del conocimiento en bases de datos (KDD)?  ¿Qué es la minería de datos (DM)?  ¿Cuáles son los objetivos?  ¿Que disciplinas intervienen?
  • 5. Motivación  Información: Conjunto de patrones o modelos especificados como reglas de clasificación o asociación, entre otros. ITESM-UNAB, Curso Minería de Datos, 2003
  • 6. Motivación  Creciente Volúmen de Datos  Bases de Datos  Almacenes de Datos (Datawerehouse)  Archivos  ¿Capacidad de análisis? ITESM-UNAB, Curso Minería de Datos, 2003
  • 7. Motivación  Riqueza de datos recolectados, almacenados y a los que se ha dado un mantenimiento.  Incapacidad para descubrir la información inmersa en los datos. ¿cómo?  Técnicas Estadísticas
  • 8. Motivación  Los grandes volúmenes de datos han rebasado la capacidad de analizarlos usando las técnicas tradicionales de análisis de la información.  Extraer el conocimiento para tomar buenas decisiones (e.g., tratamiento médico, promoción y prevención) y aprovechar las oportunidades
  • 9. Descubrimiento del conocimiento en Bases de Datos (KDD)  KDD es el proceso de preparación de los datos, extracción de patrones, y validación de los modelos o predicción; mientras que Minería de Datos e refiere únicamente a la extracción de patrones. Datos Datos Elegidos Datos Transformados Patrones Conocimiento Interpretación Minería de DatosSelección de los Datos Pre-procesamiento Transformación
  • 10. Minería de Datos  La minería de datos es el proceso de extraer información válida, novedosa, comprensible y potencialmente útil.  El aprendizaje automático ofrece las técnicas para la Minería de datos. Datos Minería de Datos Decisión Información Conocimiento fácilmente útil Integración de los Datos
  • 11. Minería de Datos  Es el proceso de extraer información válida, novedosa, comprensible y potencialmente útil.  Información (Niveles)  Datos: Datos en bruto  Información: Manipulación de variables  Conocimiento: Atribución a causas  Sabiduria: Saber sopesar el conocimiento
  • 12. Minería de Datos  Validez : Nivel de certidumbre de la información.  Al ser menos formal puede haber más mentiras.  “Cuando se compran pañales se compran bebidas alcohólicas en el 50% de los casos”
  • 13. Minería de Datos  Novedosa : La información obtenida era desconocida  Evaluada por el ser humano  Verdades universales “Si el genero del sujeto es femenino, entonces puede ser que consulte al ginecólogo” ó “Si el genero del sujeto es masculino, entonces no consulta al ginecólogo”
  • 14. Minería de Datos  Comprensible : La información obtenida debe ser legible al usuario.  “Los atributos: genero y tipo de doctor tienen una correlación de .....”  “Si el genero del sujeto es masculino, entonces no consulta al ginecólogo”  Útil : Ayuda a tomar una decisión ó a predecir un comportamiento
  • 15. Minería de Datos  Caso 1: Salud Pública  Información:  Válida:  Novedosa:  Comprensible:  Útil:
  • 16. Minería de Datos  Es la búsqueda de relaciones y patrones globales escondidos en los datos que existen en BD grandes.  La relación entre los datos del paciente y su diagnóstico medico.  Estas relaciones representan conocimiento valioso acerca de la base de datos y los objetos en ella, así como de si la BD es un espejo fiel, del mundo registrado por ella.
  • 17. Multidisciplinario  Bases de Datos  Inteligencia Artificial  Algoritmos  Computación del alto rendimiento  Estadística  Visualización  Aprendizaje automático  Minería de Datos  Reconocimiento de Patrones  Adquisición y Representación del Conocimiento
  • 18. Aplicaciones  Comercio  Salud  Astronomía  Sistemas de Información Geográfica  Detección de Fraudes  Servicios Bancarios  Internet
  • 19. Ética  Uso de los datos  Responsabilidad  Aplicado a Gente  (Blanca – Negra)  Discriminación  Sexual  Racial (áreas)  Religiosa  Información Personal  ¿cómo será usada?  ¿Para qué?  ¿Protección?  ¿vender, compartir?
  • 20. Deducción vs. Inducción  Una BD es un almacén de información confiable. Su propósito es recuperar eficientemente la información almacenada en, o inferida de la BD.  Desde una perspectiva lógica, dos técnicas de inferencia pueden distinguirse:  Deducción  Inducción
  • 21. Deducción vs. Inducción  La diferencia radica en que la deducción es el resultado de enunciados correctos acerca del mundo real (si la BD es correcta), mientras que la inducción es el resultado de los enunciados soportados en la BD (pueden no ser verdaderos en el mundo real).  Inducción: Selección de las regularidades y reglas más plausibles, soportadas por la BD.  La minería de Datos es una forma de aprendizaje inductivo
  • 22. Minería de Datos  Los patrones están representados en términos de una estructura que puede ser examinada, razonada y usada para tomar decisiones futuras.  La minería de datos trata de encontrar y describir patrones estructurales en los datos con el fin de ayudarnos a explicarlos y hacer predicciones.
  • 23. Minería de Datos  Toma de decisiones  Representación  Clasificación  Agrupamiento  Visualización
  • 24. Minería de Datos  Entrada: Conceptos, instancias y atributos  Proceso: Técnica de aprendizaje (Minería)  Salida: Representación del conocimiento Aprendizaje (patrones) SalidaEntrada
  • 25. Minería de Datos  El concepto: lo que hay que aprender  Los datos dados al aprendiz toma la forma de un conjunto de instancias.  Cada instancia se caracteriza por un conjunto de atributos (características) que miden aspectos diferentes de la instancia (numéricos, nominales y categóricos ordinales)
  • 26. Ambiente Temperatura Humedad Viento Golf lluvioso templado normal No Jugar lluvioso templado alta No Jugar lluvioso templado alta Si No Jugar lluvioso frio normal No Jugar lluvioso frio normal Si No Jugar nublado templado alta Si Jugar nublado frio normal Si Jugar nublado calor normal No Jugar nublado templado alta No Jugar soleado templado normal Si Jugar soleado templado alta No No Jugar soleado frio normal No Jugar soleado calor alta Si No Jugar soleado calor alta No No Jugar Atributos Concepto I n s t a n c i a s
  • 27. Salida  Descripción del concepto: lo que hay que aprender (inteligible y operacional)  La salida incluye una descripción de la estructura, como representación explícita del conocimiento adquirido y que puede usarse para clasificar ejemplos nuevos.
  • 28. Proceso: Estilos de Aprendizaje  Clasificación  Asociación  Agrupamiento  Predicción Numérica
  • 29. Aprendizaje Automático  Un sistema de este tipo utiliza observaciones codificadas, frecuentemente almacenadas en un conjunto llamado de entrenamiento.  En el aprendizaje supervisado, el sistema busca descripciones para las clases definidas por el usuario y en el no supervisado construye un sumario del conjunto de entrenamiento, como un conjunto de clases descubiertas y sus descripciones.
  • 30. Minería de Datos  Supervisado (Dirigida): La meta principal es predecir, estimar, clasificar ó caracterizar el comportamiento de algún atributo, previamente identificado, en términos de un conjunto de variables de entrada.  No Supervisado (No dirigida): La meta es descubrir una estructura en el conjunto de datos
  • 32. Clasificación  Minería de datos dirigida: su objetivo es clasificar ó caracterizar el comportamiento de un atributo particular, en términos del resto.  Árboles  Reglas
  • 33. Árboles de Decisión Ambiente Soleado Nublado Lluvia Humedad VientoClase Jugar Alta Normal Si No Clase Jugar Clase JugarClase No JugarClase No Jugar Tecnologías: ID3,C4.5,C5, Indice GINI
  • 34. Árboles de Decisión  Utiliza la técnica de Divide y Conquista  Procedimiento inductivo  La salida es un árbol de decisión  Desarrollada y refinada por Ross Quinlan en la Universidad de Sydney(Australia)  Conocido como ID3
  • 35. Árboles de Decisión  Clasifica patrones con atributos no numéricos  Mejorado con el uso del radio de ganancia  Variaciones  C4.5,  C5
  • 36. Árboles de Decisión  Puede expresarse recursivamente  Seleccionar un atributo  Colocar una rama para cada valor del atributo  Dividir las instancias en subconjuntos uno por cada valor  Repetir el proceso para cada rama utilizando el sub- conjunto apropiado  Si las instancias de una rama son de la misma clase, el proceso termina para esa rama.
  • 37. Ejemplo Estatura Cabello Ojos Clase Alto Negro Azul A Bajo Negro Azul A Alto Rubio Azul O Alto Rojo Azul O Alto Rubio Café A Bajo Rubio Azul O Bajo Rubio Café A Alto negro Café A
  • 38. Por Atributo Ojos Clase Azul A Azul A Azul O Azul O Azul O Café A Café A Café A Estatura Clase Alto A Alto O Alto O Alto A Alto A Bajo A Bajo O Bajo A Cabello Clase Negro A Negro A Negro A Rojo O Rubio O Rubio A Rubio O Rubio A
  • 39. ¿Cuál es el mejor atributo?  Intuitivamente, cualquier hoja con instancias de solo una clase no tendrá que dividirse después.  Se desea que quede un árbol pequeño.  Medida de la pureza de cada nodo.  Escoger el atributo que produzca los nodos hijos mas puros.
  • 40. Medida de Pureza  Información.  Se mide en fracciones de bit, y frecuentemente es menor a 1.  Se asocia a cada nodo y se calcula con base al número de instancias de cada clase en él.  Representa la cantidad de información esperada que sería necesaria para especificar la clase de una instancia dada.
  • 41. Información  Propiedades esperadas  Cuando queda una sola clase, la información debe ser cero  Cuando el número de instancias de cada clase es igual, la información alcanza su máximo valor  La función que satisface estas propiedades es conocida como entropía
  • 42. Entropía  Información del Sistema  Información del atributo  Información de cada rama  Ganancia del atributo  Se busca el atributo que provee la mayor ganancia en información. )(log),...,,( 2 1 21 ni n i n pppppEntropia  
  • 43. Información del Sistema  La entropía del sistema es bit954.0) 8 3 (*log*) 8 3 () 8 5 (*log*) 8 5 ( 22 
  • 44. Ejemplo  Ganancia de información al probar la caracteristicas de Cabello negro rojo rubio cabello Estatura Cabello Ojos Clase Alto Negro Azul A Bajo Negro Azul A Alto Negro Café A Estatura Cabello Ojos Clase Alto Rojo Azul O Estatura Cabello Ojos Clase Alto Rubio Azul O Alto Rubio Café A Bajo Rubio Azul O Bajo Rubio Café A
  • 45.  Entropía sistema: 0.954 bit  • Entropía de la rama negro: 0  • Entropía de la rama rojo: 0  • Entropía de la rama rubio:  Entropía de cabello respecto al sistema: bit1) 2 1 (*log*) 2 1 () 2 1 (*log*) 2 1 ( 22  bit5.0)1(*) 8 4 ()0(*) 8 1 ()0(*) 8 3 ( 
  • 46. Ejemplo  Ganancia de información al evaluar cabello:  Entropía (I) - Entropía (I, cabello) = 0.954 - 0.5 = 0.454 bit
  • 47. Ejemplo  Ganancia al evaluar los ojos azul cafe ojos Estatura Cabello Ojos Clase Alto Rubio Café A Bajo Rubio Café A Alto negro Café A Estatura Cabello Ojos Clase Alto Negro Azul A Bajo Negro Azul A Alto Rubio Azul O Alto Rojo Azul O Bajo Rubio Azul O
  • 48.  Entropía sistema: 0.954 bit  Entropía de la rama café: 0  Entropía de la rama azul:  Entropía de ojos respecto al sistema: bit971.0) 5 3 (*log*) 5 3 () 5 2 (*log*) 5 2 ( 22  bit607.0)0(*) 8 3 ()971.0(*) 8 5 ( 
  • 49. Ejemplo  Ganancia de información al evaluar ojos:  Entropía (I) - Entropía (I, ojos) = 0.954 – 0.607 = 0.347 bit
  • 50. negro rojo rubio cabello Estatura Cabello Ojos Clase Alto Negro Azul A Bajo Negro Azul A Alto Negro Café A Estatura Cabello Ojos Clase Alto Rojo Azul O azul cafe ojos Estatura Cabello Ojos Clase Alto Rubio Café A Bajo Rubio Café A Alto negro Café A Estatura Cabello Ojos Clase Alto Negro Azul A Bajo Negro Azul A Alto Rubio Azul O Alto Rojo Azul O Bajo Rubio Azul O
  • 51. Ambiente Temperatura Humedad Viento Golf lluvioso templado normal No Jugar lluvioso templado alta No Jugar lluvioso frio normal No Jugar nublado templado alta Si Jugar nublado frio normal Si Jugar nublado calor normal No Jugar nublado calor alta No Jugar soleado templado normal Si Jugar soleado frio normal No Jugar lluvioso templado alta Si No Jugar lluvioso frio normal Si No Jugar soleado templado alta No No Jugar soleado calor alta Si No Jugar soleado calor alta No No Jugar
  • 54. Información del Sistemas  No se considera ningun atributo 940.0 5305.04097.0 ) 14 5 (log*) 14 5 () 14 9 (log*) 14 9 (])5,9([ 22   IS
  • 55. Información  De cada rama  ISoleado ([2,3])=0.5287+0.4421  0.971  INublado ([4,0])=0  ILluvioso ([3,2]) = 0.4421 + 0.5287  0.971  Del atributo  IAmbiente = 693.0 971.0* 14 5 0*) 14 4 (971.0*) 14 5 (  
  • 56. Ganancia  GAmbiente = IS – IAmbiente  = 0.940 – 0.693 = 0.247  GTemperatura = IS – ITemperatura  =0.940 – 0.911 = 0.029  GHumeda = IS – IHumedad  =0.940 – 0.788 = 0.152  GViento = IS – IViento  =0.940 – 0.892 = 0.048
  • 58. Ambiente – Soleado  ISAmbiente = 0.971  ITemperatura = 0.4  GTemperatura = 0.571  IHumedad = 0  GHumedad = 0.971  IViento = 0.95098  Gviento = 0.020
  • 59. Ambiente – Lluvioso  ISAmbiente = 0.971  ITemperatura = 0.95098  GTemperatura = 0.20  IHumedad = 0.95098  GHumedad = 0.20  IViento = 0  Gviento = 0.971
  • 61. Arboles de Decisión a < b b < c a < c a < c b < cOrder is a < b < c Order is b < a < c Order is a < c < b Order is c < a < b Order is b < c < a Order is c < b < a Si (a<b)^(b<c)  a < b < c • Si (a<b)^(b>c)^(a<c)  a < c < b ... • Si (a>b)^(a>c)^(b>c)  c < b < a
  • 62. Atributos  Numéricos  Binario  Seleccionar un punto  Calcular la información de la misma forma  Preprocesamiento: Ordenar  ¿Reordenar?
  • 63. Atributos  Faltantes  ¿es relevante?  Ignorar instancias  un nuevo valor del atributo  Dividir y enviar a cada rama en proporción al número de instancias que van a cada rama considerando el conjunto de entrenamiento.
  • 64. Applet de Prueba  Para hacer algunos experimentos y comprobar resultados, pueden acudir a la siguiente dirección:  http://webdocs.cs.ualberta.ca/~aixplore/learning/ DecisionTrees/Applet/DecisionTreeApplet.html
  • 66. Reglas de Clasificación : Antecedente → Consecuente  Antecedente: precondiciones, son la serie de pruebas que se realizan sobre los atributos.  Conjuntivas ("cumplen para que la regla tenga éxito”)  Pueden ser expresiones lógicas.  Consecuente: conclusión, da la clase o clases que aplican a las instancias cubiertas por la regla  Las reglas son disyuntivas  Posibles conflictos Tecnologías: 1-Rule PRISM
  • 67. Modelo Estadístico  Todos los atributos contribuyen  Los atributos se consideran:  Iguales en importancia  Independientes  Se toma en cuenta la frecuencia del par atributo- valor por clase  No realista, ¡pero funciona!
  • 68. Modelo Estadistico  Está basado en la regla de probabilidad condicional de Bayes  Si se tiene una hipótesis H, y una evidencia E entonces:  P[H|E] = P[E|H] P[H]/ P[E]  H : Play=Yes  E : Combinación de valores del nuevo día
  • 69. Naïve Bayes  Los números encontrados se convierten en probabilidades normalizandolos de forma que sumen 1 ][ ]|[]|[]|[]|[ ]|[ 4321 EP HEPHEPHEPHEP EHP   ]|[...]|[ ][]|[...]|[ ]|[ 1 1 1 m n HEPHEP HPHEPHEP EHP   
  • 70. Ejemplo AmbienteGolf Temperatura Golf Humedad Golf Viento Golf lluvioso Jugar calor Jugar alta Jugar No Jugar lluvioso Jugar calor Jugar alta Jugar No Jugar lluvioso Jugar calor No Jugar alta Jugar No Jugar lluvioso No Jugar calor No Jugar alta No Jugar No Jugar lluvioso No Jugar frio Jugar alta No Jugar No Jugar nublado Jugar frio Jugar alta No Jugar No Jugar nublado Jugar frio Jugar alta No Jugar No No Jugar nublado Jugar frio No Jugar normal Jugar No No Jugar nublado Jugar templado Jugar normal Jugar Si Jugar soleado Jugar templado Jugar normal Jugar Si Jugar soleado Jugar templado Jugar normal Jugar Si Jugar soleado No Jugar templado Jugar normal Jugar Si No Jugar soleado No Jugar templado No Jugar normal Jugar Si No Jugar soleado No Jugar templado No Jugar normal No Jugar Si No Jugar
  • 71. Frecuencias Probabilidades Observadas Probabilidad a Priori Ambiente Temperatura Humedad Viento Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Soleado Caliente Alta Si Nublado Templado Normal No Lluvia Frio Golf Jugar No Jugar
  • 72. Ejemplo Ambiente Temperatura Humedad Viento Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Soleado 2 3 Caliente 2 2 Alta 3 4 Si 3 3 Nublado 4 0 Templado 4 2 Normal 6 1 No 6 2 Lluvia 3 2 Frio 3 1 Ambiente Temperatura Humedad Viento Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Soleado 2/9 3/5 Caliente 2/9 2/5 Alta 3/9 4/5 Si 3/9 3/5 Nublado 4/9 0/5 Templado 4/9 2/5 Normal 6/9 1/5 No 6/9 2/5 Lluvia 3/9 2/5 Frio 3/9 1/5 Golf Golf Jugar No Jugar Jugar No Jugar 9 5 9/14 5/14
  • 73. Ejemplo  Nuevo día Ambiente Temperatura Humedad Viento Golf Soleado Frio Alta Si ? Posibilidad de Jugar = 2/9*3/9*3/9*3/9*9/14 = 0.0053 Posibilidad de No Jugar = 3/5*1/5*4/5*3/5*5/14 = 0.0206 Probabilidad de Jugar = 0.0053/(0.0053+0.0206) = 20.5% Probabilidad de No Jugar = 0.0206/(0.0053+0.0206) = 79.5%
  • 74. Ejercicio Lentes de Contacto Lentes de Contacto Edad Problema Astigmatismo Prod. Lágrimas Lentes Joven Miopía No Reducida Ninguno Joven Miopía No Normal Blandos Joven Miopía Si Reducida Ninguno Joven Miopía Si Normal Duros Joven Hipermetropía No Reducida Ninguno Joven Hipermetropía No Normal Blandos Joven Hipermetropía Si Reducida Ninguno Joven Hipermetropía Si Normal Duros Adulto Miopía No Reducida Ninguno Adulto Miopía No Normal Blandos Adulto Miopía Si Reducida Ninguno Adulto Miopía Si Normal Duros Adulto Hipermetropía No Reducida Ninguno Adulto Hipermetropía No Normal Blandos Adulto Hipermetropía Si Reducida Ninguno Adulto Hipermetropía Si Normal Ninguno Anciano Miopía No Reducida Ninguno Anciano Miopía No Normal Ninguno Anciano Miopía Si Reducida Ninguno Anciano Miopía Si Normal Duros Anciano Hipermetropía No Reducida Ninguno Anciano Hipermetropía No Normal Blandos Anciano Hipermetropía Si Reducida Ninguno Anciano Hipermetropía Si Normal Ninguno
  • 75. Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D Adulto 2 5 0Hipermetropia 2 7 1Si 4 6 0Normal 4 3 3 Anciano 0 6 1Miopia 2 7 2No 0 8 3Reducido 0 11 0 Joven 2 3 2 Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D Adulto 2/4 5/14 0/3Hipermetropia 2/4 7/14 1/3Si 4/4 6/14 0Normal 4/4 3/14 3/3 Anciano 0/4 6/14 1/3Miopia 2/4 7/14 2/3No 0/4 8/14 3/3Reducido 0/4 11/14 0/3 Joven Lentes B N D 4 14 3 4/21 14/21 3/21 Edad Problema Astigmatismo Lagrimeo Lentes Joven Hipermetropia No Reducida ? Adulto Miopia Si Normal ? Anciano Hipermetropia No Normal ?
  • 76. Soluciones  Ej1)  Pos B = (2/4)*(2/4)*(4/4)*(0)*(4/21) = 0  Pos D = (2/3)*(1/3)*(0)*(0)*(3/21) = 0  Pos N = (3/14)*(7/14)*(6/14)*(11/14)*(14/21)=0.024 Pr=100%  Ej2)  Pos B = (2/4)*(2/4)*(0)*(1)*(4/21) = 0  Pos D = (0)*(1/3)*(3/4)*(1)*(3/21) = 0  Pos N = (5/14)*(7/14)*(8/14)*(3/14)*(14/21)=0.00145 Pr=100%  Ej3)  Pos B = (0/14)*… = 0  Pos D = (1/3)*(1/3)*(0)*… = 0  Pos N = (6/14)*(7/14)*(6/14)*(3/14)*(14/21)=0.00131
  • 77. Problemas  Valores de un atributo que no se presentan.  La probabilidad de la clase dado que el atributo tiene el valor ausente sería cero causando que todo el término sea cero.  La corrección es agregar uno a cada valor y compensar. (Estimador de Laplace MF. P) 2/9, 3/9, 4/9 cambian por 3/12, 4/12, 5/12
  • 78. Problemas  Valores Faltantes  Nueva instancia: se omite  Conj. Entrenamiento: no cuenta  Atributos numéricos  Se supone que tienen una distribución de probabilidad “Normal” o “Gaussiana”  Se calcula la media x y la desviación estándar
  • 80. Ejemplo Ambiente Temperatura Humedad Viento Golf nublado 64 65Si Jugar lluvioso 65 70Si No Jugar lluvioso 68 80No Jugar soleado 69 70No Jugar lluvioso 70 96No Jugar lluvioso 71 91Si No Jugar soleado 72 95No No Jugar nublado 72 90Si Jugar lluvioso 75 80No Jugar soleado 75 70Si Jugar soleado 80 90Si No Jugar nublado 81 75No Jugar nublado 83 86No Jugar soleado 85 85No No Jugar
  • 81. Ambiente Temperatura Humedad Viento Golf Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Soleado 2 3 85 85 86 85 No 6 2 9 5 Templado 4 0 70 80 96 90 Si 3 3 Lluvia 3 2 68 65 80 70 64 72 65 95 69 71 70 91 75 80 75 70 72 90 81 75 Soleado 2/9 3/5Media 73 74,6Media 79,1 86,2 No 6/9 2/5 9/14 5/14 Templado 4/9 0/5DesEst 6,2 7,9DesEst 10,2 9,7 Si 3/9 3/5 Lluvia 3/9 2/5 Ambiente Temperatura Humedad Viento Golf Soleado 66 90 Si ? 0340.0 2.6*2 1 )|66( 2 2 )2.6(2 )7366(   eJugarTf 
  • 82. Ejemplo  Posibilidad Jugar:  (2/9)*0.034*0.0221*(3/9)*(9/14) =0.000036  Pos No Jugar  (3/5)*0.0279*0.038*(3/5)*(5/14) =0.000136  Probabilidad Jugar:  0.000036/(0.000036+0.000136)=20.9%  Probabilidad No Jugar:  0.000136/(0.000036+0.000136)=79.1%
  • 83. Inferencia de Reglas  Algoritmo de cobertura.  Considerar cada clase buscando la forma de cubrir todas las instancias en la clase, y al mismo tiempo excluir a las instancias que no pertenecen a la clase.  Es llamado de cobertura porque en cada etapa se identifica una regla que “cubre” la mayoría de las instancias.
  • 84. Método PRISM  Para cada clase se busca construir las reglas (agregando términos), que cubran todas las instancias de esa clase.  Al agregar un termino, suponga que la nueva regla cubre un total de t instancias, de las cuales p son ejemplos de la clase y t-p están en otras clases (errores de la regla).  • Escoger el término que maximiza p/t
  • 85. x y b b b b bb b b b b ba a a aa b b b b b b b b b b ba a a a a 1.2 y 2.6 b b b b b b b b b bb a a a a a 1.2 x>1.2 y>2.6 b No Si No Si ab Espacio de las Instancias Regla hasta el momento Regla después de añadir un nuevo término
  • 86. Método PRISM  Para cada clase C  Inicializar E con el conjunto de instancias Mientras E contenga instancias de la clase C  Crear la regla R: ?  C  Hasta que R sea perfecta (o  más atributos) haz:  Para cada atributo A no mencionado en R, y valor v
  • 87. Método PRISM  Considerar agregar A=v en el lado Izquierdo de R  Seleccionar A y v que maximicen la precisión p/t (si existen iguales escoger el de mayor p)  Agregar A=v a R  Eliminar las instancias cubiertas por R de E
  • 88. Lentes de Contacto Edad Problema Astigmatismo Prod. Lágrimas Lentes Joven Miopía No Reducida Ninguno Joven Miopía No Normal Blandos Joven Miopía Si Reducida Ninguno Joven Miopía Si Normal Duros Joven Hipermetropía No Reducida Ninguno Joven Hipermetropía No Normal Blandos Joven Hipermetropía Si Reducida Ninguno Joven Hipermetropía Si Normal Duros Adulto Miopía No Reducida Ninguno Adulto Miopía No Normal Blandos Adulto Miopía Si Reducida Ninguno Adulto Miopía Si Normal Duros Adulto Hipermetropía No Reducida Ninguno Adulto Hipermetropía No Normal Blandos Adulto Hipermetropía Si Reducida Ninguno Adulto Hipermetropía Si Normal Ninguno Anciano Miopía No Reducida Ninguno Anciano Miopía No Normal Ninguno Anciano Miopía Si Reducida Ninguno Anciano Miopía Si Normal Duros Anciano Hipermetropía No Reducida Ninguno Anciano Hipermetropía No Normal Blandos Anciano Hipermetropía Si Reducida Ninguno Anciano Hipermetropía Si Normal Ninguno
  • 89. Ejemplo: Lentes  Si ?  Duros  Edad  Joven 2/8 0.25  Adulto 1/8 0.125  Anciano 1/8 0.125  Problema  Miopía 3/12 0.25  Hipermetropía 1/12 0.083  Astigmatismo  Si 4/12 0.333  No 0/12 0  Producción de Lágrimas  Reducida 0/12 0  Normal 4/12 0.333 Si (Astigmatismo = Si)  Duros
  • 90.  Si (Astigmatismo = Si)  ?  Duros  Edad  Joven 2/4 0.5  Adulto 1/4 0.25  Anciano 1/4 0.25  Problema  Miopía 3/6 0.5  Hipermetropía 1/6 0.166  Producción de Lágrimas  Reducida 0/6 0  Normal 4/6 0.666 Si (Astigmatismo = Si)  (Producción de Lágrimas=Normal)  Duros Lentes de Contacto Edad Problema Astigmatismo Prod. Lágrimas Lentes Joven Miopía Si Reducida Ninguno Joven Miopía Si Normal Duros Joven Hipermetropía Si Reducida Ninguno Joven Hipermetropía Si Normal Duros Adulto Miopía Si Reducida Ninguno Adulto Miopía Si Normal Duros Adulto Hipermetropía Si Reducida Ninguno Adulto Hipermetropía Si Normal Ninguno Anciano Miopía Si Reducida Ninguno Anciano Miopía Si Normal Duros Anciano Hipermetropía Si Reducida Ninguno Anciano Hipermetropía Si Normal Ninguno
  • 91.  Si (Astigmatismo = Si  Producción de Lágrimas=Normal)  ?  Duros  Edad  Joven 2/2 1  Adulto 1/2 0.5  Anciano 1/2 0.5  Problema  Miopía 3/3 1  Hipermetropía 1/3 0.333 Si (Astigmatismo = Si  Producción de Lágrimas=Normal  Problema=Miopía)  Duros Lentes de Contacto Edad Problema Astigmatismo Prod. Lágrimas Lentes Joven Miopía Si Normal Duros Joven Hipermetropía Si Normal Duros Adulto Miopía Si Normal Duros Adulto Hipermetropía Si Normal Ninguno Anciano Miopía Si Normal Duros Anciano Hipermetropía Si Normal Ninguno
  • 92. Reglas para Lentes = Duros  Si (Astigmatismo = Si  Producción de Lágrimas=Normal  Problema=Miopía)  Duros  Si (Edad = Joven  Astigmatismo = Si  Producción de Lágrimas = Normal)  Duros
  • 94. Reglas de Asociación  Similares a las reglas de clasificación  Pueden predecir cualquier atributo, no solo la clase, o predecir combinaciones de atributos.  Las diferentes reglas de asociación expresan diferentes regularidades que yacen en el conjunto de datos y generalmente predicen cosa diferentes.
  • 95. Reglas de Asociación  Se centra el interés en las reglas que aplican a un número grande de instancias y que tiene una precisión alta en las instancias en las que aplica.  La cobertura de una regla de asociación es el número de instancias para las cuales ella predice correctamente (soporte).  La precisión (confianza) es el número de instancias que predice correctamente, expresado como una proporción de todas las instancias a las que se aplica
  • 96. Reglas de Asociación  Son similares a las reglas de clasificación.  Cualquier expresión puede ocurrir del lado derecho de la regla.  Puede utilizarse el mismo procedimiento de inducción de reglas para cada posible combinación de atributos.  Pares de atributo - valor que tengan una cobertura mínima (item)  Combinaciones de items (itemset)
  • 97. Reglas de Asociación  Los 1-itemset se obtienen con la frecuencia de  cada item.  Los candidatos de los n-itemset se obtienen del (n-1)-itemset.  Los candidatos de los 2-itemset se obtienen del 1-itemset: Se buscan pares de valores de atributos diferentes. !)!( ! rrn n r n       
  • 98.  Los candidatos de los 2-itemset se obtienen del 1-itemset: Se buscan pares de valores de atributos diferentes.  Valores: Atr 1: A, B, C Valores Atri 2: D, E  Quedan: (A,D), (A, E), (B, D), (B, E), (C,D),(C,E)  Se elimina: (A, B), (A, C), (B,C), (D, E) ya que son valores del mismo atributo. 10 2*6 120 !2)!25( !5 !)!( !           rrn n r n
  • 99. Ambiente Temperatura Humedad Viento Golf lluvioso templado normal No Jugar lluvioso templado alta No Jugar lluvioso frio normal No Jugar nublado templado alta Si Jugar nublado frio normal Si Jugar nublado calor normal No Jugar nublado calor alta No Jugar soleado templado normal Si Jugar soleado frio normal No Jugar lluvioso templado alta Si No Jugar lluvioso frio normal Si No Jugar soleado templado alta No No Jugar soleado calor alta Si No Jugar soleado calor alta No No Jugar
  • 100. 1-ITEM-SORT 2-ITEM Nublado(4) Nublado(4) Calor(4) 1 Lluvioso(5) Nublado(4) Frio(4) 1 Soleado(5) Nublado(4) Templado(6) 2 Calor(4) Nublado(4) Alta(7) 2 Frio(4) Nublado(4) Normal(7) 2 Templado(6) Nublado(4) No(6) 2 Alta(7) Nublado(4) Si(8) 2 Normal(7) Nublado(4) No Jugar(5) 0 No(6) Nublado(4) Jugar(9) 4 Si(8) Lluvioso(5) Calor(4) 0 No Jugar(5) Lluvioso(5) Frio(4) 2 Jugar(9) Lluvioso(5) Templado(6) 3 Lluvioso(5) Alta(7) 2 Lluvioso(5) Normal(7) 3 Lluvioso(5) No(6) 3 Lluvioso(5) Si(8) 2 Lluvioso(5) No Jugar(5) 2 Lluvioso(5) Jugar(9) 3
  • 101. 1-ITEM-SORT Soleado(5) Calor(4) 2 Nublado(4) Soleado(5) Frio(4) 1 Lluvioso(5) Soleado(5) Templado(6) 2 Soleado(5) Soleado(5) Alta(7) 3 Calor(4) Soleado(5) Normal(7) 2 Frio(4) Soleado(5) No(6) 3 Templado(6) Soleado(5) Si(8) 2 Alta(7) Soleado(5) No Jugar(5) 3 Normal(7) Soleado(5) Jugar(9) 2 No(6) Calor(4) Alta(7) 3 Si(8) Calor(4) Normal(7) 1 No Jugar(5) Calor(4) No(6) 3 Jugar(9) Calor(4) Si(8) 1 Calor(4) No Jugar(5) 2 Calor(4) Jugar(9) 2 Frio(4) Alta(7) 0 Frio(4) Normal(7) 4 Frio(4) No(6) 2 Frio(4) Si(8) 2 Frio(4) No Jugar(5) 1 Frio(4) Jugar(9) 3
  • 102. 1-ITEM-SORT Templado(4) Alta(7) 4 Nublado(4) Templado(4) Normal(7) 2 Lluvioso(5) Templado(4) No(6) 3 Soleado(5) Templado(4) Si(8) 3 Calor(4) Templado(4) No Jugar(5) 2 Frio(4) Templado(4) Jugar(9) 4 Templado(6) Alta(7) No(6) 4 Alta(7) Alta(7) Si(8) 3 Normal(7) Alta(7) No Jugar(5) 4 No(6) Alta(7) Jugar(9) 3 Si(8) Normal(7) No(6) 4 No Jugar(5) Normal(7) Si(8) 3 Jugar(9) Normal(7) No Jugar(5) 1 Normal(7) Jugar(9) 6 No(6) No Jugar(5) 2 No(6) Jugar(9) 6 Si(8) No Jugar(5) 3 Si(8) Jugar(9) 3
  • 103. Reglas de Asociación  Candidatos de los n-itemset se obtienen del (n- 1)-itemset.  Los candidatos de los 3-itemset se obtienen del 2-itemset de la siguiente forma:  Deben coincidir en los (n-2) elementos del itemset  2-ITEMSET: (A, B), (A, C), (B,C), (B, C)  Potenciales: (A, B, C), (B, C, D)  Quedan: (A, B, C)  Se elimina: (B, C, D) ya que (C, D) no existe
  • 104. 2-ITEM 3-ITEM Nublado Calor 2Nublado Calor Alta 1 Nublado Alta 2Nublado Calor Normal 1 Nublado Normal 2Nublado Calor Normal 2 Nublado No 2Nublado Calor Si 0 Nublado Si 2Nublado Calor Jugar 4 Nublado Jugar 4Nublado Alta Normal 1 Calor Alta 2Nublado Alta Si 1 Calor No 3Nublado Alta Jugar 2 Calor No Jugar 2Nublado Normal Normal 1 Calor Jugar 3Nublado Normal Si 1 Alta No 3Nublado Normal Jugar 2 Alta Si 2Nublado No Jugar 3 Alta No Jugar 2Nublado Si Jugar 2 Alta Jugar 3Lluvioso Frio Alta 0 Normal No Jugar 2Lluvioso Frio Normal 2 Normal Jugar 2Lluvioso Frio No 1 Normal No Jugar 3Lluvioso Frio Si 1 No No Jugar 2Lluvioso Frio No Jugar 1 No Jugar 3Lluvioso Frio Jugar 1 Si No Jugar 2Lluvioso Templado Alta 2 Si Jugar 3Lluvioso Templado Normal 1
  • 105. 4-ITEMSET Nublado Calor No Jugar 2 Lluvioso Templado No Jugar 2 Lluvioso Normal No Jugar 2 Soleado Calor Alta No Jugar 2 Soleado Alta No No Jugar 2 Frio Normal No Jugar 2
  • 106. Itemsets Generados  La cantidad de elementos por itemsets son:  1-itemsets 12  2-itemsets 47  3-itemsets 39  4-itemsets 7
  • 107. Reglas de asociación  Las reglas se obtienen a partir de los itemsets Humedad = normal, Viento = no, Golf = jugar  Esto nos lleva a las 7 reglas potenciales:  If Humedad = normal  Viento = no  Golf = Jugar 4/4  If Humedad = normal  Golf = jugar  Viento = no 4/6  If Viento = no  Golf = jugar  Humedad = normal 4/7  If Humedad = normal  Viento = no  Golf = jugar 4/6  If Viento = no  Humedad = normal  Golf = jugar 4/8
  • 108. Reglas de Asociación cov 1humedad=normal viento=no  golf=jugar 4 2temperatura=frio  humedad=normal 4 3ambiente=nublado  golf=jugar 4 4temperatura = frio  golf = jugar  humedad = normal 3 5ambiente=lluvioso  viento =no  golf=jugar 3 6ambiente=lluvioso  golf=jugar  viento=no 3 7ambiente=soleado  humedad=alta  golf=no jugar 3 8ambiente=soleado  golf=no jugar  humedad=alta 3 9temperatura=frio  viento=no  humedad=normal  golf=jugar 2 10temperatura=frio  viento=no humedad=normal  golf=jugar 2 11temperatura=frio  viento=no golf=jugar  humedad=normal 2 12ambiente=lluvioso humedad=normal  viento=no  golf=jugar 2 13ambiente=lluvioso humedad=normal  golf=jugar  viento=no 2 14ambiente=lluvioso temperatura=templado  viento=no  golf=jugar 2 15ambiente=lluvioso temperatura=templado  golf=jugar  viento=no 2 16temperatura=templado  viento=no  golf=jugar  ambiente=lluvioso 2 17ambiente=nublado temperatura=calor  viento=no  golf=jugar 2 18ambiente=nublado viento=no  temperatura=calor  golf=jugar 2 19temperatura=calor  golf=jugar  ambiente=nublado viento=no 2 20ambiente=nublado  temperatura=calor viento=no  golf=jugar 2 21ambiente=nublado  temperatura=calor golf=jugar  viento=no 2 22ambiente=nublado  viento=no golf=jugar  temperatura=calor 2 23temperatura=calor  viento = no  golf = jugar  ambiente = nublado 2 … 58ambiente=soleado temperatura=calor  humedad=alta 2
  • 109. 4-Itemset  Elementos 3-ITEMSET (A,B,C), (A, B, D), (A,C,D), (A,C,E), (B,C,D)  Potenciales ITESMSET-4 (A, B, C, D), (A, C, D, E)  Queda (A, B, C, D)  Se elimina (A, C, D, E) porque (C, D, E) no existe (no cumple la cobertura)
  • 110. Conjunto Final de Reglas  3 Reglas con cobertura 4  5 Reglas con cobertura 3  50 Reglas con cobertura 2  Total 58 Reglas
  • 111. Regla de los 3-Itemset  (A, B, C) 1. Si A, B  C 2. Si B, C  A 3. Si A, C  B 4. Si A  B, C 5. Si B  A, C 6. Si C  A, B 7. Si -  A, B, C
  • 113. Agrupamiento (Clustering)  Las técnicas de agrupamiento se aplican cuando no hay propiamente una clase que predecir sino cuando las instancias se dividen en grupos de forma natural.  Es una técnica de minería de datos no dirigida.  El agrupamiento requiere de técnicas diferentes a las de clasificación y asociación.
  • 114. Diagramas  En el agrupamiento, la salida es un diagrama que muestra como las instancias forman grupos.  Se asocia un número de grupo a cada instancia  grupos disjuntos  grupos traslapados  probabilidad de pertenencia a un grupo  Jerarquía
  • 115. 1 2 3 a 0,4 0,1 0,5 b 0,1 0,8 0,1 c 0,3 0,3 0,4 d 0,1 0,1 0,8 e 0,4 0,1 0,5 f 0,1 0,4 0,5 g 0,7 0,2 0,1 h … e c b d j h a k g i f i f bc e h d a j kg g a c i e d k b j f h
  • 116. Agrupamiento  Los mapeos auto-organizables: forma especializada de red neuronal.  K-Medias (K-Means): agrupamiento iterativo basado en distancias.  Agrupamiento incremental.  EM-Algorithm: Expectation Maximization.
  • 117. Minería de Datos  Dependiendo de la meta que se persigue en la minería de datos, se requiere la aplicación de una técnica diferente.  Metas:  Prescriptiva: automatizar el proceso de toma de decisiones (clasificación, predicción).  Descriptiva: Incrementar el entendimiento de lo que sucede en los datos y del mundo que reflejan. (agrupamiento - clustering)
  • 118. Diferencias  Analizar la respuesta a una oferta  Entradas: Finanzas, Estilo de vida  Projecto 1: producir un modelo que dé a cada prospecto una puntuación de cómo responderá a la oferta  Projecto 2: Entender las causas de la respuesta para mejorar futuros esfuerzos
  • 119. Minería de Datos  Dirigida: La meta principal es predecir, estimar, clasificar ó caracterizar el comportamiento de algun atributo, prevíamente identificado, en términos de un conjunto de variables de entrada.  No dirigida: La meta es descubrir una estructura en el conjunto de datos
  • 120. Agrupamiento (Clustering)  Las técnicas de agrupamiento se aplican cuando no hay propiamente una clase que predecir sino cuando las instancias se dividen en grupos de forma natural.  Es una técnica de minería de datos no dirigida.  El agrupamiento requiere de técnicas diferentes a las de clasificación y asociación
  • 121. Agrupamiento  Se genera un diagrama que muestra cómo las instancias forman grupos.  En el caso más simple, se asocia un número de grupo a cada instancia. Se colocan las instancias en dos dimensiones y se particiona el espacio para mostrar cada cluster (disjuntos). e c b d j h a k g i f
  • 122. Agrupamiento  Algunos algoritmos permiten que una  instancia pertenezca a dos grupos (clusters)  La representación se puede visualizar mediante diagramas de Venn i f bc e h d a j kg
  • 123. Agrupamiento  Otros algoritmos asocian a las instancias con los grupos de manera probabilística.  En este caso para cada instancia existe una probabilidad o grado de pertenencia a cada 1 2 3 a 0,4 0,1 0,5 b 0,1 0,8 0,1 c 0,3 0,3 0,4 d 0,1 0,1 0,8 e 0,4 0,1 0,5 f 0,1 0,4 0,5 g 0,7 0,2 0,1 h …
  • 124. Agrupamiento  Otros producen una estructura jerárquica de clusters.  Los elementos unidos en niveles inferiores tienen una mayor cohesión que los de niveles superiores. g a c i e d k b j f h
  • 125. Agrupamiento  Enfoques matemáticos.  Los métodos son Divisivos y Aglomerativos  Se define alguna medida del valor de la partición del conjunto de clusters.  La medida es almacenada para decidir al final del proceso cuál partición es la mejor.
  • 126. Métodos Divisivos  Inician considerando todas las instancias como parte de un gran grupo (cluster) .  El cluster inicial se divide en dos o más clusters.  Estos clusters se dividen sucesivamente.  Hasta que cada instancia tiene su propio cluster.
  • 127. Métodos Aglomerativos  Otros métodos son llamados aglomerativos.  Iniciar con cada instancia en un grupo (cluster).  Iterativamente se combinan los clusters.  Termina cuando sólo hay un cluster.
  • 128. Agrupamiento  Los mapeos auto-organizables: forma especializada de red neuronal.  K-Medias (K-Means): agrupamiento iterativo basado en distancias.  Agrupamiento incremental  EM-Algorithm: Expectation Maximization
  • 129. Agrupamiento Iterativo Basado en Distancia K- Medias  K-medias es uno de los algoritmos más ampliamente utilizado en herramientas comerciales de minería de datos.  K-medias trabaja mejor cuando la entrada de datos es numérica principalmente.
  • 130. K-Medias  ¿Cómo funciona?  Divide el conjunto de datos en un número predeterminado de clusters.  Ese número es K, de aquí el nombre.
  • 131. K-Medias  ¿Cómo funciona?  La media es lo que los estadistas llaman promedio.  En este caso la media se refiere a la ubicación promedio de los miembros de un grupo en particular.
  • 132. K-Medias  ¿Ubicación? ¡Hablamos de Registros en una Base de Datos!  La respuesta viene de la geometría:  Para formar los clusters, cada instancia es asociada a un punto en el “espacio de instancias”  Ese espacio tiene tantas dimensiones como atributos hay en las instancias.
  • 133. K-Medias  El valor de cada atributo es interpretado como una distancia a partir del origen y a lo largo del eje correspondiente.  Para que la interpretación sea útil, los atributos deben ser convertidos a números y éstos deben normalizarse para que los cambios en las dimensiones sean comparables.
  • 134. Algoritmo  Las instancias son asignadas a clusters a través de un proceso iterativo que inicia con clusters centrados en localidades aleatorias en el espacio de instancias y mueve los centroides del cluster hasta que alguno de ellos se encuentre en realidad en el centro de algún cluster.
  • 135. 0 1 2 3 4 5 6 7 8 0 2 4 6 8 10 Punto X Y A 1,2 1 B 1,4 2 C 2 1,1 D 2,5 1,5 E 3,6 1,7 F 0,7 3 G 1,3 6 H 1,9 7,3 I 3 6,9 J 3,3 6 K 4 6 L 2,3 5 M 3,5 5 N 3 4 O 6,1 3,2 P 8 5,5 Q 9,1 4,9 R 8,1 4 S 8,6 3 T 7,5 2  El parámetro K indica el número de cluster que se seleccionarán en este caso K=3
  • 136. Algoritmo  Se seleccionan K puntos al azar cómo centros de los clusters (F, N y O).  Las instancias se asignan al centro del cluster más cercano considerando la distancia de Euclidiana. 2 22 2 1121 212211 )()(),( ,, yxyxPPD yyPxxP  
  • 137. Algoritmo  Se seleccionan K puntos y se asignan las instancias al centro del cluster más cercano 0 1 2 3 4 5 6 7 8 0 2 4 6 8 10 Semilla 1 Semilla 2 Semilla 3
  • 138. Límites  Para dibujar los limites entre los clusters, basta con recordar que si se tienen 2 puntos X y Y, todos los puntos que están equidistantes desde X y Y, caen en la línea que está a la mitad del segmento que une a X y Y, y es perpendicular.  Asi el punto del cuadro es asignado a el cluster controlado por el centroide 2.
  • 139. Ejemplo 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 9 10 Semilla 1 Semilla 2 Semilla 3
  • 140. Asignación Punto X Y DF DN DO A 1,2 1 2,06 3,50 5,37 B 1,4 2 1,22 2,56 4,85 C 2 1,1 2,30 3,07 4,61 D 2,5 1,5 2,34 2,55 3,98 E 3,6 1,7 3,18 2,38 2,92 F 0,7 3 0,00 2,51 5,40 G 1,3 6 3,06 2,62 5,56 H 1,9 7,3 4,46 3,48 5,87 I 3 6,9 4,53 2,90 4,83 J 3,3 6 3,97 2,02 3,96 K 4 6 4,46 2,24 3,50 L 2,3 5 2,56 1,22 4,20 M 3,5 5 3,44 1,12 3,16 N 3 4 2,51 0,00 3,20 O 6,1 3,2 5,40 3,20 0,00 P 8 5,5 7,72 5,22 2,98 Q 9,1 4,9 8,61 6,17 3,45 R 8,1 4 7,47 5,10 2,15 S 8,6 3 7,90 5,69 2,51 T 7,5 2 6,87 4,92 1,84 0 1 2 3 4 5 6 7 8 0 2 4 6 8 10
  • 141. Algoritmo  Después se calculará el centroide, es decir, la media de todas las instancias.  Estos centroides serán los nuevos centros de los clusters y el proceso se repite.  La iteración continúa hasta que los mismos puntos son asignados a cada cluster en rondas consecutivas. En este momento los centroides se han estabilizado.
  • 142. Ejemplo Grupo1 Grupo2 Grupo3 Punto X Y Punto X Y Punto X Y A 1,2 1 E 3,6 1,7 O 6,1 3,2 B 1,4 2 G 1,3 6 P 8 5,5 C 2 1,1 H 1,9 7,3 Q 9,1 4,9 D 2,5 1,5 I 3 6,9 R 8,1 4 F 0,7 3 J 3,3 6 S 8,6 3 1,56 1,72 K 4 6 T 7,5 2 L 2,3 5 7,9 3,8 M 3,5 5 N 3 4 2,88 5,3 Medias
  • 144. Clustering  Si hay más de una dimensión, la distancia euclidiana se calcula de la misma forma:  En el caso de la media, se calcula la media para cada dimensión.      ni i ii yxPPD yyPxxP 1 2 21 212211 )(),( ,,
  • 145. Consecuencias  Tipo de preguntas que se pueden responder  Es una técnica de aprendizaje no dirigido, por lo que puede ser aplicada sin un conocimiento a priori de la estructura a ser descubierta.  Dado que los grupos detectados automáticamente no tienen una interpretación natural distinta, es difícil poner los resultados en práctica.
  • 146. Consecuencias  Preparación de los datos  Seleccionando diferentes medidas de distancias, el clustering se puede aplicar a cualquier tipo de datos (distancia entre textos). Sin embargo, la más usada es la distancia Euclidiana.
  • 147. Consecuencias  Seleccionar el número adecuado para K  Si el número no iguala a la estructura natural de los datos, los resultados no son buenos.  Si no se tiene una razón a priori para elegir el número se debe probar con varios valores.
  • 148. Consecuencias  Los mejores conjuntos de clusters, son aquellos en los que la distancia entre los miembros:  Del mismo cluster es pequeña  De clusters adyacentes es grande
  • 149. Interpretación  ¡Cuando no se sabe lo que se está buscando, no se reconoce cuando se ha encontrado!  Existen algunos enfoques para interpretar.  Construir un árbol de decisión para explicar cómo asignar las instancias al cluster correcto.  Visualización para ver como se afectan los clusters con los cambios.