3. La clasificación es una tarea que consiste en determinar la clase a la que
un objeto o individuo pertenece, basándose en sus características.
Existen algoritmos que utilizan solo algunas de las características, y otros
que las utilizan todas.
Clasificación
MINERÍA DE DATOS 3
4. Modelado Estadístico
Todos los atributos contribuyen
Los atributos se consideran:
◦ Iguales en importancia
◦ Independientes
Se toma en cuenta la frecuencia del par atributo-valor por
clase
No es realista, ¡pero funciona!
MINERÍA DE DATOS 4
5. Modelado Estadístico
Está basado en la regla de probabilidad condicional de Bayes
Si se tiene una hipótesis H, y una evidencia E entonces:
𝑃[𝐻|𝐸] =
𝑃 𝐸 𝐻 × 𝑃[𝐻]
𝑃[𝐸]
◦ H : Pertenencia a una clase
◦ E : Combinación de valores de los
atributos
MINERÍA DE DATOS 5
6. Se calculan las posibilidades de que la instancia sea de una
clase considerando los valores de los atributos en la instancia.
𝑃[𝐻|𝐸] =
𝑃 𝐸1 𝐻 × ⋯ × 𝑃 𝐸𝑛 𝐻 × 𝑃[𝐻]
𝑃[𝐸]
Los números encontrados se convierten en probabilidades
normalizandolos de forma que sumen 1.
𝑃[𝐻1|𝐸] =
𝑃 𝐸1 𝐻 × ⋯ × 𝑃 𝐸𝑛 𝐻 × 𝑃[𝐻]
𝑃[𝐸|𝐻1] × ⋯ × 𝑃[𝐸|𝐻𝑚]
Naive Bayes
MINERÍA DE DATOS 6
7. El conjunto de datos a trabajar, se conoce como “Juego de
Golf”, “Juego de tenis” o del clima (weather). Contiene 14
registros y se trata de determinar si se debe jugar dadas las
características del clima.
4 Atributos
◦ Ambiente (Outlook)
◦ Temperature (Temperature)
◦ Humedad (Humidity)
◦ Viento (Wind)
2 Clases (Jugar (Play), No jugar (Don’t Play)
Ejemplo
MINERÍA DE DATOS 7
9. Lo primero que se debe hacer es calcular la probabilidad a priori,
de los 9 días que se juega o los 5 que no, dados los valores de
cada atributo.
Naive Bayes
P[Play|rainy] = 3/9
P[Don’t Play|rainy] = 2/5
Outlook Play
rainy Don't Play
rainy Don't Play
rainy Play
rainy Play
rainy Play
MINERÍA DE DATOS 9
10. Calcule las frecuencias y posteriormente las probabilidades a
priori.
Frecuencias
yes no yes no yes no yes no
sunny hot high true
overcast mild normal false
rainy cold
Outlook Temperature Humidity Windy
yes no
Play
Probabilidades Observadas
Probabilidad a Priori
MINERÍA DE DATOS 10
11. Ejemplo
yes no yes no yes no yes no
sunny 2 3 hot 2 2 high 3 4 true 3 3
overcast 4 0 mild 4 2 normal 6 1 false 6 2
rainy 3 2 cold 3 1
Outlook Temperature Windy
Humidity
yes no
9 5
Play
yes no yes no yes no yes no
sunny 2/9 3/5 hot 2/9 2/5 high 3/9 4/5 true 3/9 3/5
overcast 4/9 0/5 mild 4/9 2/5 normal 6/9 1/5 false 6/9 2/5
rainy 3/9 2/5 cold 3/9 1/5
Outlook Temperature Humidity Windy
yes no
9/14 5/14
Play
Frecuencias
Probabilidad
A priori
MINERÍA DE DATOS 11
12. Naive Bayes
Considerando que se tiene un nuevo día con las
características, se obtienen las posibilidades.
MINERÍA DE DATOS 12
outlook temperature humidity windy
sunny cool high true
𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝑃𝑙𝑎𝑦|𝐸] =
2
9
×
3
9
×
3
9
×
3
9
×
9
14
= 0.0053
𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝐷𝑜𝑛′𝑡 𝑃𝑙𝑎𝑦|𝐸] =
3
5
×
1
5
×
4
5
×
3
5
×
5
14
= 0.0206
14. Ejercicio Lentes de Contacto
Edad Problema Astigmatismo Prod. lágrimas Lentes
Joven Miopía No Reducida Ninguno
Joven Miopía No Normal Blandos
Joven Miopía Si Reducida Ninguno
Joven Miopía Si Normal Duros
Joven Hipermetropía No Normal Blandos
Joven Hipermetropía Si Reducida Ninguno
Joven Hipermetropía Si Normal Duros
Adulto Miopía No Reducida Ninguno
Adulto Miopía No Normal Blandos
Adulto Miopía Si Reducida Ninguno
Adulto Hipermetropía No Reducida Ninguno
Adulto Hipermetropía No Normal Blandos
Adulto Hipermetropía Si Reducida Ninguno
Adulto Hipermetropía Si Normal Ninguno
Anciano Miopía No Reducida Ninguno
Anciano Miopía No Normal Ninguno
Anciano Miopía Si Reducida Ninguno
Anciano Miopía Si Normal Duros
Anciano Hipermetropía No Reducida Ninguno
Anciano Hipermetropía Si Reducida Ninguno
Anciano Hipermetropía Si Normal Ninguno
Lentes de Contacto
E
l
i
m
i
n
a
n
d
o
3
i
n
s
t
a
n
c
i
a
s
MINERÍA DE DATOS 14
15. Edad Lentes B N D Problema Lentes B N D
Adulto Blandos Hipermetropía Blandos
Adulto Blandos Hipermetropía Blandos
Adulto Ninguno Hipermetropía Duros
Adulto Ninguno Hipermetropía Ninguno
Adulto Ninguno Hipermetropía Ninguno
Adulto Ninguno Hipermetropía Ninguno
Adulto Ninguno Hipermetropía Ninguno
Anciano Duros Hipermetropía Ninguno
Anciano Ninguno Hipermetropía Ninguno
Anciano Ninguno Hipermetropía Ninguno
Anciano Ninguno Miopía Blandos
Anciano Ninguno Miopía Blandos
Anciano Ninguno Miopía Duros
Anciano Ninguno Miopía Duros
Joven Blandos Miopía Ninguno
Joven Blandos Miopía Ninguno
Joven Duros Miopía Ninguno
Joven Duros Miopía Ninguno
Joven Ninguno Miopía Ninguno
Joven Ninguno Miopía Ninguno
Joven Ninguno Miopía Ninguno
Lentes de Contacto
Calcule las frecuencias y probabilidades
a priori
MINERÍA DE DATOS 15
16. Astigmatismo Lentes B N D Prod. lágrimas Lentes B N D
No Blandos Normal Blandos
No Blandos Normal Blandos
No Blandos Normal Blandos
No Blandos Normal Blandos
No Ninguno Normal Duros
No Ninguno Normal Duros
No Ninguno Normal Duros
No Ninguno Normal Ninguno
No Ninguno Normal Ninguno
No Ninguno Normal Ninguno
Si Duros Reducida Ninguno
Si Duros Reducida Ninguno
Si Duros Reducida Ninguno
Si Ninguno Reducida Ninguno
Si Ninguno Reducida Ninguno
Si Ninguno Reducida Ninguno
Si Ninguno Reducida Ninguno
Si Ninguno Reducida Ninguno
Si Ninguno Reducida Ninguno
Si Ninguno Reducida Ninguno
Si Ninguno Reducida Ninguno
Lentes de Contacto
MINERÍA DE DATOS 16
17. Edad B N D Problema B N D Astig B N D Lagrimeo B N D
Adulto 2 5 0 Hipermetropía 2 7 1 No 4 6 0 Normal 4 3 3
Anciano 0 6 1 Miopía 2 7 2 Si 0 8 3 Reducido 0 11 0
Joven 2 3 2
Edad B N D Problema B N D Astig B N D Lagrimeo B N D
Adulto 2/4 5/14 0/3 Hipermetropía 2/4 7/14 1/3 No 4/4 6/14 0 Normal 4/4 3/14 3/3
Anciano 0/4 6/14 1/3 Miopía 2/4 7/14 2/3 Si 0/4 8/14 3/3 Reducido 0/4 11/14 0/3
Joven 2/4 3/14 2/3
Lentes de Contacto
B N D
4 14 3
4/21 14/21 3/21
Solución
MINERÍA DE DATOS 16
18. Realice la clasificación usando Naive
Bayes
Edad Problema Astigmatismo Prod. lágrimas Lentes
Joven Hipermetropía No Reducida ?
Adulto Miopía Si Normal ?
Anciano Hipermetropía No Normal ?
MINERÍA DE DATOS 18
19. Ej 1)
Pos B = (2/4) (2/4) (4/4) (0)(4/21) = 0
Pos D = (2/3) (1/3) (0) (0) (3/21) = 0
Pos N = (3/14)(7/14)(6/14)(11/14)(14/21)= 0.024 Pr = 100%
Ej 2)
Pos B = (2/4) (2/4) (0) (1)(4/21) = 0
Pos D = (0) (2/3) (3/4) (1) (3/21) = 0
Pos N = (5/14)(7/14)(8/14)(3/14)(14/21) = 0.0145 Pr=100%
Ej 3)
Pos B = (0/14).... = 0
Pos D = (1/3) (1/3) (0) .... = 0
Pos N = (6/14)(7/14)(6/14)(3/14)(14/21)= 0.0131 Pr = 100%
Solución
MINERÍA DE DATOS 19
20. Problemas
En el ejercicio anterior, se observa que hay valores de un
atributo que no se presentan.
La probabilidad de la clase dado que el atributo tiene el valor
ausente es cero, causando que todo el término sea cero.
Para corregir esta situación, se suma uno a cada valor y se
compensa.
2/9, 3/9, 4/9 cambian por 3/12, 4/12, 5/12
MINERÍA DE DATOS 20
21. Naive Bayes con atributos numéricos
Se supone que tienen una distribución de
probabilidad “Normal” o “Gaussiana”.
Se calcula la media 𝑥 y la desviación estándar 𝜎.
n
x
x
n
i
i
1
1
2
1
2
n
x
x
n
i
i
𝜎 = 𝜎2
MINERÍA DE DATOS 21
22. Ejemplo
outlook temperature humidity windy play
sunny 85 85 false no
sunny 80 90 true no
overcast 83 86 false yes
rainy 70 96 false yes
rainy 68 80 false yes
rainy 65 70 true no
overcast 64 65 true yes
sunny 72 95 false no
sunny 69 70 false yes
rainy 75 80 false yes
sunny 75 70 true yes
overcast 72 90 true yes
overcast 81 75 false yes
rainy 71 91 true no
MINERÍA DE DATOS 22
23. Yes No yes no yes no yes no yes no
sunny 2 3 83 85 86 85 false 6 2 9 5
overcast 4 0 70 80 96 90 true 3 3
rainy 3 2 68 65 80 70
64 72 65 95
69 71 70 91
75 80
75 70
72 90
81 75
sunny 2/9 3/5
2/9 3/5 M 73 74.6 M 79.1 86.2 false 6/9 2/5 9/14 5/14
overcast 4/9 0/5
4/9 0/5 D 6.2 7.9 D 10.2 9.7 true 3/9 3/5
rainy 3/9 2/5
3/9 2/5
play
Outlook Temperature Humidity Windy
Media y Desviación estandar
MINERÍA DE DATOS 23
24. Considerando que se tiene un nuevo día con las
características, se obtienen las posibilidades.
Naive Bayes con atributos numéricos
𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝑃𝑙𝑎𝑦|𝐸] =
2
9
× ? × ? ×
3
9
×
9
14
𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝐷𝑜𝑛′𝑡 𝑃𝑙𝑎𝑦|𝐸] =
3
5
× ? × ? ×
3
5
×
5
14
outlook temperature humidity windy
sunny 66 90 true
MINERÍA DE DATOS 24
25. Se calculan los valores faltantes
Naive Bayes con atributos numéricos
2
2
2
2
1
)
(
x
e
x
f
𝑓 𝑇 = 66 𝑦𝑒𝑠 =
1
2𝜋6.2
𝑒
−
66−73 2
2(6.2)2
= 0.0340
𝑓(𝑇 = 66|𝑛𝑜) =
1
2𝜋7.9
𝑒
−
66−74.6 2
2(7.9)2
= 0.0221
MINERÍA DE DATOS 25
26. Calcula los valores correspondientes para humedad = 90.
Ejercicio
2
2
2
2
1
)
(
x
e
x
f
MINERÍA DE DATOS 26
28. Es una software libre para Minería de Datos desarrollado en la universidad de Waikato
en Nueva Zelanda.
Programado en Lenguaje JAVA
Se puede obtener de la página
http://www.cs.waikato.ac.nz/ml/weka/
WEKA
MINERÍA DE DATOS 28
29. Para iniciar dar clic en Explorer
Se abre la siguiente ventana
WEKA
MINERÍA DE DATOS 29
30. La única ventana activa es Preprocess, aquí usando Open File
elegiremos el archivo con los datos a trabajar.
El archivo es weather.nominal, está en el directorio donde se instaló
Weka, en la carpeta data.
WEKA
MINERÍA DE DATOS 30
32. Una vez cargados los datos, se procede a la
pestaña Classify para elegir (Choose) el
método a utilizar, en este caso, un método
de Bayes que es Naive.
WEKA
MINERÍA DE DATOS 32
33. Una vez seleccionado, se elige la
opción de utilizar todo el conjunto
de entrenamiento(Use training set)
y se inicia el proceso (Start)
WEKA-BAYES
MINERÍA DE DATOS 33
34. En la salida, se informa el método utilizado, y la información de los
datos. Siempre el último atributo es la clase.
WEKA
MINERÍA DE DATOS 34