SlideShare una empresa de Scribd logo
1 de 36
Minería de Datos
MCC. LUIS YAEL MÉNDEZ SÁNCHEZ
Email: luis.mendezsanchez@correo.buap.mx
Algoritmo de Naive
Bayes
MINERÍA DE DATOS 2
La clasificación es una tarea que consiste en determinar la clase a la que
un objeto o individuo pertenece, basándose en sus características.
Existen algoritmos que utilizan solo algunas de las características, y otros
que las utilizan todas.
Clasificación
MINERÍA DE DATOS 3
Modelado Estadístico
Todos los atributos contribuyen
Los atributos se consideran:
◦ Iguales en importancia
◦ Independientes
Se toma en cuenta la frecuencia del par atributo-valor por
clase
No es realista, ¡pero funciona!
MINERÍA DE DATOS 4
Modelado Estadístico
Está basado en la regla de probabilidad condicional de Bayes
Si se tiene una hipótesis H, y una evidencia E entonces:
𝑃[𝐻|𝐸] =
𝑃 𝐸 𝐻 × 𝑃[𝐻]
𝑃[𝐸]
◦ H : Pertenencia a una clase
◦ E : Combinación de valores de los
atributos
MINERÍA DE DATOS 5
Se calculan las posibilidades de que la instancia sea de una
clase considerando los valores de los atributos en la instancia.
𝑃[𝐻|𝐸] =
𝑃 𝐸1 𝐻 × ⋯ × 𝑃 𝐸𝑛 𝐻 × 𝑃[𝐻]
𝑃[𝐸]
Los números encontrados se convierten en probabilidades
normalizandolos de forma que sumen 1.
𝑃[𝐻1|𝐸] =
𝑃 𝐸1 𝐻 × ⋯ × 𝑃 𝐸𝑛 𝐻 × 𝑃[𝐻]
𝑃[𝐸|𝐻1] × ⋯ × 𝑃[𝐸|𝐻𝑚]
Naive Bayes
MINERÍA DE DATOS 6
El conjunto de datos a trabajar, se conoce como “Juego de
Golf”, “Juego de tenis” o del clima (weather). Contiene 14
registros y se trata de determinar si se debe jugar dadas las
características del clima.
4 Atributos
◦ Ambiente (Outlook)
◦ Temperature (Temperature)
◦ Humedad (Humidity)
◦ Viento (Wind)
2 Clases (Jugar (Play), No jugar (Don’t Play)
Ejemplo
MINERÍA DE DATOS 7
Naive Bayes
MINERÍA DE DATOS 8
Lo primero que se debe hacer es calcular la probabilidad a priori,
de los 9 días que se juega o los 5 que no, dados los valores de
cada atributo.
Naive Bayes
 P[Play|rainy] = 3/9
 P[Don’t Play|rainy] = 2/5
Outlook Play
rainy Don't Play
rainy Don't Play
rainy Play
rainy Play
rainy Play
MINERÍA DE DATOS 9
Calcule las frecuencias y posteriormente las probabilidades a
priori.
Frecuencias
yes no yes no yes no yes no
sunny hot high true
overcast mild normal false
rainy cold
Outlook Temperature Humidity Windy
yes no
Play
Probabilidades Observadas
Probabilidad a Priori
MINERÍA DE DATOS 10
Ejemplo
yes no yes no yes no yes no
sunny 2 3 hot 2 2 high 3 4 true 3 3
overcast 4 0 mild 4 2 normal 6 1 false 6 2
rainy 3 2 cold 3 1
Outlook Temperature Windy
Humidity
yes no
9 5
Play
yes no yes no yes no yes no
sunny 2/9 3/5 hot 2/9 2/5 high 3/9 4/5 true 3/9 3/5
overcast 4/9 0/5 mild 4/9 2/5 normal 6/9 1/5 false 6/9 2/5
rainy 3/9 2/5 cold 3/9 1/5
Outlook Temperature Humidity Windy
yes no
9/14 5/14
Play
Frecuencias
Probabilidad
A priori
MINERÍA DE DATOS 11
Naive Bayes
Considerando que se tiene un nuevo día con las
características, se obtienen las posibilidades.
MINERÍA DE DATOS 12
outlook temperature humidity windy
sunny cool high true
𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝑃𝑙𝑎𝑦|𝐸] =
2
9
×
3
9
×
3
9
×
3
9
×
9
14
= 0.0053
𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝐷𝑜𝑛′𝑡 𝑃𝑙𝑎𝑦|𝐸] =
3
5
×
1
5
×
4
5
×
3
5
×
5
14
= 0.0206
Posteriormente las probabilidades.
Naive Bayes
𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝑃𝑙𝑎𝑦|𝐸] = 0.0053
𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝐷𝑜𝑛′𝑡 𝑃𝑙𝑎𝑦|𝐸] = 0.0206
𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑃𝑙𝑎𝑦 𝐸 =
0.0053
0.0053 + 0.0206
= 20.5%
𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝐷𝑜𝑛′𝑡 𝑃𝑙𝑎𝑦 𝐸 =
0.0206
0.0053 + 0.0206
= 79.5%
MINERÍA DE DATOS 13
Ejercicio Lentes de Contacto
Edad Problema Astigmatismo Prod. lágrimas Lentes
Joven Miopía No Reducida Ninguno
Joven Miopía No Normal Blandos
Joven Miopía Si Reducida Ninguno
Joven Miopía Si Normal Duros
Joven Hipermetropía No Normal Blandos
Joven Hipermetropía Si Reducida Ninguno
Joven Hipermetropía Si Normal Duros
Adulto Miopía No Reducida Ninguno
Adulto Miopía No Normal Blandos
Adulto Miopía Si Reducida Ninguno
Adulto Hipermetropía No Reducida Ninguno
Adulto Hipermetropía No Normal Blandos
Adulto Hipermetropía Si Reducida Ninguno
Adulto Hipermetropía Si Normal Ninguno
Anciano Miopía No Reducida Ninguno
Anciano Miopía No Normal Ninguno
Anciano Miopía Si Reducida Ninguno
Anciano Miopía Si Normal Duros
Anciano Hipermetropía No Reducida Ninguno
Anciano Hipermetropía Si Reducida Ninguno
Anciano Hipermetropía Si Normal Ninguno
Lentes de Contacto
E
l
i
m
i
n
a
n
d
o
3
i
n
s
t
a
n
c
i
a
s
MINERÍA DE DATOS 14
Edad Lentes B N D Problema Lentes B N D
Adulto Blandos Hipermetropía Blandos
Adulto Blandos Hipermetropía Blandos
Adulto Ninguno Hipermetropía Duros
Adulto Ninguno Hipermetropía Ninguno
Adulto Ninguno Hipermetropía Ninguno
Adulto Ninguno Hipermetropía Ninguno
Adulto Ninguno Hipermetropía Ninguno
Anciano Duros Hipermetropía Ninguno
Anciano Ninguno Hipermetropía Ninguno
Anciano Ninguno Hipermetropía Ninguno
Anciano Ninguno Miopía Blandos
Anciano Ninguno Miopía Blandos
Anciano Ninguno Miopía Duros
Anciano Ninguno Miopía Duros
Joven Blandos Miopía Ninguno
Joven Blandos Miopía Ninguno
Joven Duros Miopía Ninguno
Joven Duros Miopía Ninguno
Joven Ninguno Miopía Ninguno
Joven Ninguno Miopía Ninguno
Joven Ninguno Miopía Ninguno
Lentes de Contacto
Calcule las frecuencias y probabilidades
a priori
MINERÍA DE DATOS 15
Astigmatismo Lentes B N D Prod. lágrimas Lentes B N D
No Blandos Normal Blandos
No Blandos Normal Blandos
No Blandos Normal Blandos
No Blandos Normal Blandos
No Ninguno Normal Duros
No Ninguno Normal Duros
No Ninguno Normal Duros
No Ninguno Normal Ninguno
No Ninguno Normal Ninguno
No Ninguno Normal Ninguno
Si Duros Reducida Ninguno
Si Duros Reducida Ninguno
Si Duros Reducida Ninguno
Si Ninguno Reducida Ninguno
Si Ninguno Reducida Ninguno
Si Ninguno Reducida Ninguno
Si Ninguno Reducida Ninguno
Si Ninguno Reducida Ninguno
Si Ninguno Reducida Ninguno
Si Ninguno Reducida Ninguno
Si Ninguno Reducida Ninguno
Lentes de Contacto
MINERÍA DE DATOS 16
Edad B N D Problema B N D Astig B N D Lagrimeo B N D
Adulto 2 5 0 Hipermetropía 2 7 1 No 4 6 0 Normal 4 3 3
Anciano 0 6 1 Miopía 2 7 2 Si 0 8 3 Reducido 0 11 0
Joven 2 3 2
Edad B N D Problema B N D Astig B N D Lagrimeo B N D
Adulto 2/4 5/14 0/3 Hipermetropía 2/4 7/14 1/3 No 4/4 6/14 0 Normal 4/4 3/14 3/3
Anciano 0/4 6/14 1/3 Miopía 2/4 7/14 2/3 Si 0/4 8/14 3/3 Reducido 0/4 11/14 0/3
Joven 2/4 3/14 2/3
Lentes de Contacto
B N D
4 14 3
4/21 14/21 3/21
Solución
MINERÍA DE DATOS 16
Realice la clasificación usando Naive
Bayes
Edad Problema Astigmatismo Prod. lágrimas Lentes
Joven Hipermetropía No Reducida ?
Adulto Miopía Si Normal ?
Anciano Hipermetropía No Normal ?
MINERÍA DE DATOS 18
Ej 1)
Pos B = (2/4) (2/4) (4/4) (0)(4/21) = 0
Pos D = (2/3) (1/3) (0) (0) (3/21) = 0
Pos N = (3/14)(7/14)(6/14)(11/14)(14/21)= 0.024 Pr = 100%
Ej 2)
Pos B = (2/4) (2/4) (0) (1)(4/21) = 0
Pos D = (0) (2/3) (3/4) (1) (3/21) = 0
Pos N = (5/14)(7/14)(8/14)(3/14)(14/21) = 0.0145 Pr=100%
Ej 3)
Pos B = (0/14).... = 0
Pos D = (1/3) (1/3) (0) .... = 0
Pos N = (6/14)(7/14)(6/14)(3/14)(14/21)= 0.0131 Pr = 100%
Solución
MINERÍA DE DATOS 19
Problemas
En el ejercicio anterior, se observa que hay valores de un
atributo que no se presentan.
La probabilidad de la clase dado que el atributo tiene el valor
ausente es cero, causando que todo el término sea cero.
Para corregir esta situación, se suma uno a cada valor y se
compensa.
2/9, 3/9, 4/9 cambian por 3/12, 4/12, 5/12
MINERÍA DE DATOS 20
Naive Bayes con atributos numéricos
Se supone que tienen una distribución de
probabilidad “Normal” o “Gaussiana”.
Se calcula la media 𝑥 y la desviación estándar 𝜎.
n
x
x
n
i
i


 1
 
1
2
1
2





n
x
x
n
i
i

𝜎 = 𝜎2
MINERÍA DE DATOS 21
Ejemplo
outlook temperature humidity windy play
sunny 85 85 false no
sunny 80 90 true no
overcast 83 86 false yes
rainy 70 96 false yes
rainy 68 80 false yes
rainy 65 70 true no
overcast 64 65 true yes
sunny 72 95 false no
sunny 69 70 false yes
rainy 75 80 false yes
sunny 75 70 true yes
overcast 72 90 true yes
overcast 81 75 false yes
rainy 71 91 true no
MINERÍA DE DATOS 22
Yes No yes no yes no yes no yes no
sunny 2 3 83 85 86 85 false 6 2 9 5
overcast 4 0 70 80 96 90 true 3 3
rainy 3 2 68 65 80 70
64 72 65 95
69 71 70 91
75 80
75 70
72 90
81 75
sunny 2/9 3/5
2/9 3/5 M 73 74.6 M 79.1 86.2 false 6/9 2/5 9/14 5/14
overcast 4/9 0/5
4/9 0/5 D 6.2 7.9 D 10.2 9.7 true 3/9 3/5
rainy 3/9 2/5
3/9 2/5
play
Outlook Temperature Humidity Windy
Media y Desviación estandar
MINERÍA DE DATOS 23
Considerando que se tiene un nuevo día con las
características, se obtienen las posibilidades.
Naive Bayes con atributos numéricos
𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝑃𝑙𝑎𝑦|𝐸] =
2
9
× ? × ? ×
3
9
×
9
14
𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝐷𝑜𝑛′𝑡 𝑃𝑙𝑎𝑦|𝐸] =
3
5
× ? × ? ×
3
5
×
5
14
outlook temperature humidity windy
sunny 66 90 true
MINERÍA DE DATOS 24
Se calculan los valores faltantes
Naive Bayes con atributos numéricos
 
2
2
2
2
1
)
( 






x
e
x
f
𝑓 𝑇 = 66 𝑦𝑒𝑠 =
1
2𝜋6.2
𝑒
−
66−73 2
2(6.2)2
= 0.0340
𝑓(𝑇 = 66|𝑛𝑜) =
1
2𝜋7.9
𝑒
−
66−74.6 2
2(7.9)2
= 0.0221
MINERÍA DE DATOS 25
Calcula los valores correspondientes para humedad = 90.
Ejercicio
 
2
2
2
2
1
)
( 






x
e
x
f
MINERÍA DE DATOS 26
Naive Bayes con atributos numéricos
[𝑃𝑙𝑎𝑦|𝐸] =
2
9
× 0.034 × 0.0221 ×
3
9
×
9
14
= 0.000036
[𝐷𝑜𝑛′𝑡 𝑃𝑙𝑎𝑦|𝐸] =
3
5
× 0.0279 × 0.038 ×
3
5
×
5
14
= 0.000136
outlook temperature humidity windy
sunny 66 90 true
𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑃𝑙𝑎𝑦 𝐸 =
0.000036
0.000036 + 0.000136
= 20.9%
𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝐷𝑜𝑛′𝑡 𝑃𝑙𝑎𝑦 𝐸 =
0.000136
0.000036 + 0.000136
= 79.1%
MINERÍA DE DATOS 27
Es una software libre para Minería de Datos desarrollado en la universidad de Waikato
en Nueva Zelanda.
Programado en Lenguaje JAVA
Se puede obtener de la página
http://www.cs.waikato.ac.nz/ml/weka/
WEKA
MINERÍA DE DATOS 28
Para iniciar dar clic en Explorer
Se abre la siguiente ventana
WEKA
MINERÍA DE DATOS 29
La única ventana activa es Preprocess, aquí usando Open File
elegiremos el archivo con los datos a trabajar.
El archivo es weather.nominal, está en el directorio donde se instaló
Weka, en la carpeta data.
WEKA
MINERÍA DE DATOS 30
WEKA
Relación y
número de
instancias
Atributos 1 a 4
Clase 5
Valores del atributo outlook
MINERÍA DE DATOS 31
Una vez cargados los datos, se procede a la
pestaña Classify para elegir (Choose) el
método a utilizar, en este caso, un método
de Bayes que es Naive.
WEKA
MINERÍA DE DATOS 32
Una vez seleccionado, se elige la
opción de utilizar todo el conjunto
de entrenamiento(Use training set)
y se inicia el proceso (Start)
WEKA-BAYES
MINERÍA DE DATOS 33
En la salida, se informa el método utilizado, y la información de los
datos. Siempre el último atributo es la clase.
WEKA
MINERÍA DE DATOS 34
WEKA
MINERÍA DE DATOS 35
¿Preguntas?

Más contenido relacionado

Similar a Naive Bayes, presentacion para mineria de Datos

Centro de estudios_tecnologicos_industril_y_de_servicios_no(2)
Centro de estudios_tecnologicos_industril_y_de_servicios_no(2)Centro de estudios_tecnologicos_industril_y_de_servicios_no(2)
Centro de estudios_tecnologicos_industril_y_de_servicios_no(2)ArmandoC42
 
Problemas 6º primaria
Problemas 6º primariaProblemas 6º primaria
Problemas 6º primariamaite1964
 
Matematicas repaso sexto de primaria
Matematicas repaso sexto de primariaMatematicas repaso sexto de primaria
Matematicas repaso sexto de primariaPepe Gruño
 
Guía 1 grado octavo números reales 2015
Guía 1 grado octavo números reales 2015Guía 1 grado octavo números reales 2015
Guía 1 grado octavo números reales 2015PARRA113
 
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoMétodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoDMC Perú
 
Aplicación de pruebas de hipótesis para muestras pequeñas y grandes (2)
Aplicación de pruebas de hipótesis para muestras pequeñas y grandes (2)Aplicación de pruebas de hipótesis para muestras pequeñas y grandes (2)
Aplicación de pruebas de hipótesis para muestras pequeñas y grandes (2)Franklin Soria
 
Pruebas de diagnostico para evaluar destrezas con criterio de desempeño
Pruebas de diagnostico para evaluar destrezas con criterio de desempeñoPruebas de diagnostico para evaluar destrezas con criterio de desempeño
Pruebas de diagnostico para evaluar destrezas con criterio de desempeñoRosa Albita Chalacan
 

Similar a Naive Bayes, presentacion para mineria de Datos (20)

Practica 24 prueba 2 del modelo del examen bimestral solucion
Practica 24 prueba 2 del modelo del examen bimestral solucionPractica 24 prueba 2 del modelo del examen bimestral solucion
Practica 24 prueba 2 del modelo del examen bimestral solucion
 
Probabilidad
ProbabilidadProbabilidad
Probabilidad
 
Centro de estudios_tecnologicos_industril_y_de_servicios_no(2)
Centro de estudios_tecnologicos_industril_y_de_servicios_no(2)Centro de estudios_tecnologicos_industril_y_de_servicios_no(2)
Centro de estudios_tecnologicos_industril_y_de_servicios_no(2)
 
Problemas 6º primaria
Problemas 6º primariaProblemas 6º primaria
Problemas 6º primaria
 
Matematicas repaso sexto de primaria
Matematicas repaso sexto de primariaMatematicas repaso sexto de primaria
Matematicas repaso sexto de primaria
 
Guía 1 grado octavo números reales 2015
Guía 1 grado octavo números reales 2015Guía 1 grado octavo números reales 2015
Guía 1 grado octavo números reales 2015
 
Capitulo 4
Capitulo 4Capitulo 4
Capitulo 4
 
Ajedrez y matemáticas
Ajedrez y matemáticasAjedrez y matemáticas
Ajedrez y matemáticas
 
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoMétodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
 
Boletin 1º abril
Boletin 1º abril Boletin 1º abril
Boletin 1º abril
 
Aplicación de pruebas de hipótesis para muestras pequeñas y grandes (2)
Aplicación de pruebas de hipótesis para muestras pequeñas y grandes (2)Aplicación de pruebas de hipótesis para muestras pequeñas y grandes (2)
Aplicación de pruebas de hipótesis para muestras pequeñas y grandes (2)
 
Proporciones
ProporcionesProporciones
Proporciones
 
Pruebas de diagnostico para evaluar destrezas con criterio de desempeño
Pruebas de diagnostico para evaluar destrezas con criterio de desempeñoPruebas de diagnostico para evaluar destrezas con criterio de desempeño
Pruebas de diagnostico para evaluar destrezas con criterio de desempeño
 
S06 ad4001 alumnos_ss
S06 ad4001 alumnos_ssS06 ad4001 alumnos_ss
S06 ad4001 alumnos_ss
 
Algebra
AlgebraAlgebra
Algebra
 
Fracciones equivalentes
Fracciones equivalentesFracciones equivalentes
Fracciones equivalentes
 
Ejemplos
EjemplosEjemplos
Ejemplos
 
Prueba de los signos
Prueba de los signosPrueba de los signos
Prueba de los signos
 
Prueba de entrada solucion
Prueba de entrada solucionPrueba de entrada solucion
Prueba de entrada solucion
 
Anexo3
Anexo3Anexo3
Anexo3
 

Último

Modelado de Casos de uso del negocio
Modelado de  Casos  de  uso  del negocioModelado de  Casos  de  uso  del negocio
Modelado de Casos de uso del negocioMagemyl Egana
 
serenidad APP presentacion.pdfes una innovadora aplicación móvil diseñada par...
serenidad APP presentacion.pdfes una innovadora aplicación móvil diseñada par...serenidad APP presentacion.pdfes una innovadora aplicación móvil diseñada par...
serenidad APP presentacion.pdfes una innovadora aplicación móvil diseñada par...juanforero141
 
TECNOLOGÍA DE LA INFORMACIÓN SLIDESHARE INVESTIGACION.pdf
TECNOLOGÍA DE LA INFORMACIÓN SLIDESHARE INVESTIGACION.pdfTECNOLOGÍA DE LA INFORMACIÓN SLIDESHARE INVESTIGACION.pdf
TECNOLOGÍA DE LA INFORMACIÓN SLIDESHARE INVESTIGACION.pdfUPSE
 
CIBERSEGURIDAD Y SEGURIDAD INFORMÁTICA.pptx
CIBERSEGURIDAD  Y SEGURIDAD INFORMÁTICA.pptxCIBERSEGURIDAD  Y SEGURIDAD INFORMÁTICA.pptx
CIBERSEGURIDAD Y SEGURIDAD INFORMÁTICA.pptxalzabenjaminci00
 
Tipos de datos en Microsoft Access definiciones.pdf
Tipos de datos en Microsoft Access definiciones.pdfTipos de datos en Microsoft Access definiciones.pdf
Tipos de datos en Microsoft Access definiciones.pdfCarlosSanchez452245
 
Especificación casos de uso del negocio
Especificación  casos de uso del negocioEspecificación  casos de uso del negocio
Especificación casos de uso del negocioMagemyl Egana
 
Ciberseguridad y Seguridad Informática Franco Correa Grupo B.pptx
Ciberseguridad y Seguridad Informática Franco Correa Grupo B.pptxCiberseguridad y Seguridad Informática Franco Correa Grupo B.pptx
Ciberseguridad y Seguridad Informática Franco Correa Grupo B.pptxcorreafrancoci00
 
El necesario mal del Legacy Code (Drupal Iberia 2024)
El necesario mal del Legacy Code (Drupal Iberia 2024)El necesario mal del Legacy Code (Drupal Iberia 2024)
El necesario mal del Legacy Code (Drupal Iberia 2024)Samuel Solís Fuentes
 
TECNOLOGIA DE LA INFORMACION Y MULTIMEDIA 15 MAYO.pptx
TECNOLOGIA DE LA INFORMACION Y MULTIMEDIA 15 MAYO.pptxTECNOLOGIA DE LA INFORMACION Y MULTIMEDIA 15 MAYO.pptx
TECNOLOGIA DE LA INFORMACION Y MULTIMEDIA 15 MAYO.pptxUPSE
 

Último (9)

Modelado de Casos de uso del negocio
Modelado de  Casos  de  uso  del negocioModelado de  Casos  de  uso  del negocio
Modelado de Casos de uso del negocio
 
serenidad APP presentacion.pdfes una innovadora aplicación móvil diseñada par...
serenidad APP presentacion.pdfes una innovadora aplicación móvil diseñada par...serenidad APP presentacion.pdfes una innovadora aplicación móvil diseñada par...
serenidad APP presentacion.pdfes una innovadora aplicación móvil diseñada par...
 
TECNOLOGÍA DE LA INFORMACIÓN SLIDESHARE INVESTIGACION.pdf
TECNOLOGÍA DE LA INFORMACIÓN SLIDESHARE INVESTIGACION.pdfTECNOLOGÍA DE LA INFORMACIÓN SLIDESHARE INVESTIGACION.pdf
TECNOLOGÍA DE LA INFORMACIÓN SLIDESHARE INVESTIGACION.pdf
 
CIBERSEGURIDAD Y SEGURIDAD INFORMÁTICA.pptx
CIBERSEGURIDAD  Y SEGURIDAD INFORMÁTICA.pptxCIBERSEGURIDAD  Y SEGURIDAD INFORMÁTICA.pptx
CIBERSEGURIDAD Y SEGURIDAD INFORMÁTICA.pptx
 
Tipos de datos en Microsoft Access definiciones.pdf
Tipos de datos en Microsoft Access definiciones.pdfTipos de datos en Microsoft Access definiciones.pdf
Tipos de datos en Microsoft Access definiciones.pdf
 
Especificación casos de uso del negocio
Especificación  casos de uso del negocioEspecificación  casos de uso del negocio
Especificación casos de uso del negocio
 
Ciberseguridad y Seguridad Informática Franco Correa Grupo B.pptx
Ciberseguridad y Seguridad Informática Franco Correa Grupo B.pptxCiberseguridad y Seguridad Informática Franco Correa Grupo B.pptx
Ciberseguridad y Seguridad Informática Franco Correa Grupo B.pptx
 
El necesario mal del Legacy Code (Drupal Iberia 2024)
El necesario mal del Legacy Code (Drupal Iberia 2024)El necesario mal del Legacy Code (Drupal Iberia 2024)
El necesario mal del Legacy Code (Drupal Iberia 2024)
 
TECNOLOGIA DE LA INFORMACION Y MULTIMEDIA 15 MAYO.pptx
TECNOLOGIA DE LA INFORMACION Y MULTIMEDIA 15 MAYO.pptxTECNOLOGIA DE LA INFORMACION Y MULTIMEDIA 15 MAYO.pptx
TECNOLOGIA DE LA INFORMACION Y MULTIMEDIA 15 MAYO.pptx
 

Naive Bayes, presentacion para mineria de Datos

  • 1. Minería de Datos MCC. LUIS YAEL MÉNDEZ SÁNCHEZ Email: luis.mendezsanchez@correo.buap.mx
  • 3. La clasificación es una tarea que consiste en determinar la clase a la que un objeto o individuo pertenece, basándose en sus características. Existen algoritmos que utilizan solo algunas de las características, y otros que las utilizan todas. Clasificación MINERÍA DE DATOS 3
  • 4. Modelado Estadístico Todos los atributos contribuyen Los atributos se consideran: ◦ Iguales en importancia ◦ Independientes Se toma en cuenta la frecuencia del par atributo-valor por clase No es realista, ¡pero funciona! MINERÍA DE DATOS 4
  • 5. Modelado Estadístico Está basado en la regla de probabilidad condicional de Bayes Si se tiene una hipótesis H, y una evidencia E entonces: 𝑃[𝐻|𝐸] = 𝑃 𝐸 𝐻 × 𝑃[𝐻] 𝑃[𝐸] ◦ H : Pertenencia a una clase ◦ E : Combinación de valores de los atributos MINERÍA DE DATOS 5
  • 6. Se calculan las posibilidades de que la instancia sea de una clase considerando los valores de los atributos en la instancia. 𝑃[𝐻|𝐸] = 𝑃 𝐸1 𝐻 × ⋯ × 𝑃 𝐸𝑛 𝐻 × 𝑃[𝐻] 𝑃[𝐸] Los números encontrados se convierten en probabilidades normalizandolos de forma que sumen 1. 𝑃[𝐻1|𝐸] = 𝑃 𝐸1 𝐻 × ⋯ × 𝑃 𝐸𝑛 𝐻 × 𝑃[𝐻] 𝑃[𝐸|𝐻1] × ⋯ × 𝑃[𝐸|𝐻𝑚] Naive Bayes MINERÍA DE DATOS 6
  • 7. El conjunto de datos a trabajar, se conoce como “Juego de Golf”, “Juego de tenis” o del clima (weather). Contiene 14 registros y se trata de determinar si se debe jugar dadas las características del clima. 4 Atributos ◦ Ambiente (Outlook) ◦ Temperature (Temperature) ◦ Humedad (Humidity) ◦ Viento (Wind) 2 Clases (Jugar (Play), No jugar (Don’t Play) Ejemplo MINERÍA DE DATOS 7
  • 9. Lo primero que se debe hacer es calcular la probabilidad a priori, de los 9 días que se juega o los 5 que no, dados los valores de cada atributo. Naive Bayes  P[Play|rainy] = 3/9  P[Don’t Play|rainy] = 2/5 Outlook Play rainy Don't Play rainy Don't Play rainy Play rainy Play rainy Play MINERÍA DE DATOS 9
  • 10. Calcule las frecuencias y posteriormente las probabilidades a priori. Frecuencias yes no yes no yes no yes no sunny hot high true overcast mild normal false rainy cold Outlook Temperature Humidity Windy yes no Play Probabilidades Observadas Probabilidad a Priori MINERÍA DE DATOS 10
  • 11. Ejemplo yes no yes no yes no yes no sunny 2 3 hot 2 2 high 3 4 true 3 3 overcast 4 0 mild 4 2 normal 6 1 false 6 2 rainy 3 2 cold 3 1 Outlook Temperature Windy Humidity yes no 9 5 Play yes no yes no yes no yes no sunny 2/9 3/5 hot 2/9 2/5 high 3/9 4/5 true 3/9 3/5 overcast 4/9 0/5 mild 4/9 2/5 normal 6/9 1/5 false 6/9 2/5 rainy 3/9 2/5 cold 3/9 1/5 Outlook Temperature Humidity Windy yes no 9/14 5/14 Play Frecuencias Probabilidad A priori MINERÍA DE DATOS 11
  • 12. Naive Bayes Considerando que se tiene un nuevo día con las características, se obtienen las posibilidades. MINERÍA DE DATOS 12 outlook temperature humidity windy sunny cool high true 𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝑃𝑙𝑎𝑦|𝐸] = 2 9 × 3 9 × 3 9 × 3 9 × 9 14 = 0.0053 𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝐷𝑜𝑛′𝑡 𝑃𝑙𝑎𝑦|𝐸] = 3 5 × 1 5 × 4 5 × 3 5 × 5 14 = 0.0206
  • 13. Posteriormente las probabilidades. Naive Bayes 𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝑃𝑙𝑎𝑦|𝐸] = 0.0053 𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝐷𝑜𝑛′𝑡 𝑃𝑙𝑎𝑦|𝐸] = 0.0206 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑃𝑙𝑎𝑦 𝐸 = 0.0053 0.0053 + 0.0206 = 20.5% 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝐷𝑜𝑛′𝑡 𝑃𝑙𝑎𝑦 𝐸 = 0.0206 0.0053 + 0.0206 = 79.5% MINERÍA DE DATOS 13
  • 14. Ejercicio Lentes de Contacto Edad Problema Astigmatismo Prod. lágrimas Lentes Joven Miopía No Reducida Ninguno Joven Miopía No Normal Blandos Joven Miopía Si Reducida Ninguno Joven Miopía Si Normal Duros Joven Hipermetropía No Normal Blandos Joven Hipermetropía Si Reducida Ninguno Joven Hipermetropía Si Normal Duros Adulto Miopía No Reducida Ninguno Adulto Miopía No Normal Blandos Adulto Miopía Si Reducida Ninguno Adulto Hipermetropía No Reducida Ninguno Adulto Hipermetropía No Normal Blandos Adulto Hipermetropía Si Reducida Ninguno Adulto Hipermetropía Si Normal Ninguno Anciano Miopía No Reducida Ninguno Anciano Miopía No Normal Ninguno Anciano Miopía Si Reducida Ninguno Anciano Miopía Si Normal Duros Anciano Hipermetropía No Reducida Ninguno Anciano Hipermetropía Si Reducida Ninguno Anciano Hipermetropía Si Normal Ninguno Lentes de Contacto E l i m i n a n d o 3 i n s t a n c i a s MINERÍA DE DATOS 14
  • 15. Edad Lentes B N D Problema Lentes B N D Adulto Blandos Hipermetropía Blandos Adulto Blandos Hipermetropía Blandos Adulto Ninguno Hipermetropía Duros Adulto Ninguno Hipermetropía Ninguno Adulto Ninguno Hipermetropía Ninguno Adulto Ninguno Hipermetropía Ninguno Adulto Ninguno Hipermetropía Ninguno Anciano Duros Hipermetropía Ninguno Anciano Ninguno Hipermetropía Ninguno Anciano Ninguno Hipermetropía Ninguno Anciano Ninguno Miopía Blandos Anciano Ninguno Miopía Blandos Anciano Ninguno Miopía Duros Anciano Ninguno Miopía Duros Joven Blandos Miopía Ninguno Joven Blandos Miopía Ninguno Joven Duros Miopía Ninguno Joven Duros Miopía Ninguno Joven Ninguno Miopía Ninguno Joven Ninguno Miopía Ninguno Joven Ninguno Miopía Ninguno Lentes de Contacto Calcule las frecuencias y probabilidades a priori MINERÍA DE DATOS 15
  • 16. Astigmatismo Lentes B N D Prod. lágrimas Lentes B N D No Blandos Normal Blandos No Blandos Normal Blandos No Blandos Normal Blandos No Blandos Normal Blandos No Ninguno Normal Duros No Ninguno Normal Duros No Ninguno Normal Duros No Ninguno Normal Ninguno No Ninguno Normal Ninguno No Ninguno Normal Ninguno Si Duros Reducida Ninguno Si Duros Reducida Ninguno Si Duros Reducida Ninguno Si Ninguno Reducida Ninguno Si Ninguno Reducida Ninguno Si Ninguno Reducida Ninguno Si Ninguno Reducida Ninguno Si Ninguno Reducida Ninguno Si Ninguno Reducida Ninguno Si Ninguno Reducida Ninguno Si Ninguno Reducida Ninguno Lentes de Contacto MINERÍA DE DATOS 16
  • 17. Edad B N D Problema B N D Astig B N D Lagrimeo B N D Adulto 2 5 0 Hipermetropía 2 7 1 No 4 6 0 Normal 4 3 3 Anciano 0 6 1 Miopía 2 7 2 Si 0 8 3 Reducido 0 11 0 Joven 2 3 2 Edad B N D Problema B N D Astig B N D Lagrimeo B N D Adulto 2/4 5/14 0/3 Hipermetropía 2/4 7/14 1/3 No 4/4 6/14 0 Normal 4/4 3/14 3/3 Anciano 0/4 6/14 1/3 Miopía 2/4 7/14 2/3 Si 0/4 8/14 3/3 Reducido 0/4 11/14 0/3 Joven 2/4 3/14 2/3 Lentes de Contacto B N D 4 14 3 4/21 14/21 3/21 Solución MINERÍA DE DATOS 16
  • 18. Realice la clasificación usando Naive Bayes Edad Problema Astigmatismo Prod. lágrimas Lentes Joven Hipermetropía No Reducida ? Adulto Miopía Si Normal ? Anciano Hipermetropía No Normal ? MINERÍA DE DATOS 18
  • 19. Ej 1) Pos B = (2/4) (2/4) (4/4) (0)(4/21) = 0 Pos D = (2/3) (1/3) (0) (0) (3/21) = 0 Pos N = (3/14)(7/14)(6/14)(11/14)(14/21)= 0.024 Pr = 100% Ej 2) Pos B = (2/4) (2/4) (0) (1)(4/21) = 0 Pos D = (0) (2/3) (3/4) (1) (3/21) = 0 Pos N = (5/14)(7/14)(8/14)(3/14)(14/21) = 0.0145 Pr=100% Ej 3) Pos B = (0/14).... = 0 Pos D = (1/3) (1/3) (0) .... = 0 Pos N = (6/14)(7/14)(6/14)(3/14)(14/21)= 0.0131 Pr = 100% Solución MINERÍA DE DATOS 19
  • 20. Problemas En el ejercicio anterior, se observa que hay valores de un atributo que no se presentan. La probabilidad de la clase dado que el atributo tiene el valor ausente es cero, causando que todo el término sea cero. Para corregir esta situación, se suma uno a cada valor y se compensa. 2/9, 3/9, 4/9 cambian por 3/12, 4/12, 5/12 MINERÍA DE DATOS 20
  • 21. Naive Bayes con atributos numéricos Se supone que tienen una distribución de probabilidad “Normal” o “Gaussiana”. Se calcula la media 𝑥 y la desviación estándar 𝜎. n x x n i i    1   1 2 1 2      n x x n i i  𝜎 = 𝜎2 MINERÍA DE DATOS 21
  • 22. Ejemplo outlook temperature humidity windy play sunny 85 85 false no sunny 80 90 true no overcast 83 86 false yes rainy 70 96 false yes rainy 68 80 false yes rainy 65 70 true no overcast 64 65 true yes sunny 72 95 false no sunny 69 70 false yes rainy 75 80 false yes sunny 75 70 true yes overcast 72 90 true yes overcast 81 75 false yes rainy 71 91 true no MINERÍA DE DATOS 22
  • 23. Yes No yes no yes no yes no yes no sunny 2 3 83 85 86 85 false 6 2 9 5 overcast 4 0 70 80 96 90 true 3 3 rainy 3 2 68 65 80 70 64 72 65 95 69 71 70 91 75 80 75 70 72 90 81 75 sunny 2/9 3/5 2/9 3/5 M 73 74.6 M 79.1 86.2 false 6/9 2/5 9/14 5/14 overcast 4/9 0/5 4/9 0/5 D 6.2 7.9 D 10.2 9.7 true 3/9 3/5 rainy 3/9 2/5 3/9 2/5 play Outlook Temperature Humidity Windy Media y Desviación estandar MINERÍA DE DATOS 23
  • 24. Considerando que se tiene un nuevo día con las características, se obtienen las posibilidades. Naive Bayes con atributos numéricos 𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝑃𝑙𝑎𝑦|𝐸] = 2 9 × ? × ? × 3 9 × 9 14 𝑃𝑜𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 [𝐷𝑜𝑛′𝑡 𝑃𝑙𝑎𝑦|𝐸] = 3 5 × ? × ? × 3 5 × 5 14 outlook temperature humidity windy sunny 66 90 true MINERÍA DE DATOS 24
  • 25. Se calculan los valores faltantes Naive Bayes con atributos numéricos   2 2 2 2 1 ) (        x e x f 𝑓 𝑇 = 66 𝑦𝑒𝑠 = 1 2𝜋6.2 𝑒 − 66−73 2 2(6.2)2 = 0.0340 𝑓(𝑇 = 66|𝑛𝑜) = 1 2𝜋7.9 𝑒 − 66−74.6 2 2(7.9)2 = 0.0221 MINERÍA DE DATOS 25
  • 26. Calcula los valores correspondientes para humedad = 90. Ejercicio   2 2 2 2 1 ) (        x e x f MINERÍA DE DATOS 26
  • 27. Naive Bayes con atributos numéricos [𝑃𝑙𝑎𝑦|𝐸] = 2 9 × 0.034 × 0.0221 × 3 9 × 9 14 = 0.000036 [𝐷𝑜𝑛′𝑡 𝑃𝑙𝑎𝑦|𝐸] = 3 5 × 0.0279 × 0.038 × 3 5 × 5 14 = 0.000136 outlook temperature humidity windy sunny 66 90 true 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑃𝑙𝑎𝑦 𝐸 = 0.000036 0.000036 + 0.000136 = 20.9% 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝐷𝑜𝑛′𝑡 𝑃𝑙𝑎𝑦 𝐸 = 0.000136 0.000036 + 0.000136 = 79.1% MINERÍA DE DATOS 27
  • 28. Es una software libre para Minería de Datos desarrollado en la universidad de Waikato en Nueva Zelanda. Programado en Lenguaje JAVA Se puede obtener de la página http://www.cs.waikato.ac.nz/ml/weka/ WEKA MINERÍA DE DATOS 28
  • 29. Para iniciar dar clic en Explorer Se abre la siguiente ventana WEKA MINERÍA DE DATOS 29
  • 30. La única ventana activa es Preprocess, aquí usando Open File elegiremos el archivo con los datos a trabajar. El archivo es weather.nominal, está en el directorio donde se instaló Weka, en la carpeta data. WEKA MINERÍA DE DATOS 30
  • 31. WEKA Relación y número de instancias Atributos 1 a 4 Clase 5 Valores del atributo outlook MINERÍA DE DATOS 31
  • 32. Una vez cargados los datos, se procede a la pestaña Classify para elegir (Choose) el método a utilizar, en este caso, un método de Bayes que es Naive. WEKA MINERÍA DE DATOS 32
  • 33. Una vez seleccionado, se elige la opción de utilizar todo el conjunto de entrenamiento(Use training set) y se inicia el proceso (Start) WEKA-BAYES MINERÍA DE DATOS 33
  • 34. En la salida, se informa el método utilizado, y la información de los datos. Siempre el último atributo es la clase. WEKA MINERÍA DE DATOS 34