Teorema de Naives Bayes

Minería de Datos
Teorema de
Naïve Bayes
Ing. Fernando Alfonso Casas De la Torre
Instituto Tecnológico De la Laguna
DIVISIÓN DE ESTUDIOS DE
POSGRADO E INVESTIGACIÓN
Maestría en Sistemas Computacionales

Teorema de Naïve Bayes
Thomas Bayes (Londres, Inglaterra, ~1702 -
Tunbridge Wells, 1761) fue un matemático
británico y ministro presbiteriano. Su obra más
conocida es el Teorema de Bayes.
Estudió el problema de la determinación de la
probabilidad de las causas a través de los
efectos observados. El teorema que lleva su
nombre se refiere a la probabilidad de un suceso
condicionado por la ocurrencia de otro suceso.
Más específicamente, con su teorema se
resuelve el problema conocido como "de la
probabilidad inversa". Esto es, valorar
probabilísticamente las posibles condiciones
que rigen un evento puesto que se ha
observado antes cierto suceso.

El teorema de Bayes es válido en todas las aplicaciones de la teoría de
la probabilidad. Sin embargo, hay una controversia sobre el tipo de
probabilidades que emplea.
En esencia, los seguidores de la estadística tradicional sólo admiten
probabilidades basadas en experimentos repetibles y que tengan una
confirmación empírica mientras que los llamados estadísticos
bayesianos permiten probabilidades subjetivas.
El teorema puede servir entonces para indicar cómo debemos modificar
nuestras probabilidades subjetivas cuando recibimos información
adicional de un experimento.

La estadística bayesiana está demostrando su utilidad en ciertas
estimaciones basadas en el conocimiento subjetivo a priori y el hecho
de permitir revisar esas estimaciones en función de la evidencia
empírica es lo que está abriendo nuevas formas de hacer conocimiento.
Una aplicación de esto son los clasificadores bayesianos que son
frecuentemente usados en implementaciones de filtros de correo basura
o spam, que se adaptan con el uso. Otra aplicación se encuentra en la
fusión de datos, combinando información expresada en términos de
densidad de probabilidad proveniente de distintos sensores.
Otros:
• El diagnóstico de cáncer.
• Evaluación de probabilidades durante el desarrollo de un juego.
• Probabilidades a priori y a posteriori.

En términos más generales y menos matemáticos, el teorema de
Bayes es de enorme relevancia puesto que vincula la probabilidad de
A dado B con la probabilidad de B dado A.
Es decir, por ejemplo, que sabiendo la probabilidad de tener
un dolor de cabeza dado que se tiene gripe, se podría saber
(si se tiene algún dato más), la probabilidad de tener gripe si
se tiene un dolor de cabeza.
Muestra este sencillo ejemplo la alta relevancia del teorema en
cuestión para la ciencia en todas sus ramas, puesto que tiene
vinculación íntima con la comprensión de la probabilidad de
aspectos causales dados los efectos observados

Clasificación por Naïve Bayes
Es una tarea que se realiza frecuentemente todos los días para CLASIFICAR
que consiste en dividir y separar objetos entre ellos en categorías mutuamente
exhaustivas y exclusivas llamadas CLASES:
Con Nieves Bayes cada objeto (exhaustivo) puede ser asignado a una y solo
una de las clases (exclusiva).

Los clasificadores Naive Bayes principalmente son usados cuando los atributos
de los objetos son CATEGORICOS (o sean son clasificables bajo diferentes
criterios.
Es un clasificador que no usa reglas, un árbol de decisión o cualquier otra
representación explícita para el modelo de la información. Por el contrario,
utiliza la rama de las matemáticas conocida como TEORÍA PROBABILÍSTICA
para encontrar la más probable de las posibles clasificaciones,
Clasificación por Naïve Bayes

Probabilidad Condicional
La TEORÍA DE LA PROBABILIDAD es una rama de las matemáticas que
estudia los fenómenos aleatorios y estocásticos. Los fenómenos aleatorios se
contraponen a los fenómenos deterministas, los cuales son resultados únicos
y/o previsibles de experimentos realizados bajo las mismas condiciones
determinadas.
PROBABILIDAD CONDICIONAL es la probabilidad de que ocurra un evento
A, sabiendo que también sucede otro evento B. La probabilidad condicional se
escribe P(A|B), y se lee «la probabilidad de A dado B».

La probabilidad de que un evento determinado ocurra esta entre 0 (no
sucederá) y 1( ocurre totalmente ).
Una probabilidad de 0.7 implica que si nos conducimos por una serie de
intentos la probabilidad de ocurrencia del evento será de 0,7
El CASO DEL TREN
Se tiene un evento que es la llegada del tren que recorre el trayecto de
Lerdo y llegara a la Estación Alianza en Torreón.
• El evento a predecir puede ser la llegada a tiempo del tren a las 6.30 en
la estación local de Torreón.
• Si registramos diariamente las llegadas del tren por N-dias podríamos
predecir y estimar la probabilidad de que el tren llegue o no a tiempo a la
estación.
• Entre mas registros tengamos mejor serán nuestras predicciones.

La probabilidad de que un evento ocurra o no ocurra esta indicada
usualmente como…:
P(E1) = 0.05
En este ejemplo del tren se definen ademas cuatro eventos mutuamente
exclusivos y exhaustivos, o sea, uno y solo uno de ellos puede ocurrir.
• E1: El tren es cancelado
• E2: El tren llega diez o mas minutos tarde
• E3: El tren llega menos de diez minutos tarde
• E4: El tren llega a tiempo o antes
Otra condicion: la suma de las probabilidades de un conjunto de eventos
mutuamente excluyentes y exhaustivos siempre debe ser 1..
Para este caso particular la expresion puede ser expresada asi:
P(E1) + P(E2) + P(E3) + P(E4) = 1

n DIA ESTACION VIENTO LLUVIA LLEGADA
1 ENTRE SEMANA PRIMAVERA NO HUBO NO HUBO A TIEMPO
2 ENTRE SEMANA INVIERNO NO HUBO LIGERA A TIEMPO
4 ENTRE SEMANA INVIERNO ALTO FUERTE TARDE
5 SABADO VERANO NORMAL NO HUBO A TIEMPO
6 ENTRE SEMANA OTOÑO NORMAL NO HUBO MUY TARDE
7 FESTIVO VERANO ALTO LIGERA A TIEMPO
8 DOMINGO VERANO NORMAL NO HUBO A TIEMPO
9 ENTRE SEMANA INVIERNO ALTO FUERTE MUY TARDE
10 ENTRE SEMANA VERANO NO HUBO LIGERA A TIEMPO
11 SABADO PRIMAVERA ALTO FUERTE CANCELADO
12 ENTRE SEMANA VERANO ALTO LIGERA A TIEMPO
13 SABADO INVIERNO NORMAL NO HUBO TARDE
14 ENTRE SEMANA VERANO ALTO NO HUBO A TIEMPO
15 ENTRE SEMANA INVIERNO NORMAL FUERTE MUY TARDE
16 SABADO OTOÑO ALTO LIGERA A TIEMPO
17 ENTRE SEMANA OTOÑO NO HUBO FUERTE A TIEMPO
18 FESTIVO PRIMAVERA NORMAL LIGERA A TIEMPO
19 ENTRE SEMANA PRIMAVERA NORMAL NO HUBO A TIEMPO
20 ENTRE SEMANA PRIMAVERA NORMAL LIGERA A TIEMPO

• Las instancias en el conjunto de datos muestran no solo la clasificación sino
también los valores de cuatro atributos: DÍA, ESTACIÓN, VIENTO y LLUVIA.
• En base a los registros de eventos anteriores es posible calcular situaciones
no vistas porque creemos que de alguna manera los valores de los cuatro
atributos afectan el resultado.
Para hacer un uso efectivo de la información adicional representada por
los valores de los atributos, presentamos la noción de probabilidad
condicional:
¿Cuál es la probabilidad de que el tren llegue A TIEMPO?
P (14/20) = 0,7
Sin embargo, la falla en este enfoque es, por supuesto, que todas las
instancias no vistas se clasificarán de la misma manera, que en este caso
es A TIEMPO aunque tal método de clasificación no es necesariamente
malo:
<< si la probabilidad de puntualidad es 14/20 = 0.7 y suponemos que
cada instancia no vista debe clasificarse A TIEMPO, podríamos
esperar estar en lo cierto aproximadamente el 70% del tiempo. >>

• Probabilidad previa: estimada antes de que esté disponible otra información
P (14/20) = 0,7
¿Cuál es la probabilidad de que el tren llegue A TIEMPO si
sabemos que la temporada es INVERNO?
P (Clase = A TIEMPO | Temporada= INVIERNO) = 2/6 = 0.33
Esto es considerablemente menor que la probabilidad previa y parece
intuitivamente razonable, es decir, es menos probable que los trenes lleguen
A TIEMPO en INVIERNO.
La probabilidad de que ocurra un evento si sabemos que un
atributo tiene un valor particular (o que varias variables tienen
valores particulares) se denomina PROBABILIDAD
CONDICIONAL DEL EVENTO y se escribe como:
P(clase = A TIEMPO | estacion = INVIERNO )

Clasificador Naïve Bayes
¿Cómo deberíamos usar la Probabilidad Condicional para encontrar la
clasificación más probable para una instancia no vista como la de abajo?
DIA TEMPORADA VIENTO LLUVIA LLEGADA
ENTRE SEMANA INVIERNO ALTO FUERTE ¿ ?
Una manera de ordenarla en base a sus probabilidades es determinar la
clasificacion mas probable o comun dado los valores que arroje la ocurrencia
de los diversos eventos. Sin embargo, la falla en este enfoque es, por supuesto,
que todas las instancias no vistas pueden no quedar clasificadas.
Sin embargo , si no es posible tener mas observaciones
para que ocurra la instancia y poder determinar su
probabilidad y clasificacion es posible determinarla en
base a las ocurrencias de otras situaciones dadas por las
clases y los atributos.

n DIA ESTACION VIENTO LLUVIA LLEGADA
1 ENTRE SEMANA PRIMAVERA NO HUBO NO HUBO A TIEMPO
4 ENTRE SEMANA INVIERNO ALTO FUERTE TARDE
5 SABADO VERANO NORMAL NO HUBO A TIEMPO
6 ENTRE SEMANA OTOÑO NORMAL NO HUBO MUY TARDE
7 FESTIVO VERANO ALTO LIGERA A TIEMPO
8 DOMINGO VERANO NORMAL NO HUBO A TIEMPO
9 ENTRE SEMANA INVIERNO ALTO FUERTE MUY TARDE
10 ENTRE SEMANA VERANO NO HUBO LIGERA A TIEMPO
11 SABADO PRIMAVERA ALTO FUERTE CANCELADO
12 ENTRE SEMANA VERANO ALTO LIGERA A TIEMPO
13 SABADO INVIERNO NORMAL NO HUBO TARDE
14 ENTRE SEMANA VERANO ALTO NO HUBO A TIEMPO
15 ENTRE SEMANA INVIERNO NORMAL FUERTE MUY TARDE
16 SABADO OTOÑO ALTO LIGERA A TIEMPO
17 ENTRE SEMANA OTOÑO NO HUBO FUERTE A TIEMPO
18 FESTIVO PRIMAVERA NORMAL LIGERA A TIEMPO
19 ENTRE SEMANA PRIMAVERA NORMAL NO HUBO A TIEMPO
20 ENTRE SEMANA PRIMAVERA NORMAL LIGERA A TIEMPO

1) Se toma el total del conjunto de datos a estudiar:
Numero total de Instancias = 20 (dias)
Total de Atributos = 05 ( DIA, ESTACION, etc.)
Se debe de determinar la clase, o sea la caracteristica que determina la
probabilidad buscada, en este caso se nos pide saber la probabilidad de como
serian las posibles llegadas del tren bajo determinadas CONDICIONES, por
lo que el atributo que generara las clases para clasificar sera LLEGADA.
2) Probabilidad P(x) Previa de ocurrencia de cada clase para LLEGADA :
Clase Frecuencia Probabilidad P(x) P(x) %
A TIEMPO 14 14 / 20 0,70 70 %
TARDE 03 2 / 20 0,10 10 %
MUY TARDE 03 3 / 20 0,15 15 %
CANCELADO 01 1 / 20 0,05 5 %

3) Se realiza una TABLA DE FRECUENCIAS para cada atributo en base a
su relacion con la ocurrencia de la clase:
CLASE A
TIEMPO
TARDE MUY
TARDE
CANCEL
ADO
ENTRE
SEMANA
9 / 14 1 / 2 3 / 3 0
SABADO 2 / 14 1 / 2 0 1 / 1
DOMINGO 2 / 14 0 0 0
FESTIVO 1 / 14 0 0 0
CLASE A
TIEMPO
TARDE MUY
TARDE
CANCEL
ADO
PRIMAVERA 4 / 14 0 0 1 / 1
VERANO 6 / 14 0 0 0
OTOÑO 2 / 14 0 1 / 3 0
INVIERNO 2 / 14 2 / 2 2 / 3 0
CLASE A
TIEMPO
TARDE MUY
TARDE
CANCEL
ADO
NO HUBO 5 / 14 0 0 0
ALTO 4 / 14 1 / 2 1 / 3 1/1
NORMAL 5 / 14 1 / 2 2 / 3 0
CLASE A
TIEMPO
TARDE MUY
TARDE
CANCEL
ADO
NO HUBO 5 / 14 1 / 2 1 / 3 0
LIGERA 8 / 14 0 0 0
FUERTE 1 / 14 1 / 2 2 / 3 1 / 1
DIA ESTACION
VIENTO LLUVIA

A TIEMPO TARDE MUY TARDE CANCELADO
ENTRE
SEMANA 9/14 0,6429 1/2 43132,00 3/3 1,0000 0/1 0,0000
SABADO 2/14 0,1429 1/2 43132,00 0/3 0,0000 1/1 1,0000
DOMINGO 1/14 0,2500 0/2 0,0000 0/3 0,0000 0/1 0,0000
FESTIVO 2/14 0,1429 0/2 0,00 0/3 0,0000 0/1 0,0000
PRIMAVERA 4/14 0,2857 0/2 0,00 0/3 0,0000 1/1 1,0000
VERANO 6/14 0,4286 0/2 0,00 0/3 0,0000 0/1 0,0000
OTOÑO 2/14 0,1429 0/2 0,00 1/3 0,3333 0/1 0,0000
INVIERNO 2/14 0,1429 2/2 1,00 2/3 0,6667 0/1 0,0000
NO HUBO 5/14 0,3571 ,000 0,00 0/3 0,0000 0/1 0,0000
ALTO 4/14 0,2857 1/2 0,50 1/3 0,3333 1/1 1,0000
NORMAL 5/14 0,3571 1/2 0,50 0/3 0,0000 0/1 0,0000
NO HUBO 5/14 0,3571 1/2 0,50 1/3 0,3333 0/1 0,0000
LIGERA 8/14 0,5714 0/2 0,00 0/3 0,0000 0/1 0,0000
FUERTE 1/14 0,0714 1/2 0,50 2/3 0,6667 1/1 1,0000
PROB.
PREVIA 14/20 0,7 2/20 0,10 3/20 0,1500 1/20 0,0500

4) Se revisa el enunciado original…
¿Cómo deberíamos usar la Probabilidad Condicional para encontrar la
clasificación más probable para…?
DIA TEMPORADA VIENTO LLUVIA LLEGADA
ENTRE SEMANA INVIERNO ALTO FUERTE ¿ ?
La probabilidad P(x) mas probable de LLEGADA sera tomando en cuenta los
valores de cada clase para LLEGADA para todos los valores de los atributos.
Iniciamos con A TIEMPO:
P (x) = { dia = ENTRE SEMANA y estacion = INVIERNO y viento = ALTO
y lluvia= FUERTE}
P (x) = ( 9/14 ) x ( 2/14 ) x ( 4/14 ) x ( 1/14 )
P (x) = ( 0,642 ) x ( 0,142 ) x ( 0,285 ) x ( 0,071 )
P(x) = 0,0018

P (x) = { dia = ENTRE SEMANA y estacion = INVIERNO y viento = ALTO y lluvia= FUERTE}
A TIEMPO
P (x) = ( 9/14 ) x ( 2/14 ) x ( 4/14 ) x ( 1/14 )
P (x) = ( 0,642 ) x ( 0,142 ) x ( 0,285 ) x ( 0,071 )
P(x) = 0,0018
TARDE
P (x) = ( 1/2 ) x ( 2/2 ) x ( 1/2 ) x ( 1/2)
P (x) = ( 0,5 ) x ( 1,0) x ( 0,5 ) x ( 0,5 )
P(x) = 0,125
MUY TARDE
P (x) = ( 3/3 ) x ( 2/3 ) x ( 1/3 ) x ( 2/3 )
P (x) = ( 1,0 ) x ( ,666 ) x ( 0,333 ) x ( 0,666 )
P(x) = 0,147
CANCELADO
P (x) = ( 0/1 ) x ( 0/1 ) x ( 1/1 ) x ( 1/1 )
P (x) = ( 0 ) x ( 0 ) x ( 1,0 ) x ( 1,0 )
P(x) = 0,00

Fallos al Método Naïve Bayes
Este esquema presupone un pequeño problema: el
método de Holmes presupone conocer todas las
posibilidades concurrentes en un caso, para luego
descartarlas todas menos una en función de su
inviabilidad, y ello equivale a un conocimiento pleno de la
situación y sus circunstancias.
“Cuando han sido descartadas todas las explicaciones imposibles, la que
queda, por inverosímil que parezca, tiene que ser la verdadera”
Sherlock Holmes
A primera vista parece una afirmación razonable, puesto que, en última
instancia, remite al viejo y eficaz método de reducción de opciones.
En el caso de los métodos clasificatorios y
probabilísticos Bayesianos dependen muchísimo de
los registros históricos, de no tener considerada una
instancia en particular esta puede hacer que el
algoritmo no aplique

Paradoja del Cuervo
Examínese la siguiente preposición:
“Todos los cuervos son negros”
Si nos tomamos el trabajo de examinar
concienzudamente un gran número de cuervos (un par
de millones o algo así) y todos resultan ser negros,
nuestra confianza en la teoría “todos los cuervos son
negros” aumentará un poco con cada observación.
En la década de 1940, el filósofo empirista lógico y epistemólogo Carl Gustav
Hempel propuso la PARADOJA DEL CUERVO o paradoja de la negación o
paradoja de Hempel.
Hempel explicaba que, cuando la gente pasa algún tiempo observando hechos
que se acomodan bien en el marco de sus teoría, tiende a creer que dicha teoría
tiene mayores posibilidades de ser cierta.
Si se observa un caso particular X consistente con la teoría T,
entonces la probabilidad de que T sea cierta aumenta.

Paradoja del Cuervo
Desde el punto de vista de la fría lógica, nuestra afirmación “todos los cuervos
son negros” es equivalente la afirmación:
“Todas las cosas no-negras son cosas no-cuervos”.
Esto significa que si viésemos alguna cosa distinta a un cuervo y no sea negra,
nuestra confianza en la creencia de que todos los cuervos son negros debería
aumentar. Esto significa, ni más ni menos, que ver una manzana roja debería
hacer que nuestra fe en el color de los cuervos se refuerce. El principio de
inducción, de pronto, ya no parece tan hermanado con la intuición..
Una manzana es roja, no es negra así
que por lógica no es un cuervo por lo
tanto es una cosa no-cuervo.

Paradoja del Cuervo
La existencia de la manzana roja solamente debería aumentar nuestra creencia
en la teoría “todas las cosas no-negras son no-cuervos”, pero no modificar
en nada nuestra confianza en la teoría original (“todos los cuervos son
negros”).
La inducción parece un procedimiento razonable, pero a veces presenta
dificultades en su aplicación. La más evidente es que casi nunca podemos
tener certeza absoluta de sus resultados, pues para lograrlo, necesitaríamos
examinar todos los objetos referidos en el enunciado general. En el caso de
los cuervos, deberíamos tener acceso (y revisar) a todos los cuervos que
existen, han existido y existirán.

Epilogo
En reconocimiento al importante trabajo que realizó Thomas
Bayes en materia de probabilidades, su tumba fue
restaurada en 1969 con donativos realizados por
estadísticos de todo el mundo.
Los restos de Bayes descansan en el cementerio londinense de Bunhill Fields.
La traducción de la inscripción en su tumba es
«Reverendo Thomas Bayes.
Hijo de los conocidos Joshua y Ann Bayes. 7 de abril de 1761».

Referencias:
Naive Bayes Classifiers. Principles of Data Mining
Max Bramer
Base de Conocimientos de IBM
https://www.ibm.com/support/knowledgecenter/es/SSEPGG_9.7.0/com.ibm.im.overview.do
c/c_naive_bayes_classification.html
WIKIPEDIA
https://es.wikipedia.org/wiki/Probabilidad_condicionada
https://es.wikipedia.org/wiki/Mutuamente_excluyentes
https://es.wikipedia.org/wiki/Clasificador_bayesiano_ingenuo
https://es.wikipedia.org/wiki/Teorema_de_Bayes
Blog QUORA
https://es.quora.com/Qu%C3%A9-es-La-paradoja-de-los-cuervos-negros-y-c%C3%B3mo-
la-solucionamos
Portal NATTEO
https://www.neoteo.com/la-paradoja-del-cuervo/
Blog de Naïve Bayes
http://naivebayes.blogspot.mx/

¡MUCHAS GRACIAS
POR SU ATENCION!
Presento:
Ing. Fernando Alfonso Casas De la Torre
Contacto:
fernando_casas69@hotmail.com
Instituto Tecnológico De la Laguna
DIVISIÓN DE ESTUDIOS DE
POSGRADO E INVESTIGACIÓN
Maestría en Sistemas Computacionales

Teorema de Naives Bayes

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Teorema de Naives Bayes

Similar a Teorema de Naives Bayes (20)

Más de Fernando Alfonso Casas De la Torre

Más de Fernando Alfonso Casas De la Torre (20)

Último

Último (20)

Teorema de Naives Bayes