SlideShare una empresa de Scribd logo
Buenos Aires, marzo de 2016
Eduardo Poggi
Aprendizaje Bayesiano
 Aproximación probabilística a ML
 Repaso del cálculo de probabilidades
 Teorema de Bayes
 NB
 ¿IDT + NB?
 The Joint Distribution
Aprendizaje Bayesiano
 Aproximación probabilística a ML
 Repaso del cálculo de probabilidades
 Teorema de Bayes
 NB
 ¿IDT + NB?
 The Joint Distribution
Aproximación probabilística a ML
 Hasta ahora vimos diferentes técnicas de aprendizaje:
 La idea que subyacen en esos métodos es la generalización por
particiones del espacio de ejemplos: bordes general-específicos,
particiones ortogonales, poliedros convexos, etc.
Aproximación probabilística a ML
 El interés del aprendizaje bayesiano es doble:
 Ofrece un conjunto de técnicas y conceptos prácticos basados en
probabilidades distintos a los aportados por otros métodos y
enfoques.
 Desde un punto de vista más teórico, ofrece un punto de vista
conceptual desde el cual analizar los distintos métodos inductivos.
En este sentido es un enfoque complementario al enfoque basado
en la resolución de problemas (búsqueda) o al enfoque más
“lógico” o “deductivo” de otros métodos.
Aproximación probabilística a ML
 Para comprender las técnicas bayesianas es importante
comprender el enfoque bayesiano hacia las
probabilidades y la estadística.
 Probabilidad bayesiana de un suceso es el grado de creencia de
una persona en ese suceso.
 La probabilidad en la interpretación clásica es una propiedad
física del mundo (probabilidad objetiva).
 La probabilidad en la interpretación bayesiana es una propiedad
de la persona que asigna la probabilidad (probabilidad subjetiva).
 Diferencia importante entre la probabilidad objetiva y la
subjetiva: para medir la segunda no se necesitan ensayos
repetidos.
Aproximación probabilística a ML
 La probabilidad bayesiana de un suceso cualquiera es el
grado de creencia de una persona en ese evento.
 La probabilidad clásica es una propiedad física del mundo
(p. ej., la probabilidad de que una moneda arrojada
aterrice de cara), mientras que la probabilidad bayesiana
es una propiedad de la persona que asigna la
probabilidad (p. ej., su grado de creencia de que una
moneda arrojada aterrice de cara).
 La probabilidad clásica se denomina probabilidad física,
objetiva o verdadera, mientras que la probabilidad
bayesiana se la suele denominar probabilidad subjetiva.
 Para medir la probabilidad objetiva se necesitan múltiples
ensayos, para la probabilidad subjetiva no. Esto es muy
bueno en los casos de sucesos infrecuentes, difíciles de
repetir, medir, etc.
Aproximación probabilística a ML
 Importancia del aprendizaje bayesiano
 Supuesto:
 las propiedades están regidas por distribuciones probabilísticas y
pueden tomarse buenas decisiones procesando estas probabilidades
junto con los datos observados.
 Propone un enfoque cuantitativo para ponderar la evidencia que
sustenta hipótesis alternativas.
 Permite implementar algoritmos muy utilizados y prácticos.
 Provee una perspectiva desde la cual interpretar los algoritmos de
aprendizaje que no utilizan explícitamente probabilidades.
Aproximación probabilística a ML
 Características principales de los métodos bayesianos
 Buscar la mejor hipótesis significa buscar la hipótesis más
probable dados los datos D y el conocimiento previo.
 No hay una búsqueda explícita en el espacio de hipótesis
posibles. Cada hipótesis se genera simplemente por conteo de la
frecuencia de las diversas combinaciones de valores de los
atributos en los ejemplos de entrenamiento.
 Cada ejemplo de entrenamiento aumenta o disminuye la
probabilidad estimada de que una hipótesis sea correcta.
Aproximación probabilística a ML
 Características principales de los métodos bayesianos
 El conocimiento previo puede combinarse con los datos
observados para determinar la probabilidad final de una hipótesis.
 El conocimiento previo está representado por:
 La probabilidad previa de cada hipótesis candidata (P(h))
 Una distribución probabilística sobre los datos observados (P(D))
 Las nuevas instancias pueden clasificarse combinando las
predicción de diversas hipótesis ponderadas por sus respectiva
probabilidad.
 Aun en los casos en los que los métodos bayesianos puedan
resultar computacionalmente intratables, pueden proporcionar un
estándar de decisión óptima contra el cual comparar otros
métodos.
Aproximación probabilística a ML
 Dificultades de los métodos bayesianos
 Requieren conocimiento inicial previo de muchas probabilidades.
 Problema de estimación de probabilidades pequeñas o de datos
no observados.
 Costo computacional significativo para determinar la hipótesis
bayesiana óptima en el caso general.
Aproximación probabilística a ML
 Un estimador de densidad aprende a mapear un conjunto
de atributos en una probabilidad.
Aprendizaje Bayesiano
 Aproximación probabilística a ML
 Repaso del cálculo de probabilidades
 Teorema de Bayes
 NB
 ¿IDT + NB?
 The Joint Distribution
Aproximación probabilística a ML
 El mundo es un lugar muy incierto.
 40 años de investigación 30 en IA y BD giran sobre este
hecho.
 Algunos investigadores en IA decidieron retomar ciertas
ideas del siglo XVIII.
Repaso del cálculo de probabilidades
 Discrete Random Variables
 A is a Boolean-valued random variable if A denotes an event, and there
is some degree of uncertainty as to whether A occurs.
 Examples
 A = The US president in 2023 will be male
 A = You wake up tomorrow with a headache
 A = You have Ebola
Repaso del cálculo de probabilidades
 Probabilidad:
 Denotamos con P(A) a la “fracción del mundos posibles en los
cuales A es verdadero”
Repaso del cálculo de probabilidades
 Base axiomática de la Probabilidad:
 0 <= P(A) <= 1
 P(True) = 1
 P(False) = 0
 P(A or B) = P(A) + P(B) - P(A and B)
Repaso del cálculo de probabilidades
 Variables Aleatorias Multivaluadas
 Si A puede tomar más de 2 valores
 A es una variable con aridad k si solo puede tomar un valor de
{v1 ,v2 , .. vk }
 Entonces …
Repaso del cálculo de probabilidades
 Probabilidad Condicional
 Probabilidad de que ocurra un evento A, sabiendo que también
sucede otro evento B.
 Se escribe P(A|B): “la probabilidad de A dado B”.
 No tiene por qué haber una relación causal o temporal entre A y
B.
 A puede preceder en el tiempo a B, sucederlo o pueden ocurrir
simultáneamente.
 A puede causar B, viceversa o pueden no tener relación causal.
 Las relaciones causales o temporales son nociones que no
pertenecen al ámbito de la probabilidad.
Repaso del cálculo de probabilidades
H = “Have a headache”
F = “Coming down with Flu”
P(H) = 1/10
P(F) = 1/40
P(H|F) = 1/2
“Headaches are rare and flu is
rarer, but if you’re coming down
with flu there’s a 50-50 chance
you’ll have a headache.”
Repaso del cálculo de probabilidades
P(H|F) = Fraction of flu-inflicted worlds
in which you have a Headache
= #worlds with flu and headache
#worlds with flu
= Area of “H and F” region
Area of “F” region
= P(H ^ F)
P(F)
H = “Have a headache”
F = “Coming down with Flu”
P(H) = 1/10
P(F) = 1/40
P(H|F) = 1/2
Repaso del cálculo de probabilidades
 Probabilistic Inference
 One day you wake up with a headache. You think: “Drat!
 50% of flus are associated with headaches so I must have a
 50-50 chance of coming down with flu”
 Is this reasoning good?
H = “Have a headache”
F = “Coming down with Flu”
P(H) = 1/10
P(F) = 1/40
P(H|F) = 1/2
Aprendizaje Bayesiano
 Aproximación probabilística a ML
 Repaso del cálculo de probabilidades
 Teorema de Bayes
 NB
 ¿IDT + NB?
 The Joint Distribution
Teorema de Bayes
 Bayes Rule
P (B|A) = P(A^B) = P(A|B) P(B)
P(A) P(A)
Bayes, Thomas (1763)
Otras formas:
Teorema de Bayes
 Provee un método directo para calcular la probabilidad de las
hipótesis:
 P(h|D) = ( P(D|h) P(h) ) / P(D)
 P(h): probabilidad inicial (previa, a priori) de h (antes de haber
observado los datos de entrenamiento). Refleja todo el conocimiento
general acerca de la probabilidad de que h sea una hipótesis correcta. En
caso de que no se tenga conocimiento previo puede suponerse
equiprobabilidad de todas las hipótesis
 P(D): probabilidad previa de observar los datos de entrenamiento D (sin
conocimiento de cuál es la hipótesis vigente)
 P(D|h): probabilidad posterior (a posteriori) de observar los datos D
cuando h es la hipótesis vigente
 P(h|D): probabilidad posterior de la hipótesis h habiendo observado los
datos de entrenamiento
 D. Refleja nuestra confianza en h habiendo visto D
 Las probabilidades posteriores (p(h|D); p(D|h)) son probabilidades
condicionales
 Se puede esperar que P(h|D) aumente con p(h) y con P(D|h) según
el teorema de Bayes. También es razonable ver que P(h|D)
disminuye cuando P(D) aumenta, porque cuanto más probable es
que D sea observado independientemente de h, menos evidencia D
provee en apoyo de h.
Teorema de Bayes
 Hipótesis más probable
 En muchas situaciones de aprendizaje, consideramos algún conjunto H de
hipótesis candidatas y estamos interesados en encontrar la hipótesis más probable
h (o alguna de las máximamente probables) en H a la luz de un conjunto de datos
observados D. Esta hipótesis se denomina de máxima probabilidad a posteriori o
hipótesis MAP. Podemos determinarla usando el teorema de Bayes para calcular la
probabilidad de cada hipótesis candidata. Como P(D) es constante para toda h,
podemos omitirla del cálculo cuando queremos identificar la hipótesis MAP
(aunque no cuando queremos determinar exactamente su probabilidad).
 Hipótesis ML:
 Cuando todas las hipótesis h de H son igualmente probables a priori. P(D|h) se
denomina la verosimilitud de los datos D dado h, y cualquier hipótesis que
maximiza p(D|h) se denomina hipótesis de máxima verosimilitud. En estadística, el
método de máxima verosimilitud produce valores para los parámetros
desconocidos que maximizan la probabilidad de obtener el conjunto observado de
datos. Para aplicar este método debemos primero construir una función , llamada
la función de verosimilitud. Esta función expresa la probabilidad de los datos
observados como función de los parámetros desconocidos. Los estimadores de
máxima verosimilitud de estos parámetros se eligen como aquellos valores que
maximizan esta función. Así, los estimadores resultantes son aquellos que
concuerdan más estrechamente con los datos observados.
 Teorema de la probabilidad total:
 Si los sucesos A1,...,An son mutuamente excluyentes con ∑i P(Ai) = 1,
 entonces P(B) = ∑i P(B|Ai) P(Ai)
Teorema de Bayes – ejemplo
 Does patient have cancer or not?
 A patient takes a lab test and the result comes back positive. It is known
that the test returns a correct positive result in only 98% of the cases
and a correct negative result in only 97% of the cases. Furthermore, only
0.008 of the entire population has this disease.
1. What is the probability that this patient has cancer?
2. What is the probability that he does not have cancer?
3. What is the diagnosis?
Teorema de Bayes – ejemplo
 P(cancer) = 0.008, P(-cancer)=0.992
 P(+|cancer) = 0.98, P(-|cancer)=0.02
 P(+|-cancer)=0.03, P(-|-cancer)=0.97
 Si el test da positivo, que deberíamos diagnosticar?
 P(+|cancer)*P(cancer) = 0.98*0.008 = 0.0078
 P(+|-cancer)*P(-cancer) = 0.03*0.992 = 0.0298
 El diagnóstico más probable es que el paciente esté sano. Que se puede
afirmar con una probabilidad del:
 79% = (0.0298/ (0.0298+0.0078))
Teorema de Bayes – ejemplo
 Choosing Hypotheses
 Maximum Likelihood hypothesis:
 Generally we want the most probable hypothesis given training
data. This is the maximum a posteriori hypothesis:
 Useful observation: it does not depend on the denominator P(d)
)|(maxarg dhPh
Hh
MAP


)|(maxarg hdPh
Hh
ML


Teorema de Bayes – ejemplo
 Now we compute the diagnosis
 To find the Maximum Likelihood hypothesis, we
evaluate P(d|h) for the data d, which is the
positive lab test and chose the hypothesis
(diagnosis) that maximises it:
 To find the Maximum A Posteriori hypothesis,
we evaluate P(d|h)P(h) for the data d, which is
the positive lab test and chose the hypothesis
(diagnosis) that maximises it. This is the same
as choosing the hypotheses gives the higher
posterior probability.
.................:
.............)|(
............)|(



MLhDiagnosis
cancerP
cancerP
......................:
.............)()|(
................)()|(



MAPhDiagnosis
cancerPcancerP
cancerPcancerP
Aprendizaje Bayesiano
 Aproximación probabilística a ML
 Repaso del cálculo de probabilidades
 Teorema de Bayes
 NB
 ¿IDT + NB?
 The Joint Distribution
Naive Bayes
 What can we do if our data d has several attributes?
 Naive Bayes assumption: Attributes that describe data instances are
conditionally independent given the classification hypothesis
 it is a simplifying assumption, obviously it may be violated in reality
 in spite of that, it works well in practice
 The naive model generalizes strongly: Assume that each attribute is
distributed independently of any of the other attributes.

t
tT haPhaaPhP )|()|,...,()|( 1d
Naive Bayes
 Independently Distributed Data
 Let x[i]denote the i ’th field of record x.
 The independently distributed assumption says that for any i,v,
u1 u2… ui-1 ui+1…uM
 Or in other words, x[i]is independent of {x[1],x[2],..x[i-1],
x[i+1],…x[M]}
 This is often written as:
Naive Bayes
 Some eqs, assume P(A|B) = P(A)
 then P(A^B) = P(A) P(B)
 and P(~A|B) = P(~A)
 and P(B|A) = P(B)
 and P(A|~B) = P(A)
 Multivalued Independence:
Naive Bayes
 Se aplica a tareas de aprendizaje que usan un lenguaje conjuntivo de
representación de instancias y la función objetivo puede tomar cualquier
valor v de un conjunto finito V.
 Los términos P(vj) son fáciles de estimar, pero no los términos
P(a1,a2,...,an|vj) a menos que se tenga un conjunto de datos de
entrenamiento muy grande. El problema es que el número de estos términos
es igual al número de instancias posibles por el número de valores objetivo
posibles. Necesitamos ver cada instancia en el espacio de instancias muchas
veces para obtener estimaciones confiables.
 El clasificador naive Bayes se basa en el supuesto simplificador de que los
valores de los atributos son condicionalmente independientes dado el valor
objetivo. Esto es, dado el valor objetivo de la instancia, la probabilidad de
observar la conjunción a1, a2,...,an es solo el producto de las probabilidades
de los atributos individuales: P(a1,a2,...,an|vj) = ∏i P(ai|vj).
 El número de términos P(ai|vj) que deben estimarse a partir de los datos de
entrenamiento es solo el número de valores de atributos distintos por el
número de valores objetivo distintos.
 El método de naive Bayes involucra un paso de aprendizaje en el cual se
estiman los diversos P(vj) y P(ai|vj), en base a su frecuencia sobre los datos
de entrenamiento. El conjunto de estas estimaciones corresponden a la
hipótesis aprendida. Esta hipótesis es usada luego para clasificar las nuevas
instancias. Cuando el supuesto bayesiano ingenuo de independencia
condicional se satisface, la clasificación bayesiana ingenua es idéntica a la
clasificación MAP.
Naive Bayes
 Etapa de entrenamiento:
 Compilar una tabla (unidimensional) de estimaciones de la
probabilidad de la clase P(vj)
 Compilar una tabla (bidimensional) indizada por la clase y pares
atributo-valor de las estimaciones condicionales P(ai|vj)
 Etapa de clasificación:
 Para cada instancia no clasificada calcular argmaxvj P(vj) Πi
P(ai|vj)
Naive Bayes
 Características:
 Es un clasificador “global” y no puede hacer predicciones locales
como K-NN o los árboles de decisión.
 Usualmente tiene baja varianza ya que perturbaciones de los
conjuntos de entrenamiento raramente causarán grandes
cambios en sus predicciones, que se basan en probabilidades.
Naive Bayes
 Suavizamiento:
 La estimación “directa” de P(ai|vj) es Frecuencia(ai,vj) /
frecuencia(vj) en la muestra de entrenamiento D
 Problema: cuando en D no ocurre alguna combinación (ai,vj), ya
sea debido a las idiosincrasias de D y/o porque esa combinación
es muy poco frecuente (aunque no imposible) y |D| es pequeño,
la estimación sería P(ai|vj) = 0, lo que anula toda la productoria
∏K
 Solución: suavizar las estimaciones para que sean menos
extremas:
 Enfoque “no match”: reemplazar las frecuencias 0 por un factor
sobre el número de instancias (m) del conjunto de entrenamiento.
 Enfoque de Laplace: estimar todas las probabilidades P(ai/vj)
mediante (frec(ai,vj) + f) / (m + k.f), donde f es un factor y k el
número de clases.
 Estimación-m: estimar todas las probabilidades P(ai|vj) mediante
(frec(ai,vj) + m.p) / (frec(vj) + m), donde p: estimación previa de la
probabilidad que deseamos determinar y m: constante llamada
tamaño de muestra equivalente que determina cuánto ponderar p en
relación con los datos observados
Naive Bayes - Ejemplo
 Example “PlayTennis”
Naive Bayes - Ejemplo
 Classifing
 Classify any new datum instance x=(a1,…aT) as:
 In the case of the naive Bayes Classifier this can be simplified:
 Technical Hint:
If you have 10,000 input attributes that product will underflow in floating point
math. You should use logs:
Naive Bayes - Ejemplo
x = <Outlook=Sunny, Temp=Cool, Hum=High, Wind=Strong>
hNB = argmax P(h) P(x|h)
= argmax P(h)  P(ai | h)
= argmax P(h) P(Outlook=Sunny | h) P(Temp=Cool | h)
P (Hum=High | h) P(Wind=Strong | h)
Aproximando las probabilidades por la frecuencia:
P (PlayTennis = yes) = 9/14 = 0.64
P (PlayTennis = no) = 5/14 = 0.36
P (Wind = Strong | PlayTennis = yes) = 3/9 = 0.33
P (Wind = Strong | PlayTennis = no) = 3/5 = 0.60
Aplicandolo a las fórmulas:
P(yes) P(Sunny|yes) P(Cool|yes) P(High|yes) P(String|yes) = 0.0053
P(no) P(Sunny|no) P(Cool|no) P(High|no) P(String|no) = 0.0206
 Answer: PlayTennis = no
 Con 79.5% de certeza
Aprendizaje Bayesiano
 Aproximación probabilística a ML
 Repaso del cálculo de probabilidades
 Teorema de Bayes
 NB
 ¿IDT + NB?
 The Joint Distribution
¿IDT + NB?
 Árbol bayesiano ingenuo (NBTree)
 Es un enfoque híbrido que combina un clasificador bayesiano
ingenuo con un árbol de decisión. NBTree usa una estructura de
árbol para dividir el espacio de instancias en subespacios y
genera un clasificador bayesiano ingenuo en cada subespacio.
 Los nodos de decisión contienen tests univariados típicos.
 Cada hoja contiene un clasificador bayesiano ingenuo local que
no incluye las variables involucradas en los tests sobre el camino
que lleva a la hoja.
¿IDT + NB?
 Árbol bayesiano ingenuo (NBTree)
 La debilidad principal de NB es el supuesto de independencia
condicional de los atributos. Cuando existen atributos
interdependientes la performance de este método puede
deteriorarse mucho. La mayoría de las modificaciones de NB
surgen para aliviar este problema tratando de tomar en cuenta la
interdependencia en un modelo global o generando modelos NB
más locales que estén más o menos libres de esa
interdependencia. Este último es el caso de los NBTree.
 Una selección apropiada de tests puede permitir a los árboles
eliminar interdependencias dañinas (para NB) entre atributos. Los
atributos en las ramas no son utilizados por los NB en las hojas,
disminuyendo así la probabilidad de construir modelos con
atributos interdependientes.
Aprendizaje Bayesiano
 Aproximación probabilística a ML
 Repaso del cálculo de probabilidades
 Teorema de Bayes
 NB
 ¿IDT + NB?
 The Joint Distribution
The Joint Distribution
 Recipe for making a joint distribution of
M variables:
1. Make a truth table listing all combinations
of values of your variables (if there are
M Boolean variables then the table will
have 2M rows).
2. For each combination of values, say how
probable it is.
3. If you subscribe to the axioms of
probability, those numbers must sum to
1.
The Joint Distribution
 Using the Joint
 One you have the JD you can
ask for the probability of any
logical expression involving your
attribute
 P(Poor Male) = 0.4654
 P(Poor) = 0.7604
 P(Male | Poor) = 0.4654
0.7604
= 0.612
The Joint Distribution
 Log Probabilities
 Since probabilities of datasets get so small we usually use log
probabilities
 Bad news
 ….Density estimators can overfit. And the full joint density estimator is
the overfittiest of them all!
 We need Density Estimators that are less prone to overfitting
The Joint Distribution
 Contrast
Aprendizaje Bayesiano - Resumen
 Density estimation can be performed with real-valued inputs
 Bayes Classifiers can be built with real-valued inputs
 Rather Technical Complaint: Bayes Classifiers don’t try to be
maximally discriminative---they merely try to honestly model what’s
going on
 Zero probabilities are painful for Joint and Naïve.
 Naïve Bayes is wonderfully cheap. And survives 10,000 attributes
cheerfully!
eduardopoggi@yahoo.com.ar
eduardo-poggi
http://ar.linkedin.com/in/eduardoapoggi
https://www.facebook.com/eduardo.poggi
@eduardoapoggi
Bibliografía
 Álvarez, José: Notas de cátedra. Universidad Austral.
 Mitchell Cap 6

Más contenido relacionado

Destacado

Probabilidad y estadistica
Probabilidad y estadisticaProbabilidad y estadistica
Probabilidad y estadistica
ivandejesuscr
 
Teoria de la probabilidad
Teoria de la probabilidadTeoria de la probabilidad
Teoria de la probabilidad
Ing.Joel Lopezgarcia LOPEZ GARCIA
 
El muestreo. Unidad para 1º de Bachillerato
El muestreo. Unidad para 1º de BachilleratoEl muestreo. Unidad para 1º de Bachillerato
El muestreo. Unidad para 1º de Bachilleratoanaruiz91
 
Ejemplos diagrama de arbol
Ejemplos diagrama de arbolEjemplos diagrama de arbol
Ejemplos diagrama de arbol
Nicortiz07
 
DIAGRAMAS DE ÁRBOL, MÉTODOS DE CONTEO, PERMUTACIONES, COMBINACIONES PRINCI...
DIAGRAMAS DE ÁRBOL, MÉTODOS DE CONTEO, PERMUTACIONES, COMBINACIONES PRINCI...DIAGRAMAS DE ÁRBOL, MÉTODOS DE CONTEO, PERMUTACIONES, COMBINACIONES PRINCI...
DIAGRAMAS DE ÁRBOL, MÉTODOS DE CONTEO, PERMUTACIONES, COMBINACIONES PRINCI...Roza Meza
 
Probabilidad y estadistica diagramas de arbol
Probabilidad y estadistica diagramas de arbolProbabilidad y estadistica diagramas de arbol
Probabilidad y estadistica diagramas de arbolPablo Ruiz Aguilar
 

Destacado (8)

Probabilidad y estadistica
Probabilidad y estadisticaProbabilidad y estadistica
Probabilidad y estadistica
 
Probabilidades
ProbabilidadesProbabilidades
Probabilidades
 
Teoria de la probabilidad
Teoria de la probabilidadTeoria de la probabilidad
Teoria de la probabilidad
 
El muestreo. Unidad para 1º de Bachillerato
El muestreo. Unidad para 1º de BachilleratoEl muestreo. Unidad para 1º de Bachillerato
El muestreo. Unidad para 1º de Bachillerato
 
muestreo
muestreomuestreo
muestreo
 
Ejemplos diagrama de arbol
Ejemplos diagrama de arbolEjemplos diagrama de arbol
Ejemplos diagrama de arbol
 
DIAGRAMAS DE ÁRBOL, MÉTODOS DE CONTEO, PERMUTACIONES, COMBINACIONES PRINCI...
DIAGRAMAS DE ÁRBOL, MÉTODOS DE CONTEO, PERMUTACIONES, COMBINACIONES PRINCI...DIAGRAMAS DE ÁRBOL, MÉTODOS DE CONTEO, PERMUTACIONES, COMBINACIONES PRINCI...
DIAGRAMAS DE ÁRBOL, MÉTODOS DE CONTEO, PERMUTACIONES, COMBINACIONES PRINCI...
 
Probabilidad y estadistica diagramas de arbol
Probabilidad y estadistica diagramas de arbolProbabilidad y estadistica diagramas de arbol
Probabilidad y estadistica diagramas de arbol
 

Similar a Poggi analytics - bayes - 1a

TAREA DE INVESTIGACIÓN
TAREA DE INVESTIGACIÓNTAREA DE INVESTIGACIÓN
TAREA DE INVESTIGACIÓN
callaron
 
Revista
RevistaRevista
Ensayo de estadistica
Ensayo de estadisticaEnsayo de estadistica
Ensayo de estadistica
YefryEspina
 
Revista de mate
Revista de mateRevista de mate
Revista de mate
Jeysson Noboa
 
probabilidad.pptx
probabilidad.pptxprobabilidad.pptx
probabilidad.pptx
MauricioCedeo11
 
Ensayo
EnsayoEnsayo
Trabajo de probabilidad
Trabajo de probabilidadTrabajo de probabilidad
Trabajo de probabilidad
Monica Gaspar
 
PresentacióN Bayes09
PresentacióN Bayes09PresentacióN Bayes09
PresentacióN Bayes09damarisorci
 
Teoria de la probabilidad ensayo
Teoria de la probabilidad ensayoTeoria de la probabilidad ensayo
Teoria de la probabilidad ensayo
alexanderenrrique27
 
Estadística II
Estadística IIEstadística II
Estadística II
Videoconferencias UTPL
 
Contraste de Hipótesis
Contraste de Hipótesis Contraste de Hipótesis
Contraste de Hipótesis
luismarfrtz
 
teoria de la probabilidad
teoria de la probabilidadteoria de la probabilidad
teoria de la probabilidad
Douglas Miguel
 
teorema de bayes.docx
teorema de bayes.docxteorema de bayes.docx
teorema de bayes.docx
JaimeBonilla30
 
Probabilidad Estadistica
Probabilidad EstadisticaProbabilidad Estadistica
Probabilidad Estadistica
Dargeri Tomassini
 
Unidad1 probabilidad
Unidad1 probabilidadUnidad1 probabilidad
Unidad1 probabilidad
Jesus Uriel Romero Diaz
 
Ensayo de teoria de la probabilidad
Ensayo de teoria de la probabilidadEnsayo de teoria de la probabilidad
Ensayo de teoria de la probabilidadIng Julio Sierra
 

Similar a Poggi analytics - bayes - 1a (20)

Análisis bayesiano
Análisis bayesianoAnálisis bayesiano
Análisis bayesiano
 
TAREA DE INVESTIGACIÓN
TAREA DE INVESTIGACIÓNTAREA DE INVESTIGACIÓN
TAREA DE INVESTIGACIÓN
 
Revista
RevistaRevista
Revista
 
Ensayo de estadistica
Ensayo de estadisticaEnsayo de estadistica
Ensayo de estadistica
 
Revista de mate
Revista de mateRevista de mate
Revista de mate
 
probabilidad.pptx
probabilidad.pptxprobabilidad.pptx
probabilidad.pptx
 
Ensayo
EnsayoEnsayo
Ensayo
 
Trabajo de probabilidad
Trabajo de probabilidadTrabajo de probabilidad
Trabajo de probabilidad
 
PRESENTACIN
PRESENTACINPRESENTACIN
PRESENTACIN
 
PresentacióN Bayes09
PresentacióN Bayes09PresentacióN Bayes09
PresentacióN Bayes09
 
Teoria de la probabilidad ensayo
Teoria de la probabilidad ensayoTeoria de la probabilidad ensayo
Teoria de la probabilidad ensayo
 
Estadística II
Estadística IIEstadística II
Estadística II
 
ESTADISTICA PROYECTO
ESTADISTICA PROYECTOESTADISTICA PROYECTO
ESTADISTICA PROYECTO
 
Contraste de Hipótesis
Contraste de Hipótesis Contraste de Hipótesis
Contraste de Hipótesis
 
teoria de la probabilidad
teoria de la probabilidadteoria de la probabilidad
teoria de la probabilidad
 
teorema de bayes.docx
teorema de bayes.docxteorema de bayes.docx
teorema de bayes.docx
 
Probabilidad Estadistica
Probabilidad EstadisticaProbabilidad Estadistica
Probabilidad Estadistica
 
Unidad1 probabilidad
Unidad1 probabilidadUnidad1 probabilidad
Unidad1 probabilidad
 
Ensayo de teoria de la probabilidad
Ensayo de teoria de la probabilidadEnsayo de teoria de la probabilidad
Ensayo de teoria de la probabilidad
 
Redesia2
Redesia2Redesia2
Redesia2
 

Más de Gaston Liberman

Poggi analytics - tm - 1b
Poggi   analytics - tm - 1bPoggi   analytics - tm - 1b
Poggi analytics - tm - 1b
Gaston Liberman
 
Poggi analytics - distance - 1a
Poggi   analytics - distance - 1aPoggi   analytics - distance - 1a
Poggi analytics - distance - 1a
Gaston Liberman
 
Poggi analytics - sentiment - 1
Poggi   analytics - sentiment - 1Poggi   analytics - sentiment - 1
Poggi analytics - sentiment - 1
Gaston Liberman
 
Poggi analytics - geneticos - 1
Poggi   analytics - geneticos - 1Poggi   analytics - geneticos - 1
Poggi analytics - geneticos - 1
Gaston Liberman
 
Poggi analytics - ebl - 1
Poggi   analytics - ebl - 1Poggi   analytics - ebl - 1
Poggi analytics - ebl - 1
Gaston Liberman
 
Poggi analytics - star - 1a
Poggi   analytics - star - 1aPoggi   analytics - star - 1a
Poggi analytics - star - 1a
Gaston Liberman
 
Poggi analytics - inference - 1a
Poggi   analytics - inference - 1aPoggi   analytics - inference - 1a
Poggi analytics - inference - 1a
Gaston Liberman
 
Poggi analytics - ensamble - 1b
Poggi   analytics - ensamble - 1bPoggi   analytics - ensamble - 1b
Poggi analytics - ensamble - 1b
Gaston Liberman
 
Poggi analytics - trees - 1e
Poggi   analytics - trees - 1ePoggi   analytics - trees - 1e
Poggi analytics - trees - 1e
Gaston Liberman
 
Poggi analytics - concepts - 1a
Poggi   analytics - concepts - 1aPoggi   analytics - concepts - 1a
Poggi analytics - concepts - 1a
Gaston Liberman
 
Poggi analytics - ml - 1d
Poggi   analytics - ml - 1dPoggi   analytics - ml - 1d
Poggi analytics - ml - 1d
Gaston Liberman
 
Poggi analytics - intro - 1c
Poggi   analytics - intro - 1cPoggi   analytics - intro - 1c
Poggi analytics - intro - 1c
Gaston Liberman
 
Poggi analytics - clustering - 1
Poggi   analytics - clustering - 1Poggi   analytics - clustering - 1
Poggi analytics - clustering - 1
Gaston Liberman
 
Henrion poggi analytics - ann - 1
Henrion poggi   analytics - ann - 1Henrion poggi   analytics - ann - 1
Henrion poggi analytics - ann - 1
Gaston Liberman
 

Más de Gaston Liberman (15)

Taller bd8
Taller bd8Taller bd8
Taller bd8
 
Poggi analytics - tm - 1b
Poggi   analytics - tm - 1bPoggi   analytics - tm - 1b
Poggi analytics - tm - 1b
 
Poggi analytics - distance - 1a
Poggi   analytics - distance - 1aPoggi   analytics - distance - 1a
Poggi analytics - distance - 1a
 
Poggi analytics - sentiment - 1
Poggi   analytics - sentiment - 1Poggi   analytics - sentiment - 1
Poggi analytics - sentiment - 1
 
Poggi analytics - geneticos - 1
Poggi   analytics - geneticos - 1Poggi   analytics - geneticos - 1
Poggi analytics - geneticos - 1
 
Poggi analytics - ebl - 1
Poggi   analytics - ebl - 1Poggi   analytics - ebl - 1
Poggi analytics - ebl - 1
 
Poggi analytics - star - 1a
Poggi   analytics - star - 1aPoggi   analytics - star - 1a
Poggi analytics - star - 1a
 
Poggi analytics - inference - 1a
Poggi   analytics - inference - 1aPoggi   analytics - inference - 1a
Poggi analytics - inference - 1a
 
Poggi analytics - ensamble - 1b
Poggi   analytics - ensamble - 1bPoggi   analytics - ensamble - 1b
Poggi analytics - ensamble - 1b
 
Poggi analytics - trees - 1e
Poggi   analytics - trees - 1ePoggi   analytics - trees - 1e
Poggi analytics - trees - 1e
 
Poggi analytics - concepts - 1a
Poggi   analytics - concepts - 1aPoggi   analytics - concepts - 1a
Poggi analytics - concepts - 1a
 
Poggi analytics - ml - 1d
Poggi   analytics - ml - 1dPoggi   analytics - ml - 1d
Poggi analytics - ml - 1d
 
Poggi analytics - intro - 1c
Poggi   analytics - intro - 1cPoggi   analytics - intro - 1c
Poggi analytics - intro - 1c
 
Poggi analytics - clustering - 1
Poggi   analytics - clustering - 1Poggi   analytics - clustering - 1
Poggi analytics - clustering - 1
 
Henrion poggi analytics - ann - 1
Henrion poggi   analytics - ann - 1Henrion poggi   analytics - ann - 1
Henrion poggi analytics - ann - 1
 

Último

PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.
MELANYANELKACRUZLEON
 
Desarrollo de Habilidades de Pensamiento Informatica
Desarrollo de Habilidades de Pensamiento InformaticaDesarrollo de Habilidades de Pensamiento Informatica
Desarrollo de Habilidades de Pensamiento Informatica
floralbaortega88
 
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptxACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
MelanieYuksselleCarr
 
Instituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdfInstituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdf
JC Díaz Herrera
 
Ojiva porcentual para el análisis de datos
Ojiva porcentual para el análisis de datosOjiva porcentual para el análisis de datos
Ojiva porcentual para el análisis de datos
JaimeYael
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
IrapuatoCmovamos
 
mapa conceptual y mental para niños de primaria y secundaria
mapa conceptual y mental para niños de primaria y secundariamapa conceptual y mental para niños de primaria y secundaria
mapa conceptual y mental para niños de primaria y secundaria
ManuelAlbertoHeredia1
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
diegozuniga768
 
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdfPaíses_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
JC Díaz Herrera
 
Claves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdfClaves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdf
Emisor Digital
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
DieguinhoSalazar
 
Desarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamientoDesarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamiento
ManuelaReina3
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Emisor Digital
 
Presentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramasPresentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramas
JosMuoz943377
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
SantiagoMejia99
 

Último (15)

PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.
 
Desarrollo de Habilidades de Pensamiento Informatica
Desarrollo de Habilidades de Pensamiento InformaticaDesarrollo de Habilidades de Pensamiento Informatica
Desarrollo de Habilidades de Pensamiento Informatica
 
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptxACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
 
Instituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdfInstituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdf
 
Ojiva porcentual para el análisis de datos
Ojiva porcentual para el análisis de datosOjiva porcentual para el análisis de datos
Ojiva porcentual para el análisis de datos
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
 
mapa conceptual y mental para niños de primaria y secundaria
mapa conceptual y mental para niños de primaria y secundariamapa conceptual y mental para niños de primaria y secundaria
mapa conceptual y mental para niños de primaria y secundaria
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
 
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdfPaíses_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
 
Claves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdfClaves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdf
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
 
Desarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamientoDesarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamiento
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
 
Presentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramasPresentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramas
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
 

Poggi analytics - bayes - 1a

  • 1. Buenos Aires, marzo de 2016 Eduardo Poggi
  • 2. Aprendizaje Bayesiano  Aproximación probabilística a ML  Repaso del cálculo de probabilidades  Teorema de Bayes  NB  ¿IDT + NB?  The Joint Distribution
  • 3. Aprendizaje Bayesiano  Aproximación probabilística a ML  Repaso del cálculo de probabilidades  Teorema de Bayes  NB  ¿IDT + NB?  The Joint Distribution
  • 4. Aproximación probabilística a ML  Hasta ahora vimos diferentes técnicas de aprendizaje:  La idea que subyacen en esos métodos es la generalización por particiones del espacio de ejemplos: bordes general-específicos, particiones ortogonales, poliedros convexos, etc.
  • 5. Aproximación probabilística a ML  El interés del aprendizaje bayesiano es doble:  Ofrece un conjunto de técnicas y conceptos prácticos basados en probabilidades distintos a los aportados por otros métodos y enfoques.  Desde un punto de vista más teórico, ofrece un punto de vista conceptual desde el cual analizar los distintos métodos inductivos. En este sentido es un enfoque complementario al enfoque basado en la resolución de problemas (búsqueda) o al enfoque más “lógico” o “deductivo” de otros métodos.
  • 6. Aproximación probabilística a ML  Para comprender las técnicas bayesianas es importante comprender el enfoque bayesiano hacia las probabilidades y la estadística.  Probabilidad bayesiana de un suceso es el grado de creencia de una persona en ese suceso.  La probabilidad en la interpretación clásica es una propiedad física del mundo (probabilidad objetiva).  La probabilidad en la interpretación bayesiana es una propiedad de la persona que asigna la probabilidad (probabilidad subjetiva).  Diferencia importante entre la probabilidad objetiva y la subjetiva: para medir la segunda no se necesitan ensayos repetidos.
  • 7. Aproximación probabilística a ML  La probabilidad bayesiana de un suceso cualquiera es el grado de creencia de una persona en ese evento.  La probabilidad clásica es una propiedad física del mundo (p. ej., la probabilidad de que una moneda arrojada aterrice de cara), mientras que la probabilidad bayesiana es una propiedad de la persona que asigna la probabilidad (p. ej., su grado de creencia de que una moneda arrojada aterrice de cara).  La probabilidad clásica se denomina probabilidad física, objetiva o verdadera, mientras que la probabilidad bayesiana se la suele denominar probabilidad subjetiva.  Para medir la probabilidad objetiva se necesitan múltiples ensayos, para la probabilidad subjetiva no. Esto es muy bueno en los casos de sucesos infrecuentes, difíciles de repetir, medir, etc.
  • 8. Aproximación probabilística a ML  Importancia del aprendizaje bayesiano  Supuesto:  las propiedades están regidas por distribuciones probabilísticas y pueden tomarse buenas decisiones procesando estas probabilidades junto con los datos observados.  Propone un enfoque cuantitativo para ponderar la evidencia que sustenta hipótesis alternativas.  Permite implementar algoritmos muy utilizados y prácticos.  Provee una perspectiva desde la cual interpretar los algoritmos de aprendizaje que no utilizan explícitamente probabilidades.
  • 9. Aproximación probabilística a ML  Características principales de los métodos bayesianos  Buscar la mejor hipótesis significa buscar la hipótesis más probable dados los datos D y el conocimiento previo.  No hay una búsqueda explícita en el espacio de hipótesis posibles. Cada hipótesis se genera simplemente por conteo de la frecuencia de las diversas combinaciones de valores de los atributos en los ejemplos de entrenamiento.  Cada ejemplo de entrenamiento aumenta o disminuye la probabilidad estimada de que una hipótesis sea correcta.
  • 10. Aproximación probabilística a ML  Características principales de los métodos bayesianos  El conocimiento previo puede combinarse con los datos observados para determinar la probabilidad final de una hipótesis.  El conocimiento previo está representado por:  La probabilidad previa de cada hipótesis candidata (P(h))  Una distribución probabilística sobre los datos observados (P(D))  Las nuevas instancias pueden clasificarse combinando las predicción de diversas hipótesis ponderadas por sus respectiva probabilidad.  Aun en los casos en los que los métodos bayesianos puedan resultar computacionalmente intratables, pueden proporcionar un estándar de decisión óptima contra el cual comparar otros métodos.
  • 11. Aproximación probabilística a ML  Dificultades de los métodos bayesianos  Requieren conocimiento inicial previo de muchas probabilidades.  Problema de estimación de probabilidades pequeñas o de datos no observados.  Costo computacional significativo para determinar la hipótesis bayesiana óptima en el caso general.
  • 12. Aproximación probabilística a ML  Un estimador de densidad aprende a mapear un conjunto de atributos en una probabilidad.
  • 13. Aprendizaje Bayesiano  Aproximación probabilística a ML  Repaso del cálculo de probabilidades  Teorema de Bayes  NB  ¿IDT + NB?  The Joint Distribution
  • 14. Aproximación probabilística a ML  El mundo es un lugar muy incierto.  40 años de investigación 30 en IA y BD giran sobre este hecho.  Algunos investigadores en IA decidieron retomar ciertas ideas del siglo XVIII.
  • 15. Repaso del cálculo de probabilidades  Discrete Random Variables  A is a Boolean-valued random variable if A denotes an event, and there is some degree of uncertainty as to whether A occurs.  Examples  A = The US president in 2023 will be male  A = You wake up tomorrow with a headache  A = You have Ebola
  • 16. Repaso del cálculo de probabilidades  Probabilidad:  Denotamos con P(A) a la “fracción del mundos posibles en los cuales A es verdadero”
  • 17. Repaso del cálculo de probabilidades  Base axiomática de la Probabilidad:  0 <= P(A) <= 1  P(True) = 1  P(False) = 0  P(A or B) = P(A) + P(B) - P(A and B)
  • 18. Repaso del cálculo de probabilidades  Variables Aleatorias Multivaluadas  Si A puede tomar más de 2 valores  A es una variable con aridad k si solo puede tomar un valor de {v1 ,v2 , .. vk }  Entonces …
  • 19. Repaso del cálculo de probabilidades  Probabilidad Condicional  Probabilidad de que ocurra un evento A, sabiendo que también sucede otro evento B.  Se escribe P(A|B): “la probabilidad de A dado B”.  No tiene por qué haber una relación causal o temporal entre A y B.  A puede preceder en el tiempo a B, sucederlo o pueden ocurrir simultáneamente.  A puede causar B, viceversa o pueden no tener relación causal.  Las relaciones causales o temporales son nociones que no pertenecen al ámbito de la probabilidad.
  • 20. Repaso del cálculo de probabilidades H = “Have a headache” F = “Coming down with Flu” P(H) = 1/10 P(F) = 1/40 P(H|F) = 1/2 “Headaches are rare and flu is rarer, but if you’re coming down with flu there’s a 50-50 chance you’ll have a headache.”
  • 21. Repaso del cálculo de probabilidades P(H|F) = Fraction of flu-inflicted worlds in which you have a Headache = #worlds with flu and headache #worlds with flu = Area of “H and F” region Area of “F” region = P(H ^ F) P(F) H = “Have a headache” F = “Coming down with Flu” P(H) = 1/10 P(F) = 1/40 P(H|F) = 1/2
  • 22. Repaso del cálculo de probabilidades  Probabilistic Inference  One day you wake up with a headache. You think: “Drat!  50% of flus are associated with headaches so I must have a  50-50 chance of coming down with flu”  Is this reasoning good? H = “Have a headache” F = “Coming down with Flu” P(H) = 1/10 P(F) = 1/40 P(H|F) = 1/2
  • 23. Aprendizaje Bayesiano  Aproximación probabilística a ML  Repaso del cálculo de probabilidades  Teorema de Bayes  NB  ¿IDT + NB?  The Joint Distribution
  • 24. Teorema de Bayes  Bayes Rule P (B|A) = P(A^B) = P(A|B) P(B) P(A) P(A) Bayes, Thomas (1763) Otras formas:
  • 25. Teorema de Bayes  Provee un método directo para calcular la probabilidad de las hipótesis:  P(h|D) = ( P(D|h) P(h) ) / P(D)  P(h): probabilidad inicial (previa, a priori) de h (antes de haber observado los datos de entrenamiento). Refleja todo el conocimiento general acerca de la probabilidad de que h sea una hipótesis correcta. En caso de que no se tenga conocimiento previo puede suponerse equiprobabilidad de todas las hipótesis  P(D): probabilidad previa de observar los datos de entrenamiento D (sin conocimiento de cuál es la hipótesis vigente)  P(D|h): probabilidad posterior (a posteriori) de observar los datos D cuando h es la hipótesis vigente  P(h|D): probabilidad posterior de la hipótesis h habiendo observado los datos de entrenamiento  D. Refleja nuestra confianza en h habiendo visto D  Las probabilidades posteriores (p(h|D); p(D|h)) son probabilidades condicionales  Se puede esperar que P(h|D) aumente con p(h) y con P(D|h) según el teorema de Bayes. También es razonable ver que P(h|D) disminuye cuando P(D) aumenta, porque cuanto más probable es que D sea observado independientemente de h, menos evidencia D provee en apoyo de h.
  • 26. Teorema de Bayes  Hipótesis más probable  En muchas situaciones de aprendizaje, consideramos algún conjunto H de hipótesis candidatas y estamos interesados en encontrar la hipótesis más probable h (o alguna de las máximamente probables) en H a la luz de un conjunto de datos observados D. Esta hipótesis se denomina de máxima probabilidad a posteriori o hipótesis MAP. Podemos determinarla usando el teorema de Bayes para calcular la probabilidad de cada hipótesis candidata. Como P(D) es constante para toda h, podemos omitirla del cálculo cuando queremos identificar la hipótesis MAP (aunque no cuando queremos determinar exactamente su probabilidad).  Hipótesis ML:  Cuando todas las hipótesis h de H son igualmente probables a priori. P(D|h) se denomina la verosimilitud de los datos D dado h, y cualquier hipótesis que maximiza p(D|h) se denomina hipótesis de máxima verosimilitud. En estadística, el método de máxima verosimilitud produce valores para los parámetros desconocidos que maximizan la probabilidad de obtener el conjunto observado de datos. Para aplicar este método debemos primero construir una función , llamada la función de verosimilitud. Esta función expresa la probabilidad de los datos observados como función de los parámetros desconocidos. Los estimadores de máxima verosimilitud de estos parámetros se eligen como aquellos valores que maximizan esta función. Así, los estimadores resultantes son aquellos que concuerdan más estrechamente con los datos observados.  Teorema de la probabilidad total:  Si los sucesos A1,...,An son mutuamente excluyentes con ∑i P(Ai) = 1,  entonces P(B) = ∑i P(B|Ai) P(Ai)
  • 27. Teorema de Bayes – ejemplo  Does patient have cancer or not?  A patient takes a lab test and the result comes back positive. It is known that the test returns a correct positive result in only 98% of the cases and a correct negative result in only 97% of the cases. Furthermore, only 0.008 of the entire population has this disease. 1. What is the probability that this patient has cancer? 2. What is the probability that he does not have cancer? 3. What is the diagnosis?
  • 28. Teorema de Bayes – ejemplo  P(cancer) = 0.008, P(-cancer)=0.992  P(+|cancer) = 0.98, P(-|cancer)=0.02  P(+|-cancer)=0.03, P(-|-cancer)=0.97  Si el test da positivo, que deberíamos diagnosticar?  P(+|cancer)*P(cancer) = 0.98*0.008 = 0.0078  P(+|-cancer)*P(-cancer) = 0.03*0.992 = 0.0298  El diagnóstico más probable es que el paciente esté sano. Que se puede afirmar con una probabilidad del:  79% = (0.0298/ (0.0298+0.0078))
  • 29. Teorema de Bayes – ejemplo  Choosing Hypotheses  Maximum Likelihood hypothesis:  Generally we want the most probable hypothesis given training data. This is the maximum a posteriori hypothesis:  Useful observation: it does not depend on the denominator P(d) )|(maxarg dhPh Hh MAP   )|(maxarg hdPh Hh ML  
  • 30. Teorema de Bayes – ejemplo  Now we compute the diagnosis  To find the Maximum Likelihood hypothesis, we evaluate P(d|h) for the data d, which is the positive lab test and chose the hypothesis (diagnosis) that maximises it:  To find the Maximum A Posteriori hypothesis, we evaluate P(d|h)P(h) for the data d, which is the positive lab test and chose the hypothesis (diagnosis) that maximises it. This is the same as choosing the hypotheses gives the higher posterior probability. .................: .............)|( ............)|(    MLhDiagnosis cancerP cancerP ......................: .............)()|( ................)()|(    MAPhDiagnosis cancerPcancerP cancerPcancerP
  • 31. Aprendizaje Bayesiano  Aproximación probabilística a ML  Repaso del cálculo de probabilidades  Teorema de Bayes  NB  ¿IDT + NB?  The Joint Distribution
  • 32. Naive Bayes  What can we do if our data d has several attributes?  Naive Bayes assumption: Attributes that describe data instances are conditionally independent given the classification hypothesis  it is a simplifying assumption, obviously it may be violated in reality  in spite of that, it works well in practice  The naive model generalizes strongly: Assume that each attribute is distributed independently of any of the other attributes.  t tT haPhaaPhP )|()|,...,()|( 1d
  • 33. Naive Bayes  Independently Distributed Data  Let x[i]denote the i ’th field of record x.  The independently distributed assumption says that for any i,v, u1 u2… ui-1 ui+1…uM  Or in other words, x[i]is independent of {x[1],x[2],..x[i-1], x[i+1],…x[M]}  This is often written as:
  • 34. Naive Bayes  Some eqs, assume P(A|B) = P(A)  then P(A^B) = P(A) P(B)  and P(~A|B) = P(~A)  and P(B|A) = P(B)  and P(A|~B) = P(A)  Multivalued Independence:
  • 35. Naive Bayes  Se aplica a tareas de aprendizaje que usan un lenguaje conjuntivo de representación de instancias y la función objetivo puede tomar cualquier valor v de un conjunto finito V.  Los términos P(vj) son fáciles de estimar, pero no los términos P(a1,a2,...,an|vj) a menos que se tenga un conjunto de datos de entrenamiento muy grande. El problema es que el número de estos términos es igual al número de instancias posibles por el número de valores objetivo posibles. Necesitamos ver cada instancia en el espacio de instancias muchas veces para obtener estimaciones confiables.  El clasificador naive Bayes se basa en el supuesto simplificador de que los valores de los atributos son condicionalmente independientes dado el valor objetivo. Esto es, dado el valor objetivo de la instancia, la probabilidad de observar la conjunción a1, a2,...,an es solo el producto de las probabilidades de los atributos individuales: P(a1,a2,...,an|vj) = ∏i P(ai|vj).  El número de términos P(ai|vj) que deben estimarse a partir de los datos de entrenamiento es solo el número de valores de atributos distintos por el número de valores objetivo distintos.  El método de naive Bayes involucra un paso de aprendizaje en el cual se estiman los diversos P(vj) y P(ai|vj), en base a su frecuencia sobre los datos de entrenamiento. El conjunto de estas estimaciones corresponden a la hipótesis aprendida. Esta hipótesis es usada luego para clasificar las nuevas instancias. Cuando el supuesto bayesiano ingenuo de independencia condicional se satisface, la clasificación bayesiana ingenua es idéntica a la clasificación MAP.
  • 36. Naive Bayes  Etapa de entrenamiento:  Compilar una tabla (unidimensional) de estimaciones de la probabilidad de la clase P(vj)  Compilar una tabla (bidimensional) indizada por la clase y pares atributo-valor de las estimaciones condicionales P(ai|vj)  Etapa de clasificación:  Para cada instancia no clasificada calcular argmaxvj P(vj) Πi P(ai|vj)
  • 37. Naive Bayes  Características:  Es un clasificador “global” y no puede hacer predicciones locales como K-NN o los árboles de decisión.  Usualmente tiene baja varianza ya que perturbaciones de los conjuntos de entrenamiento raramente causarán grandes cambios en sus predicciones, que se basan en probabilidades.
  • 38. Naive Bayes  Suavizamiento:  La estimación “directa” de P(ai|vj) es Frecuencia(ai,vj) / frecuencia(vj) en la muestra de entrenamiento D  Problema: cuando en D no ocurre alguna combinación (ai,vj), ya sea debido a las idiosincrasias de D y/o porque esa combinación es muy poco frecuente (aunque no imposible) y |D| es pequeño, la estimación sería P(ai|vj) = 0, lo que anula toda la productoria ∏K  Solución: suavizar las estimaciones para que sean menos extremas:  Enfoque “no match”: reemplazar las frecuencias 0 por un factor sobre el número de instancias (m) del conjunto de entrenamiento.  Enfoque de Laplace: estimar todas las probabilidades P(ai/vj) mediante (frec(ai,vj) + f) / (m + k.f), donde f es un factor y k el número de clases.  Estimación-m: estimar todas las probabilidades P(ai|vj) mediante (frec(ai,vj) + m.p) / (frec(vj) + m), donde p: estimación previa de la probabilidad que deseamos determinar y m: constante llamada tamaño de muestra equivalente que determina cuánto ponderar p en relación con los datos observados
  • 39. Naive Bayes - Ejemplo  Example “PlayTennis”
  • 40. Naive Bayes - Ejemplo  Classifing  Classify any new datum instance x=(a1,…aT) as:  In the case of the naive Bayes Classifier this can be simplified:  Technical Hint: If you have 10,000 input attributes that product will underflow in floating point math. You should use logs:
  • 41. Naive Bayes - Ejemplo x = <Outlook=Sunny, Temp=Cool, Hum=High, Wind=Strong> hNB = argmax P(h) P(x|h) = argmax P(h)  P(ai | h) = argmax P(h) P(Outlook=Sunny | h) P(Temp=Cool | h) P (Hum=High | h) P(Wind=Strong | h) Aproximando las probabilidades por la frecuencia: P (PlayTennis = yes) = 9/14 = 0.64 P (PlayTennis = no) = 5/14 = 0.36 P (Wind = Strong | PlayTennis = yes) = 3/9 = 0.33 P (Wind = Strong | PlayTennis = no) = 3/5 = 0.60 Aplicandolo a las fórmulas: P(yes) P(Sunny|yes) P(Cool|yes) P(High|yes) P(String|yes) = 0.0053 P(no) P(Sunny|no) P(Cool|no) P(High|no) P(String|no) = 0.0206  Answer: PlayTennis = no  Con 79.5% de certeza
  • 42. Aprendizaje Bayesiano  Aproximación probabilística a ML  Repaso del cálculo de probabilidades  Teorema de Bayes  NB  ¿IDT + NB?  The Joint Distribution
  • 43. ¿IDT + NB?  Árbol bayesiano ingenuo (NBTree)  Es un enfoque híbrido que combina un clasificador bayesiano ingenuo con un árbol de decisión. NBTree usa una estructura de árbol para dividir el espacio de instancias en subespacios y genera un clasificador bayesiano ingenuo en cada subespacio.  Los nodos de decisión contienen tests univariados típicos.  Cada hoja contiene un clasificador bayesiano ingenuo local que no incluye las variables involucradas en los tests sobre el camino que lleva a la hoja.
  • 44. ¿IDT + NB?  Árbol bayesiano ingenuo (NBTree)  La debilidad principal de NB es el supuesto de independencia condicional de los atributos. Cuando existen atributos interdependientes la performance de este método puede deteriorarse mucho. La mayoría de las modificaciones de NB surgen para aliviar este problema tratando de tomar en cuenta la interdependencia en un modelo global o generando modelos NB más locales que estén más o menos libres de esa interdependencia. Este último es el caso de los NBTree.  Una selección apropiada de tests puede permitir a los árboles eliminar interdependencias dañinas (para NB) entre atributos. Los atributos en las ramas no son utilizados por los NB en las hojas, disminuyendo así la probabilidad de construir modelos con atributos interdependientes.
  • 45. Aprendizaje Bayesiano  Aproximación probabilística a ML  Repaso del cálculo de probabilidades  Teorema de Bayes  NB  ¿IDT + NB?  The Joint Distribution
  • 46. The Joint Distribution  Recipe for making a joint distribution of M variables: 1. Make a truth table listing all combinations of values of your variables (if there are M Boolean variables then the table will have 2M rows). 2. For each combination of values, say how probable it is. 3. If you subscribe to the axioms of probability, those numbers must sum to 1.
  • 47. The Joint Distribution  Using the Joint  One you have the JD you can ask for the probability of any logical expression involving your attribute  P(Poor Male) = 0.4654  P(Poor) = 0.7604  P(Male | Poor) = 0.4654 0.7604 = 0.612
  • 48. The Joint Distribution  Log Probabilities  Since probabilities of datasets get so small we usually use log probabilities  Bad news  ….Density estimators can overfit. And the full joint density estimator is the overfittiest of them all!  We need Density Estimators that are less prone to overfitting
  • 50. Aprendizaje Bayesiano - Resumen  Density estimation can be performed with real-valued inputs  Bayes Classifiers can be built with real-valued inputs  Rather Technical Complaint: Bayes Classifiers don’t try to be maximally discriminative---they merely try to honestly model what’s going on  Zero probabilities are painful for Joint and Naïve.  Naïve Bayes is wonderfully cheap. And survives 10,000 attributes cheerfully!
  • 52. Bibliografía  Álvarez, José: Notas de cátedra. Universidad Austral.  Mitchell Cap 6

Notas del editor

  1. What is machine learning?
  2. What is machine learning?
  3. What is machine learning?
  4. What is machine learning?
  5. What is machine learning?
  6. What is machine learning?
  7. What is machine learning?
  8. What is machine learning?
  9. What is machine learning?
  10. What is machine learning?
  11. What is machine learning?
  12. What is machine learning?
  13. What is machine learning?
  14. What is machine learning?
  15. What is machine learning?
  16. What is machine learning?
  17. What is machine learning?
  18. What is machine learning?
  19. What is machine learning?
  20. What is machine learning?
  21. What is machine learning?
  22. What is machine learning?
  23. What is machine learning?
  24. What is machine learning?
  25. What is machine learning?
  26. What is machine learning?
  27. What is machine learning?
  28. What is machine learning?
  29. What is machine learning?
  30. What is machine learning?
  31. What is machine learning?
  32. What is machine learning?
  33. What is machine learning?
  34. What is machine learning?
  35. What is machine learning?
  36. What is machine learning?
  37. What is machine learning?
  38. What is machine learning?
  39. What is machine learning?
  40. What is machine learning?
  41. What is machine learning?
  42. What is machine learning?
  43. What is machine learning?
  44. What is machine learning?
  45. What is machine learning?
  46. What is machine learning?
  47. What is machine learning?
  48. What is machine learning?
  49. What is machine learning?
  50. 51
  51. 52