Teoría de decisión
   Bayesiana.


         ●  Introducción.
          ● Clasificación.

       ● Perdidas y riesgos.

 ●   Funciones discriminantes.
     ● Reglas de asociación.

     ● Aplicación propuesta.
Introducción.
 ●   El aprendizaje bayesiano es un método de inferencia
     utilizado en el aprendizaje automatizado.
 ●   Se puede ver como el proceso de encontrar la hipótesis
     más probable, dado un conjunto de ejemplos de
     entrenamiento y un conocimiento a priori sobre la
     probabilidad de cada hipótesis.
Clasificación.
 ●   Teorema de Bayes.

                                P(xC) P (C)
                    P(C x)=        P (x )

     Donde:
 ●   P ( xC )   Probabilidad condicional de que x pertenezca a C
     P (C )
 ●               Probabilidad a priori.
 ●    P (x)      Evidencia.
Ejemplo teorema de bayes.

  El 60% de los tornillos producidos por una fábrica
  proceden de la máquina A y el 40% de la máquina B. La
  proporción de defectuosos en A es 0.1 y en B es 0.5.
  ¿Cuál es la probabilidad de que un tornillo de dicha
  fábrica sea defectuoso? ¿Cuál es la probabilidad de que,
  sabiendo que un tornillo es defectuoso, proceda de la
  máquina A?
Clasificación.
 ●   Con lo anterior podemos ver que podemos escribir la
     probabilidad posterior P (C  x) como:
                              apriori∗verosimilitud
               Posterior=
                                    evidencia

 ●   En el caso general nosotros tenemos K sucesos
     mutuamente excluyentes lo podemos ver como:
                       C i tal que i=1,2,3. .., K.

 ●   Y satisface:
                                 k
                    P (C i )>0 y ∑ P (C i )=1
                                i=1
Clasificación.
 ●   La probabilidad posterior de varios sucesos C i los
     podemos ver como:
                              P ( xC i ) P(C i )
                   P(C i x)=
                                    P ( x)

 ●    Volvemos a escribir aplicando el teorema de
     probabilidad total

                               P (xC i ) P (C i )
                P (C i  x)=    K

                            ∑ P ( xC k ) P (C k )
                               k=1
Clasificación.
 ●   Elegimos C i si cumple con que:

                P (C i  x)=max k P ( xC k )
Perdidas y riesgos.
 ●   Riesgo esperado por tomar la acción αi
                           K
              R (α i  x)=∑ λ ik P (C k  x)
                          k=1


     Donde:
 ●   αi La decisión de asignar una entrada al suceso C i

 ●   λik Es la perdida por tomar la acción α i
Perdidas y riesgos.
●   Definiremos una acción adicional α k+1 llamada rechazo
    Las posibles funciones de perdida son:



                   {                                }
                     0 si cumple con i=k
              λ ik = λ si cumple con i=k +1
                     1 en cualquier otro caso


●                               K
                   R (α k+1 x)=∑ λ P (C k  x)=λ
                               k =1
Perdidas y riesgos.
 ●   Elegimos C i si:

      R (αi  x)< R (α k  x) para todo k≠i y R (αi x)< R (αk +1 x)

 ●   Rechazamos si:

       R (αi  x)> R (α k +1 x) para toda i=1,2,3. .. , K
Funciones discriminantes.
 ●   Una forma de realizar clasificación es a través de
     funciones discriminantes.

                Elegir C i si gi ( x)=max k g k ( x)

 ●   Existen diferentes maneras de definir funciones
     discriminantes, algunas de ellas son:

                        g i ( x)=−R (αi  x)
                        g i ( x)=P(C i x)
                        g i ( x)=P(C i x) P(C i )
Funciones discriminantes.
 ●   Para dos clases definimos una función discriminantes
     sencilla.
                     g( x)=g1 ( x)−g2 (x )


     Y la regla de clasificación:



                         {
                  Elegir C 1 si g( x)>0
                         C 2 en otro caso    }
Funciones discriminantes.
 ●   Dividimos el espacio en K regiones de decisión ℜ1 ,.... , ℜk
     donde:
                  ℜi ={xg i ( x)=max k g k ( x)}

 ●   Las regiones de decisión están separadas por fronteras
     de decisión.
Reglas de asociación.
 ●   En minería de datos y aprendizaje automático, las reglas
     de asociación se utilizan para descubrir hechos que
     ocurren en común dentro de un determinado conjunto de
     datos.
 ●   Hay medidas que son frecuentemente calculadas:
 ●   Soporte:
                              Clientes que comprarón X e Y
         Soporte ( X , Y )=
                                       transacciones

 ●   Confianza:
                           Clientes que comprarón X e Y
        Confianza( X →Y )=
                             Clientes que compraron X
Reglas de asociación.
●   El interés debe centrarse en el descubrimiento de reglas
    que tienen mucho soporte; por lo tanto,
    independientemente de donde surjan, se buscan pares
    atributo-valor que cubran gran cantidad de instancias.
●   Ellos se conocen como ítemsets, y cada par atributo-
    valor como ítem.
●   Si un ítemset satisface el min_sop, entonces se le llama
    ítemset frecuente.
●   El algoritmo a priori.
    Busca ítemsets frecuentes usando generación de
    candidatos.
Reglas de Asociación.
 ●   1. Se calcula el soporte de cada ítem individual, y se
     determinan los 1-itemsets frecuentes.
 ●   2. En cada paso subsecuente, los itemsets frecuentes
     generados en los pasos anteriores se utilizan para
     generar los nuevos itemsets (itemsets candidatos).
 ●   3. Se calcula el soporte de cada itemset candidato y se
     determinan los itemsets frecuentes.
 ●   4. El proceso continúa hasta que no pueden ser
     encontrados nuevos itemsets frecuentes.
Reglas de asociación.
Aplicación propuesta.
 ●   Tomamos como experimento la interpretación de los
     sensores del robot, y como espacio muestral a las
     posibles habilidades del agente.
 ●   Tenemos alternativas de decisión sean: B 1, B2, B 3,. ... B n
     las cuales traspasadas al proyecto serian las habilidades
     del agente.
 ●   Para inicializar nuestra base de datos damos una
     probabilidad de éxito por default sea:

             P( B1 ) U P ( B2 ) U P ( B3 ).... U P( B n )=S
     (llamadas probabilidades apriori).
 ●   Se pueden obtener las probabilidades condicionales
     P(aBi ) y la evidencia P(a).
Aplicación propuesta.
 ●   Se realizan los eventos y se miden dichas
     probabilidades.


 ●   Aplicando el teorema de Bayes obtendremos la
     probabilidad condicional P( Bi a) para las habilidades ya
     depuradas por el algoritmo a priori (regla de asociación).
 ●   Se selecciona el máximo a posteriori, y se actualiza su
     probabilidad de éxito ante suceso a en la base de
     datos.
Aplicación propuesta.
 ●   Se actualizan las de mas probabilidades B 1, B2, B 3,. ... B n


 ●   El análisis anterior nos da los elementos necesarios
     para crear una relación
     habilidadesenemigas/habilidades de la base de datos
                                      if a do B
     por analizar y se formaliza en la obtención de reglas de
     tipo:                 las cuales se convierten en un
     importante punto de apoyo para tomar una decisión.

Aprendizajebayesiano

  • 1.
    Teoría de decisión Bayesiana. ● Introducción. ● Clasificación. ● Perdidas y riesgos. ● Funciones discriminantes. ● Reglas de asociación. ● Aplicación propuesta.
  • 2.
    Introducción. ● El aprendizaje bayesiano es un método de inferencia utilizado en el aprendizaje automatizado. ● Se puede ver como el proceso de encontrar la hipótesis más probable, dado un conjunto de ejemplos de entrenamiento y un conocimiento a priori sobre la probabilidad de cada hipótesis.
  • 3.
    Clasificación. ● Teorema de Bayes. P(xC) P (C) P(C x)= P (x ) Donde: ● P ( xC ) Probabilidad condicional de que x pertenezca a C P (C ) ● Probabilidad a priori. ● P (x) Evidencia.
  • 4.
    Ejemplo teorema debayes. El 60% de los tornillos producidos por una fábrica proceden de la máquina A y el 40% de la máquina B. La proporción de defectuosos en A es 0.1 y en B es 0.5. ¿Cuál es la probabilidad de que un tornillo de dicha fábrica sea defectuoso? ¿Cuál es la probabilidad de que, sabiendo que un tornillo es defectuoso, proceda de la máquina A?
  • 5.
    Clasificación. ● Con lo anterior podemos ver que podemos escribir la probabilidad posterior P (C  x) como: apriori∗verosimilitud Posterior= evidencia ● En el caso general nosotros tenemos K sucesos mutuamente excluyentes lo podemos ver como: C i tal que i=1,2,3. .., K. ● Y satisface: k P (C i )>0 y ∑ P (C i )=1 i=1
  • 6.
    Clasificación. ● La probabilidad posterior de varios sucesos C i los podemos ver como: P ( xC i ) P(C i ) P(C i x)= P ( x) ● Volvemos a escribir aplicando el teorema de probabilidad total P (xC i ) P (C i ) P (C i  x)= K ∑ P ( xC k ) P (C k ) k=1
  • 7.
    Clasificación. ● Elegimos C i si cumple con que: P (C i  x)=max k P ( xC k )
  • 8.
    Perdidas y riesgos. ● Riesgo esperado por tomar la acción αi K R (α i  x)=∑ λ ik P (C k  x) k=1 Donde: ● αi La decisión de asignar una entrada al suceso C i ● λik Es la perdida por tomar la acción α i
  • 9.
    Perdidas y riesgos. ● Definiremos una acción adicional α k+1 llamada rechazo Las posibles funciones de perdida son: { } 0 si cumple con i=k λ ik = λ si cumple con i=k +1 1 en cualquier otro caso ● K R (α k+1 x)=∑ λ P (C k  x)=λ k =1
  • 10.
    Perdidas y riesgos. ● Elegimos C i si: R (αi  x)< R (α k  x) para todo k≠i y R (αi x)< R (αk +1 x) ● Rechazamos si: R (αi  x)> R (α k +1 x) para toda i=1,2,3. .. , K
  • 11.
    Funciones discriminantes. ● Una forma de realizar clasificación es a través de funciones discriminantes. Elegir C i si gi ( x)=max k g k ( x) ● Existen diferentes maneras de definir funciones discriminantes, algunas de ellas son: g i ( x)=−R (αi  x) g i ( x)=P(C i x) g i ( x)=P(C i x) P(C i )
  • 12.
    Funciones discriminantes. ● Para dos clases definimos una función discriminantes sencilla. g( x)=g1 ( x)−g2 (x ) Y la regla de clasificación: { Elegir C 1 si g( x)>0 C 2 en otro caso }
  • 13.
    Funciones discriminantes. ● Dividimos el espacio en K regiones de decisión ℜ1 ,.... , ℜk donde: ℜi ={xg i ( x)=max k g k ( x)} ● Las regiones de decisión están separadas por fronteras de decisión.
  • 14.
    Reglas de asociación. ● En minería de datos y aprendizaje automático, las reglas de asociación se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos. ● Hay medidas que son frecuentemente calculadas: ● Soporte: Clientes que comprarón X e Y Soporte ( X , Y )= transacciones ● Confianza: Clientes que comprarón X e Y Confianza( X →Y )= Clientes que compraron X
  • 15.
    Reglas de asociación. ● El interés debe centrarse en el descubrimiento de reglas que tienen mucho soporte; por lo tanto, independientemente de donde surjan, se buscan pares atributo-valor que cubran gran cantidad de instancias. ● Ellos se conocen como ítemsets, y cada par atributo- valor como ítem. ● Si un ítemset satisface el min_sop, entonces se le llama ítemset frecuente. ● El algoritmo a priori. Busca ítemsets frecuentes usando generación de candidatos.
  • 16.
    Reglas de Asociación. ● 1. Se calcula el soporte de cada ítem individual, y se determinan los 1-itemsets frecuentes. ● 2. En cada paso subsecuente, los itemsets frecuentes generados en los pasos anteriores se utilizan para generar los nuevos itemsets (itemsets candidatos). ● 3. Se calcula el soporte de cada itemset candidato y se determinan los itemsets frecuentes. ● 4. El proceso continúa hasta que no pueden ser encontrados nuevos itemsets frecuentes.
  • 17.
  • 18.
    Aplicación propuesta. ● Tomamos como experimento la interpretación de los sensores del robot, y como espacio muestral a las posibles habilidades del agente. ● Tenemos alternativas de decisión sean: B 1, B2, B 3,. ... B n las cuales traspasadas al proyecto serian las habilidades del agente. ● Para inicializar nuestra base de datos damos una probabilidad de éxito por default sea: P( B1 ) U P ( B2 ) U P ( B3 ).... U P( B n )=S (llamadas probabilidades apriori). ● Se pueden obtener las probabilidades condicionales P(aBi ) y la evidencia P(a).
  • 19.
    Aplicación propuesta. ● Se realizan los eventos y se miden dichas probabilidades. ● Aplicando el teorema de Bayes obtendremos la probabilidad condicional P( Bi a) para las habilidades ya depuradas por el algoritmo a priori (regla de asociación). ● Se selecciona el máximo a posteriori, y se actualiza su probabilidad de éxito ante suceso a en la base de datos.
  • 20.
    Aplicación propuesta. ● Se actualizan las de mas probabilidades B 1, B2, B 3,. ... B n ● El análisis anterior nos da los elementos necesarios para crear una relación habilidadesenemigas/habilidades de la base de datos if a do B por analizar y se formaliza en la obtención de reglas de tipo: las cuales se convierten en un importante punto de apoyo para tomar una decisión.