SlideShare una empresa de Scribd logo
1 de 12
Inteligencia Artificial
                    (IA)

Apuntes de Razonamiento Aproximado
                                                       This work is licensed under the Creative Commons
                     Javier B´jar
                             e                                                                                 C
                                                       Attribution-NonCommercial-ShareAlike License. BY:   $




                                                                                                           
                                                       To view a copy of this license, visit http://creativecommons.org/licenses/by-nc-sa/2.0/ or
   Departament de Llenguatges i Sistemes Inform`tics
                                               a
                                                       send a letter to:
              Enginyeria en Inform`tica
                                   a
            2o Cuatrimestre - curso 05/06              Creative Commons,
                                                       559 Nathan Abbott Way, Stanford,
                                C
                                                       California 94305,
                            $
                      BY:
                            


                                                       USA.
1.    Razonamiento en sistemas expertos                                                                  2.      Modelo probabilista
   Por lo general, el conocimiento que se debe manejar dentro de la mayor´ de los dominios tratados
                                                                         ıa                                  Los modelos probabilistas se fundamentan en la teor´ de la probabilidad. Las probabilidades se
                                                                                                                                                                  ıa
por los sistemas basados en el conocimiento (SBC) no es de naturaleza exacta. En la pr´ctica nos
                                                                                         a               utilizan para modelizar nuestra creencia sobre la veracidad o falsedad de los hechos, de manera que
encontramos con problemas como:                                                                          podamos asignar valores de probabilidad a los diferentes hechos con los que tratamos y utilizar esas
                                                                                                         probabilidades para razonar sobre su certidumbre.
     Representar el conocimiento para cubrir todos los hechos que son relevantes para un problema           Cada hecho tendr´ una probabilidad asociada de por si, o derivada de la probabilidad de aparici´n
                                                                                                                               a                                                                           o
     es dif´
           ıcil                                                                                          de otros hechos. Estas probabilidades ser´n las que nos permitir´n tomar decisiones. Esta toma de
                                                                                                                                                    a                     a
                                                                                                         decisiones no es est´tica, la probabilidad de un hecho podr´ ser modificada por la observaci´n y la
                                                                                                                             a                                      a                                 o
     Existen dominios en los que se desconocen todos los hechos y reglas necesarias para resolver el     modificaci´n de la creencia en otros hechos que est´n relacionados.
                                                                                                                   o                                        e
     problema

     Existen problemas en los que a´n teniendo las reglas para resolverlos no disponemos de toda
                                   u                                                                     2.1.     Teor´ de probabilidades
                                                                                                                      ıa
     la informaci´n necesaria
                 o
                                                                                                            Antes de comenzar a hablar de como modelizar el razonamiento mediante probabilidades, debemos
   Esto significa que para poder razonar dentro de estos sistemas tendremos que utilizar herra-           repasar algunos conceptos esenciales de la teor´ de probabilidades.
                                                                                                                                                        ıa
mientas m´s potentes que las que nos brinda la l´gica cl´sica, que s´lo nos permitir´ trabajar con
          a                                     o       a           o               ıa                       El elemento b´sico de teor´ de probabilidades es la variable aleatoria. Una variable aleatoria
                                                                                                                          a            ıa
conocimiento del que pudi´ramos establecer de manera efectiva su veracidad o falsedad.
                         e                                                                               tiene un dominio de valores (valores posibles que puede tomar y sobre los que establecemos una dis-
    De hecho, este objetivo no es descabellado ya que hemos observado que toda persona esta acos-        tribuci´n de probabilidad), podemos tener variables aleatorias booleanas, discretas o continuas.
                                                                                                                o
tumbrada a tomar decisiones ante informaci´n incompleta o imprecisa (Invertimos en bolsa, diagnos-
                                            o                                                                Para poder trasladar la teor´ de la probabilidad a un sistema basado en el conocimiento, debere-
                                                                                                                                         ıa
ticamos enfermedades, ...) y esa imprecisi´n o falta de conocimiento no impide la toma de decisiones.
                                          o                                                              mos crear una relaci´n entre la representaci´n del conocimiento que utilizamos y los elementos sobre
                                                                                                                             o                       o
Esta claro que si deseamos que los SBC emulen la capacidad de los expertos hemos de dotarlos de          los que establecemos las distribuciones de probabilidad.
mecanismos que sean capaces de abordar este problema.
                                                                                                             En la pr´ctica, toda representaci´n del conocimiento que utilizamos se fundamenta en la l´gica,
                                                                                                                     a                        o                                                        o
   La imprecisi´n o la falta de certeza en la informaci´n proviene de muchas fuentes, de entre ellas
               o                                       o                                                 de manera que la utilizaremos como lenguaje representaci´n y utilizaremos las f´rmulas l´gicas como
                                                                                                                                                                  o                     o        o
podemos citar:                                                                                           elemento b´sico. De esta forma, definiremos una proposici´n l´gica como cualquier f´rmula en
                                                                                                                    a                                                 oo                           o
                                                                                                         l´gica de enunciados o predicados, siendo ´stas elementos primitivos de nuestra representaci´n. Una
                                                                                                          o                                        e                                                 o
 1. Incompletitud de los datos debida a la no disponibilidad de ´stos.
                                                                e                                        proposici´n l´gica tendr´ asociada una variable aleatoria que indicar´ nuestro grado de creencia en
                                                                                                                  oo              a                                           a
                                                                                                         ella.
 2. Incertidumbre de los datos debida a las limitaciones de los aparatos de medida, o a apreciaciones
                                                                                                             Una variable aleatoria tendr´ asociada una distribuci´n de probabilidad. La forma de expre-
                                                                                                                                         a                              o
    subjetivas del observador.
                                                                                                         sar esta distribuci´n de probabilidad depender´ del tipo de variable aleatoria (Discretas: Binomial,
                                                                                                                            o                              a
                                                                                                         Multinomial, ...; Continuas: Normal, χ2 , ...). El elegir un tipo de variable aleatoria u otro depende de
 3. Incertidumbre en las asociaciones realizadas entre datos y conclusiones.
                                                                                                         como creamos que la informaci´n correspondiente a la proposici´n l´gica debe modelarse. Para sim-
                                                                                                                                        o                                    oo
 4. Imprecisi´n en el lenguaje de descripci´n debida al uso del lenguaje natural, ya que se presta
             o                             o                                                             plificar, s´lo trabajaremos con variables aleatorias discretas, de manera que toda proposici´n l´gica
                                                                                                                   o                                                                                      oo
    a ambig¨edades y malas interpretaciones.
           u                                                                                             tendr´ un conjunto enumerado de posibles respuestas.
                                                                                                               a
                                                                                                            En cualquier problema, tendremos varias proposiciones l´gicas que intervendr´n en una decisi´n,
                                                                                                                                                                      o                    a              o
    El tratar con este problema ha llevado a desarrollar un conjunto de l´gicas y modelos que intentan
                                                                         o
                                                                                                         por lo tanto, tendremos que describir como influyen todas estas variables aleatorias en conjunto
tratar el problema de la incompletitud e imprecisi´n del conocimiento desde diferentes perspectivas
                                                    o
                                                                                                         sobre la decisi´n. La uni´n de variables aleatorias se puede describir mediante una distribuci´n de
                                                                                                                        o         o                                                                    o
y modelizar de esta manera los procesos de razonamiento que aplican las personas. Muchas son las
                                                                                                         probabilidad conjunta.
propuestas que se han desarrollado a lo largo de la evoluci´n de los SBC, nos centraremos unicamente
                                                           o                               ´
                                                                                                             Denotaremos como P (a) la probabilidad de que la proposici´n A tenga el valor a. Por ejemplo, la
                                                                                                                                                                       o
en dos formalismos que provienen de dos visiones distintas de la incertidumbre:
                                                                                                         proposici´n F umar puede tener los valores {f umar, ¬f umar}, P (¬f umar) es la probabilidad de la
                                                                                                                  o
                                                                                                         proposici´n F umar = ¬f umar. Denotaremos como P (A) al vector de probabilidades de todos
                                                                                                                  o
     Modelo probabilista (Redes Bayesianas)
                                                                                                         los posibles valores de la proposici´n A
                                                                                                                                             o
     Modelo posibilista (L´gica difusa)
                          o                                                                                  Definiremos como probabilidad a priori (P (a)) asociada a una proposici´n como el grado de
                                                                                                                                                                                          o
                                                                                                         creencia en ella a falta de otra informaci´n. Del conjunto de proposiciones que tengamos, algunas no
                                                                                                                                                   o
                                                                                                         tienen por que estar influidas por otras, de estas dispondremos de una distribuci´n de probabilidad
                                                                                                                                                                                            o
                                                                                                         a priori que representar´ la probabilidad de que tomen cualquiera de sus valores.
                                                                                                                                   a
                                                                                                              Definiremos como probabilidad a posteriori o condicional (P (a|b)) como el grado de creencia

                                                  1                                                                                                         2
¬enf isema
                                                                                                                                                       enf isema
en una proposici´n tras la observaci´n de proposiciones asociadas a ella. Esta probabilidad estar´ aso-
                o                   o                                                            a
                                                                                                                                                    varon mujer       varon mujer
ciada a las proposiciones que se ven influidas por la observaci´n de otras proposiciones, por lo que
                                                                o
                                                                                                                                      f umador        0.2      0.1     0.05     0.05
nuestra creencia en ellas variar´ seg´n la observaci´n de ´stas.
                                a    u              o     e
                                                                                                                                      ¬f umador      0.02     0.02     0.23     0.33
   La probabilidad a posteriori se puede definir a partir de probabilidades a priori como:
                                                                                                              A partir de ella podemos hacer ciertas inferencias probabil´
                                                                                                                                                                         ısticas respecto a la combinaci´n de las
                                                                                                                                                                                                        o
                                                       P (a ∧ b)
                                           P (a|b) =                                                      diferentes proposiciones y su influencia entre ellas
                                                         P (b)
   Esta f´rmula se puede transformar en lo que denominaremos la regla del producto:
         o
                                                                                                                             P (enf isema ∧ varon) = 0,2 + 0,02
                                                                                                                             P (f umador ∨ mujer) = 0,2 + 0,1 + 0,05 + 0,05 + 0,02 + 0,33
                                 P (a ∧ b) = P (a|b)P (b) = P (b|a)P (a)
                                                                                                                           P (F umador|enf isema) = P (f umador, enf isema, varon)
                                                                                                                                                     +P (f umador, enf isema, mujer),
2.2.     Inferencia probabil´
                            ıstica
                                                                                                                                                     P (¬f umador, enf isema, varon)
   El usar como base de un mecanismo de inferencia la teor´ de la probabilidad, restringe las cosas
                                                            ıa                                                                                       +P (¬f umador, enf isema, mujer)
que podemos creer y deducir al marco de los axiomas en los que se fundamenta la probabilidad. Estos                                                = α 0,3, 0,04
axiomas son:
                                                                                                                                                   = 0,88, 0,12
       Toda probabilidad est´ en el intervalo [0, 1]
                            a                                                                                 Para poder realizar todos estos procesos de inferencia se requiere almacenar y recorrer la distribu-
                                                                                                          ci´n de probabilidad conjunta de todas las proposiciones. Esto supone un gasto en tiempo y espacio
                                                                                                            o
                                                0 ≤ P (a) ≤ 1
                                                                                                          impracticable. Suponiendo proposiciones binarias el coste en espacio y tiempo es O(2n ) siendo n el
                                                                                                          n´mero de proposiciones.
                                                                                                           u
       La proposici´n cierto tiene probabilidad 1 y la proposici´n f also tiene probabilidad 0
                   o                                            o
                                                                                                             Cualquier problema real tiene un n´mero de proposiciones suficiente para hacer que estos mecanis-
                                                                                                                                                 u
                                        P (cierto) = 1         P (f also) = 0                             mos de inferencia no sean utiles por su coste computacional. Se hace pues necesario crear mecanismos
                                                                                                                                    ´
                                                                                                          que nos simplifiquen el coste del razonamiento
       La probabilidad de la disyunci´n se obtiene mediante la f´rmula
                                     o                          o

                                     P (a ∨ b) = P (a) + P (b) − P (a ∧ b)                                2.3.    Independencia probabil´
                                                                                                                                        ıstica y la regla de Bayes
   Dadas estas reglas b´sicas, podemos establecer una serie de mecanismos de inferencia, como por
                       a                                                                                      Por lo general, no todas las proposiciones que aparecen en un problema est´n relacionadas entre si.
                                                                                                                                                                                          a
ejemplo:                                                                                                  De hecho para cada proposici´n dependiente podemos identificar s´lo un subconjunto de proposicio-
                                                                                                                                         o                                      o
                                                                                                          nes que las influyen, siendo el resto irrelevantes para la inferencia de sus probabilidades. Llamaremos
       Marginalizaci´n: Probabilidad de una proposici´n at´mica con independencia de los valores
                       o                             o     o                                              a esta propiedad independencia probabil´       ıstica
       del resto de proposiciones
                                                                                                              Suponiendo que dos proposiciones X e Y no se influyen entre si, podemos reescribir sus probabi-
                                         P (Y ) =   P (Y, z)
                                                                                                          lidades como:
                                                           z

       Probabilidades condicionadas: Probabilidad de una proposici´n dados unos valores pa-
                                                                        o
                                                                                                                             P (X|Y ) = P (X); P (Y |X) = P (Y ); P (X, Y ) = P (X)P (Y )
       ra algunas proposiciones e independiente del resto de proposiciones (a partir de la regla del
       producto)                                                                                             Dadas estas propiedades podremos reescribir las probabilidades conjuntas de manera m´s com-
                                                                                                                                                                                                 a
                                        P (X|e) = α     P (X, e, y)                                       pacta reduciendo la complejidad
                                                           y
                                                                                                             Anteriormente hemos enunciado la regla del producto como:
       El valor α es un factor de normalizaci´n que corresponde a factores comunes que hacen que las
                                             o
       probabilidades sumen 1.
                                                                                                                                        P (X, Y ) = P (X|Y )P (Y ) = P (Y |X)P (X)
Ejemplo 1 Consideremos un problema en el que intervengan las proposiciones F umador = {f umador,             Esta regla nos lleva a lo que denominaremos la regla de Bayes
¬f umador}, Sexo = {varon, mujer}, Enf isema = {enf isema, ¬enf isema}
                                                                                                                                                             P (X|Y )P (Y )
                                                                                                                                                P (Y |X) =
   La siguiente tabla nos describe las distribuciones de probabilidad conjunta de estas proposiciones                                                            P (X)

                                                       3                                                                                                     4
Deporte        P(D)                                       Alimentacion    P(A)
   Esta regla y la propiedad de independencia ser´n el fundamento del razonamiento probabil´
                                                  a                                        ıstico                            Deporte                                                   Alimentacion           equilibrada   0.4
                                                                                                                                                    Si           0.1
y nos permitir´ relacionar las probabilidades de unas evidencias con otras.
              a
                                                                                                                                                                                                            no equlibrada   0.6
                                                                                                                                                    No           0.9
   Suponiendo que podemos estimar exhaustivamente todas las probabilidades que involucran la
variable Y podemos prescindir de las probabilidades a priori de la variable X y reescribir la formula
de Bayes como:
                                                                                                                     Alim         Dep             P(P=alta)     P(P=normal)
                                                                                                                                                                                                                                   Fumador   P(F)
                                                                                                                     eq           si                0.01          0.99
                                     P (Y |X) = αP (X|Y )P (Y )                                                                                                                                                                      Si
                                                                                                                     no eq                                                           Presion Sanguinea
                                                                                                                                  si                0.2           0.8                                                                        0.4
                                                                                                                                                                                                                         Fumador
                                                                                                                                                                                                                                     No      0.6
                                                                                                                     eq           no                0.25          0.75
    Esto es as´ porque las probabilidades P (Y = y1 |X) . . . P (Y = yn |X) han de sumar uno, α ser´ un
              ı                                                                                    a                 no eq        no                0.7           0.3
factor de normalizaci´n.
                      o
   Suponiendo independencia condicional entre dos variables X e Y podremos escribir la probabili-                                       Pr Sang      Fum           P(I=si)          P(I=no)
dad condicional de otra variable Z respecto a estas como:                                                                              alta          si                 0.8           0.2
                                                                                                                                       normal        si                 0.6           0.4                      Infarto
                                                                                                                                       alta          no                 0.7           0.3
                                    P (X, Y |Z) = P (X|Z)P (Y |Z)                                                                      normal        no                 0.3           0.7

   De manera que si substituimos en la regla de Bayes:
                                                                                                             En cada uno de los nodos de la red aparece la distribuci´n de probabilidad del nodo respecto
                                                                                                                                                                          o
                                                                                                          a sus padres, es decir, como estos influyen la probabilidad del hijo. Esta forma de representar las
                                P (Z|X, Y ) = αP (X|Z)P (Y |Z)P (Z)                                       influencias entre variables permite factorizar la distribuci´n de probabilidad conjunta, convirti´ndose
                                                                                                                                                                     o                                    e
                                                                                                          en el producto de probabilidades condicionales independientes
2.4.    Redes Bayesianas                                                                                                                                                                          n
                                                                                                                                                                                                      P (xi |padres(xi ))
                                                                                                                                                          P (x1 , x2 , . . . , xn ) =
    Si determinamos la independencia entre variables podemos simplificar el c´lculo de la combinaci´n
                                                                            a                     o                                                                                           i=1
de sus probabilidades y su representaci´n, de manera que podremos razonar sobre la influencia de
                                       o
                                                                                                          Ejemplo 3 A partir de la red podemos calcular la probabilidad de una proposici´n l´gica utilizando
                                                                                                                                                                                        oo
las probabilidades de unas proposiciones l´gicas sobre otras de una manera m´s eficiente
                                          o                                   a
                                                                                                          las relaciones de dependencia entre las variables
    Las redes bayesianas son un formalismo que permite la representaci´n de las relaciones de
                                                                           o
independencia entre un conjunto de variables aleatorias. Una red bayesiana es un grafo dirigido
                                                                                                                                   P (Inf arto = si ∧ P resion = alta ∧ F umador = si
ac´ıclico que contiene informaci´n probabil´
                                o          ıstica en sus nodos, indicando cual es la influencia que
                                                                                                                                   ∧ Deporte = si ∧ Alimentacion = equil)
tienen sobre un nodo Xi sus padres en el grafo (P (Xi |padres(Xi ))).
                                                                                                                                   =
    El significado intuitivo de un enlace entre dos nodos X e Y es que la variable X tiene influencia                                P (Inf arto = si|P resion = alta, F umador = si)
directa sobre Y . El conjunto de probabilidades representadas en la red describe la distribuci´n de
                                                                                              o                                    P (P resion = alta|Deporte = si, Alimentacion = equil)
probabilidad conjunta de todas las variables, por lo tanto no es necesaria una tabla completa que                                  P (F umador = si)P (Deporte = si)P (Alimentacion = equil)
describa la influencia entre todas ellas.                                                                                           = 0,8 × 0,01 × 0,4 × 0,1 × 0,4
                                                                                                                                   = 0,000128
Ejemplo 2 La siguiente red bayesiana muestra las relaciones de dependencia entre un conjunto de
proposiciones l´gicas y la distribuci´n de probabilidad que sigue cada una de esas influencias
               o                     o                                                                       Las propiedades de las redes bayesianas nos dan ciertas ideas sobre como debemos construirlas a
                                                                                                          partir de un conjunto de proposiciones. Si consideramos que (regla del producto):

                                                                                                                                         P (x1 , x2 , . . . , xn ) = P (xn |xn−1 , . . . , x1 )P (xn−1 , . . . , x1 )

                                                                                                             Iterando el proceso tenemos que:


                                                                                                                                       P (x1 , . . . , xn ) = P (xn |xn−1 , . . . , x1 )P (xn−1 |xn−2 , . . . , x1 )
                                                                                                                                                              · · · P (x2 |x1 )P (x1 )
                                                                                                                                                                              n
                                                                                                                                                                                  P (xi |xi−1 , . . . , x1 )
                                                                                                                                                                  =
                                                                                                                                                                          i=1


                                                  5                                                                                                                                           6
Esta es la llamada regla de la cadena                                                                        La red bayesiana nos permite factorizar la distribuci´n de probabilidad conjunta y obtener una
                                                                                                                                                                     o
                                                                                                             expresi´n mas f´cil de evaluar.
                                                                                                                    o       a
   Dadas estas propiedades, podemos afirmar que si padres(Xi ) ⊆ {Xi−1 , . . . , X1 }, entonces:
                                                                                                             Ejemplo 4 Usando la red bayesiana ejemplo podemos calcular la probabilidad de ser
                               P (Xi |Xi−1 , . . . , X1 ) = P (Xi |padres(Xi ))
                                                                                                                fumador si se ha tenido un infarto y no se hace deporte
   Esto quiere decir que una red bayesiana es una representaci´n correcta de un dominio s´lo si cada
                                                              o                          o                                                  P (F umador|Inf arto = si, Deporte = no)
nodo es condicionalmente independiente de sus predecesores en orden, dados sus padres.
                                                                                                                La distribuci´n de probabilidad conjunta de la red ser´
                                                                                                                             o                                        ıa:
    Para lograr esto, se han de escoger como padres de una variable Xi aquellas de entre las variables
X1 , . . . Xi−1 que influyan directamente en Xi .                                                                                    P (D, A, S, F, I) = P (I|S, F )P (F )P (S|D, A)P (D)P (A)
   Es decir, para describir la influencia que recibe una proposici´n del resto de proposiciones de las
                                                                   o
                                                                                                                Debemos calcular P (F |I = si, D = no), por lo tanto tenemos
que disponemos, s´lo es necesario utilizar las que influyen m´s directamente. La influencia del resto
                  o                                           a
de proposiciones (si es que existe) estar´ descrita por las relaciones que puedan tener estas con los
                                         a                                                                                     P (F |I = s, D = n) = αP (F, I = s, D = n)
padres inmediatos de la proposici´n.
                                  o
                                                                                                                               =α                 P (D = n, A, S, F, I = s)
    El utilizar una red bayesiana como representaci´n de la distribuci´n de probabilidad conjunta de
                                                    o                 o                                                             A∈{e,¬e} S∈{a,n}
un grupo de proposiciones supone una gran reduccion en coste espacial. Como comentamos, el coste                               = αP (D = n)P (F )                  P (A)                P (S|D = n, A)P (I = s|S, F )
de representar la distribuci´n de probabilidad conjunta de n variables binarias es O(2n ). La represen-
                            o                                                                                                                           A∈{e,¬e}              S∈{a,n}
taci´n de redes bayesianas nos permite una representaci´n mas compacta gracias a la factorizaci´n de
    o                                                   o                                         o
                                                                                                                 Si enumeramos todas las posibilidades y las sumamos de acuerdo con la distribuci´n de probabi-
                                                                                                                                                                                                 o
la distribuci´n conjunta. Suponiendo que cada nodo de la red tenga como m´ximo k padres (k
             o                                                               a                      n),
un nodo necesitar´ 2k para representar la influencia de sus padres, por lo tanto el espacio necesario         lidad conjunta tenemos que:
                   a
ser´ O(n2k ). Por ejemplo, con 10 variables y suponiendo 3 padres como m´ximo tenemos 80 frente
   a                                                                         a
a 1024, con 100 variables y suponiendo 5 padres tenemos 3200 frente a aproximadamente 1030
                                                                                                                             P (F umador|Inf arto = si, Deporte = no)
                                                                                                                             = α 0,9 · 0,4 · (0,4 · (0,25 · 0,8 + 0,75 · 0, 6) + 0,6 · (0,7 · 0,8 + 0,3 · 0,6)),
2.5.     Inferencia probabil´
                            ıstica mediante redes bayesianas                                                                       0,9 · 0,6 · (0,4 · (0,25 · 0,7 + 0, 75 · 0,3) + 0,6 · (0,7 · 0,7 + 0,3 · 0,3)
                                                                                                                             = α 0,253, 0, 274
   El objetivo de la inferencia probabil´
                                        ıstica es calcular la distribuci´n de probabilidad a posteriori de
                                                                        o
un conjunto de variables dada la observaci´n de un evento (valores observados para un subconjunto
                                             o                                                                               = 0, 48, 0,52
de variables).
                                                                                                                Podemos ver las operaciones que se realizan dibujando el ´rbol de probabilidades que se calcula.
                                                                                                                                                                         a
    Denotaremos como X la variable sobre la que queremos conocer la distribuci´n, E ser´ el conjunto
                                                                                  o        a
                                                                                                                                                                          Deporte
de variables de las que conocemos su valor {E1 , . . . , En }, e Y ser´ el conjunto de variables que no
                                                                       a
hemos observado {Y1 , . . . , Yn } (variables ocultas). De esta manera X = {X} ∪ E ∪ Y ser´ el conjunto
                                                                                           a
                                                                                                                                                                          P(D=no)=0.9
completo de variables. Nos plantearemos el c´lculo de P (X|e), es decir la distribuci´n de probabilidad
                                                 a                                   o
de los valores de X a partir de la influencia de los valores observados de las variables de E.
                                                                                                                                                                           Fumador
    Nosotros nos plantearemos lo que denominaremos la inferencia exacta, que es la que se realiza
                                                                                                                                                  P(F=si)=0.6                   P(F=no)=0.4
utilizando directamente la distribuci´n de probabilidad que describe la red bayesiana. Como vere-
                                     o
                                                                                                                                        Alimentacion                                             Alimentacion
mos mas adelante ´sta s´lo es tratable computacionalmente si la topolog´ de la red tiene ciertas
                   e    o                                                 ıa
                                                                                                                              P(A=e)=0.4          P(A=no e)=0.6                                          P(A=no e)=0.6
propiedades.                                                                                                                                                                      P(A=e)=0.4

                                                                                                                                                                                                                  Presion
                                                                                                                                                        Presion                 Presion
                                                                                                                          Presion
2.5.1.   Inferencia por enumeraci´n
                                 o
                                                                                                                       P(S=a)=0.25        P(S=a)=0.7                      P(S=a)=0.25          P(S=a)=0.7
   El primer algoritmo de inferencia exacta que veremos es el denominado de Inferencia por
                                                                                                                                 P(S=n)=0.75        P(S=n)=0.3                      P(S=n)=0.75          P(S=n)=0.3
          o´
enumeraci´n. Este se basa en que cualquier probabilidad condicionada se puede calcular como la
                                                                                                                              Infarto   Infarto     Infarto     Infarto            Infarto     Infarto        Infarto    Infarto
suma de todos los posibles casos a partir de la distribuci´n de probabilidad conjunta.
                                                          o
                                                                                                                        P(I=s)=0.8          P(I=s)=0.8                    P(I=s)=0.7                 P(I=s)=0.7
                                                                                                                                  P(I=s)=0.6          P(I=s)=0.6                    P(I=s)=0.3                 P(I=s)=0.3
                                P (X|e) = αP (X, e) = α           P (X, e, y)
                                                              y

                                                                                                                Cada una de las ramas del ´rbol corresponde a cada uno de los eventos posibles.
                                                                                                                                          a

                                                      7                                                                                                                   8
2.5.2.    Algoritmo de eliminaci´n de variables
                                o                                                                             Es igual que una operaci´n de agregaci´n sobre una columna en bases de datos
                                                                                                                                      o             o
                                                                                                              El producto de factores permite juntar varios factores entre ellos utilizando las variables ocultas
    La inferencia por enumeraci´n puede ser bastante ineficiente dependiendo de la estructura de
                                  o
                                                                                                           comunes, por ejemplo:
la red y dar lugar a muchos c´lculos repetidos, por lo que se han intentado hacer algoritmos m´s
                                a                                                                  a
eficientes. El algoritmo de eliminaci´n de variables intenta evitar esta repetici´n de c´lculos. El
                                       o                                              o     a
                                                                                                                                         fX1 X2 (Y, W, Z) = fX1 (Y, Z) × fX2 (Z, W )=
algoritmo utiliza t´cnicas de programaci´n din´mica (memorizaci´n) de manera que se guardan c´lcu-
                   e                    o      a                   o                             a
                                                                                                                                     Y   Z            Z     W              Y     Z     W
los intermedios para cada variable para reutilizarlos. A estos c´lculos intermedios los denominaremos
                                                                a
                                                                                                                                                                                           0,2 × 0,3
                                                                                                                                     C   C    0.2     C     C     0.3      C     C     C
factores
                                                                                                                                                                                           0,2 × 0,7
                                                                                                                                     C   F    0.8     C     F     0.7      C     C     F
   El c´lculo de la probabilidad se realiza evaluando la expresi´n de la distribuci´n de probabilidad
       a                                                          o                  o
                                                                                                                                                                                           0,8 × 0,1
                                                                                                                                     F   C    0.4     F     C     0.1      C     F     C
conjunta de izquierda a derecha, aprovechando ese orden para obtener los factores. Esta estrategia
                                                                                                                                                                                           0,8 × 0,9
                                                                                                                                     F   F    0.6     F     F     0.9      C     F     F
hace que los c´lculos que impliquen una variable se realicen una sola vez. Los factores correspondientes
              a
                                                                                                                                                                                           0,4 × 0,3
                                                                                                                                                                           F     C     C
a cada variable se van acumulando y utiliz´ndose seg´n se necesitan.
                                            a           u
                                                                                                                                                                                           0,4 × 0,7
                                                                                                                                                                           F     C     F
    Una ventaja adicional de este algoritmo es que las variables no relevantes desaparecen al ser                                                                                          0,6 × 0,1
                                                                                                                                                                           F     F     C
factores constantes en las operaciones y por lo tanto permite eliminarlas del c´lculo (de ah´ el nombre
                                                                               a            ı                                                                                              0,6 × 0,9
                                                                                                                                                                           F     F     F
de algorimo de eliminaci´n de variables).
                         o
                                                                                                              Es igual que una operaci´n de join en una base de datos multiplicando los valores de las columnas
                                                                                                                                      o
   El algoritmo es el siguiente:
                                                                                                           de datos.
funcion ELIMINACION Q(X, e , rb ) retorna d i s t r i b u c i o n de X
                                                                                                           Ejemplo 5 Volveremos a calcular P (F umador|Inf arto = si, Deporte = no) a partir de la distribu-
   f a c t o r e s = [ ] ; v a r s=REVERSE(VARS( rb ) )
                                                                                                           ci´n de probabilidad conjunta:
                                                                                                             o
  para cada var en v a r s hacer
     f a c t o r e s=c o n c a t e n a ( f a c t o r e s ,CALCULA FACTOR( var , e ) )
                                                                                                                                  P (D, A, S, F, I) = P (I|S, F )P (F )P (S|D, A)P (D)P (A)
     s i var es v a r i a b l e o c u l t a entonces
       f a c t o r e s=PRODUCTO Y SUMA( var , f a c t o r e s )
                                                                                                           Debemos calcular P (F |I = si, D = no), por lo tanto tenemos
     fsi
  fpara
 retorna NORMALIZA(PRODUCTO( f a c t o r e s ) )
                                                                                                                                          P (F |I = s, D = n) = αP (I = s, F, D = n)
ffuncion
                                                                                                                                          =α                 P (D = n, A, S, F, I = s)
                                                                                                                                               A∈{e,¬e} S∈{a,n}
   CALCULA FACTOR genera el factor correspondiente a la variable en la funci´n de distribuci´n
                                                                            o               o
de probabilidad conjunta, PRODUCTO Y SUMA multiplica los factores y suma respecto a la variable               En esta ocasi´n no sacamos factores comunes para seguir el algoritmo
                                                                                                                           o
oculta, PRODUCTO multiplica un conjunto de factores.
                                                                                                                            αP (D = n)              P (A)             P (S|D = n, A)P (F )P (I = s|S, F )
    Un factor corresponde a la probabilidad de un conjunto de variables dadas las variables ocultas.
                                                                                                                                         A∈{e,¬e}           S∈{a,n}
Se representa por una tabla que para cada combinaci´n de variables ocultas da la probabilidad de
                                                     o
las variables del factor, por ejemplo:                                                                        El algoritmo empieza calculando el factor para la variable Infarto (P (I = s|S, F )), esta tiene fijo
                                                                                                           su valor a si, depende de las variables Presi´n Sanguinea y Fumador
                                                                                                                                                        o
                                                      Y       Z
                                                      C       C    0.2                                                                                           SF
                                           fX (Y, Z)= C       F    0.4                                                                                           as              0.8
                                                      F       C    0.8                                                                               fI (S, F )= a n             0.7
                                                      F       F    0.6                                                                                           ns              0.6
                                                                                                                                                                 nn              0.3
Los factores tienen dos operaciones, la suma y producto de factores.
   La suma se aplica a un factor y sobre una variable oculta del factor. Como resultado obtenemos             La variable fumador (P (F )) no depende de ninguna otra variable, al ser la variable que pregun-
una matriz reducida en la que las filas del mismo valor se han acumulado, por ejemplo                       tamos el factor incluye todos los valores

                                                                   Y                                                                                               F
                                     fXZ (Y ) =         fX (Y, Z)= C                                                                                      fF (F )= s
                                                                         0.6                                                                                                   0.4
                                                    Z
                                                                   F     1.4                                                                                       n           0.6

                                                          9                                                                                                           10
FA
    La variable Presi´n Sanguinea (P (S|D = n, A)), depende de las variable Deporte que tiene fijo
                     o
                                                                                                                                                              se         0.26×0.4 = 0.104
su valor a no y Alimentaci´n. Esta es una variable oculta, por lo que se debe calcular para todos sus
                          o
                                                                                                                          fAF IS (A) = fA (A) × fF IS (F, A)= s ¬e       0.296×0.6 = 0.177
valores
                                                                                                                                                              ne         0.24×0.4 = 0.096
                                                                                                                                                              n ¬e       0.348×0.6 = 0.208
                                                 SA
                                                 ae             0.25
                                                                                                            Y ahora sumamos sobre todos los valores de la variable A para obtener el factor correspondiente
                                      fS (S, A)= a ¬e           0.7
                                                                                                        a la variable Alimentaci´n
                                                                                                                                o
                                                 ne             0.75
                                                 n ¬e           0.3
                                                                                                                                                                  F
                                                                                                                          fAF IS (F ) =              fAF IS (A) = S   0.104 + 0.177 = 0.281
                                                                                                                                          A∈{e,¬e}
Al ser la variable Presi´n Sanguinea una variable oculta debemos acumular todos los factores que
                        o
                                                                                                                                                                  n   0.096 + 0.208 = 0.304
hemos calculado
                                   fS (S, A) × fF (F ) × fI (S, F )
                                                                                                        Y por ultimo la variable Deporte (P (D = n)) tiene el valor fijado a no y dado que no depende de la
                                                                                                               ´
                                                                                                        variable fumador se puede obviar, ya que es un factor constante.
                                                              SF
                                                                                                             Ahora, si normalizamos a 1
                                                              as        0.8×0.4
                         fF I (S, F ) = fF (F ) × fI (S, F )= a n       0.7×0.6
                                                                                                                                                                 F
                                                              ns        0.6×0.4
                                                                                                                                           P (F |I = s, D = n) = S      0.48
                                                              nn        0.3×0.6
                                                                                                                                                                 n      0.52
                                                            S     F    A
                                                            a     s    e    0.8×0.4×0.25
                                                                                                            La complejidad del algoritmo de eliminaci´n de variables depende del tama˜o del mayor factor,
                                                                                                                                                        o                                  n
                                                                       ¬e
                                                            a     s         0.8×0.4×0.7
                                                                                                        que depende del orden en el que se eval´an las variables y la topolog´ de la red. El orden de evaluaci´n
                                                                                                                                               u                             ıa                               o
                                                            a     n    e    0.7×0.6×0.25
                                                                                                        que escogeremos ser´ el topol´gico seg´n el grafo, pero podr´
                                                                                                                            a        o         u                       ıamos utilizar cualquier orden. De hecho
                fF IS (S, F, A) = fF I (S, F ) × fS (S, A)= a          ¬e
                                                                  n         0.7×0.6×0.7
                                                                                                        se podr´ escoger el orden que m´s variables eliminara para hacer que el c´lculo sea m´s eficiente, el
                                                                                                                ıa                       a                                            a           a
                                                            n     s    e    0.6×0.4×0.75
                                                                                                        problema es que encontrar el orden ´ptimo es NP.
                                                                                                                                             o
                                                                       ¬e
                                                            n     s         0.6×0.4×0.3
                                                                                                            La complejidad de la inferencia exacta es NP-hard en el caso general. En el caso particular en que
                                                            n     n    e    0.3×0.6×0.75
                                                                                                        la red bayesiana cumple que para cada par de nodos hay un unico camino no dirigido (poli´rbol),
                                                                                                                                                                       ´                               a
                                                                       ¬e
                                                            n     n         0.3×0.6×0.3
                                                                                                        entonces se puede calcular en tiempo lineal. Por eso es interesante que cuando se construya una red
                                                                                                        bayesiana para un problema se construyan poli´rboles. Si podemos construir una red que cumpla
                                                                                                                                                         a
    Y ahora sumamos sobre todos los valores de la variable S para obtener el factor correspondiente
                                                                                                        esta propiedad podemos utilizar este algoritmo sin ning´n problema.
                                                                                                                                                                u
a la variable Presi´n Sanguinea
                   o
                                                                                                            Para obtener resultados en el caso general se recurre a algoritmos aproximados basados en t´cnicas
                                                                                                                                                                                                       e
                                                                                                        de muestreo. Evidentemente el valor obtenido con estos algoritmos es una aproximaci´n del valor
                                                                                                                                                                                                 o
                                fF IS (F, A) =             fF IS (S, F, A) =
                                                 S∈{a,n}
                                                                                                        real, pero el coste temporal es razonable.
                          F    A
                          s    e    0.8×0.4×0.25 + 0.6×0.4×0.75 = 0.26
                               ¬e
                          s         0.8×0.4×0.7 + 0.6×0.4×0.3 = 0.296                                   3.      Modelo Posibilista
                          n    e    0.7×0.6×0.25 + 0.3×0.6×0.75 = 0.24
                               ¬e
                          n         0.7×0.6×0.7 + 0.3×0.6×0.3 = 0.348
                                                                                                            Un m´todo alternativo para representar la imprecisi´n es el que presenta el modelo posibilista.
                                                                                                                 e                                               o
                                                                                                        Este modelo surge de la llamada l´gica probabil´
                                                                                                                                           o             ıstica, esta es una l´gica no cl´sica especialmente
                                                                                                                                                                              o          a
   El factor de la variable Alimentaci´n (P (A)) no depende de ninguna variable, al ser una variable
                                      o                                                                 dise˜ada para el razonamiento con evidencias incompletas y conocimiento parcialmente inconsistente.
                                                                                                            n
oculta generamos todas las posibilidades
                                                                                                            La l´gica posibilista se basa en la teor´ de los conjuntos difusos y, por extensi´n, en la l´gica
                                                                                                                o                                   ıa                                       o          o
                                                                                                        difusa. Los conjuntos difusos se han tomado como punto de partida para la representaci´n de la
                                                                                                                                                                                                    o
                                                  F
                                                                                                        vaguedad del lenguaje, de esta manera, proposiciones como por ejemplo “la temperatura de hoy es
                                          fA (A)= e         0.4
                                                                                                        agradable” que supondr´ un conjunto de temperaturas asignadas al t´rmino ling¨´
                                                                                                                                  ıa                                             e         uıstico agradable
                                                  ¬e        0.6
                                                                                                        corresponder´ a un conjunto difuso, y el razonamiento se har´ en t´rminos de este. Esto permitir´
                                                                                                                     ıa                                                ıa    e                             ıa
                                                                                                        representar los razonamientos cualitativos que suelen utilizar las personas.
Ahora debemos acumular todos los factores calculados


                                                   11                                                                                                       12
Raz Aprox0506
Raz Aprox0506
Raz Aprox0506
Raz Aprox0506
Raz Aprox0506

Más contenido relacionado

Destacado

Les nationalites
Les nationalitesLes nationalites
Les nationalitesbleurose
 
Llueve sobre mojado la cumbre contra viento y marea
Llueve sobre mojado la cumbre contra viento y mareaLlueve sobre mojado la cumbre contra viento y marea
Llueve sobre mojado la cumbre contra viento y mareamarinero22
 
Presentation1
Presentation1Presentation1
Presentation1Yat Ze
 
cartuchos dsi ds 3ds
cartuchos dsi ds 3dscartuchos dsi ds 3ds
cartuchos dsi ds 3dsr4ds
 
Hispania arqueológica
Hispania arqueológicaHispania arqueológica
Hispania arqueológicafjgn1972
 
Pp verkoopgesprek
Pp verkoopgesprekPp verkoopgesprek
Pp verkoopgesprekbartbijkerk
 
Market Research Proposal - Capturing the Rural Market for Personal and Househ...
Market Research Proposal - Capturing the Rural Market for Personal and Househ...Market Research Proposal - Capturing the Rural Market for Personal and Househ...
Market Research Proposal - Capturing the Rural Market for Personal and Househ...Aakriti Agarwal
 

Destacado (15)

BBB Business Review
BBB Business ReviewBBB Business Review
BBB Business Review
 
Les nationalites
Les nationalitesLes nationalites
Les nationalites
 
Agora technologique
Agora technologiqueAgora technologique
Agora technologique
 
Hi flyer torino
Hi flyer torinoHi flyer torino
Hi flyer torino
 
Llueve sobre mojado la cumbre contra viento y marea
Llueve sobre mojado la cumbre contra viento y mareaLlueve sobre mojado la cumbre contra viento y marea
Llueve sobre mojado la cumbre contra viento y marea
 
Presentation1
Presentation1Presentation1
Presentation1
 
cartuchos dsi ds 3ds
cartuchos dsi ds 3dscartuchos dsi ds 3ds
cartuchos dsi ds 3ds
 
Allah knows it all
Allah knows it allAllah knows it all
Allah knows it all
 
Presentación1
Presentación1Presentación1
Presentación1
 
Hispania arqueológica
Hispania arqueológicaHispania arqueológica
Hispania arqueológica
 
Pp verkoopgesprek
Pp verkoopgesprekPp verkoopgesprek
Pp verkoopgesprek
 
Publicación1
Publicación1Publicación1
Publicación1
 
Market Research Proposal - Capturing the Rural Market for Personal and Househ...
Market Research Proposal - Capturing the Rural Market for Personal and Househ...Market Research Proposal - Capturing the Rural Market for Personal and Househ...
Market Research Proposal - Capturing the Rural Market for Personal and Househ...
 
Virgin Media Profile
Virgin Media ProfileVirgin Media Profile
Virgin Media Profile
 
Le prof de maths
Le prof de mathsLe prof de maths
Le prof de maths
 

Similar a Raz Aprox0506

Estadística bayesiana, inteligencia artificial y las cadenas de Márkov
Estadística bayesiana, inteligencia artificial y las cadenas de MárkovEstadística bayesiana, inteligencia artificial y las cadenas de Márkov
Estadística bayesiana, inteligencia artificial y las cadenas de MárkovMaría José Varela
 
Método de Sensibilidad
Método de SensibilidadMétodo de Sensibilidad
Método de Sensibilidadnohelialvarado
 
Revista "SISTEMAS EXPERTOS"
Revista "SISTEMAS EXPERTOS"Revista "SISTEMAS EXPERTOS"
Revista "SISTEMAS EXPERTOS"MidYurai
 
Metodologías soluciones inteligentes
Metodologías soluciones inteligentesMetodologías soluciones inteligentes
Metodologías soluciones inteligentesCarmen Rios Zapata
 
Escenarios para la toma de decisiones en instituciones educativas
Escenarios para la  toma de decisiones en instituciones educativasEscenarios para la  toma de decisiones en instituciones educativas
Escenarios para la toma de decisiones en instituciones educativasYUDEIMA-R
 
toma de decisiones
toma de decisiones toma de decisiones
toma de decisiones josecanchica
 
Análisis de toma del proceso de toma de decisiones en diferentes escenarios d...
Análisis de toma del proceso de toma de decisiones en diferentes escenarios d...Análisis de toma del proceso de toma de decisiones en diferentes escenarios d...
Análisis de toma del proceso de toma de decisiones en diferentes escenarios d...Leslye-Garcia
 
Teoría General de Sistemas
Teoría General de SistemasTeoría General de Sistemas
Teoría General de SistemasJuan Piizz Z
 
Toma de decisiones ejercicio no. 1 (complemento)
Toma de decisiones ejercicio no. 1 (complemento)Toma de decisiones ejercicio no. 1 (complemento)
Toma de decisiones ejercicio no. 1 (complemento)willahg
 
Presentación1yoraimammmma
Presentación1yoraimammmmaPresentación1yoraimammmma
Presentación1yoraimammmmayoraimamartinez
 
Presentación1yoraimammmma
Presentación1yoraimammmmaPresentación1yoraimammmma
Presentación1yoraimammmmayoraimamartinez
 

Similar a Raz Aprox0506 (20)

Estadística bayesiana, inteligencia artificial y las cadenas de Márkov
Estadística bayesiana, inteligencia artificial y las cadenas de MárkovEstadística bayesiana, inteligencia artificial y las cadenas de Márkov
Estadística bayesiana, inteligencia artificial y las cadenas de Márkov
 
Método de Sensibilidad
Método de SensibilidadMétodo de Sensibilidad
Método de Sensibilidad
 
El Problema
El ProblemaEl Problema
El Problema
 
1 teoria decision presentacion
1 teoria decision presentacion1 teoria decision presentacion
1 teoria decision presentacion
 
Revista "SISTEMAS EXPERTOS"
Revista "SISTEMAS EXPERTOS"Revista "SISTEMAS EXPERTOS"
Revista "SISTEMAS EXPERTOS"
 
Sesión 5
Sesión 5Sesión 5
Sesión 5
 
Metodologías soluciones inteligentes
Metodologías soluciones inteligentesMetodologías soluciones inteligentes
Metodologías soluciones inteligentes
 
Escenarios para la toma de decisiones en instituciones educativas
Escenarios para la  toma de decisiones en instituciones educativasEscenarios para la  toma de decisiones en instituciones educativas
Escenarios para la toma de decisiones en instituciones educativas
 
123qw
123qw123qw
123qw
 
toma de decisiones
toma de decisiones toma de decisiones
toma de decisiones
 
Análisis de toma del proceso de toma de decisiones en diferentes escenarios d...
Análisis de toma del proceso de toma de decisiones en diferentes escenarios d...Análisis de toma del proceso de toma de decisiones en diferentes escenarios d...
Análisis de toma del proceso de toma de decisiones en diferentes escenarios d...
 
Un algoritmo
Un algoritmoUn algoritmo
Un algoritmo
 
Teoría General de Sistemas
Teoría General de SistemasTeoría General de Sistemas
Teoría General de Sistemas
 
Toma de decisiones ejercicio no. 1 (complemento)
Toma de decisiones ejercicio no. 1 (complemento)Toma de decisiones ejercicio no. 1 (complemento)
Toma de decisiones ejercicio no. 1 (complemento)
 
Presentación1yoraimammmma
Presentación1yoraimammmmaPresentación1yoraimammmma
Presentación1yoraimammmma
 
Final
FinalFinal
Final
 
Antonio alvarado
Antonio alvaradoAntonio alvarado
Antonio alvarado
 
Proyecto Integrador
Proyecto IntegradorProyecto Integrador
Proyecto Integrador
 
Presentación1yoraimammmma
Presentación1yoraimammmmaPresentación1yoraimammmma
Presentación1yoraimammmma
 
Revista
RevistaRevista
Revista
 

Más de cua cua

Ontology101
Ontology101Ontology101
Ontology101cua cua
 
Aprendizaje
AprendizajeAprendizaje
Aprendizajecua cua
 
Busqueda06071q
Busqueda06071qBusqueda06071q
Busqueda06071qcua cua
 
3 Rc2 Ontologias 2
3 Rc2 Ontologias 23 Rc2 Ontologias 2
3 Rc2 Ontologias 2cua cua
 
1 Iia Introduccion Ia
1 Iia Introduccion Ia1 Iia Introduccion Ia
1 Iia Introduccion Iacua cua
 

Más de cua cua (11)

Ontology101
Ontology101Ontology101
Ontology101
 
Plantas
PlantasPlantas
Plantas
 
Iabusq
IabusqIabusq
Iabusq
 
Lnat
LnatLnat
Lnat
 
Ingcon
IngconIngcon
Ingcon
 
Aprendizaje
AprendizajeAprendizaje
Aprendizaje
 
Busqueda06071q
Busqueda06071qBusqueda06071q
Busqueda06071q
 
Gralog
GralogGralog
Gralog
 
3 Rc2 Ontologias 2
3 Rc2 Ontologias 23 Rc2 Ontologias 2
3 Rc2 Ontologias 2
 
1 Iia Introduccion Ia
1 Iia Introduccion Ia1 Iia Introduccion Ia
1 Iia Introduccion Ia
 
Rutas
RutasRutas
Rutas
 

Raz Aprox0506

  • 1. Inteligencia Artificial (IA) Apuntes de Razonamiento Aproximado This work is licensed under the Creative Commons Javier B´jar e C Attribution-NonCommercial-ShareAlike License. BY: $ To view a copy of this license, visit http://creativecommons.org/licenses/by-nc-sa/2.0/ or Departament de Llenguatges i Sistemes Inform`tics a send a letter to: Enginyeria en Inform`tica a 2o Cuatrimestre - curso 05/06 Creative Commons, 559 Nathan Abbott Way, Stanford, C California 94305, $ BY: USA.
  • 2. 1. Razonamiento en sistemas expertos 2. Modelo probabilista Por lo general, el conocimiento que se debe manejar dentro de la mayor´ de los dominios tratados ıa Los modelos probabilistas se fundamentan en la teor´ de la probabilidad. Las probabilidades se ıa por los sistemas basados en el conocimiento (SBC) no es de naturaleza exacta. En la pr´ctica nos a utilizan para modelizar nuestra creencia sobre la veracidad o falsedad de los hechos, de manera que encontramos con problemas como: podamos asignar valores de probabilidad a los diferentes hechos con los que tratamos y utilizar esas probabilidades para razonar sobre su certidumbre. Representar el conocimiento para cubrir todos los hechos que son relevantes para un problema Cada hecho tendr´ una probabilidad asociada de por si, o derivada de la probabilidad de aparici´n a o es dif´ ıcil de otros hechos. Estas probabilidades ser´n las que nos permitir´n tomar decisiones. Esta toma de a a decisiones no es est´tica, la probabilidad de un hecho podr´ ser modificada por la observaci´n y la a a o Existen dominios en los que se desconocen todos los hechos y reglas necesarias para resolver el modificaci´n de la creencia en otros hechos que est´n relacionados. o e problema Existen problemas en los que a´n teniendo las reglas para resolverlos no disponemos de toda u 2.1. Teor´ de probabilidades ıa la informaci´n necesaria o Antes de comenzar a hablar de como modelizar el razonamiento mediante probabilidades, debemos Esto significa que para poder razonar dentro de estos sistemas tendremos que utilizar herra- repasar algunos conceptos esenciales de la teor´ de probabilidades. ıa mientas m´s potentes que las que nos brinda la l´gica cl´sica, que s´lo nos permitir´ trabajar con a o a o ıa El elemento b´sico de teor´ de probabilidades es la variable aleatoria. Una variable aleatoria a ıa conocimiento del que pudi´ramos establecer de manera efectiva su veracidad o falsedad. e tiene un dominio de valores (valores posibles que puede tomar y sobre los que establecemos una dis- De hecho, este objetivo no es descabellado ya que hemos observado que toda persona esta acos- tribuci´n de probabilidad), podemos tener variables aleatorias booleanas, discretas o continuas. o tumbrada a tomar decisiones ante informaci´n incompleta o imprecisa (Invertimos en bolsa, diagnos- o Para poder trasladar la teor´ de la probabilidad a un sistema basado en el conocimiento, debere- ıa ticamos enfermedades, ...) y esa imprecisi´n o falta de conocimiento no impide la toma de decisiones. o mos crear una relaci´n entre la representaci´n del conocimiento que utilizamos y los elementos sobre o o Esta claro que si deseamos que los SBC emulen la capacidad de los expertos hemos de dotarlos de los que establecemos las distribuciones de probabilidad. mecanismos que sean capaces de abordar este problema. En la pr´ctica, toda representaci´n del conocimiento que utilizamos se fundamenta en la l´gica, a o o La imprecisi´n o la falta de certeza en la informaci´n proviene de muchas fuentes, de entre ellas o o de manera que la utilizaremos como lenguaje representaci´n y utilizaremos las f´rmulas l´gicas como o o o podemos citar: elemento b´sico. De esta forma, definiremos una proposici´n l´gica como cualquier f´rmula en a oo o l´gica de enunciados o predicados, siendo ´stas elementos primitivos de nuestra representaci´n. Una o e o 1. Incompletitud de los datos debida a la no disponibilidad de ´stos. e proposici´n l´gica tendr´ asociada una variable aleatoria que indicar´ nuestro grado de creencia en oo a a ella. 2. Incertidumbre de los datos debida a las limitaciones de los aparatos de medida, o a apreciaciones Una variable aleatoria tendr´ asociada una distribuci´n de probabilidad. La forma de expre- a o subjetivas del observador. sar esta distribuci´n de probabilidad depender´ del tipo de variable aleatoria (Discretas: Binomial, o a Multinomial, ...; Continuas: Normal, χ2 , ...). El elegir un tipo de variable aleatoria u otro depende de 3. Incertidumbre en las asociaciones realizadas entre datos y conclusiones. como creamos que la informaci´n correspondiente a la proposici´n l´gica debe modelarse. Para sim- o oo 4. Imprecisi´n en el lenguaje de descripci´n debida al uso del lenguaje natural, ya que se presta o o plificar, s´lo trabajaremos con variables aleatorias discretas, de manera que toda proposici´n l´gica o oo a ambig¨edades y malas interpretaciones. u tendr´ un conjunto enumerado de posibles respuestas. a En cualquier problema, tendremos varias proposiciones l´gicas que intervendr´n en una decisi´n, o a o El tratar con este problema ha llevado a desarrollar un conjunto de l´gicas y modelos que intentan o por lo tanto, tendremos que describir como influyen todas estas variables aleatorias en conjunto tratar el problema de la incompletitud e imprecisi´n del conocimiento desde diferentes perspectivas o sobre la decisi´n. La uni´n de variables aleatorias se puede describir mediante una distribuci´n de o o o y modelizar de esta manera los procesos de razonamiento que aplican las personas. Muchas son las probabilidad conjunta. propuestas que se han desarrollado a lo largo de la evoluci´n de los SBC, nos centraremos unicamente o ´ Denotaremos como P (a) la probabilidad de que la proposici´n A tenga el valor a. Por ejemplo, la o en dos formalismos que provienen de dos visiones distintas de la incertidumbre: proposici´n F umar puede tener los valores {f umar, ¬f umar}, P (¬f umar) es la probabilidad de la o proposici´n F umar = ¬f umar. Denotaremos como P (A) al vector de probabilidades de todos o Modelo probabilista (Redes Bayesianas) los posibles valores de la proposici´n A o Modelo posibilista (L´gica difusa) o Definiremos como probabilidad a priori (P (a)) asociada a una proposici´n como el grado de o creencia en ella a falta de otra informaci´n. Del conjunto de proposiciones que tengamos, algunas no o tienen por que estar influidas por otras, de estas dispondremos de una distribuci´n de probabilidad o a priori que representar´ la probabilidad de que tomen cualquiera de sus valores. a Definiremos como probabilidad a posteriori o condicional (P (a|b)) como el grado de creencia 1 2
  • 3. ¬enf isema enf isema en una proposici´n tras la observaci´n de proposiciones asociadas a ella. Esta probabilidad estar´ aso- o o a varon mujer varon mujer ciada a las proposiciones que se ven influidas por la observaci´n de otras proposiciones, por lo que o f umador 0.2 0.1 0.05 0.05 nuestra creencia en ellas variar´ seg´n la observaci´n de ´stas. a u o e ¬f umador 0.02 0.02 0.23 0.33 La probabilidad a posteriori se puede definir a partir de probabilidades a priori como: A partir de ella podemos hacer ciertas inferencias probabil´ ısticas respecto a la combinaci´n de las o P (a ∧ b) P (a|b) = diferentes proposiciones y su influencia entre ellas P (b) Esta f´rmula se puede transformar en lo que denominaremos la regla del producto: o P (enf isema ∧ varon) = 0,2 + 0,02 P (f umador ∨ mujer) = 0,2 + 0,1 + 0,05 + 0,05 + 0,02 + 0,33 P (a ∧ b) = P (a|b)P (b) = P (b|a)P (a) P (F umador|enf isema) = P (f umador, enf isema, varon) +P (f umador, enf isema, mujer), 2.2. Inferencia probabil´ ıstica P (¬f umador, enf isema, varon) El usar como base de un mecanismo de inferencia la teor´ de la probabilidad, restringe las cosas ıa +P (¬f umador, enf isema, mujer) que podemos creer y deducir al marco de los axiomas en los que se fundamenta la probabilidad. Estos = α 0,3, 0,04 axiomas son: = 0,88, 0,12 Toda probabilidad est´ en el intervalo [0, 1] a Para poder realizar todos estos procesos de inferencia se requiere almacenar y recorrer la distribu- ci´n de probabilidad conjunta de todas las proposiciones. Esto supone un gasto en tiempo y espacio o 0 ≤ P (a) ≤ 1 impracticable. Suponiendo proposiciones binarias el coste en espacio y tiempo es O(2n ) siendo n el n´mero de proposiciones. u La proposici´n cierto tiene probabilidad 1 y la proposici´n f also tiene probabilidad 0 o o Cualquier problema real tiene un n´mero de proposiciones suficiente para hacer que estos mecanis- u P (cierto) = 1 P (f also) = 0 mos de inferencia no sean utiles por su coste computacional. Se hace pues necesario crear mecanismos ´ que nos simplifiquen el coste del razonamiento La probabilidad de la disyunci´n se obtiene mediante la f´rmula o o P (a ∨ b) = P (a) + P (b) − P (a ∧ b) 2.3. Independencia probabil´ ıstica y la regla de Bayes Dadas estas reglas b´sicas, podemos establecer una serie de mecanismos de inferencia, como por a Por lo general, no todas las proposiciones que aparecen en un problema est´n relacionadas entre si. a ejemplo: De hecho para cada proposici´n dependiente podemos identificar s´lo un subconjunto de proposicio- o o nes que las influyen, siendo el resto irrelevantes para la inferencia de sus probabilidades. Llamaremos Marginalizaci´n: Probabilidad de una proposici´n at´mica con independencia de los valores o o o a esta propiedad independencia probabil´ ıstica del resto de proposiciones Suponiendo que dos proposiciones X e Y no se influyen entre si, podemos reescribir sus probabi- P (Y ) = P (Y, z) lidades como: z Probabilidades condicionadas: Probabilidad de una proposici´n dados unos valores pa- o P (X|Y ) = P (X); P (Y |X) = P (Y ); P (X, Y ) = P (X)P (Y ) ra algunas proposiciones e independiente del resto de proposiciones (a partir de la regla del producto) Dadas estas propiedades podremos reescribir las probabilidades conjuntas de manera m´s com- a P (X|e) = α P (X, e, y) pacta reduciendo la complejidad y Anteriormente hemos enunciado la regla del producto como: El valor α es un factor de normalizaci´n que corresponde a factores comunes que hacen que las o probabilidades sumen 1. P (X, Y ) = P (X|Y )P (Y ) = P (Y |X)P (X) Ejemplo 1 Consideremos un problema en el que intervengan las proposiciones F umador = {f umador, Esta regla nos lleva a lo que denominaremos la regla de Bayes ¬f umador}, Sexo = {varon, mujer}, Enf isema = {enf isema, ¬enf isema} P (X|Y )P (Y ) P (Y |X) = La siguiente tabla nos describe las distribuciones de probabilidad conjunta de estas proposiciones P (X) 3 4
  • 4. Deporte P(D) Alimentacion P(A) Esta regla y la propiedad de independencia ser´n el fundamento del razonamiento probabil´ a ıstico Deporte Alimentacion equilibrada 0.4 Si 0.1 y nos permitir´ relacionar las probabilidades de unas evidencias con otras. a no equlibrada 0.6 No 0.9 Suponiendo que podemos estimar exhaustivamente todas las probabilidades que involucran la variable Y podemos prescindir de las probabilidades a priori de la variable X y reescribir la formula de Bayes como: Alim Dep P(P=alta) P(P=normal) Fumador P(F) eq si 0.01 0.99 P (Y |X) = αP (X|Y )P (Y ) Si no eq Presion Sanguinea si 0.2 0.8 0.4 Fumador No 0.6 eq no 0.25 0.75 Esto es as´ porque las probabilidades P (Y = y1 |X) . . . P (Y = yn |X) han de sumar uno, α ser´ un ı a no eq no 0.7 0.3 factor de normalizaci´n. o Suponiendo independencia condicional entre dos variables X e Y podremos escribir la probabili- Pr Sang Fum P(I=si) P(I=no) dad condicional de otra variable Z respecto a estas como: alta si 0.8 0.2 normal si 0.6 0.4 Infarto alta no 0.7 0.3 P (X, Y |Z) = P (X|Z)P (Y |Z) normal no 0.3 0.7 De manera que si substituimos en la regla de Bayes: En cada uno de los nodos de la red aparece la distribuci´n de probabilidad del nodo respecto o a sus padres, es decir, como estos influyen la probabilidad del hijo. Esta forma de representar las P (Z|X, Y ) = αP (X|Z)P (Y |Z)P (Z) influencias entre variables permite factorizar la distribuci´n de probabilidad conjunta, convirti´ndose o e en el producto de probabilidades condicionales independientes 2.4. Redes Bayesianas n P (xi |padres(xi )) P (x1 , x2 , . . . , xn ) = Si determinamos la independencia entre variables podemos simplificar el c´lculo de la combinaci´n a o i=1 de sus probabilidades y su representaci´n, de manera que podremos razonar sobre la influencia de o Ejemplo 3 A partir de la red podemos calcular la probabilidad de una proposici´n l´gica utilizando oo las probabilidades de unas proposiciones l´gicas sobre otras de una manera m´s eficiente o a las relaciones de dependencia entre las variables Las redes bayesianas son un formalismo que permite la representaci´n de las relaciones de o independencia entre un conjunto de variables aleatorias. Una red bayesiana es un grafo dirigido P (Inf arto = si ∧ P resion = alta ∧ F umador = si ac´ıclico que contiene informaci´n probabil´ o ıstica en sus nodos, indicando cual es la influencia que ∧ Deporte = si ∧ Alimentacion = equil) tienen sobre un nodo Xi sus padres en el grafo (P (Xi |padres(Xi ))). = El significado intuitivo de un enlace entre dos nodos X e Y es que la variable X tiene influencia P (Inf arto = si|P resion = alta, F umador = si) directa sobre Y . El conjunto de probabilidades representadas en la red describe la distribuci´n de o P (P resion = alta|Deporte = si, Alimentacion = equil) probabilidad conjunta de todas las variables, por lo tanto no es necesaria una tabla completa que P (F umador = si)P (Deporte = si)P (Alimentacion = equil) describa la influencia entre todas ellas. = 0,8 × 0,01 × 0,4 × 0,1 × 0,4 = 0,000128 Ejemplo 2 La siguiente red bayesiana muestra las relaciones de dependencia entre un conjunto de proposiciones l´gicas y la distribuci´n de probabilidad que sigue cada una de esas influencias o o Las propiedades de las redes bayesianas nos dan ciertas ideas sobre como debemos construirlas a partir de un conjunto de proposiciones. Si consideramos que (regla del producto): P (x1 , x2 , . . . , xn ) = P (xn |xn−1 , . . . , x1 )P (xn−1 , . . . , x1 ) Iterando el proceso tenemos que: P (x1 , . . . , xn ) = P (xn |xn−1 , . . . , x1 )P (xn−1 |xn−2 , . . . , x1 ) · · · P (x2 |x1 )P (x1 ) n P (xi |xi−1 , . . . , x1 ) = i=1 5 6
  • 5. Esta es la llamada regla de la cadena La red bayesiana nos permite factorizar la distribuci´n de probabilidad conjunta y obtener una o expresi´n mas f´cil de evaluar. o a Dadas estas propiedades, podemos afirmar que si padres(Xi ) ⊆ {Xi−1 , . . . , X1 }, entonces: Ejemplo 4 Usando la red bayesiana ejemplo podemos calcular la probabilidad de ser P (Xi |Xi−1 , . . . , X1 ) = P (Xi |padres(Xi )) fumador si se ha tenido un infarto y no se hace deporte Esto quiere decir que una red bayesiana es una representaci´n correcta de un dominio s´lo si cada o o P (F umador|Inf arto = si, Deporte = no) nodo es condicionalmente independiente de sus predecesores en orden, dados sus padres. La distribuci´n de probabilidad conjunta de la red ser´ o ıa: Para lograr esto, se han de escoger como padres de una variable Xi aquellas de entre las variables X1 , . . . Xi−1 que influyan directamente en Xi . P (D, A, S, F, I) = P (I|S, F )P (F )P (S|D, A)P (D)P (A) Es decir, para describir la influencia que recibe una proposici´n del resto de proposiciones de las o Debemos calcular P (F |I = si, D = no), por lo tanto tenemos que disponemos, s´lo es necesario utilizar las que influyen m´s directamente. La influencia del resto o a de proposiciones (si es que existe) estar´ descrita por las relaciones que puedan tener estas con los a P (F |I = s, D = n) = αP (F, I = s, D = n) padres inmediatos de la proposici´n. o =α P (D = n, A, S, F, I = s) El utilizar una red bayesiana como representaci´n de la distribuci´n de probabilidad conjunta de o o A∈{e,¬e} S∈{a,n} un grupo de proposiciones supone una gran reduccion en coste espacial. Como comentamos, el coste = αP (D = n)P (F ) P (A) P (S|D = n, A)P (I = s|S, F ) de representar la distribuci´n de probabilidad conjunta de n variables binarias es O(2n ). La represen- o A∈{e,¬e} S∈{a,n} taci´n de redes bayesianas nos permite una representaci´n mas compacta gracias a la factorizaci´n de o o o Si enumeramos todas las posibilidades y las sumamos de acuerdo con la distribuci´n de probabi- o la distribuci´n conjunta. Suponiendo que cada nodo de la red tenga como m´ximo k padres (k o a n), un nodo necesitar´ 2k para representar la influencia de sus padres, por lo tanto el espacio necesario lidad conjunta tenemos que: a ser´ O(n2k ). Por ejemplo, con 10 variables y suponiendo 3 padres como m´ximo tenemos 80 frente a a a 1024, con 100 variables y suponiendo 5 padres tenemos 3200 frente a aproximadamente 1030 P (F umador|Inf arto = si, Deporte = no) = α 0,9 · 0,4 · (0,4 · (0,25 · 0,8 + 0,75 · 0, 6) + 0,6 · (0,7 · 0,8 + 0,3 · 0,6)), 2.5. Inferencia probabil´ ıstica mediante redes bayesianas 0,9 · 0,6 · (0,4 · (0,25 · 0,7 + 0, 75 · 0,3) + 0,6 · (0,7 · 0,7 + 0,3 · 0,3) = α 0,253, 0, 274 El objetivo de la inferencia probabil´ ıstica es calcular la distribuci´n de probabilidad a posteriori de o un conjunto de variables dada la observaci´n de un evento (valores observados para un subconjunto o = 0, 48, 0,52 de variables). Podemos ver las operaciones que se realizan dibujando el ´rbol de probabilidades que se calcula. a Denotaremos como X la variable sobre la que queremos conocer la distribuci´n, E ser´ el conjunto o a Deporte de variables de las que conocemos su valor {E1 , . . . , En }, e Y ser´ el conjunto de variables que no a hemos observado {Y1 , . . . , Yn } (variables ocultas). De esta manera X = {X} ∪ E ∪ Y ser´ el conjunto a P(D=no)=0.9 completo de variables. Nos plantearemos el c´lculo de P (X|e), es decir la distribuci´n de probabilidad a o de los valores de X a partir de la influencia de los valores observados de las variables de E. Fumador Nosotros nos plantearemos lo que denominaremos la inferencia exacta, que es la que se realiza P(F=si)=0.6 P(F=no)=0.4 utilizando directamente la distribuci´n de probabilidad que describe la red bayesiana. Como vere- o Alimentacion Alimentacion mos mas adelante ´sta s´lo es tratable computacionalmente si la topolog´ de la red tiene ciertas e o ıa P(A=e)=0.4 P(A=no e)=0.6 P(A=no e)=0.6 propiedades. P(A=e)=0.4 Presion Presion Presion Presion 2.5.1. Inferencia por enumeraci´n o P(S=a)=0.25 P(S=a)=0.7 P(S=a)=0.25 P(S=a)=0.7 El primer algoritmo de inferencia exacta que veremos es el denominado de Inferencia por P(S=n)=0.75 P(S=n)=0.3 P(S=n)=0.75 P(S=n)=0.3 o´ enumeraci´n. Este se basa en que cualquier probabilidad condicionada se puede calcular como la Infarto Infarto Infarto Infarto Infarto Infarto Infarto Infarto suma de todos los posibles casos a partir de la distribuci´n de probabilidad conjunta. o P(I=s)=0.8 P(I=s)=0.8 P(I=s)=0.7 P(I=s)=0.7 P(I=s)=0.6 P(I=s)=0.6 P(I=s)=0.3 P(I=s)=0.3 P (X|e) = αP (X, e) = α P (X, e, y) y Cada una de las ramas del ´rbol corresponde a cada uno de los eventos posibles. a 7 8
  • 6. 2.5.2. Algoritmo de eliminaci´n de variables o Es igual que una operaci´n de agregaci´n sobre una columna en bases de datos o o El producto de factores permite juntar varios factores entre ellos utilizando las variables ocultas La inferencia por enumeraci´n puede ser bastante ineficiente dependiendo de la estructura de o comunes, por ejemplo: la red y dar lugar a muchos c´lculos repetidos, por lo que se han intentado hacer algoritmos m´s a a eficientes. El algoritmo de eliminaci´n de variables intenta evitar esta repetici´n de c´lculos. El o o a fX1 X2 (Y, W, Z) = fX1 (Y, Z) × fX2 (Z, W )= algoritmo utiliza t´cnicas de programaci´n din´mica (memorizaci´n) de manera que se guardan c´lcu- e o a o a Y Z Z W Y Z W los intermedios para cada variable para reutilizarlos. A estos c´lculos intermedios los denominaremos a 0,2 × 0,3 C C 0.2 C C 0.3 C C C factores 0,2 × 0,7 C F 0.8 C F 0.7 C C F El c´lculo de la probabilidad se realiza evaluando la expresi´n de la distribuci´n de probabilidad a o o 0,8 × 0,1 F C 0.4 F C 0.1 C F C conjunta de izquierda a derecha, aprovechando ese orden para obtener los factores. Esta estrategia 0,8 × 0,9 F F 0.6 F F 0.9 C F F hace que los c´lculos que impliquen una variable se realicen una sola vez. Los factores correspondientes a 0,4 × 0,3 F C C a cada variable se van acumulando y utiliz´ndose seg´n se necesitan. a u 0,4 × 0,7 F C F Una ventaja adicional de este algoritmo es que las variables no relevantes desaparecen al ser 0,6 × 0,1 F F C factores constantes en las operaciones y por lo tanto permite eliminarlas del c´lculo (de ah´ el nombre a ı 0,6 × 0,9 F F F de algorimo de eliminaci´n de variables). o Es igual que una operaci´n de join en una base de datos multiplicando los valores de las columnas o El algoritmo es el siguiente: de datos. funcion ELIMINACION Q(X, e , rb ) retorna d i s t r i b u c i o n de X Ejemplo 5 Volveremos a calcular P (F umador|Inf arto = si, Deporte = no) a partir de la distribu- f a c t o r e s = [ ] ; v a r s=REVERSE(VARS( rb ) ) ci´n de probabilidad conjunta: o para cada var en v a r s hacer f a c t o r e s=c o n c a t e n a ( f a c t o r e s ,CALCULA FACTOR( var , e ) ) P (D, A, S, F, I) = P (I|S, F )P (F )P (S|D, A)P (D)P (A) s i var es v a r i a b l e o c u l t a entonces f a c t o r e s=PRODUCTO Y SUMA( var , f a c t o r e s ) Debemos calcular P (F |I = si, D = no), por lo tanto tenemos fsi fpara retorna NORMALIZA(PRODUCTO( f a c t o r e s ) ) P (F |I = s, D = n) = αP (I = s, F, D = n) ffuncion =α P (D = n, A, S, F, I = s) A∈{e,¬e} S∈{a,n} CALCULA FACTOR genera el factor correspondiente a la variable en la funci´n de distribuci´n o o de probabilidad conjunta, PRODUCTO Y SUMA multiplica los factores y suma respecto a la variable En esta ocasi´n no sacamos factores comunes para seguir el algoritmo o oculta, PRODUCTO multiplica un conjunto de factores. αP (D = n) P (A) P (S|D = n, A)P (F )P (I = s|S, F ) Un factor corresponde a la probabilidad de un conjunto de variables dadas las variables ocultas. A∈{e,¬e} S∈{a,n} Se representa por una tabla que para cada combinaci´n de variables ocultas da la probabilidad de o las variables del factor, por ejemplo: El algoritmo empieza calculando el factor para la variable Infarto (P (I = s|S, F )), esta tiene fijo su valor a si, depende de las variables Presi´n Sanguinea y Fumador o Y Z C C 0.2 SF fX (Y, Z)= C F 0.4 as 0.8 F C 0.8 fI (S, F )= a n 0.7 F F 0.6 ns 0.6 nn 0.3 Los factores tienen dos operaciones, la suma y producto de factores. La suma se aplica a un factor y sobre una variable oculta del factor. Como resultado obtenemos La variable fumador (P (F )) no depende de ninguna otra variable, al ser la variable que pregun- una matriz reducida en la que las filas del mismo valor se han acumulado, por ejemplo tamos el factor incluye todos los valores Y F fXZ (Y ) = fX (Y, Z)= C fF (F )= s 0.6 0.4 Z F 1.4 n 0.6 9 10
  • 7. FA La variable Presi´n Sanguinea (P (S|D = n, A)), depende de las variable Deporte que tiene fijo o se 0.26×0.4 = 0.104 su valor a no y Alimentaci´n. Esta es una variable oculta, por lo que se debe calcular para todos sus o fAF IS (A) = fA (A) × fF IS (F, A)= s ¬e 0.296×0.6 = 0.177 valores ne 0.24×0.4 = 0.096 n ¬e 0.348×0.6 = 0.208 SA ae 0.25 Y ahora sumamos sobre todos los valores de la variable A para obtener el factor correspondiente fS (S, A)= a ¬e 0.7 a la variable Alimentaci´n o ne 0.75 n ¬e 0.3 F fAF IS (F ) = fAF IS (A) = S 0.104 + 0.177 = 0.281 A∈{e,¬e} Al ser la variable Presi´n Sanguinea una variable oculta debemos acumular todos los factores que o n 0.096 + 0.208 = 0.304 hemos calculado fS (S, A) × fF (F ) × fI (S, F ) Y por ultimo la variable Deporte (P (D = n)) tiene el valor fijado a no y dado que no depende de la ´ variable fumador se puede obviar, ya que es un factor constante. SF Ahora, si normalizamos a 1 as 0.8×0.4 fF I (S, F ) = fF (F ) × fI (S, F )= a n 0.7×0.6 F ns 0.6×0.4 P (F |I = s, D = n) = S 0.48 nn 0.3×0.6 n 0.52 S F A a s e 0.8×0.4×0.25 La complejidad del algoritmo de eliminaci´n de variables depende del tama˜o del mayor factor, o n ¬e a s 0.8×0.4×0.7 que depende del orden en el que se eval´an las variables y la topolog´ de la red. El orden de evaluaci´n u ıa o a n e 0.7×0.6×0.25 que escogeremos ser´ el topol´gico seg´n el grafo, pero podr´ a o u ıamos utilizar cualquier orden. De hecho fF IS (S, F, A) = fF I (S, F ) × fS (S, A)= a ¬e n 0.7×0.6×0.7 se podr´ escoger el orden que m´s variables eliminara para hacer que el c´lculo sea m´s eficiente, el ıa a a a n s e 0.6×0.4×0.75 problema es que encontrar el orden ´ptimo es NP. o ¬e n s 0.6×0.4×0.3 La complejidad de la inferencia exacta es NP-hard en el caso general. En el caso particular en que n n e 0.3×0.6×0.75 la red bayesiana cumple que para cada par de nodos hay un unico camino no dirigido (poli´rbol), ´ a ¬e n n 0.3×0.6×0.3 entonces se puede calcular en tiempo lineal. Por eso es interesante que cuando se construya una red bayesiana para un problema se construyan poli´rboles. Si podemos construir una red que cumpla a Y ahora sumamos sobre todos los valores de la variable S para obtener el factor correspondiente esta propiedad podemos utilizar este algoritmo sin ning´n problema. u a la variable Presi´n Sanguinea o Para obtener resultados en el caso general se recurre a algoritmos aproximados basados en t´cnicas e de muestreo. Evidentemente el valor obtenido con estos algoritmos es una aproximaci´n del valor o fF IS (F, A) = fF IS (S, F, A) = S∈{a,n} real, pero el coste temporal es razonable. F A s e 0.8×0.4×0.25 + 0.6×0.4×0.75 = 0.26 ¬e s 0.8×0.4×0.7 + 0.6×0.4×0.3 = 0.296 3. Modelo Posibilista n e 0.7×0.6×0.25 + 0.3×0.6×0.75 = 0.24 ¬e n 0.7×0.6×0.7 + 0.3×0.6×0.3 = 0.348 Un m´todo alternativo para representar la imprecisi´n es el que presenta el modelo posibilista. e o Este modelo surge de la llamada l´gica probabil´ o ıstica, esta es una l´gica no cl´sica especialmente o a El factor de la variable Alimentaci´n (P (A)) no depende de ninguna variable, al ser una variable o dise˜ada para el razonamiento con evidencias incompletas y conocimiento parcialmente inconsistente. n oculta generamos todas las posibilidades La l´gica posibilista se basa en la teor´ de los conjuntos difusos y, por extensi´n, en la l´gica o ıa o o difusa. Los conjuntos difusos se han tomado como punto de partida para la representaci´n de la o F vaguedad del lenguaje, de esta manera, proposiciones como por ejemplo “la temperatura de hoy es fA (A)= e 0.4 agradable” que supondr´ un conjunto de temperaturas asignadas al t´rmino ling¨´ ıa e uıstico agradable ¬e 0.6 corresponder´ a un conjunto difuso, y el razonamiento se har´ en t´rminos de este. Esto permitir´ ıa ıa e ıa representar los razonamientos cualitativos que suelen utilizar las personas. Ahora debemos acumular todos los factores calculados 11 12