El documento habla sobre los sistemas expertos probabilísticos y conceptos básicos de probabilidad. Explica que el motor de inferencia es clave para sacar conclusiones aplicando conocimiento a los datos, ya sea de forma determinista o probabilística. También introduce conceptos como distribuciones de probabilidad, probabilidad condicional, y el teorema de Bayes, el cual permite actualizar probabilidades "a posteriori" usando probabilidades "a priori" y verosimilitud.
2. Sistemas expertos probabilísticos El motor de inferencia es el corazón de todo sistema experto El cometido principal de este componente es el de sacar conclusiones aplicando el conocimiento a los datos. Las conclusiones del motor de inferencia pueden estar basadas en conocimiento determinista o conocimiento probabilístico
3. Sistemas expertos probabilísticos El tratamiento de situaciones de incertidumbre (probabilísticas) puede ser considerablemente más difícil que el tratamiento de situaciones ciertas (deterministas) En muchos casos, algunos hechos (datos) no se conocen con absoluta certeza. Puede darse el caso de tener que trabajar con conocimiento de tipo no determinista, es decir, de casos en los que se dispone sólo de información aleatoria o difusa.
4. Sistemas expertos probabilísticos El motor de inferencia es también responsable de la propagación de este conocimiento incierto De hecho, en los sistemas expertos basados en probabilidad, la propagación de incertidumbre es la tarea principal del motor de inferencia, que permite sacar conclusiones bajo incertidumbre
5. Sistemas expertos probabilísticos Esta tarea es tan compleja que da lugar a que ésta sea probablemente la componente más débil de casi todos los sistemas expertos existentes
6. Introduciendo Incertidumbre En la mayor parte de las aplicaciones, la incertidumbre es lo común y no la excepción A los sistemas expertos que tratan este tipo de situaciones en forma efectiva se llaman «sistemas expertos basados en probabilidad».
7. Introduciendo Incertidumbre En los primeros sistemas expertos, se eligió la probabilidad como medida para tratar la incertidumbre. Pero muy pronto se encontraron algunos problemas, debidos al uso incorrecto de algunas hipótesis de independencia utilizadas para reducir la complejidad de los cálculos.
8. Introduciendo Incertidumbre Como resultado, en las primeras etapas de los sistemas expertos, la probabilidad fue considerada como una medida de incertidumbre poco práctica. La mayoría de las críticas a los métodos probabilísticos se basa en el altísimo número de parámetros necesarios, la imposibilidad de una asignación o estimación precisa de los mismos, o las hipótesis poco realistas de independencia.
9. Introduciendo Incertidumbre Consecuentemente, en la literatura de la época, surgieron medidas alternativas a la probabilidad, como los factores de certeza, las credibilidades, las plausibilidades, las necesidades o las posibilidades, para tratar la incertidumbre.
10. Introduciendo Incertidumbre Sin embargo, con la aparición de las redes probabilísticas (principalmente las redes Bayesianas y Markovianas) la probabilidad ha resurgido de forma espectacular, y es, hoy en día, la más intuitiva y la más aceptada de las medidas incertidumbre.
11. Veremos brevemente los sistemas expertos de tipo probabilístico, que se basan en la probabilidad como una medida de incertidumbre.
12. Conceptos básicos de Teoría de la Probabilidad Medida de probabilidad Distribuciones de probabilidad Dependencia e independencia Teorema de Bayes Tipos de errores
13. Medida de probabilidad Para medir la incertidumbre se parte de un marco de discernimiento dado S, en el que se incluyen todos los posibles resultados de un cierto experimento como conjunto exhaustivo y mutuamente exclusivo El conjunto S se conoce como «espacio muestral» Una vez definido este conjunto, el objetivo consiste en asignar a todo subconjunto de S un número real que mida el grado de incertidumbre sobre su realización
14. Medida de probabilidad Para obtener medidas con significado físico claro y práctico, se imponen ciertas condiciones o propiedades intuitivas adicionales que definen una clase de medidas que se conocen como «medidas de probabilidad
15. Definición Una función p que proyecta los subconjuntos A ⊆ S en el intervalo [0,1] se llama medida de probabilidad si satisface los siguientes axiomas: Axioma 1 (Normalización): p(S) = 1 Axioma 2 (Aditividad): Para cualquier sucesión infinita A1, A2, …, de subconjuntos disjuntos de S, se cumple la igualdad 𝑃(𝑖=1∞𝐴𝑖) = 𝑖=1∞𝑝(𝐴𝑖)
16. Medida de probabilidad El Axioma 1 establece que, independientemente de nuestro grado de certeza, ocurrirá un elemento del conjunto universal S. El Axioma dos es una fórmula de agregación que se usa para calcular la probabilidad de la unión de subconjuntos distintos. Establece que la incertidumbre de un cierto subconjunto es la suma de las incertidumbres de sus partes (disjuntas)
17. Distribuciones de probabilidad Sea 𝑋1,…,𝑋𝑛un conjunto de variables aleatorias discretas y {x1, . . . , xn} el conjunto de sus posibles realizaciones. Nótese que las variables aleatorias se denotan como mayúsculas y que sus realizaciones se denotan con minúsculas
18. Distribuciones de probabilidad Sea 𝑝𝑥1,…,𝑥𝑛 la función de probabilidad conjunta de las variables de X, es decir 𝑝𝑥1,…,𝑥𝑛=𝑝𝑋1=𝑥1,…,𝑋𝑛=𝑥𝑛 Entonces, la función de probabilidad marginal de la i-ésima variable se obtiene mediante la fórmula 𝑝𝑥𝑖=𝑝𝑋𝑖=𝑥𝑖=𝑥1,…,𝑥𝑖+1,…,𝑥𝑛𝑝(𝑥1,…,𝑥𝑛)
19. Distribuciones de probabilidad El conocimiento de la ocurrencia de un suceso puede modificar las probabilidades de otros sucesos. Cada vez que se dispone de nueva información, las probabilidades de los sucesos pueden, y suelen, cambiar.
20. Probabilidad condicional Sean X e Y dos conjuntos disjuntos de variables tales que p(y) > 0 Entonces, la probabilidad condicional (función de probabilidad condicionada) de X dado Y = y viene dada por 𝑝𝑋=𝑥𝑌=𝑦=𝑝𝑥𝑦= 𝑝(𝑥,𝑦)𝑝(𝑦)
21. Probabilidad condicional Esta ecuación implica que la función de probabilidad conjunta de X e Y puede escribirse como p(x,y) = p(y) p(x|y)
22. Teorema de Bayes Una conocida fórmula de la teoría de la probabilidad puede obtenerse como sigue. Utilizando las fórmulas anteriores tenemos: 𝑝𝑥𝑖𝑥1,…,𝑥𝑘= 𝑝(𝑥𝑖,𝑥1,…,𝑥𝑘)𝑥𝑖𝑝(𝑥𝑖,𝑥1,…,𝑥𝑘) = 𝑝𝑥𝑖𝑝(𝑥1,…,𝑥𝑘|𝑥𝑖)𝑥𝑖𝑝𝑥𝑖𝑝(𝑥1,…,𝑥𝑘|𝑥𝑖) A esta ecuación se le conoce como Teorema de Bayes
23. Teorema de Bayes Para ilustrar el uso de este teorema, supóngase que un paciente puede estar sano (no tiene enfermedad alguna) o tiene una de m-1 enfermedades posibles {E1,…,Em-1} Digamos que E será una variable aleatoria que puede tomar uno de m posibles valores {e1,…,em} donde E = ei significa que el paciente tiene la enfermedad Ei, y E = emsignifica que el paciente no tiene ninguna enfermedad
24. Teorema de Bayes Supóngase también que se tienen n síntomas {S1 , . . . , Sn }. Ahora, dado que el paciente tiene un conjunto de síntomas {s1 , . . . , sk }, se desea calcular la probabilidad de que el paciente tenga la enfermedad Ei, es decir, E = ei.
25. Teorema de Bayes Entonces, aplicando el teorema de Bayes, se obtiene 𝑝𝑒𝑖𝑠1,…,𝑠𝑘=𝑝(ei)p(s1, . . . , sk|ei)𝑥𝑖𝑝(ei)p(s1, . . . , sk|ei) Conviene hacer los siguientes comentarios sobre la fórmula
26. Teorema de Bayes La probabilidad p(ei) se llama probabilidad marginal, prior, “a pri- ori” o inicial de la enfermedad E = eipuesto que puede ser obtenida antes de conocer los síntomas. La probabilidad p(ei|s1,...,sk) es la probabilidad posterior, “a pos- teriori” o condicional de la enfermedad E = ei, puesto que se calcula después de conocer los síntomas S1 = s1, . . . , Sk = sk. La probabilidad p(s1, . . . , sk|ei) se conoce por el nombre de verosimilitudde que un paciente con la enfermedad E = eitenga los síntomas S1 = s1,...,Sk = sk.
27. Teorema de Bayes Por ello, se puede utilizar el teorema de Bayes para actualizar la probabilidad “a posteriori” usando ambas, la probabilidad “a priori” y la verosimilitud