SlideShare una empresa de Scribd logo
1 de 3
Clasificadores bayesianos.
El algoritmo Naïve Bayes
Constantino Malagón Luque
14 de mayo de 2003
Resumen
Este trabajo es una introducción al aprendizaje automático basado en el algoritmo Naïve Bayes.
1 Introducción
Las redes bayesianas, junto con los árboles de decisión y las redes neuronales artificiales, han sido
los tres métodos más usados en aprendizaje automático durante estos últimos años en tareas
como la clasificación de documentos o filtros de mensajes de correo electrónico. Es un método
importante no sólo porque ofrece un análisis cualitativo de los atributos y valores que pueden
intervenir en el problema, sino porque da cuenta también de la importancia cuantitativa de esos
atributos. En el aspecto cualitativo podemos representar cómo se relacionan esos atributos ya sea
en una forma causal, o señalando simplemente de la correlación que existe entre esas variables (o
atributos). Cuantitativamente (y ésta es la gran aportación de los métodos bayesianos), da una
medida probabilística de la importancia de esas variables en el problema (y por lo tanto una
probabilidad explícita de las hipótesis que se formulan). Esta es quizá una de las diferencias
fundamentales que ofrecen las redes bayesianas con respecto a otros métodos -como puedan ser
los árboles de decisión y las redes neuronales-, que no dan una medida cuantitativa de esa
clasificación. Además de estas consideraciones, el aprendizaje basado en redes bayesianas es
especialmente adecuado en ciertas tareas como puede ser la clasificación de textos, siendo incluso
más eficiente que los otros métodos ya reseñados, y ofrece una medida para el estudio y
comprensión de éstos otros métodos [1].
Entre las características que poseen los métodos bayesianos en tareas de aprendizaje se pueden
resaltar las siguientes:
• Cada ejemplo observado va a modificar la probabilidad de que la hipótesis formulada sea
correcta (aumentándola o disminuyéndola). Es decir, una hipótesis que no concuerda con un
conjunto de ejemplos más o menos grande no es desechada por completo sino que lo que harán
será disminuir esa probabilidad estimada para la hipótesis.
• Estos métodos son robustos al posible ruido presente en los ejemplos de entrenamiento y a la
posibilidad de tener entre esos ejemplos de entrenamiento datos incompletos o posiblemente
erróneos.
• Los métodos bayesianos permiten tener en cuenta en la predicción de la hipótesis el
conocimiento a prior o conocimiento del dominio en forma de probabilidades. El problema puede
surgir al tener que estimar ese conocimiento estadístico sin disponer de datos suficientes. Esta
dificultad ha sido estudiada por Kanehmann y Tversky [3], que analizaron los sesgos que se
producen en los sujetos en la estimación subjetiva de las probabilidades de un suceso.
2. Clasificación de patrones
Cualquier sistema de clasificación de patrones se basa en lo siguiente: dado un conjunto de datos
(que dividiremos en dos conjuntos de entrenamiento y de test) representados por pares <atributo,
valor>, el problema consiste en encontrar una función f(x) (llamada hipótesis) que clasifique dichos
ejemplos.
La idea de usar el teorema de Bayes en cualquier problema de aprendizaje automático (en especial
los de clasificación) es que podemos estimar las probabilidades a posteriori de cualquier hipótesis
consistente con el conjunto de datos de entrenamiento para así escoger la hipótesis más probable.
Para estimar estas probabilidades se han propuesto numerosos algoritmos, entre los que cabe
destacar el algoritmo Naïve Bayes.
2.1 Clasificador basado en el algoritmo Naïve Bayes
Dado un ejemplo x representado por k valores el clasificador naïve Bayes se basa en encontrar la
hipótesis más probable que describa a ese ejemplo. Si la descripción de ese ejemplo viene dada
por los valores < 𝑎1, 𝑎2, … , 𝑎1𝑛 > , la hipótesis más probable será aquella que cumpla:
es decir, la probabilidad de que conocidos los valores que describen a ese ejemplo, éste
pertenezcan a la clase 𝑣𝑗 (donde 𝑣𝑗 es el valor de la función de clasificación f(x) en el conjunto nito
V). Por el teorema de Bayes:
Podemos estimar P(𝑣𝑗) contando las veces que aparece el ejemplo vj en el conjunto de
entrenamiento y dividéndolo por el número total de ejemplos que forman este conjunto. Para
estimar el término P(𝑎1, … 𝑎 𝑛|𝑣𝑗), es decir, las veces en que para cada categoría aparecen los
valores del ejemplo x, debo recorrer todo el conjunto de entrenamiento. Este cálculo resulta
impracticable para un número suficientemente grande de ejemplos por lo que se hace necesario
simplificar la expresión. Para ello se recurre a la hipótesis de independencia condicional con el
objeto de poder factorizar la probabilidad. Esta hipótesis dice lo siguiente:
Los valores aj que describen un atributo de un ejemplo cualquiera x son independientes entre sí
conocido el valor de la categoría a la que pertenecen Así la probabilidad de observar la conjunción
de atributos aj dada una categoría a la que pertenecen es justamente el producto de las
probabilidades de cada valor por separado: P(𝑎1, … 𝑎 𝑛|𝑣𝑗) = ∏ P(𝑎𝑗|𝑣𝑗)
Referencias:
[1] Mitchell, Tom, “Machine Learning”, Ed. McGraw-Hill (1997).

Más contenido relacionado

La actualidad más candente

Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...
Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...
Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...radiaz_
 
Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...
Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...
Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...radiaz_
 
Presentación betania1
Presentación betania1Presentación betania1
Presentación betania1Betaniahruiz
 
Clase multivaariado 01
Clase multivaariado 01Clase multivaariado 01
Clase multivaariado 01Jhoel Calderon
 
Taller tatiana -viviana
Taller tatiana -vivianaTaller tatiana -viviana
Taller tatiana -vivianahvalenciaa
 
Modelamiento y Simulacion de sistemas.
Modelamiento y Simulacion de sistemas.Modelamiento y Simulacion de sistemas.
Modelamiento y Simulacion de sistemas.Jesus Guzman Burgos
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariantejpgv84
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte Ijpgv84
 
Representaciones en dos Dimensiones
Representaciones en dos DimensionesRepresentaciones en dos Dimensiones
Representaciones en dos DimensionesNazarethTorres
 
Analisis de datos cuantitativos
Analisis de  datos cuantitativosAnalisis de  datos cuantitativos
Analisis de datos cuantitativosIdalia Benoit
 
Analisis de encuestas
Analisis de encuestasAnalisis de encuestas
Analisis de encuestasMauricio Cano
 
Capitulo 10-sampieri-2008-analisis-de-datos-cuantitativos (1)
Capitulo 10-sampieri-2008-analisis-de-datos-cuantitativos (1)Capitulo 10-sampieri-2008-analisis-de-datos-cuantitativos (1)
Capitulo 10-sampieri-2008-analisis-de-datos-cuantitativos (1)Sara Nathalia Ponce
 
Avance - Investigación Estadística
Avance - Investigación EstadísticaAvance - Investigación Estadística
Avance - Investigación Estadísticahoteles1
 

La actualidad más candente (19)

Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...
Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...
Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...
 
Analisis de factores ppt
Analisis de factores ppt Analisis de factores ppt
Analisis de factores ppt
 
Mario de la_vega
Mario de la_vegaMario de la_vega
Mario de la_vega
 
Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...
Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...
Capc3adtulo 6-el-uso-de-los-mc3a9todos-cuantitativos-para-estudiar-lacovariac...
 
Presentación betania1
Presentación betania1Presentación betania1
Presentación betania1
 
Conceptos tema 1 4
Conceptos tema 1 4Conceptos tema 1 4
Conceptos tema 1 4
 
Clase multivaariado 01
Clase multivaariado 01Clase multivaariado 01
Clase multivaariado 01
 
Taller tatiana -viviana
Taller tatiana -vivianaTaller tatiana -viviana
Taller tatiana -viviana
 
Modelamiento y Simulacion de sistemas.
Modelamiento y Simulacion de sistemas.Modelamiento y Simulacion de sistemas.
Modelamiento y Simulacion de sistemas.
 
1 Semana Analisis Multivariante
1  Semana Analisis Multivariante1  Semana Analisis Multivariante
1 Semana Analisis Multivariante
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I
 
Representaciones en dos Dimensiones
Representaciones en dos DimensionesRepresentaciones en dos Dimensiones
Representaciones en dos Dimensiones
 
Presentacion mod. mate.
Presentacion mod. mate.Presentacion mod. mate.
Presentacion mod. mate.
 
Analisis de datos cuantitativos
Analisis de  datos cuantitativosAnalisis de  datos cuantitativos
Analisis de datos cuantitativos
 
Analisis de encuestas
Analisis de encuestasAnalisis de encuestas
Analisis de encuestas
 
Tarea estadistica
Tarea estadisticaTarea estadistica
Tarea estadistica
 
Capitulo 10-sampieri-2008-analisis-de-datos-cuantitativos (1)
Capitulo 10-sampieri-2008-analisis-de-datos-cuantitativos (1)Capitulo 10-sampieri-2008-analisis-de-datos-cuantitativos (1)
Capitulo 10-sampieri-2008-analisis-de-datos-cuantitativos (1)
 
Muestreo.
Muestreo.Muestreo.
Muestreo.
 
Avance - Investigación Estadística
Avance - Investigación EstadísticaAvance - Investigación Estadística
Avance - Investigación Estadística
 

Destacado

Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...Francisco Berrizbeitia
 
Naive bayes
Naive bayesNaive bayes
Naive bayesabaldove
 
Inteligencia Artificial y Ruby on Rails: Mejora la publicidad de tu web
Inteligencia Artificial y Ruby on Rails: Mejora la publicidad de tu webInteligencia Artificial y Ruby on Rails: Mejora la publicidad de tu web
Inteligencia Artificial y Ruby on Rails: Mejora la publicidad de tu webSergio Espeja
 
Clasificador Naive Bayes para Filtrar Correo Electrónico
Clasificador Naive Bayes para Filtrar Correo ElectrónicoClasificador Naive Bayes para Filtrar Correo Electrónico
Clasificador Naive Bayes para Filtrar Correo ElectrónicoPablo Antonio Alvarado Ruiz
 
Técnicas mineria de datos
Técnicas mineria de datosTécnicas mineria de datos
Técnicas mineria de datoslalopg
 
Algoritmos Aprendizaje Automático.2012
Algoritmos Aprendizaje Automático.2012Algoritmos Aprendizaje Automático.2012
Algoritmos Aprendizaje Automático.2012Guillermo Santos
 
1. Introduction to Association Rule 2. Frequent Item Set Mining 3. Market Bas...
1. Introduction to Association Rule2. Frequent Item Set Mining3. Market Bas...1. Introduction to Association Rule2. Frequent Item Set Mining3. Market Bas...
1. Introduction to Association Rule 2. Frequent Item Set Mining 3. Market Bas...Surabhi Gosavi
 
Generalidades De Las Redes Neuronales Artificiales (RNA)
Generalidades De Las  Redes Neuronales Artificiales  (RNA)Generalidades De Las  Redes Neuronales Artificiales  (RNA)
Generalidades De Las Redes Neuronales Artificiales (RNA)ESCOM
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos04071977
 
Ejemplo-proyecto-completo-pmbok
Ejemplo-proyecto-completo-pmbokEjemplo-proyecto-completo-pmbok
Ejemplo-proyecto-completo-pmbokGs Importations
 

Destacado (12)

Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
 
Naive bayes
Naive bayesNaive bayes
Naive bayes
 
Inteligencia Artificial y Ruby on Rails: Mejora la publicidad de tu web
Inteligencia Artificial y Ruby on Rails: Mejora la publicidad de tu webInteligencia Artificial y Ruby on Rails: Mejora la publicidad de tu web
Inteligencia Artificial y Ruby on Rails: Mejora la publicidad de tu web
 
Algoritmo Naive Bayes
Algoritmo Naive BayesAlgoritmo Naive Bayes
Algoritmo Naive Bayes
 
Clasificador Naive Bayes para Filtrar Correo Electrónico
Clasificador Naive Bayes para Filtrar Correo ElectrónicoClasificador Naive Bayes para Filtrar Correo Electrónico
Clasificador Naive Bayes para Filtrar Correo Electrónico
 
Técnicas mineria de datos
Técnicas mineria de datosTécnicas mineria de datos
Técnicas mineria de datos
 
Algoritmos Aprendizaje Automático.2012
Algoritmos Aprendizaje Automático.2012Algoritmos Aprendizaje Automático.2012
Algoritmos Aprendizaje Automático.2012
 
1. Introduction to Association Rule 2. Frequent Item Set Mining 3. Market Bas...
1. Introduction to Association Rule2. Frequent Item Set Mining3. Market Bas...1. Introduction to Association Rule2. Frequent Item Set Mining3. Market Bas...
1. Introduction to Association Rule 2. Frequent Item Set Mining 3. Market Bas...
 
Generalidades De Las Redes Neuronales Artificiales (RNA)
Generalidades De Las  Redes Neuronales Artificiales  (RNA)Generalidades De Las  Redes Neuronales Artificiales  (RNA)
Generalidades De Las Redes Neuronales Artificiales (RNA)
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Ejemplo-proyecto-completo-pmbok
Ejemplo-proyecto-completo-pmbokEjemplo-proyecto-completo-pmbok
Ejemplo-proyecto-completo-pmbok
 

Similar a Aprendizaje bayesiano

Redes Bayesianas aplicadas a la Aprobación de un Módulo Universitario
Redes Bayesianas aplicadas a la Aprobación de un Módulo UniversitarioRedes Bayesianas aplicadas a la Aprobación de un Módulo Universitario
Redes Bayesianas aplicadas a la Aprobación de un Módulo UniversitarioInnoVacompu
 
Análisis de datos
Análisis de datosAnálisis de datos
Análisis de datoscaceli
 
Erica análisis-factorial (1)
Erica análisis-factorial (1)Erica análisis-factorial (1)
Erica análisis-factorial (1)cecilia farfan
 
Definición de simulación
Definición de simulaciónDefinición de simulación
Definición de simulacióncoquetalinda
 
Definición de simulación
Definición de simulaciónDefinición de simulación
Definición de simulacióncoquetalinda
 
6 confiabilidad de contenido
6 confiabilidad de contenido6 confiabilidad de contenido
6 confiabilidad de contenidocrownred
 
Análisis Cuantitativo: Estadística Inferencial
Análisis Cuantitativo: Estadística InferencialAnálisis Cuantitativo: Estadística Inferencial
Análisis Cuantitativo: Estadística InferencialHarold Gamero
 
Analisis de datos cuantitativos
Analisis de datos cuantitativosAnalisis de datos cuantitativos
Analisis de datos cuantitativosDila0887
 
Ia2 Algoritmos Clasificacion Vecindad
Ia2 Algoritmos Clasificacion VecindadIa2 Algoritmos Clasificacion Vecindad
Ia2 Algoritmos Clasificacion VecindadCarlos Román
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariadoLB: El Palmar
 
Exposicion estadistica. prograna spss
Exposicion estadistica. prograna spssExposicion estadistica. prograna spss
Exposicion estadistica. prograna spssgabrielanataly
 

Similar a Aprendizaje bayesiano (20)

Redes Bayesianas aplicadas a la Aprobación de un Módulo Universitario
Redes Bayesianas aplicadas a la Aprobación de un Módulo UniversitarioRedes Bayesianas aplicadas a la Aprobación de un Módulo Universitario
Redes Bayesianas aplicadas a la Aprobación de un Módulo Universitario
 
Clase 2.
Clase 2.Clase 2.
Clase 2.
 
2.3
2.32.3
2.3
 
Análisis de datos
Análisis de datosAnálisis de datos
Análisis de datos
 
Erica análisis-factorial (1)
Erica análisis-factorial (1)Erica análisis-factorial (1)
Erica análisis-factorial (1)
 
Definición de simulación
Definición de simulaciónDefinición de simulación
Definición de simulación
 
Definición de simulación
Definición de simulaciónDefinición de simulación
Definición de simulación
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
 
REPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdfREPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdf
 
REPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdfREPASO MODELOS ECONOMETRICOS.pdf
REPASO MODELOS ECONOMETRICOS.pdf
 
Exposicion Tema Analisis De Datos
Exposicion Tema Analisis De DatosExposicion Tema Analisis De Datos
Exposicion Tema Analisis De Datos
 
exposicion bioestadistca.pptx
exposicion bioestadistca.pptxexposicion bioestadistca.pptx
exposicion bioestadistca.pptx
 
6 confiabilidad de contenido
6 confiabilidad de contenido6 confiabilidad de contenido
6 confiabilidad de contenido
 
Análisis Cuantitativo: Estadística Inferencial
Análisis Cuantitativo: Estadística InferencialAnálisis Cuantitativo: Estadística Inferencial
Análisis Cuantitativo: Estadística Inferencial
 
Analisis de datos cuantitativos
Analisis de datos cuantitativosAnalisis de datos cuantitativos
Analisis de datos cuantitativos
 
Ia2 Algoritmos Clasificacion Vecindad
Ia2 Algoritmos Clasificacion VecindadIa2 Algoritmos Clasificacion Vecindad
Ia2 Algoritmos Clasificacion Vecindad
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
 
Introducción estadística
Introducción estadística Introducción estadística
Introducción estadística
 
Tema estadistica
Tema estadisticaTema estadistica
Tema estadistica
 
Exposicion estadistica. prograna spss
Exposicion estadistica. prograna spssExposicion estadistica. prograna spss
Exposicion estadistica. prograna spss
 

Último

PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILPREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfhees071224mmcrpna1
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptxESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptxKatherineFabianLoza1
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxYoladsCabarcasTous
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024eluniversocom
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfPREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfeluniversocom
 
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADORPREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOReluniversocom
 
stellaire vinos de mora SAS proyecto de vino mora
stellaire vinos de mora SAS proyecto de vino morastellaire vinos de mora SAS proyecto de vino mora
stellaire vinos de mora SAS proyecto de vino moraYessicaBrigithArdila
 
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdfINTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdfmaryisabelpantojavar
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Ivie
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfhernestosoto82
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería yocelynsanchezerasmo
 
Niveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologiaNiveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologiatongailustraconcienc
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdfCamilaArzate2
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILeluniversocom
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILeluniversocom
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotessald071205mmcnrna9
 

Último (20)

PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
 
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILPREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
 
Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdf
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptxESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptx
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfPREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
 
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADORPREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
 
stellaire vinos de mora SAS proyecto de vino mora
stellaire vinos de mora SAS proyecto de vino morastellaire vinos de mora SAS proyecto de vino mora
stellaire vinos de mora SAS proyecto de vino mora
 
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdfINTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdf
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería
 
Niveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologiaNiveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologia
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotes
 

Aprendizaje bayesiano

  • 1. Clasificadores bayesianos. El algoritmo Naïve Bayes Constantino Malagón Luque 14 de mayo de 2003 Resumen Este trabajo es una introducción al aprendizaje automático basado en el algoritmo Naïve Bayes. 1 Introducción Las redes bayesianas, junto con los árboles de decisión y las redes neuronales artificiales, han sido los tres métodos más usados en aprendizaje automático durante estos últimos años en tareas como la clasificación de documentos o filtros de mensajes de correo electrónico. Es un método importante no sólo porque ofrece un análisis cualitativo de los atributos y valores que pueden intervenir en el problema, sino porque da cuenta también de la importancia cuantitativa de esos atributos. En el aspecto cualitativo podemos representar cómo se relacionan esos atributos ya sea en una forma causal, o señalando simplemente de la correlación que existe entre esas variables (o atributos). Cuantitativamente (y ésta es la gran aportación de los métodos bayesianos), da una medida probabilística de la importancia de esas variables en el problema (y por lo tanto una probabilidad explícita de las hipótesis que se formulan). Esta es quizá una de las diferencias fundamentales que ofrecen las redes bayesianas con respecto a otros métodos -como puedan ser los árboles de decisión y las redes neuronales-, que no dan una medida cuantitativa de esa clasificación. Además de estas consideraciones, el aprendizaje basado en redes bayesianas es especialmente adecuado en ciertas tareas como puede ser la clasificación de textos, siendo incluso más eficiente que los otros métodos ya reseñados, y ofrece una medida para el estudio y comprensión de éstos otros métodos [1]. Entre las características que poseen los métodos bayesianos en tareas de aprendizaje se pueden resaltar las siguientes: • Cada ejemplo observado va a modificar la probabilidad de que la hipótesis formulada sea correcta (aumentándola o disminuyéndola). Es decir, una hipótesis que no concuerda con un conjunto de ejemplos más o menos grande no es desechada por completo sino que lo que harán será disminuir esa probabilidad estimada para la hipótesis. • Estos métodos son robustos al posible ruido presente en los ejemplos de entrenamiento y a la posibilidad de tener entre esos ejemplos de entrenamiento datos incompletos o posiblemente erróneos.
  • 2. • Los métodos bayesianos permiten tener en cuenta en la predicción de la hipótesis el conocimiento a prior o conocimiento del dominio en forma de probabilidades. El problema puede surgir al tener que estimar ese conocimiento estadístico sin disponer de datos suficientes. Esta dificultad ha sido estudiada por Kanehmann y Tversky [3], que analizaron los sesgos que se producen en los sujetos en la estimación subjetiva de las probabilidades de un suceso. 2. Clasificación de patrones Cualquier sistema de clasificación de patrones se basa en lo siguiente: dado un conjunto de datos (que dividiremos en dos conjuntos de entrenamiento y de test) representados por pares <atributo, valor>, el problema consiste en encontrar una función f(x) (llamada hipótesis) que clasifique dichos ejemplos. La idea de usar el teorema de Bayes en cualquier problema de aprendizaje automático (en especial los de clasificación) es que podemos estimar las probabilidades a posteriori de cualquier hipótesis consistente con el conjunto de datos de entrenamiento para así escoger la hipótesis más probable. Para estimar estas probabilidades se han propuesto numerosos algoritmos, entre los que cabe destacar el algoritmo Naïve Bayes. 2.1 Clasificador basado en el algoritmo Naïve Bayes Dado un ejemplo x representado por k valores el clasificador naïve Bayes se basa en encontrar la hipótesis más probable que describa a ese ejemplo. Si la descripción de ese ejemplo viene dada por los valores < 𝑎1, 𝑎2, … , 𝑎1𝑛 > , la hipótesis más probable será aquella que cumpla: es decir, la probabilidad de que conocidos los valores que describen a ese ejemplo, éste pertenezcan a la clase 𝑣𝑗 (donde 𝑣𝑗 es el valor de la función de clasificación f(x) en el conjunto nito V). Por el teorema de Bayes: Podemos estimar P(𝑣𝑗) contando las veces que aparece el ejemplo vj en el conjunto de entrenamiento y dividéndolo por el número total de ejemplos que forman este conjunto. Para estimar el término P(𝑎1, … 𝑎 𝑛|𝑣𝑗), es decir, las veces en que para cada categoría aparecen los valores del ejemplo x, debo recorrer todo el conjunto de entrenamiento. Este cálculo resulta impracticable para un número suficientemente grande de ejemplos por lo que se hace necesario simplificar la expresión. Para ello se recurre a la hipótesis de independencia condicional con el objeto de poder factorizar la probabilidad. Esta hipótesis dice lo siguiente:
  • 3. Los valores aj que describen un atributo de un ejemplo cualquiera x son independientes entre sí conocido el valor de la categoría a la que pertenecen Así la probabilidad de observar la conjunción de atributos aj dada una categoría a la que pertenecen es justamente el producto de las probabilidades de cada valor por separado: P(𝑎1, … 𝑎 𝑛|𝑣𝑗) = ∏ P(𝑎𝑗|𝑣𝑗) Referencias: [1] Mitchell, Tom, “Machine Learning”, Ed. McGraw-Hill (1997).