SlideShare una empresa de Scribd logo
1 de 36
Descargar para leer sin conexión
Inteligencia Artificial.
Actividad Académica
Colaborativa 3
Actividad de Aplicación. Algoritmos de
Aprendizaje Automático
Guillermo Santos García

@gsantosgo




                                         2012
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                            Automático

Contenido
1. Objetivo.............................................................................................................................. 3
2. Enunciado .......................................................................................................................... 3
3. Plataforma de desarrollo .................................................................................................. 3
4. Proceso de desarrollo de la solución ............................................................................... 3
   4.1 Descargar e instalación RapidMiner 5.2.000............................................................. 3
   4.2 Proceso de Aprendizaje Automático ......................................................................... 7
   4.2.1 Conjunto de Datos Seleccionados .......................................................................... 8
   4.2.2 Importación de datos............................................................................................. 10
   4.2.3 Detalles de Recursos .............................................................................................. 16
   4.2.4 Algoritmo de Reglas ............................................................................................... 16
   4.2.5 Árboles de decisión ................................................................................................ 18
   4.2.6 Naive Bayes (Bayes Ingenuo) ................................................................................ 21
   4.2.7 Soporte de Máquinas Vectoriales ......................................................................... 25
   4.3 Comparativa .............................................................................................................. 28
   4.3.1 Resultados Algoritmo de Reglas ........................................................................... 29
   4.3.2 Resultados Arboles de Decisión ............................................................................ 31
   4.3.3 Resultados Naive Bayes ......................................................................................... 32
   4.3.4 Resultados Support Vector Machine .................................................................... 34
   4.3.5 Conclusión Final ..................................................................................................... 35




                                               Inteligencia Artificial                                              Página 2 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




1. Objetivo
      Conocer las diferencias entre los distintos algoritmos de aprendizaje
       automático.
      Utilizar una herramienta para minería de datos y comparar varios algoritmos de
       aprendizaje automático. Para ello vamos a trabajar con la herramienta
       RapidMiner.


2. Enunciado
La práctica se compone de los siguientes pasos:
    1. Descargar e instalar la herramienta RapidMiner (http://rapid-i.com)
    2. Utilizando las colecciones de ejemplos que vienen en los repositorios de
       ejemplo, realizar una comparativa de los resultados de un algoritmo de reglas,
       uno de árboles de decisión, el Naive Bayes y uno de soporte de máquinas
       vectoriales.
    3. Cada miembro del grupo debe probar n/2 algoritmos.
    4. Una vez hechas las pruebas, se deben juntar los resultados obtenidos por cada
       miembro y comparar los resultados.


3. Plataforma de desarrollo
Para realización de esta práctica, se ha utilizado:

   -   Dell Inspiron 1525 Core 2 Duo.
   -   Sistema Operativo Windows XP SP3 32Bits.
   -   Java Runtime Environment 1.6.0_27.
   -   Rapid Miner 5.2.000 Community Edition.


4. Proceso de desarrollo de la solución

4.1 Descargar e instalación RapidMiner 5.2.000
Para completar la realización de esta práctica necesitamos hacer uso de la herramienta
de minería de datos RapidMiner. RapidMiner es una herramienta para realizar
                               Inteligencia Artificial                  Página 3 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático

aprendizaje automático, minería de datos, minería de texto, análisis predictivo y
análisis de negocios mediante una interface gráfica de usuario. Entre sus
características podemos destacar:

   -   Extracción, Transformación y Carga de datos (ETL).
   -   Preprocesamiento de datos.
   -   Visualización.
   -   Modelización.
   -   Evaluación.
   -   Despliegue.

 Nota. RapidMiner es una aplicación que está programada en Java, luego para llevar
 a cabo su ejecución se requiere la máquina virtual de Java de Oracle.


 Nota. La distribución de RapidMiner que vamos a usar es la Community Edition.
 Existe otra distribución como es la Enterprise Edition que soporta una serie de
 servicios y garantías adicionales.


¿Dónde realizamos la descarga?

Nos tenemos que ir a la siguiente U.R.I. http://rapid-i.com/content/view/26/84/. Una
vez en esta página seleccionamos el enlace de descarga para nuestra plataforma que
en nuestro caso es Windows versión de 32 bits. A continuación, nos da la opción de
podernos registrar en el Sitio Web de RapidMiner, como el registro es opcional,
decidimos no registrarnos. Y, ya por último, se procede a la descarga del producto
seleccionado y que realmente se encuentra es la siguiente U.R.I.:

https://sourceforge.net/projects/rapidminer/files/1.%20RapidMiner/5.2/rapidmine
r-5.2.000x32-install.exe/download

En este punto ya tendremos un fichero descargado con este nombre rapidminer-
5.2.000x32-install.exe.




                            Inteligencia Artificial                   Página 4 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático

Instalación

Procedemos a su instalación mediante la ejecución del fichero anteriormente
descargado.

Una vez que el producto se ha instalado correctamente, podemos observar en la
siguiente imagen que su instalación se ha producido en el directorio C:Archivos de
programaRapid-IRapidMiner5, en este caso para el Sistema Operativo Windows XP.




Ejecución de la Aplicación

Para llevar a cabo la ejecución simplemente accedemos al menú de aplicaciones de
Windows XP Y ejecutamos la opción de menú RapidMiner 5. Y comenzará, a iniciarse
la aplicación.




                             Inteligencia Artificial                 Página 5 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




En la siguiente imagen podemos observar el aspecto del entorno de RapidMiner 5.




                            Inteligencia Artificial                   Página 6 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                         Automático




4.2 Proceso de Aprendizaje Automático
Recordamos que dentro del proceso de aprendizaje automático existen como dos
métodos básicos:

   -   Aprendizaje Automático Supervisado. En el que tomamos un conjunto de
       datos con sus atributos y su clase, y se crea un modelo de clasificación también
       llamado clasificador. Este modelo constará de un algoritmo de clasificación que
       se encargará de poder clasificar los datos en una determinada clase objetivo.

       Posteriormente este modelo que se ha generado, va a usar toda su información
       de aprendizaje ya almacenada, para clasificar o predecir la clase, de un
       conjunto nuevo de datos sin clasificar (Ej. En el caso de detección de correo
       basura o Spam, cuando llega un nuevo correo, el modelo nos dirá si el correo es
       basura o no).

       Objetivo. Generalización de Comportamiento




                             Inteligencia Artificial                    Página 7 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático

   -   Aprendizaje Automático No Supervisado. Aquí no existe una clase, nosotros
       tenemos un conjunto de datos, y queremos a obtener patrones o reglas ocultas
       a partir de esos datos.

       Objetivo. Detención de patrones o reglas de asociación

4.2.1 Conjunto de Datos Seleccionados
En este punto vamos realizar una descripción del conjunto de datos seleccionados para
realizar esta práctica de aprendizaje automático.

¿Cuál es el conjunto de datos para realizar esta práctica?

El conjunto de datos (dataset) que hemos elegido del Repositorio de Aprendizaje
Automático de UCI es Breast Cancer Wisconsin (Diagnostic) Data Set.

Para más información acerca de este conjunto de datos podemos dirigirnos a la
siguientes U.R.I.:
http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29




Información del Conjunto de Datos

Las características se calculan a partir de una imagen digitalizada de una aspiración con
aguja fina (FNA) de una masa mamaria. Ellas describen las características de los
núcleos de células presentes en la imagen.

Número de instancias: 699.

Número de atributos: 10 atributos y 1 clase.

Clase objetivo: Clasificación binaria 2=Cáncer Benigno y 4=Cáncer Maligno.

Información de los atributos

                 ID     Atributo                         Dominio
                 1      Sample code number               Id number
                 2      Clump Thickness                  1 - 10
                 3      Uniformity of Cell Size          1 - 10
                 4      Uniformity of Cell Shape         1 - 10
                 5      Marginal Adhesion                1 – 10
                 6      Single Epithelial Cell Size      1 – 10
                 7      Bare Nuclei                      1 – 10

                               Inteligencia Artificial                    Página 8 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático

                 8      Bland Chromatin                 1 – 10
                 9      Normal Nucleoli                 1 – 10
                 10     Mitoses                         1 – 10
                 11     Class                           2:benign, 4:malignant


Vista del conjunto de datos desde un editor de texto




¿Cómo son los datos?

Antes de realizar cualquier proceso exploratorio de minería de datos, siempre es
aconsejable ver los datos. Existen muchos formatos de datos e incluso su codificación
depende del algoritmo que se desee utilizar.

Detalles a tener en cuenta, a la hora de trabajar con un conjunto de datos (dataset).

   -   Encabezamientos de columnas.
   -   Identificadores de filas.
   -   Separadores. Si se usa la coma (,) como separador de atributos, podemos tener
       problemas con valores numéricos.
   -   Valores en falta (Missing values). Puede que haya atributos que no tengan
       valores en algunos casos.




                              Inteligencia Artificial                       Página 9 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático

4.2.2 Importación de datos
Antes de proceder a crear los modelos de aprendizaje automático, dentro de mi
repositorio local en la herramienta RapidMiner decido crear la siguiente estructura de
carpetas para la realización esta práctica.

La carpeta denominada ConjuntoDatos almacenará la importación de conjunto de
datos (datasets) y la carpeta denominada ProcesosAprendizaje almacenará los
diferentes procesos de aprendizaje de los distintos algoritmos que se piden para esta
práctica.




¿Qué fichero tenemos que importar?

El fichero a importar es breast-cancer-wisconsin.data. Este fichero está en formato de
datos CSV (comma-separated values).

  Nota. Desde RapidMiner, la opción de importar nuestro conjunto de datos desde la
  Pestaña Repositories y la opción de Menu Import CSV File (ver imagen) tiene un
  problema. Qué si nos hemos equivocado en alguna de las configuraciones de los
  distintos pasos de importación, y queremos modificarlo a posteriori, no es posible
  y tenemos que realizar todo el proceso de importación de nuevo. Existe una mejor
  alternativa que es usar el operador Import > Data > Read CSV.




Pasos de Importación de Conjunto de Datos mediante operador Read CSV


                             Inteligencia Artificial                   Página 10 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático

El operador Read CSV se usará para realizar la importación del conjunto de datos de
Cancer de Mama de Wisconsin, y que se usará este mismo operador para los procesos
de aprendizaje de los distintos algoritmos.

A, continuación, indicamos los cuatro pasos llevados a cabo usando el asistente de
importación, que nos proporciona el operador Read CSV.

En la siguiente imagen podemos ver el operador seleccionado Read CSV.




Paso 1. Asistente de Importación de Datos

Indicamos el fichero del conjunto de datos que queremos importar.




                            Inteligencia Artificial                 Página 11 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




Paso 2. Asistente de Importación de Datos

En este paso indicamos cuál es el separador de los distintos atributos del conjunto de
datos, en este caso es la coma (“,”).




Paso 3. Asistente de Importación de Datos

En este paso se pueden realizar anotaciones de los atributos.




                             Inteligencia Artificial                   Página 12 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




Paso 4. Asistente de Importación de Datos

En este punto especificamos el nombre de cada uno de los atributos del conjunto de
datos, también se definen los tipos de datos de nuestros atributos y además se asignan
roles a los atributos. El atributo Code Number tendrá el rol de ID y Class tendrá en rol
de Label (Etiqueta).

  Nota. Hemos observado que RapidMiner detecta automáticamente los tipos de los
  atributos, pero a veces de manera errónea, tenemos que tenerlo en cuenta.




                             Inteligencia Artificial                    Página 13 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático

En caso, de que al realizar la importación queramos cambiar el título, tipo de algún
atributo, podemos hacerlo cambiando los parámetros del operador Read CSV.




  Nota. De manera general durante cualquier proceso de minería de datos, el 70%
  del tiempo se va en la selección, procesamiento y transformación de los datos.
  Todas estas fases son esenciales. Para generar un buen modelo que nos permita
  generalizar el comportamiento, es requisito imprescindible una buena colección de
  datos.


Detalles de la vista de los metadatos de Breast Cancer Wisconsin.




                             Inteligencia Artificial                 Página 14 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




Observamos que para el atributo Bare Nuclei existen 16 instancias en el que falta el
valor para ese atributo (?). La falta de valores no sabe como procesarlas RapidMiner y
puede darnos problemas a la hora de crear un modelo de aprendizaje. Nuestra
decisión es realizar un filtrado en todos los procesos de aprendizaje para obviar esas
16 instancias, con lo cual solamente tendremos un total de 683 instancias en lugar de
699.

Este filtrado lo realizamos mediante el operador Data Transformation > Filtering >
Sampling > Filter examples con la condición de que no se admiten instancias con
atributos con falta de valores (no_missing_attributes).




                             Inteligencia Artificial                   Página 15 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




En este punto, ya sabemos cómo se realiza la importación de datos y filtrado de datos,
que servirá como base para todos modelos de aprendizaje con su respectivo
algoritmos que se piden para esta práctica.

4.2.3 Detalles de Recursos
Se detalla brevemente los diferentes recursos de esta práctica:

Procesos de Aprendizaje                         Fichero
Árbol de Decisión                               DecisionTree_BreastCancerWisconsin.rmp
Árbol de Decisión (Evaluación)                  DecisionTree_BreastCancerWisconsin_Perf.rmp
Naive Bayes                                     NaiveBayes_BreastCancerWisconsin.rmp
Naive Bayes (Evaluación)                        NaiveBayes_BreastCancerWisconsin_Perf.rmp
Reglas                                          RuleInduction_BreastCancerWisconsin.rmp
Reglas (Evaluación)                             RuleInduction_BreastCancerWisconsin_Perf.rmp
SVM                                             SVM_BreastCancerWisconsin.rmp
SVM (Evaluación)                                SVM_BreastCancerWisconsin_Perf.rmp


4.2.4 Algoritmo de Reglas
Los algoritmos de generación de reglas se encuentran entre los más populares en el
aprendizaje automático, debido a que los clasificadores que producen son series de
reglas que se pueden usar tanto para clasificar datos como para comprenderlos por
nuestra parte.

El operador empleado de RapidMiner para realizar un proceso de aprendizaje basado
en un algoritmo de reglas es Rule Induction.
                                 Inteligencia Artificial                    Página 16 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático

Para acceder a este operador dentro de los operadores de RapidMiner debemos seguir
esta ruta Operador Modelling > Classification and Regression > Rule Induction > Rule
Induction (Versión 5.2.000).

 Nota. El operador Rule Induction funciona de manera similar a la regla de
 aprendizaje proposicional llamada Repeated Incremental Pruning to Produce Error
 Reduction (RIPPER).

 Los métodos de Inducción de Reglas Supervisadas (Rule Induction), proporcionan
 una forma más fácil de comprensión del clasificador.


En la siguiente imagen podemos                  observer   el   proceso     denominado
RuleInduction_BreastCancerWisconsin.




Como se ha comentado anteriormente, es necesario filtrar los datos antes de
procesarlos para eliminar las instancias por falta de valores, por ello usamos el
operador Filter Examples antes del operador Rule Induction.




                            Inteligencia Artificial                       Página 17 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




Cuando ejecutamos el proceso estos son los resultados obtenidos:

Se han obtenido un conjunto de 8 reglas, con sus respectivas distribuciones. Si clase
objetivo es 2, el cáncer es benigno y si es 4 el cáncer es maligno.




4.2.5 Árboles de decisión
Un árbol de decisión es un grupo jerárquico de relaciones organizados dentro de una
estructura de árbol, comenzando con una variable denominada nodo raíz. El nodo raíz
es dividido en dos o más ramas, representación de clases separadas del nodo raíz (si es
categórica) o rangos específicos a lo largo de la escala del nodo (si es continua).

El operador empleado de RapidMiner para realizar un proceso de aprendizaje basado
en un algoritmo de arboles de decisión es Decision Tree.

Para acceder a este operador dentro de los operadores de RapidMiner debemos seguir
esta ruta Operador Modelling > Classification and Regression > Decision Tree >
Decision Tree (Versión 5.2.000).




                             Inteligencia Artificial                   Página 18 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático

  Nota. El operador Decision Tree realiza árboles de decisión a partir de datos
  nominales y numéricos. Los árboles de decisión normalmente son fáciles de
  comprender por los seres humanos y son métodos de clasificación poderosos.

  Este operador Decision Tree funciona de manera similar al algoritnmo C4.5 o un
  CART.


Los nodos de árbol permiten bifurcar en función de los atributos y sus valores.

Las hojas del árbol nos proporcionan una predicción.

Deseamos que la predicción asociada a una hoja sea buena para los datos cuyos
valores en los atributos lleven a esa hoja.




Filtramos los datos antes de procesarlos para eliminar las instancias por falta de
valores, por ello usamos el operador Filter Examples antes de del operador Decision
Tree.




                             Inteligencia Artificial                     Página 19 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




Cuando ejecutamos el proceso estos son los resultados obtenidos:

      Vista Gráfica (Graph View). Se muestra una estructura de árbol de decisión con
       los diferentes nodos que se corresponden a atributos y sus diferentes ramas
       que indican las decisiones. Los nodos hojas indican la predicción. Recordamos si
       el valor del nodo es 2 el cáncer es benigno, y si es 4 el cáncer es maligno.




      Vista Texto (Text View). Representación del árbol en forma de texto.




                             Inteligencia Artificial                   Página 20 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




4.2.6 Naive Bayes (Bayes Ingenuo)
Dentro de los algoritmos probabilísticos, el más simple aunque frecuentemente
efectivo es Bayes Ingenuo, o Naive Bayes. Este algoritmo asume independencia
estadística entre los atributos, lo que es manifiestamente falso en el mundo real, y
sería equivalente a una red bayesiana con un nodo por atributo, todos ellos
independientes y apuntando al atributo de la clase.

El modelo construido es una tabla de probabilidades que se utilizan en el momento de
la clasificación para estimar la probabilidad de que un nuevo ejemplo pertenezca a
cada clase.

Para acceder a este operador dentro de los operadores de RapidMiner debemos seguir
esta ruta Operador Modelling > Classification and Regression > Bayesian > Modeling
(Version 5.2.000).

 Nota. El operador Naive Bayes proporciona una modelo de clasificación usando
 distribuciones normales estimadas.Se trata de un clasificador probabilístico basado
 en el teorema de Bayes y algunas hipótesis simplificadores adicionales.



 Nosotros hemos usado la corrección de Laplace para prevenir la influencia de las
 probabilidades de cero.
                            Inteligencia Artificial                   Página 21 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




Como se ha comentado anteriormente, es necesario filtrar los datos antes de
procesarlos para eliminar las instancias por falta de valores, por ello usamos el
operador Filter Examples antes de usar el operador Naive Bayes.




Cuando ejecutamos el proceso estos son los resultados obtenidos:

      Vista Texto (Text View)




                             Inteligencia Artificial               Página 22 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                       Automático




                  Inteligencia Artificial        Página 23 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                       Automático

   Vista en Gráfico (Plot View) Podemos observar las dos distribuciones para
    cáncer benigno (2) y cáncer maligno en función del atributo “Clump Thickness”.




   Tabla de distribución (Distribution table)




                           Inteligencia Artificial                 Página 24 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático

4.2.7 Soporte de Máquinas Vectoriales
Máquinas de Soporte de Vectorial o Maquinas de Vectores de Soporte son un conjunto
de algoritmo de aprendizaje Supervisados.

Estos métodos están propiamente relacionados con problemas de clasificación y
regresión. Dado un conjunto de ejemplos de entrenamiento (de muestras) podemos
etiquetar las clases y entrenar una SVM para construir un modelo que prediga la clase
de una nueva muestra.

Este operador está ubicado en la siguiente ruta del RapidMiner:

Para acceder a este operador dentro de los operadores de RapidMiner debemos seguir
esta ruta Operador Modelling > Classification and Regression > Support Vector
Modeling > Support Vector Machine (Version 5.2.000).

  Nota. El operador Support Vector Machine es JMySVMLearner que proporciona
  una implementación Java interna del mySVM de Stefan Rueping.

  Son predictores lineales, que durante su entrenamiento consiste en calcular el
  hiperplano de margen máximo. Para ello se aplica una variante dual de
  programación cuadrática convexa que opera con los datos mediante productos
  escalares

  Proporciona un algoritmo rápido con resultados buenos para muchas tareas de
  aprendizaje.



  Nota. Cada operador de aprendizaje tiene capacidades particulares para el manejo
  de conjunto de datos. El algoritmo SVM no soporta conjunto de datos (dataset)
  cuyos atributos sean polinominal.




                             Inteligencia Artificial                  Página 25 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




Como en los demás procesos de aprendizaje, aquí también eliminamos las instancias
por falta de valores, para ello usamos el operador Filter Examples antes del operador
SVM.




Cuando ejecutamos el proceso estos son los resultados obtenidos:

      Vista de Texto (Text View)




                             Inteligencia Artificial                  Página 26 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                       Automático




   Tabla de Pesos (Weight table)




   Tabla Vector Soporte (Support Vector table)




                         Inteligencia Artificial   Página 27 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




4.3 Comparativa
En esta práctica, nosotros hemos importado el conjunto de datos Breast Cancer
Wisconsin y hemos realizado un entrenamiento basado en distintos módelos de
aprendizaje como son: un modelo de reglas, un modelo de árbol de decisión, un
modelo de Naive Bayes (Bayes Ingenuo) y por último un modelo Support Vector
Machine (SVM). Para realizar una evaluación de cada modelo de aprendizaje hemos
usado la validación cruzada. Recordamos que la validación cruzada (X-Validation)
funciona usando parte de los datos para entrenar el modelo, y el resto del conjunto de
datos para prueba de la precisión (accuracy) del modelo entrenado. De las 683
instancias disponibles para el conjunto de datos (dataset) Breast Cancer Wisconsin, el
90% de las instancias últimas se usará para entrenamiento del modelo, y el 10% de las
instancias primeras se usará para probar la precisión (accuracy) del modelo entrenado.

El objetivo es predecir el cáncer de mama en Wisconsin, clasificando los canceres en
benignos (2) y malignos (4).

A, continuación, indicamos los resultados obtenidos mediante validación cruzada, en el
siguiente orden:

   -   Resultado Algoritmo de Reglas.
   -   Resultado Árbol de Decisión.
   -   Resultado Naive Bayes.
   -   Resultado Support Vector Machine.


                             Inteligencia Artificial                   Página 28 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático

4.3.1 Resultados Algoritmo de Reglas
Recurso: RuleInduction_BreastCancerWisconsin_Perf




Tabla de contingencia para dos clases 2=Cáncer Benigno y 4=Cáncer Maligno.




                            Inteligencia Artificial                 Página 29 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




Clase objetivo: Clasificación binaria 2=Cáncer Benigno y 4=Cáncer Maligno.




                            Inteligencia Artificial                   Página 30 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático

4.3.2 Resultados Arboles de Decisión
Recurso: DecisionTree_BreastCancerWisconsin_Perf




Tabla de contingencia para dos clases 2=Cáncer Benigno y 4=Cáncer Maligno.




                            Inteligencia Artificial                 Página 31 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




Clase objetivo: Clasificación binaria 2=Cáncer Benigno y 4=Cáncer Maligno.

4.3.3 Resultados Naive Bayes
Recurso: NaiveBayes_BreastCancerWisconsin_Perf




Tabla de contingencia para dos clases 2=Cáncer Benigno y 4=Cáncer Maligno.


                            Inteligencia Artificial                   Página 32 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




Clase objetivo: Clasificación binaria 2=Cáncer Benigno y 4=Cáncer Maligno.




                            Inteligencia Artificial                   Página 33 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático

4.3.4 Resultados Support Vector Machine
Recurso: SVM_BreastCancerWisconsin_Perf




Tabla de contingencia para dos clases 2=Cáncer Benigno y 4=Cáncer Maligno.




                            Inteligencia Artificial                 Página 34 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                          Automático




Clase objetivo: Clasificación binaria 2=Cáncer Benigno y 4=Cáncer Maligno.

4.3.5 Conclusión Final
En esta práctica se han empleado modelos predictores basados en diferentes
algoritmos de aprendizaje, y que emplean diferentes técnicas de cálculos para predecir
la clase objetivo.

Los algoritmos de reglas y los basados en arboles de decisión generan modelos
predictivos que son más fáciles de comprender por los seres humanos. Imaginemos
que tenemos que transmitir a algún jefe o explicarle a algún cliente, cuáles son las
decisiones que el modelo predictor ha llevado a cabo para clasificar una determinada
instancia. Sin duda, que esta tarea se facilita enormemente en el caso de algoritmos de
reglas y arboles de decisión, por el contrario, esto lo tendríamos mucho más
complicado en el caso de Naive Bayes y SVM.

  Nota. Nosotros hemos entrenado (train) nuestro modelo basado en un conjunto
  de datos y posteriormente lo hemos probado (test) basado en ese mismo conjunto
  de datos, de esta forma hemos visto si se equivoca mucho o poco. Hay que tener
  en cuenta, que esto nos dará evaluación demasiado optimista, porque hemos
  entrenado justo con esos datos.




                             Inteligencia Artificial                   Página 35 de 36
AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje
                            Automático

   Nota. El proceso de aprendizaje automático dentro de la minería de datos, indica
   que se trata de un arte, es decir, a veces para el mismo conjunto de datos,
   empleando diferentes algoritmos de aprendizaje, unos algoritmos predicen mejor,
   otros peor, o ni peor ni mejor. Lo que se suele hacer es probar con diferentes
   algoritmos y ver cuál es el que menos se equivoca.


   Nota. Los tiempos de ejecución para los cuatros modelos de esta práctica no han
   sido tomado en consideración, ya que en los cuatros el tiempo de ejecución según
   RapidMiner es de 0 segundos, habría que ver los milisegundos o bien con mayor
   volumen de datos, para apreciar el nivel eficiencia.


En esta tabla se reflejan los resultados obtenidos para los diferentes algoritmos de
aprendizaje de esta práctica.

Algoritmos                    Otros Datos                   Precision (Accurary)
Rule Induction                8 Reglas                      93.56% (+/-2.85%)
Decision Tree                 Numero de nodos*              94.87% (+/-2.65%)
                              Numero de hojas*
Naive Bayes                                                 96.19% (+/-1.64%)
Support Vector     Machine                                  96.63% (+-2.27%)
(SVM)
*Falta cálculo



   Nota. A modo de recordatorio, la precisión (o porcentaje de aciertos) se calcula
   sumando todos los aciertos y dividiendo por el número de ejemplares de
   evaluación.

El mejor algoritmo de aprendizaje, es decir, el que mejor predice es el basado en
Support Vector Machine con una precisión de 96.63%.




                              Inteligencia Artificial                    Página 36 de 36

Más contenido relacionado

La actualidad más candente

INTRODUCCION A LOS SISTEMAS EXPERTOS
INTRODUCCION A LOS SISTEMAS EXPERTOSINTRODUCCION A LOS SISTEMAS EXPERTOS
INTRODUCCION A LOS SISTEMAS EXPERTOSRichard Rios
 
Sistema experto para determinar la personalidad de un individuo
Sistema experto para determinar la personalidad de un individuoSistema experto para determinar la personalidad de un individuo
Sistema experto para determinar la personalidad de un individuoBndy Quilcate
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertosruth
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertosIDAT
 
Inteligencia artificial sistema experto
Inteligencia artificial sistema expertoInteligencia artificial sistema experto
Inteligencia artificial sistema expertoVelmuz Buzz
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertosG Hoyos A
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertosKarenM123
 
Exposicion sistemas expertos gomes zarur pallares
Exposicion sistemas expertos gomes zarur pallaresExposicion sistemas expertos gomes zarur pallares
Exposicion sistemas expertos gomes zarur pallareszarurs
 

La actualidad más candente (20)

INTRODUCCION A LOS SISTEMAS EXPERTOS
INTRODUCCION A LOS SISTEMAS EXPERTOSINTRODUCCION A LOS SISTEMAS EXPERTOS
INTRODUCCION A LOS SISTEMAS EXPERTOS
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertos
 
SISTEMAS EXPERTOS
SISTEMAS EXPERTOSSISTEMAS EXPERTOS
SISTEMAS EXPERTOS
 
Sistema experto para determinar la personalidad de un individuo
Sistema experto para determinar la personalidad de un individuoSistema experto para determinar la personalidad de un individuo
Sistema experto para determinar la personalidad de un individuo
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertos
 
sistemas expertos
sistemas expertossistemas expertos
sistemas expertos
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertos
 
Sistemas Expertos
Sistemas ExpertosSistemas Expertos
Sistemas Expertos
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertos
 
Sistema experto
Sistema expertoSistema experto
Sistema experto
 
sistemas expertos
sistemas expertossistemas expertos
sistemas expertos
 
Inteligencia artificial sistema experto
Inteligencia artificial sistema expertoInteligencia artificial sistema experto
Inteligencia artificial sistema experto
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertos
 
Trabajo de sistemas expertos
Trabajo de sistemas expertosTrabajo de sistemas expertos
Trabajo de sistemas expertos
 
Introducción a los sistemas expertos
Introducción a los sistemas expertosIntroducción a los sistemas expertos
Introducción a los sistemas expertos
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertos
 
Sistemas expertos
Sistemas expertosSistemas expertos
Sistemas expertos
 
Exposicion sistemas expertos gomes zarur pallares
Exposicion sistemas expertos gomes zarur pallaresExposicion sistemas expertos gomes zarur pallares
Exposicion sistemas expertos gomes zarur pallares
 
Sistemas Expertos
Sistemas ExpertosSistemas Expertos
Sistemas Expertos
 
SISTEMAS EXPERTOS
SISTEMAS EXPERTOSSISTEMAS EXPERTOS
SISTEMAS EXPERTOS
 

Destacado (8)

bayesintro
bayesintrobayesintro
bayesintro
 
Naive bayes
Naive bayesNaive bayes
Naive bayes
 
Algoritmo Naive Bayes
Algoritmo Naive BayesAlgoritmo Naive Bayes
Algoritmo Naive Bayes
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine Learning
 
Inteligencia Artificial
Inteligencia ArtificialInteligencia Artificial
Inteligencia Artificial
 
Inteligencia Artificial Y Computacional
Inteligencia Artificial Y ComputacionalInteligencia Artificial Y Computacional
Inteligencia Artificial Y Computacional
 
Tomar una decisión con un árbol de decision
Tomar una decisión con un árbol de decisionTomar una decisión con un árbol de decision
Tomar una decisión con un árbol de decision
 
Clasificador Naive Bayes para Filtrar Correo Electrónico
Clasificador Naive Bayes para Filtrar Correo ElectrónicoClasificador Naive Bayes para Filtrar Correo Electrónico
Clasificador Naive Bayes para Filtrar Correo Electrónico
 

Similar a Algoritmos Aprendizaje Automático.2012

Introducción al Machine Learning con BigML
Introducción al Machine Learning con BigMLIntroducción al Machine Learning con BigML
Introducción al Machine Learning con BigMLMSc Aldo Valdez Alvarado
 
Ficha 1- Primeros pasos.pdf
Ficha 1- Primeros pasos.pdfFicha 1- Primeros pasos.pdf
Ficha 1- Primeros pasos.pdfpitagorico64
 
Base de la infraestructura tecnica y proteccion de activos de informacion
Base de la infraestructura tecnica y proteccion de activos de informacionBase de la infraestructura tecnica y proteccion de activos de informacion
Base de la infraestructura tecnica y proteccion de activos de informacionMaestros en Linea
 
Usos del sistema de información
Usos del sistema de informaciónUsos del sistema de información
Usos del sistema de informaciónKareliaRivas
 
Ciclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionCiclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionMonica Naranjo
 
Ciclo de vida de desarrollo de sistemas tarea correo
Ciclo de vida de desarrollo de sistemas tarea correoCiclo de vida de desarrollo de sistemas tarea correo
Ciclo de vida de desarrollo de sistemas tarea correoGerard DV
 
[Shared] ML Bootcamp - GDG Barcelona - Semana 4.pptx
[Shared] ML Bootcamp - GDG Barcelona - Semana 4.pptx[Shared] ML Bootcamp - GDG Barcelona - Semana 4.pptx
[Shared] ML Bootcamp - GDG Barcelona - Semana 4.pptxGabriela Soto
 
Ciclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionCiclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionSonia Santiago
 
Ciclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionCiclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionSonia Santiago
 
Aprendizaje automatico
Aprendizaje automaticoAprendizaje automatico
Aprendizaje automaticoJessica Reyes
 
Sistema de Ventas de Muebles en Prolog
Sistema de Ventas de Muebles en PrologSistema de Ventas de Muebles en Prolog
Sistema de Ventas de Muebles en Prologculquinet
 
Diagrama de Clases y Diagrama de Paquetes
Diagrama de Clases y Diagrama de PaquetesDiagrama de Clases y Diagrama de Paquetes
Diagrama de Clases y Diagrama de PaquetesCharly410064
 
2da. clase ciclo de vida del desarrollo de sistemas
2da. clase ciclo de vida del desarrollo de sistemas2da. clase ciclo de vida del desarrollo de sistemas
2da. clase ciclo de vida del desarrollo de sistemasYahaira Fernández Segura
 

Similar a Algoritmos Aprendizaje Automático.2012 (20)

Introducción al Machine Learning con BigML
Introducción al Machine Learning con BigMLIntroducción al Machine Learning con BigML
Introducción al Machine Learning con BigML
 
Ficha 1- Primeros pasos.pdf
Ficha 1- Primeros pasos.pdfFicha 1- Primeros pasos.pdf
Ficha 1- Primeros pasos.pdf
 
Base de la infraestructura tecnica y proteccion de activos de informacion
Base de la infraestructura tecnica y proteccion de activos de informacionBase de la infraestructura tecnica y proteccion de activos de informacion
Base de la infraestructura tecnica y proteccion de activos de informacion
 
Cecyte jerecuaro
Cecyte jerecuaroCecyte jerecuaro
Cecyte jerecuaro
 
Usos del sistema de información
Usos del sistema de informaciónUsos del sistema de información
Usos del sistema de información
 
Ciclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionCiclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacion
 
B learnin
B learninB learnin
B learnin
 
Anexo 27-practica-8
Anexo 27-practica-8Anexo 27-practica-8
Anexo 27-practica-8
 
Machine Learning para Todos
Machine Learning para TodosMachine Learning para Todos
Machine Learning para Todos
 
Gam3 S2 Nov 2009
Gam3 S2 Nov 2009Gam3 S2 Nov 2009
Gam3 S2 Nov 2009
 
Ciclo de vida de desarrollo de sistemas tarea correo
Ciclo de vida de desarrollo de sistemas tarea correoCiclo de vida de desarrollo de sistemas tarea correo
Ciclo de vida de desarrollo de sistemas tarea correo
 
Practica int 3
Practica int 3Practica int 3
Practica int 3
 
Introducción a machine learning
Introducción a machine learningIntroducción a machine learning
Introducción a machine learning
 
[Shared] ML Bootcamp - GDG Barcelona - Semana 4.pptx
[Shared] ML Bootcamp - GDG Barcelona - Semana 4.pptx[Shared] ML Bootcamp - GDG Barcelona - Semana 4.pptx
[Shared] ML Bootcamp - GDG Barcelona - Semana 4.pptx
 
Ciclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionCiclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacion
 
Ciclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionCiclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacion
 
Aprendizaje automatico
Aprendizaje automaticoAprendizaje automatico
Aprendizaje automatico
 
Sistema de Ventas de Muebles en Prolog
Sistema de Ventas de Muebles en PrologSistema de Ventas de Muebles en Prolog
Sistema de Ventas de Muebles en Prolog
 
Diagrama de Clases y Diagrama de Paquetes
Diagrama de Clases y Diagrama de PaquetesDiagrama de Clases y Diagrama de Paquetes
Diagrama de Clases y Diagrama de Paquetes
 
2da. clase ciclo de vida del desarrollo de sistemas
2da. clase ciclo de vida del desarrollo de sistemas2da. clase ciclo de vida del desarrollo de sistemas
2da. clase ciclo de vida del desarrollo de sistemas
 

Más de Guillermo Santos

Handwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification ProblemHandwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification ProblemGuillermo Santos
 
MadridJUG Mineria de Datos-Data Mining.09.may.2013
MadridJUG Mineria de Datos-Data Mining.09.may.2013MadridJUG Mineria de Datos-Data Mining.09.may.2013
MadridJUG Mineria de Datos-Data Mining.09.may.2013Guillermo Santos
 
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...Guillermo Santos
 
Data Analysis. Regression. LendingClub Loans
Data Analysis. Regression. LendingClub LoansData Analysis. Regression. LendingClub Loans
Data Analysis. Regression. LendingClub LoansGuillermo Santos
 
Instalación R y RStudio en Windows
Instalación R y RStudio en WindowsInstalación R y RStudio en Windows
Instalación R y RStudio en WindowsGuillermo Santos
 
Presentación Geolocalización Noticias (geo news).2012
Presentación Geolocalización Noticias (geo news).2012Presentación Geolocalización Noticias (geo news).2012
Presentación Geolocalización Noticias (geo news).2012Guillermo Santos
 
Kettle. Recuperación y Procesado de datos.2012
Kettle. Recuperación y Procesado de datos.2012Kettle. Recuperación y Procesado de datos.2012
Kettle. Recuperación y Procesado de datos.2012Guillermo Santos
 

Más de Guillermo Santos (7)

Handwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification ProblemHandwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification Problem
 
MadridJUG Mineria de Datos-Data Mining.09.may.2013
MadridJUG Mineria de Datos-Data Mining.09.may.2013MadridJUG Mineria de Datos-Data Mining.09.may.2013
MadridJUG Mineria de Datos-Data Mining.09.may.2013
 
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
 
Data Analysis. Regression. LendingClub Loans
Data Analysis. Regression. LendingClub LoansData Analysis. Regression. LendingClub Loans
Data Analysis. Regression. LendingClub Loans
 
Instalación R y RStudio en Windows
Instalación R y RStudio en WindowsInstalación R y RStudio en Windows
Instalación R y RStudio en Windows
 
Presentación Geolocalización Noticias (geo news).2012
Presentación Geolocalización Noticias (geo news).2012Presentación Geolocalización Noticias (geo news).2012
Presentación Geolocalización Noticias (geo news).2012
 
Kettle. Recuperación y Procesado de datos.2012
Kettle. Recuperación y Procesado de datos.2012Kettle. Recuperación y Procesado de datos.2012
Kettle. Recuperación y Procesado de datos.2012
 

Último

AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxAlexander López
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramDIDIERFERNANDOGUERRE
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxMariaBurgos55
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 

Último (20)

AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ram
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptx
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel taller
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 

Algoritmos Aprendizaje Automático.2012

  • 1. Inteligencia Artificial. Actividad Académica Colaborativa 3 Actividad de Aplicación. Algoritmos de Aprendizaje Automático Guillermo Santos García @gsantosgo 2012
  • 2. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Contenido 1. Objetivo.............................................................................................................................. 3 2. Enunciado .......................................................................................................................... 3 3. Plataforma de desarrollo .................................................................................................. 3 4. Proceso de desarrollo de la solución ............................................................................... 3 4.1 Descargar e instalación RapidMiner 5.2.000............................................................. 3 4.2 Proceso de Aprendizaje Automático ......................................................................... 7 4.2.1 Conjunto de Datos Seleccionados .......................................................................... 8 4.2.2 Importación de datos............................................................................................. 10 4.2.3 Detalles de Recursos .............................................................................................. 16 4.2.4 Algoritmo de Reglas ............................................................................................... 16 4.2.5 Árboles de decisión ................................................................................................ 18 4.2.6 Naive Bayes (Bayes Ingenuo) ................................................................................ 21 4.2.7 Soporte de Máquinas Vectoriales ......................................................................... 25 4.3 Comparativa .............................................................................................................. 28 4.3.1 Resultados Algoritmo de Reglas ........................................................................... 29 4.3.2 Resultados Arboles de Decisión ............................................................................ 31 4.3.3 Resultados Naive Bayes ......................................................................................... 32 4.3.4 Resultados Support Vector Machine .................................................................... 34 4.3.5 Conclusión Final ..................................................................................................... 35 Inteligencia Artificial Página 2 de 36
  • 3. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático 1. Objetivo  Conocer las diferencias entre los distintos algoritmos de aprendizaje automático.  Utilizar una herramienta para minería de datos y comparar varios algoritmos de aprendizaje automático. Para ello vamos a trabajar con la herramienta RapidMiner. 2. Enunciado La práctica se compone de los siguientes pasos: 1. Descargar e instalar la herramienta RapidMiner (http://rapid-i.com) 2. Utilizando las colecciones de ejemplos que vienen en los repositorios de ejemplo, realizar una comparativa de los resultados de un algoritmo de reglas, uno de árboles de decisión, el Naive Bayes y uno de soporte de máquinas vectoriales. 3. Cada miembro del grupo debe probar n/2 algoritmos. 4. Una vez hechas las pruebas, se deben juntar los resultados obtenidos por cada miembro y comparar los resultados. 3. Plataforma de desarrollo Para realización de esta práctica, se ha utilizado: - Dell Inspiron 1525 Core 2 Duo. - Sistema Operativo Windows XP SP3 32Bits. - Java Runtime Environment 1.6.0_27. - Rapid Miner 5.2.000 Community Edition. 4. Proceso de desarrollo de la solución 4.1 Descargar e instalación RapidMiner 5.2.000 Para completar la realización de esta práctica necesitamos hacer uso de la herramienta de minería de datos RapidMiner. RapidMiner es una herramienta para realizar Inteligencia Artificial Página 3 de 36
  • 4. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático aprendizaje automático, minería de datos, minería de texto, análisis predictivo y análisis de negocios mediante una interface gráfica de usuario. Entre sus características podemos destacar: - Extracción, Transformación y Carga de datos (ETL). - Preprocesamiento de datos. - Visualización. - Modelización. - Evaluación. - Despliegue. Nota. RapidMiner es una aplicación que está programada en Java, luego para llevar a cabo su ejecución se requiere la máquina virtual de Java de Oracle. Nota. La distribución de RapidMiner que vamos a usar es la Community Edition. Existe otra distribución como es la Enterprise Edition que soporta una serie de servicios y garantías adicionales. ¿Dónde realizamos la descarga? Nos tenemos que ir a la siguiente U.R.I. http://rapid-i.com/content/view/26/84/. Una vez en esta página seleccionamos el enlace de descarga para nuestra plataforma que en nuestro caso es Windows versión de 32 bits. A continuación, nos da la opción de podernos registrar en el Sitio Web de RapidMiner, como el registro es opcional, decidimos no registrarnos. Y, ya por último, se procede a la descarga del producto seleccionado y que realmente se encuentra es la siguiente U.R.I.: https://sourceforge.net/projects/rapidminer/files/1.%20RapidMiner/5.2/rapidmine r-5.2.000x32-install.exe/download En este punto ya tendremos un fichero descargado con este nombre rapidminer- 5.2.000x32-install.exe. Inteligencia Artificial Página 4 de 36
  • 5. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Instalación Procedemos a su instalación mediante la ejecución del fichero anteriormente descargado. Una vez que el producto se ha instalado correctamente, podemos observar en la siguiente imagen que su instalación se ha producido en el directorio C:Archivos de programaRapid-IRapidMiner5, en este caso para el Sistema Operativo Windows XP. Ejecución de la Aplicación Para llevar a cabo la ejecución simplemente accedemos al menú de aplicaciones de Windows XP Y ejecutamos la opción de menú RapidMiner 5. Y comenzará, a iniciarse la aplicación. Inteligencia Artificial Página 5 de 36
  • 6. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático En la siguiente imagen podemos observar el aspecto del entorno de RapidMiner 5. Inteligencia Artificial Página 6 de 36
  • 7. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático 4.2 Proceso de Aprendizaje Automático Recordamos que dentro del proceso de aprendizaje automático existen como dos métodos básicos: - Aprendizaje Automático Supervisado. En el que tomamos un conjunto de datos con sus atributos y su clase, y se crea un modelo de clasificación también llamado clasificador. Este modelo constará de un algoritmo de clasificación que se encargará de poder clasificar los datos en una determinada clase objetivo. Posteriormente este modelo que se ha generado, va a usar toda su información de aprendizaje ya almacenada, para clasificar o predecir la clase, de un conjunto nuevo de datos sin clasificar (Ej. En el caso de detección de correo basura o Spam, cuando llega un nuevo correo, el modelo nos dirá si el correo es basura o no). Objetivo. Generalización de Comportamiento Inteligencia Artificial Página 7 de 36
  • 8. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático - Aprendizaje Automático No Supervisado. Aquí no existe una clase, nosotros tenemos un conjunto de datos, y queremos a obtener patrones o reglas ocultas a partir de esos datos. Objetivo. Detención de patrones o reglas de asociación 4.2.1 Conjunto de Datos Seleccionados En este punto vamos realizar una descripción del conjunto de datos seleccionados para realizar esta práctica de aprendizaje automático. ¿Cuál es el conjunto de datos para realizar esta práctica? El conjunto de datos (dataset) que hemos elegido del Repositorio de Aprendizaje Automático de UCI es Breast Cancer Wisconsin (Diagnostic) Data Set. Para más información acerca de este conjunto de datos podemos dirigirnos a la siguientes U.R.I.: http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29 Información del Conjunto de Datos Las características se calculan a partir de una imagen digitalizada de una aspiración con aguja fina (FNA) de una masa mamaria. Ellas describen las características de los núcleos de células presentes en la imagen. Número de instancias: 699. Número de atributos: 10 atributos y 1 clase. Clase objetivo: Clasificación binaria 2=Cáncer Benigno y 4=Cáncer Maligno. Información de los atributos ID Atributo Dominio 1 Sample code number Id number 2 Clump Thickness 1 - 10 3 Uniformity of Cell Size 1 - 10 4 Uniformity of Cell Shape 1 - 10 5 Marginal Adhesion 1 – 10 6 Single Epithelial Cell Size 1 – 10 7 Bare Nuclei 1 – 10 Inteligencia Artificial Página 8 de 36
  • 9. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático 8 Bland Chromatin 1 – 10 9 Normal Nucleoli 1 – 10 10 Mitoses 1 – 10 11 Class 2:benign, 4:malignant Vista del conjunto de datos desde un editor de texto ¿Cómo son los datos? Antes de realizar cualquier proceso exploratorio de minería de datos, siempre es aconsejable ver los datos. Existen muchos formatos de datos e incluso su codificación depende del algoritmo que se desee utilizar. Detalles a tener en cuenta, a la hora de trabajar con un conjunto de datos (dataset). - Encabezamientos de columnas. - Identificadores de filas. - Separadores. Si se usa la coma (,) como separador de atributos, podemos tener problemas con valores numéricos. - Valores en falta (Missing values). Puede que haya atributos que no tengan valores en algunos casos. Inteligencia Artificial Página 9 de 36
  • 10. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático 4.2.2 Importación de datos Antes de proceder a crear los modelos de aprendizaje automático, dentro de mi repositorio local en la herramienta RapidMiner decido crear la siguiente estructura de carpetas para la realización esta práctica. La carpeta denominada ConjuntoDatos almacenará la importación de conjunto de datos (datasets) y la carpeta denominada ProcesosAprendizaje almacenará los diferentes procesos de aprendizaje de los distintos algoritmos que se piden para esta práctica. ¿Qué fichero tenemos que importar? El fichero a importar es breast-cancer-wisconsin.data. Este fichero está en formato de datos CSV (comma-separated values). Nota. Desde RapidMiner, la opción de importar nuestro conjunto de datos desde la Pestaña Repositories y la opción de Menu Import CSV File (ver imagen) tiene un problema. Qué si nos hemos equivocado en alguna de las configuraciones de los distintos pasos de importación, y queremos modificarlo a posteriori, no es posible y tenemos que realizar todo el proceso de importación de nuevo. Existe una mejor alternativa que es usar el operador Import > Data > Read CSV. Pasos de Importación de Conjunto de Datos mediante operador Read CSV Inteligencia Artificial Página 10 de 36
  • 11. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático El operador Read CSV se usará para realizar la importación del conjunto de datos de Cancer de Mama de Wisconsin, y que se usará este mismo operador para los procesos de aprendizaje de los distintos algoritmos. A, continuación, indicamos los cuatro pasos llevados a cabo usando el asistente de importación, que nos proporciona el operador Read CSV. En la siguiente imagen podemos ver el operador seleccionado Read CSV. Paso 1. Asistente de Importación de Datos Indicamos el fichero del conjunto de datos que queremos importar. Inteligencia Artificial Página 11 de 36
  • 12. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Paso 2. Asistente de Importación de Datos En este paso indicamos cuál es el separador de los distintos atributos del conjunto de datos, en este caso es la coma (“,”). Paso 3. Asistente de Importación de Datos En este paso se pueden realizar anotaciones de los atributos. Inteligencia Artificial Página 12 de 36
  • 13. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Paso 4. Asistente de Importación de Datos En este punto especificamos el nombre de cada uno de los atributos del conjunto de datos, también se definen los tipos de datos de nuestros atributos y además se asignan roles a los atributos. El atributo Code Number tendrá el rol de ID y Class tendrá en rol de Label (Etiqueta). Nota. Hemos observado que RapidMiner detecta automáticamente los tipos de los atributos, pero a veces de manera errónea, tenemos que tenerlo en cuenta. Inteligencia Artificial Página 13 de 36
  • 14. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático En caso, de que al realizar la importación queramos cambiar el título, tipo de algún atributo, podemos hacerlo cambiando los parámetros del operador Read CSV. Nota. De manera general durante cualquier proceso de minería de datos, el 70% del tiempo se va en la selección, procesamiento y transformación de los datos. Todas estas fases son esenciales. Para generar un buen modelo que nos permita generalizar el comportamiento, es requisito imprescindible una buena colección de datos. Detalles de la vista de los metadatos de Breast Cancer Wisconsin. Inteligencia Artificial Página 14 de 36
  • 15. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Observamos que para el atributo Bare Nuclei existen 16 instancias en el que falta el valor para ese atributo (?). La falta de valores no sabe como procesarlas RapidMiner y puede darnos problemas a la hora de crear un modelo de aprendizaje. Nuestra decisión es realizar un filtrado en todos los procesos de aprendizaje para obviar esas 16 instancias, con lo cual solamente tendremos un total de 683 instancias en lugar de 699. Este filtrado lo realizamos mediante el operador Data Transformation > Filtering > Sampling > Filter examples con la condición de que no se admiten instancias con atributos con falta de valores (no_missing_attributes). Inteligencia Artificial Página 15 de 36
  • 16. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático En este punto, ya sabemos cómo se realiza la importación de datos y filtrado de datos, que servirá como base para todos modelos de aprendizaje con su respectivo algoritmos que se piden para esta práctica. 4.2.3 Detalles de Recursos Se detalla brevemente los diferentes recursos de esta práctica: Procesos de Aprendizaje Fichero Árbol de Decisión DecisionTree_BreastCancerWisconsin.rmp Árbol de Decisión (Evaluación) DecisionTree_BreastCancerWisconsin_Perf.rmp Naive Bayes NaiveBayes_BreastCancerWisconsin.rmp Naive Bayes (Evaluación) NaiveBayes_BreastCancerWisconsin_Perf.rmp Reglas RuleInduction_BreastCancerWisconsin.rmp Reglas (Evaluación) RuleInduction_BreastCancerWisconsin_Perf.rmp SVM SVM_BreastCancerWisconsin.rmp SVM (Evaluación) SVM_BreastCancerWisconsin_Perf.rmp 4.2.4 Algoritmo de Reglas Los algoritmos de generación de reglas se encuentran entre los más populares en el aprendizaje automático, debido a que los clasificadores que producen son series de reglas que se pueden usar tanto para clasificar datos como para comprenderlos por nuestra parte. El operador empleado de RapidMiner para realizar un proceso de aprendizaje basado en un algoritmo de reglas es Rule Induction. Inteligencia Artificial Página 16 de 36
  • 17. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Para acceder a este operador dentro de los operadores de RapidMiner debemos seguir esta ruta Operador Modelling > Classification and Regression > Rule Induction > Rule Induction (Versión 5.2.000). Nota. El operador Rule Induction funciona de manera similar a la regla de aprendizaje proposicional llamada Repeated Incremental Pruning to Produce Error Reduction (RIPPER). Los métodos de Inducción de Reglas Supervisadas (Rule Induction), proporcionan una forma más fácil de comprensión del clasificador. En la siguiente imagen podemos observer el proceso denominado RuleInduction_BreastCancerWisconsin. Como se ha comentado anteriormente, es necesario filtrar los datos antes de procesarlos para eliminar las instancias por falta de valores, por ello usamos el operador Filter Examples antes del operador Rule Induction. Inteligencia Artificial Página 17 de 36
  • 18. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Cuando ejecutamos el proceso estos son los resultados obtenidos: Se han obtenido un conjunto de 8 reglas, con sus respectivas distribuciones. Si clase objetivo es 2, el cáncer es benigno y si es 4 el cáncer es maligno. 4.2.5 Árboles de decisión Un árbol de decisión es un grupo jerárquico de relaciones organizados dentro de una estructura de árbol, comenzando con una variable denominada nodo raíz. El nodo raíz es dividido en dos o más ramas, representación de clases separadas del nodo raíz (si es categórica) o rangos específicos a lo largo de la escala del nodo (si es continua). El operador empleado de RapidMiner para realizar un proceso de aprendizaje basado en un algoritmo de arboles de decisión es Decision Tree. Para acceder a este operador dentro de los operadores de RapidMiner debemos seguir esta ruta Operador Modelling > Classification and Regression > Decision Tree > Decision Tree (Versión 5.2.000). Inteligencia Artificial Página 18 de 36
  • 19. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Nota. El operador Decision Tree realiza árboles de decisión a partir de datos nominales y numéricos. Los árboles de decisión normalmente son fáciles de comprender por los seres humanos y son métodos de clasificación poderosos. Este operador Decision Tree funciona de manera similar al algoritnmo C4.5 o un CART. Los nodos de árbol permiten bifurcar en función de los atributos y sus valores. Las hojas del árbol nos proporcionan una predicción. Deseamos que la predicción asociada a una hoja sea buena para los datos cuyos valores en los atributos lleven a esa hoja. Filtramos los datos antes de procesarlos para eliminar las instancias por falta de valores, por ello usamos el operador Filter Examples antes de del operador Decision Tree. Inteligencia Artificial Página 19 de 36
  • 20. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Cuando ejecutamos el proceso estos son los resultados obtenidos:  Vista Gráfica (Graph View). Se muestra una estructura de árbol de decisión con los diferentes nodos que se corresponden a atributos y sus diferentes ramas que indican las decisiones. Los nodos hojas indican la predicción. Recordamos si el valor del nodo es 2 el cáncer es benigno, y si es 4 el cáncer es maligno.  Vista Texto (Text View). Representación del árbol en forma de texto. Inteligencia Artificial Página 20 de 36
  • 21. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático 4.2.6 Naive Bayes (Bayes Ingenuo) Dentro de los algoritmos probabilísticos, el más simple aunque frecuentemente efectivo es Bayes Ingenuo, o Naive Bayes. Este algoritmo asume independencia estadística entre los atributos, lo que es manifiestamente falso en el mundo real, y sería equivalente a una red bayesiana con un nodo por atributo, todos ellos independientes y apuntando al atributo de la clase. El modelo construido es una tabla de probabilidades que se utilizan en el momento de la clasificación para estimar la probabilidad de que un nuevo ejemplo pertenezca a cada clase. Para acceder a este operador dentro de los operadores de RapidMiner debemos seguir esta ruta Operador Modelling > Classification and Regression > Bayesian > Modeling (Version 5.2.000). Nota. El operador Naive Bayes proporciona una modelo de clasificación usando distribuciones normales estimadas.Se trata de un clasificador probabilístico basado en el teorema de Bayes y algunas hipótesis simplificadores adicionales. Nosotros hemos usado la corrección de Laplace para prevenir la influencia de las probabilidades de cero. Inteligencia Artificial Página 21 de 36
  • 22. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Como se ha comentado anteriormente, es necesario filtrar los datos antes de procesarlos para eliminar las instancias por falta de valores, por ello usamos el operador Filter Examples antes de usar el operador Naive Bayes. Cuando ejecutamos el proceso estos son los resultados obtenidos:  Vista Texto (Text View) Inteligencia Artificial Página 22 de 36
  • 23. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Inteligencia Artificial Página 23 de 36
  • 24. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático  Vista en Gráfico (Plot View) Podemos observar las dos distribuciones para cáncer benigno (2) y cáncer maligno en función del atributo “Clump Thickness”.  Tabla de distribución (Distribution table) Inteligencia Artificial Página 24 de 36
  • 25. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático 4.2.7 Soporte de Máquinas Vectoriales Máquinas de Soporte de Vectorial o Maquinas de Vectores de Soporte son un conjunto de algoritmo de aprendizaje Supervisados. Estos métodos están propiamente relacionados con problemas de clasificación y regresión. Dado un conjunto de ejemplos de entrenamiento (de muestras) podemos etiquetar las clases y entrenar una SVM para construir un modelo que prediga la clase de una nueva muestra. Este operador está ubicado en la siguiente ruta del RapidMiner: Para acceder a este operador dentro de los operadores de RapidMiner debemos seguir esta ruta Operador Modelling > Classification and Regression > Support Vector Modeling > Support Vector Machine (Version 5.2.000). Nota. El operador Support Vector Machine es JMySVMLearner que proporciona una implementación Java interna del mySVM de Stefan Rueping. Son predictores lineales, que durante su entrenamiento consiste en calcular el hiperplano de margen máximo. Para ello se aplica una variante dual de programación cuadrática convexa que opera con los datos mediante productos escalares Proporciona un algoritmo rápido con resultados buenos para muchas tareas de aprendizaje. Nota. Cada operador de aprendizaje tiene capacidades particulares para el manejo de conjunto de datos. El algoritmo SVM no soporta conjunto de datos (dataset) cuyos atributos sean polinominal. Inteligencia Artificial Página 25 de 36
  • 26. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Como en los demás procesos de aprendizaje, aquí también eliminamos las instancias por falta de valores, para ello usamos el operador Filter Examples antes del operador SVM. Cuando ejecutamos el proceso estos son los resultados obtenidos:  Vista de Texto (Text View) Inteligencia Artificial Página 26 de 36
  • 27. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático  Tabla de Pesos (Weight table)  Tabla Vector Soporte (Support Vector table) Inteligencia Artificial Página 27 de 36
  • 28. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático 4.3 Comparativa En esta práctica, nosotros hemos importado el conjunto de datos Breast Cancer Wisconsin y hemos realizado un entrenamiento basado en distintos módelos de aprendizaje como son: un modelo de reglas, un modelo de árbol de decisión, un modelo de Naive Bayes (Bayes Ingenuo) y por último un modelo Support Vector Machine (SVM). Para realizar una evaluación de cada modelo de aprendizaje hemos usado la validación cruzada. Recordamos que la validación cruzada (X-Validation) funciona usando parte de los datos para entrenar el modelo, y el resto del conjunto de datos para prueba de la precisión (accuracy) del modelo entrenado. De las 683 instancias disponibles para el conjunto de datos (dataset) Breast Cancer Wisconsin, el 90% de las instancias últimas se usará para entrenamiento del modelo, y el 10% de las instancias primeras se usará para probar la precisión (accuracy) del modelo entrenado. El objetivo es predecir el cáncer de mama en Wisconsin, clasificando los canceres en benignos (2) y malignos (4). A, continuación, indicamos los resultados obtenidos mediante validación cruzada, en el siguiente orden: - Resultado Algoritmo de Reglas. - Resultado Árbol de Decisión. - Resultado Naive Bayes. - Resultado Support Vector Machine. Inteligencia Artificial Página 28 de 36
  • 29. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático 4.3.1 Resultados Algoritmo de Reglas Recurso: RuleInduction_BreastCancerWisconsin_Perf Tabla de contingencia para dos clases 2=Cáncer Benigno y 4=Cáncer Maligno. Inteligencia Artificial Página 29 de 36
  • 30. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Clase objetivo: Clasificación binaria 2=Cáncer Benigno y 4=Cáncer Maligno. Inteligencia Artificial Página 30 de 36
  • 31. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático 4.3.2 Resultados Arboles de Decisión Recurso: DecisionTree_BreastCancerWisconsin_Perf Tabla de contingencia para dos clases 2=Cáncer Benigno y 4=Cáncer Maligno. Inteligencia Artificial Página 31 de 36
  • 32. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Clase objetivo: Clasificación binaria 2=Cáncer Benigno y 4=Cáncer Maligno. 4.3.3 Resultados Naive Bayes Recurso: NaiveBayes_BreastCancerWisconsin_Perf Tabla de contingencia para dos clases 2=Cáncer Benigno y 4=Cáncer Maligno. Inteligencia Artificial Página 32 de 36
  • 33. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Clase objetivo: Clasificación binaria 2=Cáncer Benigno y 4=Cáncer Maligno. Inteligencia Artificial Página 33 de 36
  • 34. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático 4.3.4 Resultados Support Vector Machine Recurso: SVM_BreastCancerWisconsin_Perf Tabla de contingencia para dos clases 2=Cáncer Benigno y 4=Cáncer Maligno. Inteligencia Artificial Página 34 de 36
  • 35. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Clase objetivo: Clasificación binaria 2=Cáncer Benigno y 4=Cáncer Maligno. 4.3.5 Conclusión Final En esta práctica se han empleado modelos predictores basados en diferentes algoritmos de aprendizaje, y que emplean diferentes técnicas de cálculos para predecir la clase objetivo. Los algoritmos de reglas y los basados en arboles de decisión generan modelos predictivos que son más fáciles de comprender por los seres humanos. Imaginemos que tenemos que transmitir a algún jefe o explicarle a algún cliente, cuáles son las decisiones que el modelo predictor ha llevado a cabo para clasificar una determinada instancia. Sin duda, que esta tarea se facilita enormemente en el caso de algoritmos de reglas y arboles de decisión, por el contrario, esto lo tendríamos mucho más complicado en el caso de Naive Bayes y SVM. Nota. Nosotros hemos entrenado (train) nuestro modelo basado en un conjunto de datos y posteriormente lo hemos probado (test) basado en ese mismo conjunto de datos, de esta forma hemos visto si se equivoca mucho o poco. Hay que tener en cuenta, que esto nos dará evaluación demasiado optimista, porque hemos entrenado justo con esos datos. Inteligencia Artificial Página 35 de 36
  • 36. AAC 3 – Actividad de Aplicación. Algoritmos de Aprendizaje Automático Nota. El proceso de aprendizaje automático dentro de la minería de datos, indica que se trata de un arte, es decir, a veces para el mismo conjunto de datos, empleando diferentes algoritmos de aprendizaje, unos algoritmos predicen mejor, otros peor, o ni peor ni mejor. Lo que se suele hacer es probar con diferentes algoritmos y ver cuál es el que menos se equivoca. Nota. Los tiempos de ejecución para los cuatros modelos de esta práctica no han sido tomado en consideración, ya que en los cuatros el tiempo de ejecución según RapidMiner es de 0 segundos, habría que ver los milisegundos o bien con mayor volumen de datos, para apreciar el nivel eficiencia. En esta tabla se reflejan los resultados obtenidos para los diferentes algoritmos de aprendizaje de esta práctica. Algoritmos Otros Datos Precision (Accurary) Rule Induction 8 Reglas 93.56% (+/-2.85%) Decision Tree Numero de nodos* 94.87% (+/-2.65%) Numero de hojas* Naive Bayes 96.19% (+/-1.64%) Support Vector Machine 96.63% (+-2.27%) (SVM) *Falta cálculo Nota. A modo de recordatorio, la precisión (o porcentaje de aciertos) se calcula sumando todos los aciertos y dividiendo por el número de ejemplares de evaluación. El mejor algoritmo de aprendizaje, es decir, el que mejor predice es el basado en Support Vector Machine con una precisión de 96.63%. Inteligencia Artificial Página 36 de 36