SlideShare una empresa de Scribd logo
1 de 39
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA INTELIGENCIA ARTIFICIAL AVANZADA APRENDIZAJE AUTOMÁTICO EN MINERÍA DE DATOS INTEGRANTES:  María José Lazo Nina Caraguay Claudia Castañeda TUTOR:  Ing. Janneth Chicaiza LOJA – ECUADOR
INTRODUCCIÓN La minería de datos es hoy en día una de las técnicas más utilizadas en el entorno empresarial, en donde muchas entidades están interesadas en rescatar información que les permita tomar decisiones como: mejorar el funcionamiento de la organización, optimizar el manejo de sus bases de datos, predicción automatizada de tendencias y comportamientos, obtener ventajas comerciales, mejorar calidad de productos, descubrimiento automatizado de modelos desconocidos, descubrimiento de anomalías y acciones fraudulentas por parte de clientes, determinar la factibilidad de extenderse a través de nuevas sucursales y con qué características. El aprendizaje automático es una técnica que utiliza la minería de datos en su proceso de conversión de datos en conocimiento, para agilizar el mismo, a través de la extracción de modelos, basándose en árboles de clasificación como herramientas para eliminar los resultados innecesarios e irrelevantes, convirtiéndose en un motor de consultas que permite realizar ordenamientos y selección de datos.
RESUMEN Las técnicas de aprendizaje automatizado constituyen un tema vigente en las investigaciones actuales especialmente en minería de datos para obtener información relevante que permita la extracción de conocimiento, esta minería de datos se denomina inteligente y actualmente es aplicada  en el área empresarial para la toma de decisiones. En el presente trabajo, se aplicaron algoritmos de clasificación disponibles en  WEKA, versión 3.4.14 como JRIP, RIDOR y J48, sobre una base de datos que contiene variables relacionadas con actividades de una funeraria, con el propósito de determinar cuáles son las preferencias de los clientes en cuanto a los servicios que ofrece, preferencias que se pretenden implementar en las nuevas sucursales que se crearán en base a esta información. A través del análisis y extracción de la base de datos de entrenamiento y de prueba de la base de datos histórica de la funeraria “La esperanza” se comprobó la efectividad de los algoritmos antes mencionados analizando para ello instancias correctamente clasificadas,  incorrectamente clasificadas y error relativo absoluto.
DESARROLLO DE LA INVESTIGACIÓN
PREDICCIONES DE LA TENDENCIA DEL USO DE SERVICIOS DE LA FUNERARIA LA ESPERANZA Las predicciones de la tendencia al uso de servicios de la funeraria La Esperanza, serán utilizados para determinar si se crean o no nuevas sucursales, con qué tipo de servicios e infraestructura, analizando las preferencias actuales de los clientes como por ejemplo: el uso de contratos, tipo de vendedores, tipo plan, tipo de pago, tipo de sala, tipo de convenios, comisiones entre otros. La funeraria La esperanza se ha visto en la necesidad de hacer uso de técnicas de aprendizaje automático en minería de datos para la extracción de conocimiento, que le permitan tomar una decisión con respecto a la creación de nuevas sucursales, pues actualmente tiene una alta demanda, y no puede cubrir con eficiencia todas las necesidades de sus clientes.
TABLA COMPARATIVA DE ALGORITMOS DE CLASIFICACIÓN
En la Figura de la presentación anterior, se muestra un análisis comparativo de algunos algoritmos de clasificación de acuerdo al tipo de variable que manejan, su ámbito de aplicabilidad y método de poda, destacándose que el más utilizado con resultados óptimos es J4.8, debido a que realiza un aprendizaje más exhaustivo, aunque su tiempo de procesamiento sea mayor al de los demás. Después de un análisis desarrollado por JieCheng y Russell Greiner con respecto al comportamiento de todos los algoritmos se comprobó que IREP, IREP* y RIPPER mostraban un rendimiento inferior que SLIPPER, con lo que podemos concluir que es uno de los algoritmos más óptimos y fiables que existe dentro del aprendizaje de reglas de decisión.
TABLA COMPARATIVA DE HERRAMIENTAS
ESTRUCTURA DEL MODELO DE DATOS VARIABLES EDAD CLASE PLAN PAGO ALGORITMO DE CLASIFICACIÓN PREFERENCIA JRIP, RIDOR, J48 VENDEDOR PERÍODO NÚMERO DE CLIENTES
BASE DE DATOS HISTÓRICA Contiene información de servicios excequiales de la funeraria “La Esperanza”,  en donde se tienen datos de años desde el 2005 a 2008, dichos datos corresponden a planes, contratos, convenios, períodos, pagos, clientes, vendedores,  etc. mismos que se detallan a profundidad en el paper que respalda esta presentación.
BASE DE ENTRENAMIENTO Para determinar la base de entrenamiento se ejecutaron las siguientes consultas sobre la base de datos histórica, tomando 79 casos, denominándola Esperanza, misma que se ha construido estableciendo un rango de edades para determinar la preferencia de los clientes.
BASE DE DATOS DE PRUEBA Para esta base de datos se tomaron 21 datos aleatorios de la base de datos resultante luego de ejecutar las consultas, en este caso se le ha denominado Test_DB_Esperanza.
EXPERIMENTACIÓN DEL MODELO
Datos de la Base de Entrenamiento
JRIP Ejecución de JRIP con validación cruzada
Resultados de la Ejecución de JRIP con validación cruzada
RESULTADOS Los resultados de la Figura nos indican que este clasificador presenta un total de 73 casos correctamente clasificados y 6 de manera incorrecta, esto se lo puede evidenciar en la matriz de confusión en dónde podemos observar que ningún caso ha sido clasificado con una preferencia alta cuando se debieron tener 6 casos de este tipo pues el clasificador predijo que 2 casos tienen una preferencia media y 1  baja, el clasificador predijo tan solo 4 casos con preferencia media cuando debieron de ser 6, 1 caso lo clasificó con preferencia baja y 1 de preferencia alta. Para el caso de preferencia baja también hay un error ya que el clasificador predijo que hay 69 casos de este tipo cuando en realidad son 70 pues clasificó un caso con preferencia alta.
Ejecución de JRIP usando la base de entrenamiento
=== Run information === Scheme:       weka.classifiers.rules.JRip -F 3 -N 2.0 -O 2 -S 1 Relation:     Esperanza Instances:    79 Attributes:   7               periodo               plan tipo_servicio tipo_vendedor               edad numclientes preferencia Test mode:    user supplied test set: 21 instances === Classifier model (full training set) === JRIP rules: =========== (numclientes >= 103) => preferencia=alta (2.0/0.0) (numclientes >= 52) => preferencia=media (6.0/0.0)  => preferencia=baja (71.0/1.0) Number of Rules : 3 Time taken to build model: 0 seconds === Evaluation on test set === === Summary === Correctly Classified Instances          21              100      % Incorrectly Classified Instances         0                0      % Kappa statistic                          1      Mean absolute error                      0.0085 Root mean squared error                  0.0109 Relative absolute error                  6.1124 % Root relative squared error              4.512  % Total Number of Instances               21      === Detailed Accuracy By Class === TP Rate   FP Rate   Precision   Recall  F-Measure   Class 0         0          0         0         0        alta   1         0          1         1         1        media   1         0          1         1         1        baja === ConfusionMatrix === a  b  c   <-- classified as   0  0  0 |  a = alta 0  2  0 |  b = media   0  0 19 |  c = baja Resultados de la ejecución de JRIP usando la base de entrenamiento
RESULTADOS Para la base de prueba se tienen 21 casos a clasificar, los resultados de la clasificación se muestran en la Figura en donde se puede ver que todos los casos han sido clasificados correctamente como se puede verificar en la matriz de confusión en donde no hay ningún caso con preferencia alta, el clasificador predijo correctamente que 2 casos correspondían a la clase media y 19 a la preferencia baja.
RIDOR Ejecución de RIDOR con validación cruzada
=== Run information === Scheme:       weka.classifiers.rules.Ridor -F 3 -S 1 -N 2.0 Relation:     Esperanza Instances:    79 Attributes:   7               periodo               plan tipo_servicio tipo_vendedor               edad numclientes preferencia Test mode:    10-fold cross-validation === Classifier model (full training set) === RIppleDOwn Rule Learner(Ridor) rules -------------------------------------- preferencia = baja  (79.0/9.0) Except (numclientes > 45) => preferencia = media  (6.0/0.0) [2.0/0.0] Total number of rules (incl. the default rule): 2 Time taken to build model: 0.01 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances          74               93.6709 % Incorrectly Classified Instances         5                6.3291 % Kappa statistic                          0.6778 Mean absolute error                      0.0422 Root mean squared error                  0.2054 Relative absolute error                 27.883  % Root relative squared error             77.5972 % Total Number of Instances               79      === Detailed Accuracy By Class === TP Rate   FP Rate   Precision   Recall  F-Measure   Class 0         0.013      0         0         0        alta   0.833     0.027      0.714     0.833     0.769    media   0.986     0.222      0.972     0.986     0.979    baja === ConfusionMatrix === a  b  c   <-- classified as   0  2  1 |  a = alta 0  5  1 |  b = media   1  0 69 |  c = baja Resultado de la ejecución de RIDOR con validación cruzada
RESULTADOS Los resultados de la Figura nos indican que este clasificador presenta un total de 74 casos correctamente clasificados y 5 de manera incorrecta, esto se lo puede evidenciar en la matriz de confusión en dónde podemos observar que ningún caso ha sido clasificado con una preferencia alta cuando se debieron tener 5 casos de este tipo pues el clasificador predijo que 2 casos tienen una preferencia media y 1  baja, el clasificador predijo que 5 casos presentan una preferencia media de 6 casos en total ya que 1 caso se clasificó con preferencia baja. Para el caso de preferencia baja se tiene un error ya que el clasificador predijo que hay 69 casos de este tipo cuando en realidad son 70 pues clasificó un caso con preferencia alta.
Ejecución de RIDOR usando la base de entrenamiento
=== Run information === Scheme:       weka.classifiers.rules.Ridor -F 3 -S 1 -N 2.0 Relation:     Esperanza Instances:    79 Attributes:   7               periodo               plan tipo_servicio tipo_vendedor               edad numclientes preferencia Test mode:    user supplied test set: 21 instances === Classifier model (full training set) === RIppleDOwn Rule Learner(Ridor) rules -------------------------------------- preferencia = baja  (79.0/9.0) Except (numclientes > 45) => preferencia = media  (6.0/0.0) [2.0/0.0] Total number of rules (incl. the default rule): 2 Time taken to build model: 0 seconds === Evaluation on test set === === Summary === Correctly Classified Instances          21              100      % Incorrectly Classified Instances         0                0      % Kappa statistic                          1      Mean absolute error                      0      Root mean squared error                  0      Relative absolute error                  0      % Root relative squared error              0      % Total Number of Instances               21      === Detailed Accuracy By Class === TP Rate   FP Rate   Precision   Recall  F-Measure   Class 0         0          0         0         0        alta   1         0          1         1         1        media   1         0          1         1         1        baja === ConfusionMatrix === a  b  c   <-- classified as   0  0  0 |  a = alta 0  2  0 |  b = media   0  0 19 |  c = baja Resultado de la ejecución de RIDOR usando la base de entrenamiento
RESULTADOS Se hizo uso de base de prueba que se utilizó también con JRIP que consta de  21 casos a clasificar, los resultados de la clasificación se muestran en la Figura en donde se puede evidenciar que todos los casos han sido clasificados correctamente como se puede verificar en la matriz de confusión en donde no hay ningún caso con preferencia alta, el clasificador predijo correctamente que 2 casos corresponden a la clase media y 19 a la preferencia baja.
J48 Ejecución de J48 usando validación cruzada
Árbol de clasificación generado por la ejecución del algoritmo J48 con validación cruzada
=== Run information === Scheme:       weka.classifiers.trees.J48 -C 0.25 -M 2 Relation:     Esperanza Instances:    79 Attributes:   7               periodo               plan tipo_servicio tipo_vendedor               edad numclientes preferencia Test mode:    10-fold cross-validation === Classifier model (full training set) === J48 prunedtree ------------------ numclientes <= 42: baja (71.0/1.0) numclientes > 42 |   numclientes <= 95: media (6.0) |   numclientes > 95: alta (2.0) Number of Leaves  : 	3 Size of the tree : 	5 Time taken to build model: 0.03 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances          74               93.6709 % Incorrectly Classified Instances         5                6.3291 % Kappa statistic                          0.6938 Mean absolute error                      0.048  Root mean squared error                  0.1945 Relative absolute error                 31.692  % Root relative squared error             73.4884 % Total Number of Instances               79      === Detailed Accuracy By Class === TP Rate   FP Rate   Precision   Recall  F-Measure   Class 0         0.013      0         0         0        alta   0.833     0.041      0.625     0.833     0.714    media   0.986     0.111      0.986     0.986     0.986    baja === ConfusionMatrix === a  b  c   <-- classified as   0  2  1 |  a = alta 1  5  0 |  b = media   0  1 69 |  c = baja Resultados obtenidos de la ejecución del algoritmo J48 con validación cruzada
RESULTADOS Los resultados de la Figura nos indican que este clasificador presenta un total de 74 casos correctamente clasificados y 5 de manera incorrecta, esto se lo puede evidenciar en la matriz de confusión en dónde podemos observar que ningún caso ha sido clasificado con una preferencia alta cuando se debieron tener 5 casos de este tipo pues el clasificador predijo que 2 casos tienen una preferencia media y 1  baja, el clasificador predijo que 5 casos presentan una preferencia media de 6 casos en total ya que 1 caso se clasificó con preferencia alta. Para el caso de preferencia baja se tiene un error ya que el clasificador predijo que hay 69 casos de este tipo cuando en realidad son 70 pues clasificó un caso con preferencia media.
Ejecución del algoritmo J48 con la base de prueba
Árbol de clasificación generado por la ejecución del algoritmo J48 con base de datos de prueba
=== Run information === Scheme:       weka.classifiers.trees.J48 -C 0.25 -M 2 Relation:     Esperanza Instances:    79 Attributes:   7               periodo               plan tipo_servicio tipo_vendedor               edad numclientes preferencia Test mode:    user supplied test set: 21 instances === Classifier model (full training set) === J48 prunedtree ------------------ numclientes <= 42: baja (71.0/1.0) numclientes > 42 |   numclientes <= 95: media (6.0) |   numclientes > 95: alta (2.0) Number of Leaves  : 	3 Size of the tree : 	5 Time taken to build model: 0 seconds === Evaluation on test set === === Summary === Correctly Classified Instances          21              100      % Incorrectly Classified Instances         0                0      % Kappa statistic                          1      Mean absolute error                      0.0085 Root mean squared error                  0.0109 Relative absolute error                  6.1124 % Root relative squared error              4.512  % Total Number of Instances               21      === Detailed Accuracy By Class === TP Rate   FP Rate   Precision   Recall  F-Measure   Class 0         0          0         0         0        alta   1         0          1         1         1        media   1         0          1         1         1        baja === ConfusionMatrix === a  b  c   <-- classified as   0  0  0 |  a = alta 0  2  0 |  b = media   0  0 19 |  c = baja Resultados generados por la ejecución del algoritmo J48 con base de datos de prueba
RESULTADOS Se hizo uso de base de prueba que se utilizó también con JRIP y RIDOR que consta de  21 casos a clasificar, los resultados de la clasificación se muestran en la Figura en donde se puede evidenciar que todos los casos han sido clasificados correctamente como se puede verificar en la matriz de confusión en donde no hay ningún caso con preferencia alta, el clasificador predijo correctamente que 2 casos corresponden a la clase media y 19 a la preferencia baja.
ANÁLISIS DE RESULTADOS Tabla comparativa de los algoritmos según resultados obtenidos
Analizando cada uno de los parámetros expuestos en la figura anterior hemos podido determinar que el algoritmo que mejores resultados ofrece en cuanto al porcentaje de instancias correctamente clasificadas, incorrectamente clasificadas y error relativo absoluto es el RIDOR ya que presenta porcentajes como 93.6709%, 6.3291%, 27.883% respectivamente utilizando validación cruzada y un 100% de instancias correctamente clasificadas, 0% de incorrectas y 0% de error relativo absoluto con respecto a los demás algoritmos al clasificar los casos correspondientes a la base de datos de entrenamiento. Es importante mencionar que todos los algoritmos expuestos en la Figura anterior  presentan un 100% de nivel de clasificación en cuanto a instancias correctamente clasificadas usando una base de datos de prueba, con un error relativo absoluto diferente, estos resultados se dan debido a la cantidad   de datos considerados para el análisis.
CONCLUSIONES Es importante tener un enfoque global acerca del tema de estudio, para lo cual se debe aplicar un método deductivo siendo esta técnica una de las más efectivas que facilita entender el entorno a investigar de manera fácil y completa. Sin el aprendizaje automático el proceso de extracción de conocimiento de la minería de datos se vuelve tedioso e insignificante. El aprendizaje automático permite que la minería de datos genere conocimiento, que a simple vista no se puede evidenciar siendo este un factor importante especialmente en la toma de decisiones.  Es importante utilizar varios algoritmos de clasificación para obtener resultados óptimos y confiables. Según el análisis de los algoritmos realizado en la sección 6.7  de acuerdo a los resultados obtenidos se puede concluir que el algoritmo más óptimo  aplicable a nuestro ámbito de estudio es el Ridor. La base de datos histórica contiene la información más importante de una organización y es el punto de partida para la extracción de conocimiento.
Es importante que él un número de casos  tanto para la base de datos de entrenamiento como para la base de prueba debe ser representativo. La funeraria “La Esperanza” de acuerdo a los resultados obtenidos debe implementar una  nueva sucursal con características como, un plan especial con un servicio tipo seguro y un vendedor tipo senior.  Tener conocimiento de cómo interpretar los resultados luego de la ejecución de los algoritmos es de vital importancia. Weka es una de las herramientas más completas e intuitivas a nivel de aprendizaje automático y minería de datos.  El análisis de  trabajos relacionados con el ámbito de un estudio investigativo y especialmente aplicativo, permite tener un enfoque claro de los objetivos y metas del  proyecto que se vaya a desarrollar.

Más contenido relacionado

La actualidad más candente

Base de datos_aci_253_26_10 [autoguardado]
Base de datos_aci_253_26_10 [autoguardado]Base de datos_aci_253_26_10 [autoguardado]
Base de datos_aci_253_26_10 [autoguardado]Rodrigo Cabello Silva
 
Nociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de DatosNociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de Datossaibelr
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
Gerenciar el Conocimiento -CRM - Data Mining
Gerenciar el Conocimiento -CRM - Data MiningGerenciar el Conocimiento -CRM - Data Mining
Gerenciar el Conocimiento -CRM - Data MiningNicoleaks
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datoselsemieni
 
OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics Spain
 
Mineria De Datos Secuenciales
Mineria De Datos SecuencialesMineria De Datos Secuenciales
Mineria De Datos SecuencialesMarilyn Jaramillo
 
Modelos De Data Mining
Modelos De Data MiningModelos De Data Mining
Modelos De Data Miningbrobelo
 
Minería de datos
Minería de datosMinería de datos
Minería de datosKeopx
 
Técnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datosTécnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datosValeria Gavilanes
 
Fundamentos de Data Mining con R
Fundamentos de Data Mining con RFundamentos de Data Mining con R
Fundamentos de Data Mining con RSoftware Guru
 

La actualidad más candente (20)

Base de datos_aci_253_26_10 [autoguardado]
Base de datos_aci_253_26_10 [autoguardado]Base de datos_aci_253_26_10 [autoguardado]
Base de datos_aci_253_26_10 [autoguardado]
 
Nociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de DatosNociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de Datos
 
Minería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilizaciónMinería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilización
 
Algoritmos de minería de datos
Algoritmos de minería de datos Algoritmos de minería de datos
Algoritmos de minería de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Gerenciar el Conocimiento -CRM - Data Mining
Gerenciar el Conocimiento -CRM - Data MiningGerenciar el Conocimiento -CRM - Data Mining
Gerenciar el Conocimiento -CRM - Data Mining
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria De Datos Secuenciales
Mineria De Datos SecuencialesMineria De Datos Secuenciales
Mineria De Datos Secuenciales
 
Modelos De Data Mining
Modelos De Data MiningModelos De Data Mining
Modelos De Data Mining
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Técnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datosTécnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datos
 
Fundamentos de Data Mining con R
Fundamentos de Data Mining con RFundamentos de Data Mining con R
Fundamentos de Data Mining con R
 

Destacado

Componente de weka (mineria datos ing. software)
Componente de weka (mineria datos ing. software)Componente de weka (mineria datos ing. software)
Componente de weka (mineria datos ing. software)Alexander Jimenez
 
Minería de datos y textos
Minería de datos y textosMinería de datos y textos
Minería de datos y textosJesús Tramullas
 
Mineria de Datos Parte I
Mineria de Datos Parte I Mineria de Datos Parte I
Mineria de Datos Parte I ufrj
 
Minería de Datos
Minería de DatosMinería de Datos
Minería de Datosasuoc
 
Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes socialesMaría Muñoz Parra
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentaciónedmaga
 
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSlalopg
 
Mineria de datos secuenciales
Mineria de datos secuencialesMineria de datos secuenciales
Mineria de datos secuencialesMarilyn Jaramillo
 
La Minería de Datos y herramientas de análisis
La Minería de Datos y herramientas de análisisLa Minería de Datos y herramientas de análisis
La Minería de Datos y herramientas de análisisMundo Contact
 
Open Analytics - Minería de Datos con Knime
Open Analytics - Minería de Datos con KnimeOpen Analytics - Minería de Datos con Knime
Open Analytics - Minería de Datos con KnimeOpenAnalytics Spain
 
Mineria de Datos_parte V
Mineria de Datos_parte VMineria de Datos_parte V
Mineria de Datos_parte Vufrj
 
Minería de datos / Machine Learning
Minería de datos / Machine LearningMinería de datos / Machine Learning
Minería de datos / Machine LearningSpanishPASSVC
 

Destacado (15)

Componente de weka (mineria datos ing. software)
Componente de weka (mineria datos ing. software)Componente de weka (mineria datos ing. software)
Componente de weka (mineria datos ing. software)
 
Minería de datos y textos
Minería de datos y textosMinería de datos y textos
Minería de datos y textos
 
Mineria de Datos Parte I
Mineria de Datos Parte I Mineria de Datos Parte I
Mineria de Datos Parte I
 
Minería de Datos
Minería de DatosMinería de Datos
Minería de Datos
 
Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes sociales
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
 
Mineria de datos secuenciales
Mineria de datos secuencialesMineria de datos secuenciales
Mineria de datos secuenciales
 
La Minería de Datos y herramientas de análisis
La Minería de Datos y herramientas de análisisLa Minería de Datos y herramientas de análisis
La Minería de Datos y herramientas de análisis
 
Open Analytics - Minería de Datos con Knime
Open Analytics - Minería de Datos con KnimeOpen Analytics - Minería de Datos con Knime
Open Analytics - Minería de Datos con Knime
 
Datos mineria chilena cesco
Datos mineria chilena cescoDatos mineria chilena cesco
Datos mineria chilena cesco
 
Mineria de Datos_parte V
Mineria de Datos_parte VMineria de Datos_parte V
Mineria de Datos_parte V
 
Aplicaciones de la mineria de datos
Aplicaciones de la mineria de datosAplicaciones de la mineria de datos
Aplicaciones de la mineria de datos
 
Minería de datos / Machine Learning
Minería de datos / Machine LearningMinería de datos / Machine Learning
Minería de datos / Machine Learning
 
aplicaciones de minería de datos
aplicaciones de minería de datosaplicaciones de minería de datos
aplicaciones de minería de datos
 

Similar a Aprendizaje automático en minería de datos funeraria

Control.Multivariado.pptx
Control.Multivariado.pptxControl.Multivariado.pptx
Control.Multivariado.pptxPachoPerez4
 
Ejercicios sobre muestreo
Ejercicios sobre muestreoEjercicios sobre muestreo
Ejercicios sobre muestreo216846
 
Capítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosCapítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosSergio Valenzuela Mayer
 
Árboles de Decisión en Weka
Árboles de Decisión en WekaÁrboles de Decisión en Weka
Árboles de Decisión en WekaLorena Quiñónez
 
Identificacion problemas pareto e ishikawa
Identificacion problemas pareto e ishikawaIdentificacion problemas pareto e ishikawa
Identificacion problemas pareto e ishikawaEmiliano Daza Caro
 
Identificacion problemas pareto e ishikawa
Identificacion problemas pareto e ishikawaIdentificacion problemas pareto e ishikawa
Identificacion problemas pareto e ishikawaEmiliano Daza Caro
 
Capítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosCapítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosSergio Valenzuela Mayer
 
Capacidad del proceso
Capacidad del procesoCapacidad del proceso
Capacidad del procesoJuan Medellin
 
Practicar con weka.pptx
Practicar con weka.pptxPracticar con weka.pptx
Practicar con weka.pptxDarnelyC
 
Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación Jose
 
La potencia de las estrategias de Machine Learning en la lucha contra el fraude
La potencia de las estrategias de Machine Learning en la lucha contra el fraudeLa potencia de las estrategias de Machine Learning en la lucha contra el fraude
La potencia de las estrategias de Machine Learning en la lucha contra el fraudeAdigital
 
estadistica en la produccion
estadistica en la produccionestadistica en la produccion
estadistica en la produccionMeeny Balderaass
 
Calculos de error (cci cce)
Calculos de error (cci cce)Calculos de error (cci cce)
Calculos de error (cci cce)Yerko Bravo
 

Similar a Aprendizaje automático en minería de datos funeraria (20)

Pruebas de Selección para Cargos de Data Scientist
Pruebas de Selección para Cargos de Data ScientistPruebas de Selección para Cargos de Data Scientist
Pruebas de Selección para Cargos de Data Scientist
 
Control.Multivariado.pptx
Control.Multivariado.pptxControl.Multivariado.pptx
Control.Multivariado.pptx
 
Ejercicios sobre muestreo
Ejercicios sobre muestreoEjercicios sobre muestreo
Ejercicios sobre muestreo
 
Curso Seis Sigma Modulo II.ppt
Curso Seis Sigma Modulo II.pptCurso Seis Sigma Modulo II.ppt
Curso Seis Sigma Modulo II.ppt
 
SEIS SIGMA
SEIS SIGMASEIS SIGMA
SEIS SIGMA
 
Capítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosCapítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultados
 
Aplicacion Weka Lorena Leon
Aplicacion Weka Lorena LeonAplicacion Weka Lorena Leon
Aplicacion Weka Lorena Leon
 
Árboles de Decisión en Weka
Árboles de Decisión en WekaÁrboles de Decisión en Weka
Árboles de Decisión en Weka
 
Identificacion problemas pareto e ishikawa
Identificacion problemas pareto e ishikawaIdentificacion problemas pareto e ishikawa
Identificacion problemas pareto e ishikawa
 
Identificacion problemas pareto e ishikawa
Identificacion problemas pareto e ishikawaIdentificacion problemas pareto e ishikawa
Identificacion problemas pareto e ishikawa
 
Capítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultadosCapítulo 07 interpretación de resultados
Capítulo 07 interpretación de resultados
 
Resumen
ResumenResumen
Resumen
 
Capacidad del proceso
Capacidad del procesoCapacidad del proceso
Capacidad del proceso
 
Fundamentos Minería Datos
Fundamentos Minería DatosFundamentos Minería Datos
Fundamentos Minería Datos
 
Busqueda
BusquedaBusqueda
Busqueda
 
Practicar con weka.pptx
Practicar con weka.pptxPracticar con weka.pptx
Practicar con weka.pptx
 
Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación Investigación de Operaciones II : Simulación
Investigación de Operaciones II : Simulación
 
La potencia de las estrategias de Machine Learning en la lucha contra el fraude
La potencia de las estrategias de Machine Learning en la lucha contra el fraudeLa potencia de las estrategias de Machine Learning en la lucha contra el fraude
La potencia de las estrategias de Machine Learning en la lucha contra el fraude
 
estadistica en la produccion
estadistica en la produccionestadistica en la produccion
estadistica en la produccion
 
Calculos de error (cci cce)
Calculos de error (cci cce)Calculos de error (cci cce)
Calculos de error (cci cce)
 

Último

Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 

Último (16)

Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 

Aprendizaje automático en minería de datos funeraria

  • 1. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA INTELIGENCIA ARTIFICIAL AVANZADA APRENDIZAJE AUTOMÁTICO EN MINERÍA DE DATOS INTEGRANTES: María José Lazo Nina Caraguay Claudia Castañeda TUTOR: Ing. Janneth Chicaiza LOJA – ECUADOR
  • 2. INTRODUCCIÓN La minería de datos es hoy en día una de las técnicas más utilizadas en el entorno empresarial, en donde muchas entidades están interesadas en rescatar información que les permita tomar decisiones como: mejorar el funcionamiento de la organización, optimizar el manejo de sus bases de datos, predicción automatizada de tendencias y comportamientos, obtener ventajas comerciales, mejorar calidad de productos, descubrimiento automatizado de modelos desconocidos, descubrimiento de anomalías y acciones fraudulentas por parte de clientes, determinar la factibilidad de extenderse a través de nuevas sucursales y con qué características. El aprendizaje automático es una técnica que utiliza la minería de datos en su proceso de conversión de datos en conocimiento, para agilizar el mismo, a través de la extracción de modelos, basándose en árboles de clasificación como herramientas para eliminar los resultados innecesarios e irrelevantes, convirtiéndose en un motor de consultas que permite realizar ordenamientos y selección de datos.
  • 3. RESUMEN Las técnicas de aprendizaje automatizado constituyen un tema vigente en las investigaciones actuales especialmente en minería de datos para obtener información relevante que permita la extracción de conocimiento, esta minería de datos se denomina inteligente y actualmente es aplicada en el área empresarial para la toma de decisiones. En el presente trabajo, se aplicaron algoritmos de clasificación disponibles en WEKA, versión 3.4.14 como JRIP, RIDOR y J48, sobre una base de datos que contiene variables relacionadas con actividades de una funeraria, con el propósito de determinar cuáles son las preferencias de los clientes en cuanto a los servicios que ofrece, preferencias que se pretenden implementar en las nuevas sucursales que se crearán en base a esta información. A través del análisis y extracción de la base de datos de entrenamiento y de prueba de la base de datos histórica de la funeraria “La esperanza” se comprobó la efectividad de los algoritmos antes mencionados analizando para ello instancias correctamente clasificadas, incorrectamente clasificadas y error relativo absoluto.
  • 4. DESARROLLO DE LA INVESTIGACIÓN
  • 5. PREDICCIONES DE LA TENDENCIA DEL USO DE SERVICIOS DE LA FUNERARIA LA ESPERANZA Las predicciones de la tendencia al uso de servicios de la funeraria La Esperanza, serán utilizados para determinar si se crean o no nuevas sucursales, con qué tipo de servicios e infraestructura, analizando las preferencias actuales de los clientes como por ejemplo: el uso de contratos, tipo de vendedores, tipo plan, tipo de pago, tipo de sala, tipo de convenios, comisiones entre otros. La funeraria La esperanza se ha visto en la necesidad de hacer uso de técnicas de aprendizaje automático en minería de datos para la extracción de conocimiento, que le permitan tomar una decisión con respecto a la creación de nuevas sucursales, pues actualmente tiene una alta demanda, y no puede cubrir con eficiencia todas las necesidades de sus clientes.
  • 6. TABLA COMPARATIVA DE ALGORITMOS DE CLASIFICACIÓN
  • 7. En la Figura de la presentación anterior, se muestra un análisis comparativo de algunos algoritmos de clasificación de acuerdo al tipo de variable que manejan, su ámbito de aplicabilidad y método de poda, destacándose que el más utilizado con resultados óptimos es J4.8, debido a que realiza un aprendizaje más exhaustivo, aunque su tiempo de procesamiento sea mayor al de los demás. Después de un análisis desarrollado por JieCheng y Russell Greiner con respecto al comportamiento de todos los algoritmos se comprobó que IREP, IREP* y RIPPER mostraban un rendimiento inferior que SLIPPER, con lo que podemos concluir que es uno de los algoritmos más óptimos y fiables que existe dentro del aprendizaje de reglas de decisión.
  • 8. TABLA COMPARATIVA DE HERRAMIENTAS
  • 9.
  • 10. ESTRUCTURA DEL MODELO DE DATOS VARIABLES EDAD CLASE PLAN PAGO ALGORITMO DE CLASIFICACIÓN PREFERENCIA JRIP, RIDOR, J48 VENDEDOR PERÍODO NÚMERO DE CLIENTES
  • 11. BASE DE DATOS HISTÓRICA Contiene información de servicios excequiales de la funeraria “La Esperanza”, en donde se tienen datos de años desde el 2005 a 2008, dichos datos corresponden a planes, contratos, convenios, períodos, pagos, clientes, vendedores, etc. mismos que se detallan a profundidad en el paper que respalda esta presentación.
  • 12. BASE DE ENTRENAMIENTO Para determinar la base de entrenamiento se ejecutaron las siguientes consultas sobre la base de datos histórica, tomando 79 casos, denominándola Esperanza, misma que se ha construido estableciendo un rango de edades para determinar la preferencia de los clientes.
  • 13. BASE DE DATOS DE PRUEBA Para esta base de datos se tomaron 21 datos aleatorios de la base de datos resultante luego de ejecutar las consultas, en este caso se le ha denominado Test_DB_Esperanza.
  • 15. Datos de la Base de Entrenamiento
  • 16. JRIP Ejecución de JRIP con validación cruzada
  • 17. Resultados de la Ejecución de JRIP con validación cruzada
  • 18. RESULTADOS Los resultados de la Figura nos indican que este clasificador presenta un total de 73 casos correctamente clasificados y 6 de manera incorrecta, esto se lo puede evidenciar en la matriz de confusión en dónde podemos observar que ningún caso ha sido clasificado con una preferencia alta cuando se debieron tener 6 casos de este tipo pues el clasificador predijo que 2 casos tienen una preferencia media y 1 baja, el clasificador predijo tan solo 4 casos con preferencia media cuando debieron de ser 6, 1 caso lo clasificó con preferencia baja y 1 de preferencia alta. Para el caso de preferencia baja también hay un error ya que el clasificador predijo que hay 69 casos de este tipo cuando en realidad son 70 pues clasificó un caso con preferencia alta.
  • 19. Ejecución de JRIP usando la base de entrenamiento
  • 20. === Run information === Scheme: weka.classifiers.rules.JRip -F 3 -N 2.0 -O 2 -S 1 Relation: Esperanza Instances: 79 Attributes: 7 periodo plan tipo_servicio tipo_vendedor edad numclientes preferencia Test mode: user supplied test set: 21 instances === Classifier model (full training set) === JRIP rules: =========== (numclientes >= 103) => preferencia=alta (2.0/0.0) (numclientes >= 52) => preferencia=media (6.0/0.0) => preferencia=baja (71.0/1.0) Number of Rules : 3 Time taken to build model: 0 seconds === Evaluation on test set === === Summary === Correctly Classified Instances 21 100 % Incorrectly Classified Instances 0 0 % Kappa statistic 1 Mean absolute error 0.0085 Root mean squared error 0.0109 Relative absolute error 6.1124 % Root relative squared error 4.512 % Total Number of Instances 21 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0 0 0 0 0 alta 1 0 1 1 1 media 1 0 1 1 1 baja === ConfusionMatrix === a b c <-- classified as 0 0 0 | a = alta 0 2 0 | b = media 0 0 19 | c = baja Resultados de la ejecución de JRIP usando la base de entrenamiento
  • 21. RESULTADOS Para la base de prueba se tienen 21 casos a clasificar, los resultados de la clasificación se muestran en la Figura en donde se puede ver que todos los casos han sido clasificados correctamente como se puede verificar en la matriz de confusión en donde no hay ningún caso con preferencia alta, el clasificador predijo correctamente que 2 casos correspondían a la clase media y 19 a la preferencia baja.
  • 22. RIDOR Ejecución de RIDOR con validación cruzada
  • 23. === Run information === Scheme: weka.classifiers.rules.Ridor -F 3 -S 1 -N 2.0 Relation: Esperanza Instances: 79 Attributes: 7 periodo plan tipo_servicio tipo_vendedor edad numclientes preferencia Test mode: 10-fold cross-validation === Classifier model (full training set) === RIppleDOwn Rule Learner(Ridor) rules -------------------------------------- preferencia = baja (79.0/9.0) Except (numclientes > 45) => preferencia = media (6.0/0.0) [2.0/0.0] Total number of rules (incl. the default rule): 2 Time taken to build model: 0.01 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 74 93.6709 % Incorrectly Classified Instances 5 6.3291 % Kappa statistic 0.6778 Mean absolute error 0.0422 Root mean squared error 0.2054 Relative absolute error 27.883 % Root relative squared error 77.5972 % Total Number of Instances 79 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0 0.013 0 0 0 alta 0.833 0.027 0.714 0.833 0.769 media 0.986 0.222 0.972 0.986 0.979 baja === ConfusionMatrix === a b c <-- classified as 0 2 1 | a = alta 0 5 1 | b = media 1 0 69 | c = baja Resultado de la ejecución de RIDOR con validación cruzada
  • 24. RESULTADOS Los resultados de la Figura nos indican que este clasificador presenta un total de 74 casos correctamente clasificados y 5 de manera incorrecta, esto se lo puede evidenciar en la matriz de confusión en dónde podemos observar que ningún caso ha sido clasificado con una preferencia alta cuando se debieron tener 5 casos de este tipo pues el clasificador predijo que 2 casos tienen una preferencia media y 1 baja, el clasificador predijo que 5 casos presentan una preferencia media de 6 casos en total ya que 1 caso se clasificó con preferencia baja. Para el caso de preferencia baja se tiene un error ya que el clasificador predijo que hay 69 casos de este tipo cuando en realidad son 70 pues clasificó un caso con preferencia alta.
  • 25. Ejecución de RIDOR usando la base de entrenamiento
  • 26. === Run information === Scheme: weka.classifiers.rules.Ridor -F 3 -S 1 -N 2.0 Relation: Esperanza Instances: 79 Attributes: 7 periodo plan tipo_servicio tipo_vendedor edad numclientes preferencia Test mode: user supplied test set: 21 instances === Classifier model (full training set) === RIppleDOwn Rule Learner(Ridor) rules -------------------------------------- preferencia = baja (79.0/9.0) Except (numclientes > 45) => preferencia = media (6.0/0.0) [2.0/0.0] Total number of rules (incl. the default rule): 2 Time taken to build model: 0 seconds === Evaluation on test set === === Summary === Correctly Classified Instances 21 100 % Incorrectly Classified Instances 0 0 % Kappa statistic 1 Mean absolute error 0 Root mean squared error 0 Relative absolute error 0 % Root relative squared error 0 % Total Number of Instances 21 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0 0 0 0 0 alta 1 0 1 1 1 media 1 0 1 1 1 baja === ConfusionMatrix === a b c <-- classified as 0 0 0 | a = alta 0 2 0 | b = media 0 0 19 | c = baja Resultado de la ejecución de RIDOR usando la base de entrenamiento
  • 27. RESULTADOS Se hizo uso de base de prueba que se utilizó también con JRIP que consta de 21 casos a clasificar, los resultados de la clasificación se muestran en la Figura en donde se puede evidenciar que todos los casos han sido clasificados correctamente como se puede verificar en la matriz de confusión en donde no hay ningún caso con preferencia alta, el clasificador predijo correctamente que 2 casos corresponden a la clase media y 19 a la preferencia baja.
  • 28. J48 Ejecución de J48 usando validación cruzada
  • 29. Árbol de clasificación generado por la ejecución del algoritmo J48 con validación cruzada
  • 30. === Run information === Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: Esperanza Instances: 79 Attributes: 7 periodo plan tipo_servicio tipo_vendedor edad numclientes preferencia Test mode: 10-fold cross-validation === Classifier model (full training set) === J48 prunedtree ------------------ numclientes <= 42: baja (71.0/1.0) numclientes > 42 | numclientes <= 95: media (6.0) | numclientes > 95: alta (2.0) Number of Leaves : 3 Size of the tree : 5 Time taken to build model: 0.03 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 74 93.6709 % Incorrectly Classified Instances 5 6.3291 % Kappa statistic 0.6938 Mean absolute error 0.048 Root mean squared error 0.1945 Relative absolute error 31.692 % Root relative squared error 73.4884 % Total Number of Instances 79 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0 0.013 0 0 0 alta 0.833 0.041 0.625 0.833 0.714 media 0.986 0.111 0.986 0.986 0.986 baja === ConfusionMatrix === a b c <-- classified as 0 2 1 | a = alta 1 5 0 | b = media 0 1 69 | c = baja Resultados obtenidos de la ejecución del algoritmo J48 con validación cruzada
  • 31. RESULTADOS Los resultados de la Figura nos indican que este clasificador presenta un total de 74 casos correctamente clasificados y 5 de manera incorrecta, esto se lo puede evidenciar en la matriz de confusión en dónde podemos observar que ningún caso ha sido clasificado con una preferencia alta cuando se debieron tener 5 casos de este tipo pues el clasificador predijo que 2 casos tienen una preferencia media y 1 baja, el clasificador predijo que 5 casos presentan una preferencia media de 6 casos en total ya que 1 caso se clasificó con preferencia alta. Para el caso de preferencia baja se tiene un error ya que el clasificador predijo que hay 69 casos de este tipo cuando en realidad son 70 pues clasificó un caso con preferencia media.
  • 32. Ejecución del algoritmo J48 con la base de prueba
  • 33. Árbol de clasificación generado por la ejecución del algoritmo J48 con base de datos de prueba
  • 34. === Run information === Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: Esperanza Instances: 79 Attributes: 7 periodo plan tipo_servicio tipo_vendedor edad numclientes preferencia Test mode: user supplied test set: 21 instances === Classifier model (full training set) === J48 prunedtree ------------------ numclientes <= 42: baja (71.0/1.0) numclientes > 42 | numclientes <= 95: media (6.0) | numclientes > 95: alta (2.0) Number of Leaves : 3 Size of the tree : 5 Time taken to build model: 0 seconds === Evaluation on test set === === Summary === Correctly Classified Instances 21 100 % Incorrectly Classified Instances 0 0 % Kappa statistic 1 Mean absolute error 0.0085 Root mean squared error 0.0109 Relative absolute error 6.1124 % Root relative squared error 4.512 % Total Number of Instances 21 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0 0 0 0 0 alta 1 0 1 1 1 media 1 0 1 1 1 baja === ConfusionMatrix === a b c <-- classified as 0 0 0 | a = alta 0 2 0 | b = media 0 0 19 | c = baja Resultados generados por la ejecución del algoritmo J48 con base de datos de prueba
  • 35. RESULTADOS Se hizo uso de base de prueba que se utilizó también con JRIP y RIDOR que consta de 21 casos a clasificar, los resultados de la clasificación se muestran en la Figura en donde se puede evidenciar que todos los casos han sido clasificados correctamente como se puede verificar en la matriz de confusión en donde no hay ningún caso con preferencia alta, el clasificador predijo correctamente que 2 casos corresponden a la clase media y 19 a la preferencia baja.
  • 36. ANÁLISIS DE RESULTADOS Tabla comparativa de los algoritmos según resultados obtenidos
  • 37. Analizando cada uno de los parámetros expuestos en la figura anterior hemos podido determinar que el algoritmo que mejores resultados ofrece en cuanto al porcentaje de instancias correctamente clasificadas, incorrectamente clasificadas y error relativo absoluto es el RIDOR ya que presenta porcentajes como 93.6709%, 6.3291%, 27.883% respectivamente utilizando validación cruzada y un 100% de instancias correctamente clasificadas, 0% de incorrectas y 0% de error relativo absoluto con respecto a los demás algoritmos al clasificar los casos correspondientes a la base de datos de entrenamiento. Es importante mencionar que todos los algoritmos expuestos en la Figura anterior presentan un 100% de nivel de clasificación en cuanto a instancias correctamente clasificadas usando una base de datos de prueba, con un error relativo absoluto diferente, estos resultados se dan debido a la cantidad de datos considerados para el análisis.
  • 38. CONCLUSIONES Es importante tener un enfoque global acerca del tema de estudio, para lo cual se debe aplicar un método deductivo siendo esta técnica una de las más efectivas que facilita entender el entorno a investigar de manera fácil y completa. Sin el aprendizaje automático el proceso de extracción de conocimiento de la minería de datos se vuelve tedioso e insignificante. El aprendizaje automático permite que la minería de datos genere conocimiento, que a simple vista no se puede evidenciar siendo este un factor importante especialmente en la toma de decisiones. Es importante utilizar varios algoritmos de clasificación para obtener resultados óptimos y confiables. Según el análisis de los algoritmos realizado en la sección 6.7 de acuerdo a los resultados obtenidos se puede concluir que el algoritmo más óptimo aplicable a nuestro ámbito de estudio es el Ridor. La base de datos histórica contiene la información más importante de una organización y es el punto de partida para la extracción de conocimiento.
  • 39. Es importante que él un número de casos tanto para la base de datos de entrenamiento como para la base de prueba debe ser representativo. La funeraria “La Esperanza” de acuerdo a los resultados obtenidos debe implementar una nueva sucursal con características como, un plan especial con un servicio tipo seguro y un vendedor tipo senior. Tener conocimiento de cómo interpretar los resultados luego de la ejecución de los algoritmos es de vital importancia. Weka es una de las herramientas más completas e intuitivas a nivel de aprendizaje automático y minería de datos. El análisis de trabajos relacionados con el ámbito de un estudio investigativo y especialmente aplicativo, permite tener un enfoque claro de los objetivos y metas del proyecto que se vaya a desarrollar.