SlideShare una empresa de Scribd logo
1 de 9
Descargar para leer sin conexión
Área de la Energía, las Industrias y Recursos Naturales no Renovables



              CARRERA DE INGENIERIA EN SISTEMAS
                         MODULO X

          “INTELIGENCIA ARTIFICIAL”


     ALUMNA:

                              Mayra Elizabeth Ávila Rosales


     TEMA:

                    “Practica de Minería de Datos.”


     DOCENTE:

                    Ing.: Luis Antonio Chamba Eras.


     PERIODO ACADEMICO:


                         Marzo- Julio del 2012


                            LOJA-ECUADOR
Practica de Minería de Datos


1. Objetivos


        Extraer información interesante/útil a partir de datos.
        Estudiar los fundamentos de la minería de datos incluyendo: el aprendizaje de
         máquina, el reconocimiento de patrones y          la estadística, así como sus
         aplicaciones a la solución de diferentes problemas prácticos.
        Extracción de conocimiento, mediante una técnica de minería de datos, obtener
         un modelo de conocimiento representado por patrones.



2. Contenido Teórico


                                          Minería de Datos
     o        Introducción

          Los avances tecnológicos en las últimas décadas nos han facilitado
     enormemente           el acceso a grandes    volúmenes de datos. La cantidad de
     información que manejamos hoy en día nos obliga a abordar el estudio de los
     datos/información desde una perspectiva global y no fragmentada.

     En los anos 90 apareció el concepto DATA MINING. Esta técnica se vinculo
     estrecha-mente con la dirección de empresas y en concreto al marketing.



     o        Definición

      La Minería de Datos busca el procesamiento de información de forma clara para
     el usuario o cliente, de tal forma que pueda clasificar la información de acuerdo a
     parámetros inicialmente establecidos y de        acuerdo a las necesidades que se
     buscan, es decir por medio de la minería de datos se dan acercamientos claros a
     resultados estadísticamente factibles a entendimiento y razón de una persona.

      o       Tipos de minería de Datos
              Minería de Datos Predictivas (MDP)
               Usa primordialmente técnicas estadísticas
    Minería de Datos para Descubrimiento de Conocimiento (MDDC)
                Usa primordialmente técnicas de Inteligencia Artificial


o       Características principales


        Explorar los datos se encuentran en las profundidades de las bases de
         datos, como los almacenes de datos, que algunas            veces contienen
         información almacenada durante varios anos.


        En algunos casos, los datos se consolidan en un almacén de datos y en
         mercados de datos; en otros, se mantienen en servidores de Internet e
         Intranet.


        El entorno de la minería de datos suele tener una arquitectura cliente-
         servidor.


        Las herramientas de la minería de datos ayudan a extraer el mineral de
         la información enterrado en archivos corporativos o en registros públicos,
         archivados


        Hurgar y sacudir     a menudo       implica el descubrimiento de resultados
         valiosos e inesperados.


o       Fases de la Minería de Datos




                          Figura 1: Fases de la Minería de Datos
o       Técnicas para la Minería de Datos


            Agrupación de Datos
                 La agrupación o clustering consiste en agrupar un conjunto de datos
             basándose en la similitud de los valores     de sus atributos. El clustering
             identifica regiones densamente pobladas, denominadas clúster, de acuerdo
             a alguna medida de distancia establecida.


            Clasificación de datos


                 La clasificación se utiliza para clasificar un conjunto de datos basado
             en los valores de sus atributos.
             La clasificación encuentra las propiedades comunes entre un conjunto de
             objetos y los clasifica en diferentes clases, de acuerdo a un modelo de
             clasificación.


           Reglas de Asociación
                 La minería de reglas de asociación consiste en encontrar reglas de la
            forma (A1yA2y...yAm) entonces (B1yB2y...yBn), donde Ai y Bj son valores de
            atributos del conjunto de datos



o       Extensiones de la Minería de Datos


           Web Mining
                 Consiste en aplicar las técnicas de MD a documentos y servicios de
            la Web. Todos los que visitan un sitio en Internet dejan huellas digitales
            (direcciones de IP,       navegador,    galletas, etc.)   que los servidores
            automáticamente almacenan en una bitácora de accesos (log).
            Las herramientas de Web Mining analizan y procesan los logs para producir
            información significativa.


           Text Mining
                 Se refiere a examinar una         colección de documentos y descubrir
            información no contenida en ningún documento individual de la colección.
            Dado que el 80 por ciento de la información de una compañía se almacena en
            forma de documentos, existen técnicas que apoyan al TM
o   Mapa conceptual de la Minería de Datos




                           Figura 2: Mapa Conceptual de la Mineria 1
3. Desarrollo
   o   Enunciado del problema
   La empresa de software para Internet “Memolum Web” quiere extraer tipologías
   de empleados, con el objetivo de hacer una política de personal más fundamentada
   y seleccionar a qué grupos incentivar.
   Las variables que se recogen de las fichas de los 15 empleados de la empresa son:


   • Sueldo: sueldo anual en euros.
   • Casado: si está casado o no.
   • Coche: si viene en coche a trabajar (o al menos si lo aparca en el párking de la
   empresa).
   • Hijos: si tiene hijos.
   • Alq/Prop: si vive en una casa alquilada o propia.
   • Sindic.: si pertenece al sindicato revolucionario de Internet
   • Bajas/Año: media del nº de bajas por año
   • Antigüedad: antigüedad en la empresa
   • Sexo: H: hombre, M: mujer.


   Los datos de los 15 empleados se encuentran en el fichero “Empleados.arff”. Para
   acceder      a   este   fichero   se    debe    ingresar    a   la   siguiente   dirección
   www.dsic.upv.es/~cferri/weka. A continuación clic en la palabra “datos”                 e
   inmediatamente empezara la descarga del archivo comprimido “Datasets.rar” en
donde se encuentra “Empleados.arff”. Se intenta extraer grupos de entre estos
    quince empleados



    o   Proceso de resolución del Problema


    Se utilizará el método de Clúster para ello acudimos a la ventana Clúster, luego
    seleccionaremos Choose para seleccionar el algoritmo SimpleKmeans, finalmente
    definimos 3 el número de clúster


    (En este apartado se agregará       la ventana con los resultados que arroja el
    software weka al aplicar el algoritmo y el diagrama de dispersión)


   Ingreso a weka



En la primera parte del Software WEKA, se muestra la interfaz del software WEKA
que permite visualizar el pre-procesamiento de los datos contenidos en el archivo
“empleados.arff”, donde se puede identificar si los datos son reconocidos con la
verificación de las 15 instancias y 9 atributos generados, tal como se muestra en la
Figura 3.




              Fig. 3: Pre-procesamiento del archivo “empleados.arff”
En la figura 3, nos muestra los resultados arrojados por el programa WEKA aplicando
la técnica de Clúster y el algoritmo SimpleKMeans, para esta práctica se trabaja en 3
clúster, los mismos que definen los siguientes resultados:

       Clúster 0: Podemos visualizar que este clúster agrupa a 6 empleados con las
        características como: un sueldo anual de 29166.6667 euros, no está casado
        pero si tiene hijos, no va en coche a trabajar, vive en una casa alquilada, si
        pertenece al sindicato revolucionario de Internet, bajas por año de 6.1667,
        tiene 8.3 años de antigüedad y finalmente es del sexo femenino.
       Clúster 1: En este clúster agrupa a 5 empleados con características en común
        como un de un sueldo anual de 16600 euros, está casado y tiene hijos, viene en
        coche a trabajar, vive en una casa propia, no pertenece al sindicato
        revolucionario de Internet, tiene bajas por año un total de 3.4, tiene 8.4 años
        de antigüedad y finalmente es del sexo masculino.
       Clúster 2: Finalmente el ultimo clúster agrupa a 4 empleados tales como: un
        sueldo anual de 14500 euros, está casado por lo tanto tiene hijos, va en coche
        a trabajar, vive en una casa alquilada, no pertenece al sindicato revolucionario
        de Internet, tiene un promedio de bajas por año de 6.25, tiene 7.75 años de
        antigüedad y finalmente es del sexo masculino

Además podemos visualizar los resultados de los clúster en porcentaje:

    Cluster 0 con 6 instancias: 40%
    Cluster 1 con 5 instancias: 33%
                             Cluster 2 con 4 instancias: 27%




           Fig.4: Aplicación de la Técnica Clúster y el Algoritmo SimpleKMeans
Por otra parte en el Software Weka podemos visualizar los datos de los
       empleados a través del diagrama de correlación-dispersión, donde nos muestra
       las 15 instancias distribuidas en el diagrama divididas por los 3 clusters:
       clusters 0 (color azul), clusters 1 (color rojo) y clusters 0 (color verde), tal
       como se muestra en la Figura 5.




                    Fig. 5: Diagrama de correlación-dispersión




   o   Análisis de los Resultados

Una vez que hemos analizados los datos sobre el caso de estudio de extraer tipologías
de empleados, se concluye que los empleados agrupados en el clúster 3, se les debe
incentivar y mejorar las políticas para el mejoramiento personal y obtener ganancias.
4. Conclusiones

   o     la minería de datos permite ahorrar grandes cantidades de dinero a una
        empresa y abre nuevas oportunidades de negocios.

   o    Contribuye con la toma de decisiones.

   o    La MD proporciona poder de decisión y resultados de la mejor forma.

   o    Genera modelos descriptivos: permite a empresas explorar y comprender los
        datos e identificar patrones relacionados y dependencias que impactan en los
        resultados finales.

   o    Genera Modelos Predictivos: permite que las relaciones no descubiertas través
        del proceso de la Minería de Datos sean expresado como reglas de negocio.

5. Bibliografía

    o   [1] S. Vallejos, “Trabajo de adscripción minería de datos”, Corrientes -
        Argentina, 2006, pp. 11 – 14.

    o   [2] Cursos, investigación y recursos en inteligencia artificial. “Introducción a
        técnicas de Minería de Datos”. Disponible:
        http://www.wiphala.net/courses/KDD_DM/20070/class/02_dt_for_classific
        ation/class_61_decision_trees.ppt [citado en 23 de Febrero de 2008]

    o   [3] IEspaña. “Árboles y reglas de decisión”. Disponible:
        http://supervisadaextraccionrecuperacioninformacion.iespana.es/arboles.htm
        l [citado en 23 de Febrero de 2008]

    o   [4]    Proz.”       Árbol    de     decisión    (óptima)”.    Disponible:
        http://www.proz.com/kudoz/2311529[citado en 28 de Febrero de 2008]

6. Licencia



 Práctica de Minería Datos De por Mayra Elizabeth Ávila Rosales está bajo una licencia Creative
    Commons Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Unported .

Más contenido relacionado

La actualidad más candente

Metodos de Auditoría Informatica 4
Metodos de Auditoría Informatica 4 Metodos de Auditoría Informatica 4
Metodos de Auditoría Informatica 4 UNEFA
 
Unidad 1.3 Analisis De Requerimientos
Unidad 1.3 Analisis De RequerimientosUnidad 1.3 Analisis De Requerimientos
Unidad 1.3 Analisis De RequerimientosSergio Sanchez
 
Tecnologia web
Tecnologia webTecnologia web
Tecnologia webMeli Vidal
 
Fase de implementación de sistemas de información
Fase de implementación de sistemas de informaciónFase de implementación de sistemas de información
Fase de implementación de sistemas de informaciónNAHAMA19
 
Analisis y diseño de sistemas preguntas de repaso
Analisis y diseño de sistemas preguntas de repasoAnalisis y diseño de sistemas preguntas de repaso
Analisis y diseño de sistemas preguntas de repasoAlejandro Rivera Santander
 
Seguridad en Base de Datos
Seguridad en Base de DatosSeguridad en Base de Datos
Seguridad en Base de Datosmyriam sarango
 
PLAN DE CAPACITACIÓN PARA USUARIOS FINALES
PLAN DE CAPACITACIÓN PARA USUARIOS FINALESPLAN DE CAPACITACIÓN PARA USUARIOS FINALES
PLAN DE CAPACITACIÓN PARA USUARIOS FINALESPablo Ospina
 
Introduccion a los sistemas de informacion
Introduccion a los sistemas de informacionIntroduccion a los sistemas de informacion
Introduccion a los sistemas de informacionMonica Naranjo
 
Documentación de sistemas
Documentación de sistemasDocumentación de sistemas
Documentación de sistemasGladys Rodriguez
 
Gestión del riesgo de software
Gestión del riesgo de software Gestión del riesgo de software
Gestión del riesgo de software jose_macias
 
Requerimientos no funcionales
Requerimientos no funcionalesRequerimientos no funcionales
Requerimientos no funcionalesAngel Minga
 
Manual tecnico y manual de usuario
Manual tecnico y manual de usuarioManual tecnico y manual de usuario
Manual tecnico y manual de usuarioD MT
 
Planificación de sistemas de información
Planificación de sistemas de informaciónPlanificación de sistemas de información
Planificación de sistemas de informaciónMARCO POLO SILVA SEGOVIA
 
Estudio de factibilidad técnica (enfoque informático)
Estudio de factibilidad técnica  (enfoque informático)Estudio de factibilidad técnica  (enfoque informático)
Estudio de factibilidad técnica (enfoque informático)Ronald Rivas
 

La actualidad más candente (20)

Metodología RUP
Metodología RUPMetodología RUP
Metodología RUP
 
Metodos de Auditoría Informatica 4
Metodos de Auditoría Informatica 4 Metodos de Auditoría Informatica 4
Metodos de Auditoría Informatica 4
 
Gestores de bases de datos cuadros comparativos
Gestores de bases de datos cuadros comparativosGestores de bases de datos cuadros comparativos
Gestores de bases de datos cuadros comparativos
 
Unidad 1.3 Analisis De Requerimientos
Unidad 1.3 Analisis De RequerimientosUnidad 1.3 Analisis De Requerimientos
Unidad 1.3 Analisis De Requerimientos
 
Tecnologia web
Tecnologia webTecnologia web
Tecnologia web
 
Transacciones
TransaccionesTransacciones
Transacciones
 
ETL
ETLETL
ETL
 
Fase de implementación de sistemas de información
Fase de implementación de sistemas de informaciónFase de implementación de sistemas de información
Fase de implementación de sistemas de información
 
Analisis y diseño de sistemas preguntas de repaso
Analisis y diseño de sistemas preguntas de repasoAnalisis y diseño de sistemas preguntas de repaso
Analisis y diseño de sistemas preguntas de repaso
 
Seguridad en Base de Datos
Seguridad en Base de DatosSeguridad en Base de Datos
Seguridad en Base de Datos
 
PLAN DE CAPACITACIÓN PARA USUARIOS FINALES
PLAN DE CAPACITACIÓN PARA USUARIOS FINALESPLAN DE CAPACITACIÓN PARA USUARIOS FINALES
PLAN DE CAPACITACIÓN PARA USUARIOS FINALES
 
Prototipos
PrototiposPrototipos
Prototipos
 
Introduccion a los sistemas de informacion
Introduccion a los sistemas de informacionIntroduccion a los sistemas de informacion
Introduccion a los sistemas de informacion
 
Documentación de sistemas
Documentación de sistemasDocumentación de sistemas
Documentación de sistemas
 
Gestión del riesgo de software
Gestión del riesgo de software Gestión del riesgo de software
Gestión del riesgo de software
 
Requerimientos no funcionales
Requerimientos no funcionalesRequerimientos no funcionales
Requerimientos no funcionales
 
Manual tecnico y manual de usuario
Manual tecnico y manual de usuarioManual tecnico y manual de usuario
Manual tecnico y manual de usuario
 
Planificación de sistemas de información
Planificación de sistemas de informaciónPlanificación de sistemas de información
Planificación de sistemas de información
 
Fundamentos de ingenieria del software (2)
Fundamentos de ingenieria del software (2)Fundamentos de ingenieria del software (2)
Fundamentos de ingenieria del software (2)
 
Estudio de factibilidad técnica (enfoque informático)
Estudio de factibilidad técnica  (enfoque informático)Estudio de factibilidad técnica  (enfoque informático)
Estudio de factibilidad técnica (enfoque informático)
 

Destacado (20)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes sociales
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Minería de datos y kdd
Minería de datos y kddMinería de datos y kdd
Minería de datos y kdd
 
Make Growth Happen for all Employees
Make Growth Happen for all EmployeesMake Growth Happen for all Employees
Make Growth Happen for all Employees
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
MIneria de datos
MIneria de datosMIneria de datos
MIneria de datos
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 

Similar a Mineria de datos

Revista TicNews Marzo 2015
Revista TicNews Marzo 2015Revista TicNews Marzo 2015
Revista TicNews Marzo 2015Edicion Ticnews
 
Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Ana Delgado
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining PabloMolina111
 
Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21Daniela Bedascarrasbure
 
Tecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.pptTecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.pptVAOC1984
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesDeysi Hdz
 
Mineria de datos-una_introduccion
Mineria de datos-una_introduccionMineria de datos-una_introduccion
Mineria de datos-una_introducciontravon1
 
Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistCarlos Toxtli
 

Similar a Mineria de datos (20)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Revista TicNews Marzo 2015
Revista TicNews Marzo 2015Revista TicNews Marzo 2015
Revista TicNews Marzo 2015
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining
 
Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21
 
Tecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.pptTecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.ppt
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Capitulo5
Capitulo5Capitulo5
Capitulo5
 
Capitulo5
Capitulo5Capitulo5
Capitulo5
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De Desiciones
 
Manejo De Datos
Manejo De DatosManejo De Datos
Manejo De Datos
 
Introduccion a mineria de datos
Introduccion a mineria de datosIntroduccion a mineria de datos
Introduccion a mineria de datos
 
Mineria de datos-una_introduccion
Mineria de datos-una_introduccionMineria de datos-una_introduccion
Mineria de datos-una_introduccion
 
SEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdfSEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdf
 
Web mining
Web miningWeb mining
Web mining
 
Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientist
 

Mineria de datos

  • 1. Área de la Energía, las Industrias y Recursos Naturales no Renovables CARRERA DE INGENIERIA EN SISTEMAS MODULO X “INTELIGENCIA ARTIFICIAL” ALUMNA: Mayra Elizabeth Ávila Rosales TEMA: “Practica de Minería de Datos.” DOCENTE: Ing.: Luis Antonio Chamba Eras. PERIODO ACADEMICO: Marzo- Julio del 2012 LOJA-ECUADOR
  • 2. Practica de Minería de Datos 1. Objetivos  Extraer información interesante/útil a partir de datos.  Estudiar los fundamentos de la minería de datos incluyendo: el aprendizaje de máquina, el reconocimiento de patrones y la estadística, así como sus aplicaciones a la solución de diferentes problemas prácticos.  Extracción de conocimiento, mediante una técnica de minería de datos, obtener un modelo de conocimiento representado por patrones. 2. Contenido Teórico Minería de Datos o Introducción Los avances tecnológicos en las últimas décadas nos han facilitado enormemente el acceso a grandes volúmenes de datos. La cantidad de información que manejamos hoy en día nos obliga a abordar el estudio de los datos/información desde una perspectiva global y no fragmentada. En los anos 90 apareció el concepto DATA MINING. Esta técnica se vinculo estrecha-mente con la dirección de empresas y en concreto al marketing. o Definición La Minería de Datos busca el procesamiento de información de forma clara para el usuario o cliente, de tal forma que pueda clasificar la información de acuerdo a parámetros inicialmente establecidos y de acuerdo a las necesidades que se buscan, es decir por medio de la minería de datos se dan acercamientos claros a resultados estadísticamente factibles a entendimiento y razón de una persona. o Tipos de minería de Datos  Minería de Datos Predictivas (MDP) Usa primordialmente técnicas estadísticas
  • 3. Minería de Datos para Descubrimiento de Conocimiento (MDDC)  Usa primordialmente técnicas de Inteligencia Artificial o Características principales  Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios anos.  En algunos casos, los datos se consolidan en un almacén de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet.  El entorno de la minería de datos suele tener una arquitectura cliente- servidor.  Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado en archivos corporativos o en registros públicos, archivados  Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. o Fases de la Minería de Datos Figura 1: Fases de la Minería de Datos
  • 4. o Técnicas para la Minería de Datos  Agrupación de Datos La agrupación o clustering consiste en agrupar un conjunto de datos basándose en la similitud de los valores de sus atributos. El clustering identifica regiones densamente pobladas, denominadas clúster, de acuerdo a alguna medida de distancia establecida.  Clasificación de datos La clasificación se utiliza para clasificar un conjunto de datos basado en los valores de sus atributos. La clasificación encuentra las propiedades comunes entre un conjunto de objetos y los clasifica en diferentes clases, de acuerdo a un modelo de clasificación.  Reglas de Asociación La minería de reglas de asociación consiste en encontrar reglas de la forma (A1yA2y...yAm) entonces (B1yB2y...yBn), donde Ai y Bj son valores de atributos del conjunto de datos o Extensiones de la Minería de Datos  Web Mining Consiste en aplicar las técnicas de MD a documentos y servicios de la Web. Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (log). Las herramientas de Web Mining analizan y procesan los logs para producir información significativa.  Text Mining Se refiere a examinar una colección de documentos y descubrir información no contenida en ningún documento individual de la colección. Dado que el 80 por ciento de la información de una compañía se almacena en forma de documentos, existen técnicas que apoyan al TM
  • 5. o Mapa conceptual de la Minería de Datos Figura 2: Mapa Conceptual de la Mineria 1 3. Desarrollo o Enunciado del problema La empresa de software para Internet “Memolum Web” quiere extraer tipologías de empleados, con el objetivo de hacer una política de personal más fundamentada y seleccionar a qué grupos incentivar. Las variables que se recogen de las fichas de los 15 empleados de la empresa son: • Sueldo: sueldo anual en euros. • Casado: si está casado o no. • Coche: si viene en coche a trabajar (o al menos si lo aparca en el párking de la empresa). • Hijos: si tiene hijos. • Alq/Prop: si vive en una casa alquilada o propia. • Sindic.: si pertenece al sindicato revolucionario de Internet • Bajas/Año: media del nº de bajas por año • Antigüedad: antigüedad en la empresa • Sexo: H: hombre, M: mujer. Los datos de los 15 empleados se encuentran en el fichero “Empleados.arff”. Para acceder a este fichero se debe ingresar a la siguiente dirección www.dsic.upv.es/~cferri/weka. A continuación clic en la palabra “datos” e inmediatamente empezara la descarga del archivo comprimido “Datasets.rar” en
  • 6. donde se encuentra “Empleados.arff”. Se intenta extraer grupos de entre estos quince empleados o Proceso de resolución del Problema Se utilizará el método de Clúster para ello acudimos a la ventana Clúster, luego seleccionaremos Choose para seleccionar el algoritmo SimpleKmeans, finalmente definimos 3 el número de clúster (En este apartado se agregará la ventana con los resultados que arroja el software weka al aplicar el algoritmo y el diagrama de dispersión)  Ingreso a weka En la primera parte del Software WEKA, se muestra la interfaz del software WEKA que permite visualizar el pre-procesamiento de los datos contenidos en el archivo “empleados.arff”, donde se puede identificar si los datos son reconocidos con la verificación de las 15 instancias y 9 atributos generados, tal como se muestra en la Figura 3. Fig. 3: Pre-procesamiento del archivo “empleados.arff”
  • 7. En la figura 3, nos muestra los resultados arrojados por el programa WEKA aplicando la técnica de Clúster y el algoritmo SimpleKMeans, para esta práctica se trabaja en 3 clúster, los mismos que definen los siguientes resultados:  Clúster 0: Podemos visualizar que este clúster agrupa a 6 empleados con las características como: un sueldo anual de 29166.6667 euros, no está casado pero si tiene hijos, no va en coche a trabajar, vive en una casa alquilada, si pertenece al sindicato revolucionario de Internet, bajas por año de 6.1667, tiene 8.3 años de antigüedad y finalmente es del sexo femenino.  Clúster 1: En este clúster agrupa a 5 empleados con características en común como un de un sueldo anual de 16600 euros, está casado y tiene hijos, viene en coche a trabajar, vive en una casa propia, no pertenece al sindicato revolucionario de Internet, tiene bajas por año un total de 3.4, tiene 8.4 años de antigüedad y finalmente es del sexo masculino.  Clúster 2: Finalmente el ultimo clúster agrupa a 4 empleados tales como: un sueldo anual de 14500 euros, está casado por lo tanto tiene hijos, va en coche a trabajar, vive en una casa alquilada, no pertenece al sindicato revolucionario de Internet, tiene un promedio de bajas por año de 6.25, tiene 7.75 años de antigüedad y finalmente es del sexo masculino Además podemos visualizar los resultados de los clúster en porcentaje:  Cluster 0 con 6 instancias: 40%  Cluster 1 con 5 instancias: 33%  Cluster 2 con 4 instancias: 27% Fig.4: Aplicación de la Técnica Clúster y el Algoritmo SimpleKMeans
  • 8. Por otra parte en el Software Weka podemos visualizar los datos de los empleados a través del diagrama de correlación-dispersión, donde nos muestra las 15 instancias distribuidas en el diagrama divididas por los 3 clusters: clusters 0 (color azul), clusters 1 (color rojo) y clusters 0 (color verde), tal como se muestra en la Figura 5. Fig. 5: Diagrama de correlación-dispersión o Análisis de los Resultados Una vez que hemos analizados los datos sobre el caso de estudio de extraer tipologías de empleados, se concluye que los empleados agrupados en el clúster 3, se les debe incentivar y mejorar las políticas para el mejoramiento personal y obtener ganancias.
  • 9. 4. Conclusiones o la minería de datos permite ahorrar grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. o Contribuye con la toma de decisiones. o La MD proporciona poder de decisión y resultados de la mejor forma. o Genera modelos descriptivos: permite a empresas explorar y comprender los datos e identificar patrones relacionados y dependencias que impactan en los resultados finales. o Genera Modelos Predictivos: permite que las relaciones no descubiertas través del proceso de la Minería de Datos sean expresado como reglas de negocio. 5. Bibliografía o [1] S. Vallejos, “Trabajo de adscripción minería de datos”, Corrientes - Argentina, 2006, pp. 11 – 14. o [2] Cursos, investigación y recursos en inteligencia artificial. “Introducción a técnicas de Minería de Datos”. Disponible: http://www.wiphala.net/courses/KDD_DM/20070/class/02_dt_for_classific ation/class_61_decision_trees.ppt [citado en 23 de Febrero de 2008] o [3] IEspaña. “Árboles y reglas de decisión”. Disponible: http://supervisadaextraccionrecuperacioninformacion.iespana.es/arboles.htm l [citado en 23 de Febrero de 2008] o [4] Proz.” Árbol de decisión (óptima)”. Disponible: http://www.proz.com/kudoz/2311529[citado en 28 de Febrero de 2008] 6. Licencia Práctica de Minería Datos De por Mayra Elizabeth Ávila Rosales está bajo una licencia Creative Commons Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Unported .