SlideShare una empresa de Scribd logo
1 de 5
Descargar para leer sin conexión
Conciencia Tecnológica
ISSN: 1405-5597
contec@mail.ita.mx
Instituto Tecnológico de Aguascalientes
México
Velarde Martínez, Apolinar
Minería de Datos. Una Introducción
Conciencia Tecnológica, núm. 23, 2003
Instituto Tecnológico de Aguascalientes
Aguascalientes, México
Disponible en: http://www.redalyc.org/articulo.oa?id=94402303
Cómo citar el artículo
Número completo
Más información del artículo
Página de la revista en redalyc.org
Sistema de Información Científica
Red de Revistas Científicas de América Latina, el Caribe, España y Portugal
Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
Minería de Datos
Una Introducción
M. C. Apolinar Velarde Martínez
Departamento del Centro de Cómputo
Instituto Tecnológico de Aguascalientes
Aguascalientes, Ags. México
avelarde@ita.mx
RESUMEN.
El fácil almacenamiento de la información en sistemas de cómputo, conocido como generación masiva de datos, a
través de la automatización de aplicaciones, el uso de lectores de código de barras y otros métodos de captura, han
permitido la creación de almacenes masivos de información, hasta el punto en el que consultas enunciadas con
hipótesis concretas en lenguajes de consulta estructurados (SQL) han sido insuficientes para explotar estos
almacenes.
El sueño del hombre a través de la historia de la computación ha sido el desarrollar sistemas inteligentes para el
manejo de la información en sistemas de cómputo [1]. La minería de datos es una disciplina que combina técnicas de
Inteligencia Artificial, Aprendizaje Computacional, Probabilidad, Estadística, y Bases de Datos para extraer
información y conocimientos útiles desde grandes cantidades de datos [2].
Este documento está distribuido en 4 partes principales, en la primera parte se describe el concepto de Minería de
Datos, en la segunda se presenta un esquema genérico para el descubrimiento de conocimiento en un sistema de
minería de datos; las áreas de investigación aplicables a la minería de datos se describen en la tercera sección. Los
algoritmos de aplicación a la Minería de Datos se mencionan en la cuarta sección. Los trabajos futuros encaminados
a hacer uso de la Minería de Datos se exponen en la sección cinco. Finalmente, se presentan las conclusiones de éste
trabajo.
Palabras Clave. Minería de datos, algoritmos de Árboles de decisión y reglas, Matemáticas Multivariantes,
Algoritmos de clasificación, Redes Neuronales Artificiales, Modelos gráficos de dependencias probabilísticas.
I. CONCEPTO DE MINERÍA DE DATOS
Existen varias definiciones para el concepto de Minería de Datos, pero la esencia de éstas se fundamenta en el
concepto de escarbar en la información almacenada para descubrir elementos de utilidad desde grandes cantidades
de datos almacenadas, con el objetivo de detectar patrones de comportamiento consistentes, o relaciones entre los
diferentes campos de una base de datos para aplicarlos a nuevos conjuntos de datos.
Puede visualizarse también como un proceso analítico, diseñado para explorar grandes cantidades de datos, con el
objetivo de encontrar relaciones entre las diferentes variables, para aplicarlas a nuevos conjuntos de datos [3].
II. PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS
El proceso de descubrimiento de conocimiento en Bases de Datos involucra nueve pasos que a continuación se
describen y que se muestran esquemáticamente en la figura 1 [4]:
1. Entendimiento del dominio de aplicación, el conocimiento relevante a usar y las metas del usuario.
2. Seleccionar un conjunto de datos y enfocar la búsqueda en subconjuntos de variables y / ó muestras de datos en
donde realizar el proceso de descubrimiento.
3. Limpieza y preprocesamiento de datos, diseñando una estrategia adecuada para manejar ruido, valores
incompletos, secuencias de tiempo y otros.
4. Reducción de datos y proyecciones para reducir el número de variables a considerar.
5. Selección de la tarea de descubrimiento a realizar, por ejemplo, clasificación, agrupamiento, regresión,
etcétera.
6. Selección de el ó los algoritmos a utilizar.
7. Llevar a cabo el proceso de minería de datos.
8. Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el
proceso, quizás con otros datos, otros algoritmos otras metas y otras estrategias.
9. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir
resolver conflictos potenciales con el conocimiento existente.
3. Limpieza y preprocesamiento de datos, diseñando una estrategia adecuada para manejar ruido, valores
incompletos, secuencias de tiempo y otros.
4. Reducción de datos y proyecciones para reducir el número de variables a considerar.
5. Selección de la tarea de descubrimiento a realizar, por ejemplo, clasificación, agrupamiento, regresión,
etcétera.
6. Selección de el ó los algoritmos a utilizar.
7. Llevar a cabo el proceso de minería de datos.
8. Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el
proceso, quizás con otros datos, otros algoritmos otras metas y otras estrategias.
9. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir
resolver conflictos potenciales con el conocimiento existente.
Figura 1. Proceso de descubrimiento de conocimiento en bases de datos.
III. ÁREAS DE INVESTIGACIÓN APLICABLES A LA MINERÍA DE DATOS
Para llegar al conocimiento de los datos la Minería de Datos hace uso de las siguientes áreas de investigación: la
Inteligencia Artificial, las Bases de Datos, la Estadística y la Visualización de Datos.
IV. ALGORITMOS DE APLICACIÓN A LA MINERÍA DE DATOS
Destacan entre los algoritmos de aplicación a la Minería de Datos [4]:
1. Los algoritmos de Árboles de decisión y reglas.
2. Los Algoritmos de clasificación entre las que se pueden destacar las Redes Neuronales Artificiales
(Backpropagation).
3. Métodos basados en ejemplos, como el Método del vecino más cercano.
4. Modelos gráficos de dependencias probabilísticas como las Redes bayesianas.
V. TRABAJOS FUTUROS
Selección
Preprocesado
Transformación
Minería de Datos
Interpretación / Evaluación
El presente trabajo ha servido como punto de partida para el desarrollo de un Minero de datos utilizando PHP
(processor Hipertext) el permitirá el procesamiento de la Base de Datos de Alumnos del Instituto Tecnológico de
Aguascalientes, dadas la necesidades de generación de reportes a gran escala, así como la explotación de la misma
por los usuarios.
CONCLUSIONES
Una tecnología emergente como la Minería de Datos, se presenta como una herramienta de mucha aplicabilidad para
la exploración y explotación de información en grandes almacenes de datos, almacenes que se tornan difíciles de
explorar con herramientas clásicas de administración de Bases de Datos. La Minería de Datos utiliza modelos
predictivos, modelos de segmentación, modelos de agrupamiento y de afinidad sobre el conjunto de datos existentes,
lo que permite el manejo y estructuración eficiente de la información para presentar datos visuales de gran utilidad
en la toma de decisiones, generación de datos estadísticos y otras aplicaciones útiles en Instituciones y Empresas.
REFERENCIAS
[1] Velarde M. A.(1998), Sistema de Visión Artificial; Tesis de Maestría, Centro Nacional de Investigación y
Desarrollo Tecnológico, CENIDET.
[2] Communications of the ACM: Special Issue on Data Mining:, November, 1996.
[3] Fayyad U.; Piatetsky-Shapiro, G.; Editors (1996). Advances in Knowledge Discovery and Data Mining. AAAI
Press.
[4] Gómez Flechoso A. J., (1998), Inducción de Conocimiento con Incertidumbre en Bases de Datos Relaciónales
Borrosas. Tesis Doctoral – ETSIT-UPM Madrid.
[5] Westphal, C y Blaxton, T. (1999); Data Mining Solutions. Wiley.

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)
 
Md session1
Md session1Md session1
Md session1
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Base de datos_aci_253_26_10 [autoguardado]
Base de datos_aci_253_26_10 [autoguardado]Base de datos_aci_253_26_10 [autoguardado]
Base de datos_aci_253_26_10 [autoguardado]
 
MIneria de datos
MIneria de datosMIneria de datos
MIneria de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
MINERIA DE DATOS
MINERIA DE DATOSMINERIA DE DATOS
MINERIA DE DATOS
 
Minería de datos y textos
Minería de datos y textosMinería de datos y textos
Minería de datos y textos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Data Mining
Data MiningData Mining
Data Mining
 
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
 

Similar a Minería de Datos Introducción

Similar a Minería de Datos Introducción (20)

Dialnet-MineriaDeDatosAplicadaAlAnalisisBibliometricoDescr-6652723.pdf
Dialnet-MineriaDeDatosAplicadaAlAnalisisBibliometricoDescr-6652723.pdfDialnet-MineriaDeDatosAplicadaAlAnalisisBibliometricoDescr-6652723.pdf
Dialnet-MineriaDeDatosAplicadaAlAnalisisBibliometricoDescr-6652723.pdf
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Revista TicNews Marzo 2015
Revista TicNews Marzo 2015Revista TicNews Marzo 2015
Revista TicNews Marzo 2015
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria y modelado de datos
Mineria y modelado de datosMineria y modelado de datos
Mineria y modelado de datos
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De Desiciones
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Fundamentos de Data Mining con R
Fundamentos de Data Mining con RFundamentos de Data Mining con R
Fundamentos de Data Mining con R
 
SEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdfSEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdf
 
Manejo De Datos
Manejo De DatosManejo De Datos
Manejo De Datos
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Capitulo5
Capitulo5Capitulo5
Capitulo5
 
Capitulo5
Capitulo5Capitulo5
Capitulo5
 
2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx
 
Apoyo de la mineria de datos a la vt
Apoyo de la mineria de datos a  la vtApoyo de la mineria de datos a  la vt
Apoyo de la mineria de datos a la vt
 

Último

Proyecto de iluminación "guia" para proyectos de ingeniería eléctrica
Proyecto de iluminación "guia" para proyectos de ingeniería eléctricaProyecto de iluminación "guia" para proyectos de ingeniería eléctrica
Proyecto de iluminación "guia" para proyectos de ingeniería eléctricaXjoseantonio01jossed
 
Obras paralizadas en el sector construcción
Obras paralizadas en el sector construcciónObras paralizadas en el sector construcción
Obras paralizadas en el sector construcciónXimenaFallaLecca1
 
Procesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptx
Procesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptxProcesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptx
Procesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptxJuanPablo452634
 
Sesión N°2_Curso_Ingeniería_Sanitaria.pdf
Sesión N°2_Curso_Ingeniería_Sanitaria.pdfSesión N°2_Curso_Ingeniería_Sanitaria.pdf
Sesión N°2_Curso_Ingeniería_Sanitaria.pdfannavarrom
 
Presentación electricidad y magnetismo.pptx
Presentación electricidad y magnetismo.pptxPresentación electricidad y magnetismo.pptx
Presentación electricidad y magnetismo.pptxYajairaMartinez30
 
Falla de san andres y el gran cañon : enfoque integral
Falla de san andres y el gran cañon : enfoque integralFalla de san andres y el gran cañon : enfoque integral
Falla de san andres y el gran cañon : enfoque integralsantirangelcor
 
Curso intensivo de soldadura electrónica en pdf
Curso intensivo de soldadura electrónica  en pdfCurso intensivo de soldadura electrónica  en pdf
Curso intensivo de soldadura electrónica en pdfFernandaGarca788912
 
Sesión 02 TIPOS DE VALORIZACIONES CURSO Cersa
Sesión 02 TIPOS DE VALORIZACIONES CURSO CersaSesión 02 TIPOS DE VALORIZACIONES CURSO Cersa
Sesión 02 TIPOS DE VALORIZACIONES CURSO CersaXimenaFallaLecca1
 
sistema de construcción Drywall semana 7
sistema de construcción Drywall semana 7sistema de construcción Drywall semana 7
sistema de construcción Drywall semana 7luisanthonycarrascos
 
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESA
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESAIPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESA
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESAJAMESDIAZ55
 
Una estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTUna estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTFundación YOD YOD
 
Comite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxComite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxClaudiaPerez86192
 
Manual_Identificación_Geoformas_140627.pdf
Manual_Identificación_Geoformas_140627.pdfManual_Identificación_Geoformas_140627.pdf
Manual_Identificación_Geoformas_140627.pdfedsonzav8
 
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdfECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdffredyflores58
 
Propositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicacionesPropositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicaciones025ca20
 
tema05 estabilidad en barras mecanicas.pdf
tema05 estabilidad en barras mecanicas.pdftema05 estabilidad en barras mecanicas.pdf
tema05 estabilidad en barras mecanicas.pdfvictoralejandroayala2
 
ECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdfECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdfmatepura
 
CLASE - 01 de construcción 1 ingeniería civil
CLASE - 01 de construcción 1 ingeniería civilCLASE - 01 de construcción 1 ingeniería civil
CLASE - 01 de construcción 1 ingeniería civilDissneredwinPaivahua
 
TEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIAS
TEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIASTEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIAS
TEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIASfranzEmersonMAMANIOC
 

Último (20)

Proyecto de iluminación "guia" para proyectos de ingeniería eléctrica
Proyecto de iluminación "guia" para proyectos de ingeniería eléctricaProyecto de iluminación "guia" para proyectos de ingeniería eléctrica
Proyecto de iluminación "guia" para proyectos de ingeniería eléctrica
 
Obras paralizadas en el sector construcción
Obras paralizadas en el sector construcciónObras paralizadas en el sector construcción
Obras paralizadas en el sector construcción
 
Procesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptx
Procesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptxProcesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptx
Procesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptx
 
Sesión N°2_Curso_Ingeniería_Sanitaria.pdf
Sesión N°2_Curso_Ingeniería_Sanitaria.pdfSesión N°2_Curso_Ingeniería_Sanitaria.pdf
Sesión N°2_Curso_Ingeniería_Sanitaria.pdf
 
Presentación electricidad y magnetismo.pptx
Presentación electricidad y magnetismo.pptxPresentación electricidad y magnetismo.pptx
Presentación electricidad y magnetismo.pptx
 
Falla de san andres y el gran cañon : enfoque integral
Falla de san andres y el gran cañon : enfoque integralFalla de san andres y el gran cañon : enfoque integral
Falla de san andres y el gran cañon : enfoque integral
 
Curso intensivo de soldadura electrónica en pdf
Curso intensivo de soldadura electrónica  en pdfCurso intensivo de soldadura electrónica  en pdf
Curso intensivo de soldadura electrónica en pdf
 
Sesión 02 TIPOS DE VALORIZACIONES CURSO Cersa
Sesión 02 TIPOS DE VALORIZACIONES CURSO CersaSesión 02 TIPOS DE VALORIZACIONES CURSO Cersa
Sesión 02 TIPOS DE VALORIZACIONES CURSO Cersa
 
sistema de construcción Drywall semana 7
sistema de construcción Drywall semana 7sistema de construcción Drywall semana 7
sistema de construcción Drywall semana 7
 
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESA
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESAIPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESA
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESA
 
Una estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTUna estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NIST
 
Comite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxComite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptx
 
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdfVALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
 
Manual_Identificación_Geoformas_140627.pdf
Manual_Identificación_Geoformas_140627.pdfManual_Identificación_Geoformas_140627.pdf
Manual_Identificación_Geoformas_140627.pdf
 
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdfECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
 
Propositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicacionesPropositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicaciones
 
tema05 estabilidad en barras mecanicas.pdf
tema05 estabilidad en barras mecanicas.pdftema05 estabilidad en barras mecanicas.pdf
tema05 estabilidad en barras mecanicas.pdf
 
ECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdfECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdf
 
CLASE - 01 de construcción 1 ingeniería civil
CLASE - 01 de construcción 1 ingeniería civilCLASE - 01 de construcción 1 ingeniería civil
CLASE - 01 de construcción 1 ingeniería civil
 
TEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIAS
TEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIASTEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIAS
TEXTURA Y DETERMINACION DE ROCAS SEDIMENTARIAS
 

Minería de Datos Introducción

  • 1. Conciencia Tecnológica ISSN: 1405-5597 contec@mail.ita.mx Instituto Tecnológico de Aguascalientes México Velarde Martínez, Apolinar Minería de Datos. Una Introducción Conciencia Tecnológica, núm. 23, 2003 Instituto Tecnológico de Aguascalientes Aguascalientes, México Disponible en: http://www.redalyc.org/articulo.oa?id=94402303 Cómo citar el artículo Número completo Más información del artículo Página de la revista en redalyc.org Sistema de Información Científica Red de Revistas Científicas de América Latina, el Caribe, España y Portugal Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
  • 2. Minería de Datos Una Introducción M. C. Apolinar Velarde Martínez Departamento del Centro de Cómputo Instituto Tecnológico de Aguascalientes Aguascalientes, Ags. México avelarde@ita.mx RESUMEN. El fácil almacenamiento de la información en sistemas de cómputo, conocido como generación masiva de datos, a través de la automatización de aplicaciones, el uso de lectores de código de barras y otros métodos de captura, han permitido la creación de almacenes masivos de información, hasta el punto en el que consultas enunciadas con hipótesis concretas en lenguajes de consulta estructurados (SQL) han sido insuficientes para explotar estos almacenes. El sueño del hombre a través de la historia de la computación ha sido el desarrollar sistemas inteligentes para el manejo de la información en sistemas de cómputo [1]. La minería de datos es una disciplina que combina técnicas de Inteligencia Artificial, Aprendizaje Computacional, Probabilidad, Estadística, y Bases de Datos para extraer información y conocimientos útiles desde grandes cantidades de datos [2]. Este documento está distribuido en 4 partes principales, en la primera parte se describe el concepto de Minería de Datos, en la segunda se presenta un esquema genérico para el descubrimiento de conocimiento en un sistema de minería de datos; las áreas de investigación aplicables a la minería de datos se describen en la tercera sección. Los algoritmos de aplicación a la Minería de Datos se mencionan en la cuarta sección. Los trabajos futuros encaminados a hacer uso de la Minería de Datos se exponen en la sección cinco. Finalmente, se presentan las conclusiones de éste trabajo. Palabras Clave. Minería de datos, algoritmos de Árboles de decisión y reglas, Matemáticas Multivariantes, Algoritmos de clasificación, Redes Neuronales Artificiales, Modelos gráficos de dependencias probabilísticas. I. CONCEPTO DE MINERÍA DE DATOS Existen varias definiciones para el concepto de Minería de Datos, pero la esencia de éstas se fundamenta en el concepto de escarbar en la información almacenada para descubrir elementos de utilidad desde grandes cantidades
  • 3. de datos almacenadas, con el objetivo de detectar patrones de comportamiento consistentes, o relaciones entre los diferentes campos de una base de datos para aplicarlos a nuevos conjuntos de datos. Puede visualizarse también como un proceso analítico, diseñado para explorar grandes cantidades de datos, con el objetivo de encontrar relaciones entre las diferentes variables, para aplicarlas a nuevos conjuntos de datos [3]. II. PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS El proceso de descubrimiento de conocimiento en Bases de Datos involucra nueve pasos que a continuación se describen y que se muestran esquemáticamente en la figura 1 [4]: 1. Entendimiento del dominio de aplicación, el conocimiento relevante a usar y las metas del usuario. 2. Seleccionar un conjunto de datos y enfocar la búsqueda en subconjuntos de variables y / ó muestras de datos en donde realizar el proceso de descubrimiento. 3. Limpieza y preprocesamiento de datos, diseñando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo y otros. 4. Reducción de datos y proyecciones para reducir el número de variables a considerar. 5. Selección de la tarea de descubrimiento a realizar, por ejemplo, clasificación, agrupamiento, regresión, etcétera. 6. Selección de el ó los algoritmos a utilizar. 7. Llevar a cabo el proceso de minería de datos. 8. Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos otras metas y otras estrategias. 9. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimiento existente. 3. Limpieza y preprocesamiento de datos, diseñando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo y otros. 4. Reducción de datos y proyecciones para reducir el número de variables a considerar. 5. Selección de la tarea de descubrimiento a realizar, por ejemplo, clasificación, agrupamiento, regresión, etcétera. 6. Selección de el ó los algoritmos a utilizar. 7. Llevar a cabo el proceso de minería de datos. 8. Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos otras metas y otras estrategias. 9. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimiento existente.
  • 4. Figura 1. Proceso de descubrimiento de conocimiento en bases de datos. III. ÁREAS DE INVESTIGACIÓN APLICABLES A LA MINERÍA DE DATOS Para llegar al conocimiento de los datos la Minería de Datos hace uso de las siguientes áreas de investigación: la Inteligencia Artificial, las Bases de Datos, la Estadística y la Visualización de Datos. IV. ALGORITMOS DE APLICACIÓN A LA MINERÍA DE DATOS Destacan entre los algoritmos de aplicación a la Minería de Datos [4]: 1. Los algoritmos de Árboles de decisión y reglas. 2. Los Algoritmos de clasificación entre las que se pueden destacar las Redes Neuronales Artificiales (Backpropagation). 3. Métodos basados en ejemplos, como el Método del vecino más cercano. 4. Modelos gráficos de dependencias probabilísticas como las Redes bayesianas. V. TRABAJOS FUTUROS Selección Preprocesado Transformación Minería de Datos Interpretación / Evaluación
  • 5. El presente trabajo ha servido como punto de partida para el desarrollo de un Minero de datos utilizando PHP (processor Hipertext) el permitirá el procesamiento de la Base de Datos de Alumnos del Instituto Tecnológico de Aguascalientes, dadas la necesidades de generación de reportes a gran escala, así como la explotación de la misma por los usuarios. CONCLUSIONES Una tecnología emergente como la Minería de Datos, se presenta como una herramienta de mucha aplicabilidad para la exploración y explotación de información en grandes almacenes de datos, almacenes que se tornan difíciles de explorar con herramientas clásicas de administración de Bases de Datos. La Minería de Datos utiliza modelos predictivos, modelos de segmentación, modelos de agrupamiento y de afinidad sobre el conjunto de datos existentes, lo que permite el manejo y estructuración eficiente de la información para presentar datos visuales de gran utilidad en la toma de decisiones, generación de datos estadísticos y otras aplicaciones útiles en Instituciones y Empresas. REFERENCIAS [1] Velarde M. A.(1998), Sistema de Visión Artificial; Tesis de Maestría, Centro Nacional de Investigación y Desarrollo Tecnológico, CENIDET. [2] Communications of the ACM: Special Issue on Data Mining:, November, 1996. [3] Fayyad U.; Piatetsky-Shapiro, G.; Editors (1996). Advances in Knowledge Discovery and Data Mining. AAAI Press. [4] Gómez Flechoso A. J., (1998), Inducción de Conocimiento con Incertidumbre en Bases de Datos Relaciónales Borrosas. Tesis Doctoral – ETSIT-UPM Madrid. [5] Westphal, C y Blaxton, T. (1999); Data Mining Solutions. Wiley.