Este documento introduce el concepto de minería de datos, describiendo cómo el fácil almacenamiento de grandes cantidades de información ha permitido la creación de almacenes masivos de datos que requieren nuevas técnicas para su análisis. Explica que la minería de datos utiliza técnicas de inteligencia artificial, aprendizaje de máquinas, estadística y bases de datos para extraer conocimiento útil de grandes conjuntos de datos. Además, resume los pasos clave del proceso de minería de datos y algunos algoritmos com
1. Conciencia Tecnológica
ISSN: 1405-5597
contec@mail.ita.mx
Instituto Tecnológico de Aguascalientes
México
Velarde Martínez, Apolinar
Minería de Datos. Una Introducción
Conciencia Tecnológica, núm. 23, 2003
Instituto Tecnológico de Aguascalientes
Aguascalientes, México
Disponible en: http://www.redalyc.org/articulo.oa?id=94402303
Cómo citar el artículo
Número completo
Más información del artículo
Página de la revista en redalyc.org
Sistema de Información Científica
Red de Revistas Científicas de América Latina, el Caribe, España y Portugal
Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
2. Minería de Datos
Una Introducción
M. C. Apolinar Velarde Martínez
Departamento del Centro de Cómputo
Instituto Tecnológico de Aguascalientes
Aguascalientes, Ags. México
avelarde@ita.mx
RESUMEN.
El fácil almacenamiento de la información en sistemas de cómputo, conocido como generación masiva de datos, a
través de la automatización de aplicaciones, el uso de lectores de código de barras y otros métodos de captura, han
permitido la creación de almacenes masivos de información, hasta el punto en el que consultas enunciadas con
hipótesis concretas en lenguajes de consulta estructurados (SQL) han sido insuficientes para explotar estos
almacenes.
El sueño del hombre a través de la historia de la computación ha sido el desarrollar sistemas inteligentes para el
manejo de la información en sistemas de cómputo [1]. La minería de datos es una disciplina que combina técnicas de
Inteligencia Artificial, Aprendizaje Computacional, Probabilidad, Estadística, y Bases de Datos para extraer
información y conocimientos útiles desde grandes cantidades de datos [2].
Este documento está distribuido en 4 partes principales, en la primera parte se describe el concepto de Minería de
Datos, en la segunda se presenta un esquema genérico para el descubrimiento de conocimiento en un sistema de
minería de datos; las áreas de investigación aplicables a la minería de datos se describen en la tercera sección. Los
algoritmos de aplicación a la Minería de Datos se mencionan en la cuarta sección. Los trabajos futuros encaminados
a hacer uso de la Minería de Datos se exponen en la sección cinco. Finalmente, se presentan las conclusiones de éste
trabajo.
Palabras Clave. Minería de datos, algoritmos de Árboles de decisión y reglas, Matemáticas Multivariantes,
Algoritmos de clasificación, Redes Neuronales Artificiales, Modelos gráficos de dependencias probabilísticas.
I. CONCEPTO DE MINERÍA DE DATOS
Existen varias definiciones para el concepto de Minería de Datos, pero la esencia de éstas se fundamenta en el
concepto de escarbar en la información almacenada para descubrir elementos de utilidad desde grandes cantidades
3. de datos almacenadas, con el objetivo de detectar patrones de comportamiento consistentes, o relaciones entre los
diferentes campos de una base de datos para aplicarlos a nuevos conjuntos de datos.
Puede visualizarse también como un proceso analítico, diseñado para explorar grandes cantidades de datos, con el
objetivo de encontrar relaciones entre las diferentes variables, para aplicarlas a nuevos conjuntos de datos [3].
II. PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS
El proceso de descubrimiento de conocimiento en Bases de Datos involucra nueve pasos que a continuación se
describen y que se muestran esquemáticamente en la figura 1 [4]:
1. Entendimiento del dominio de aplicación, el conocimiento relevante a usar y las metas del usuario.
2. Seleccionar un conjunto de datos y enfocar la búsqueda en subconjuntos de variables y / ó muestras de datos en
donde realizar el proceso de descubrimiento.
3. Limpieza y preprocesamiento de datos, diseñando una estrategia adecuada para manejar ruido, valores
incompletos, secuencias de tiempo y otros.
4. Reducción de datos y proyecciones para reducir el número de variables a considerar.
5. Selección de la tarea de descubrimiento a realizar, por ejemplo, clasificación, agrupamiento, regresión,
etcétera.
6. Selección de el ó los algoritmos a utilizar.
7. Llevar a cabo el proceso de minería de datos.
8. Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el
proceso, quizás con otros datos, otros algoritmos otras metas y otras estrategias.
9. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir
resolver conflictos potenciales con el conocimiento existente.
3. Limpieza y preprocesamiento de datos, diseñando una estrategia adecuada para manejar ruido, valores
incompletos, secuencias de tiempo y otros.
4. Reducción de datos y proyecciones para reducir el número de variables a considerar.
5. Selección de la tarea de descubrimiento a realizar, por ejemplo, clasificación, agrupamiento, regresión,
etcétera.
6. Selección de el ó los algoritmos a utilizar.
7. Llevar a cabo el proceso de minería de datos.
8. Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el
proceso, quizás con otros datos, otros algoritmos otras metas y otras estrategias.
9. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir
resolver conflictos potenciales con el conocimiento existente.
4. Figura 1. Proceso de descubrimiento de conocimiento en bases de datos.
III. ÁREAS DE INVESTIGACIÓN APLICABLES A LA MINERÍA DE DATOS
Para llegar al conocimiento de los datos la Minería de Datos hace uso de las siguientes áreas de investigación: la
Inteligencia Artificial, las Bases de Datos, la Estadística y la Visualización de Datos.
IV. ALGORITMOS DE APLICACIÓN A LA MINERÍA DE DATOS
Destacan entre los algoritmos de aplicación a la Minería de Datos [4]:
1. Los algoritmos de Árboles de decisión y reglas.
2. Los Algoritmos de clasificación entre las que se pueden destacar las Redes Neuronales Artificiales
(Backpropagation).
3. Métodos basados en ejemplos, como el Método del vecino más cercano.
4. Modelos gráficos de dependencias probabilísticas como las Redes bayesianas.
V. TRABAJOS FUTUROS
Selección
Preprocesado
Transformación
Minería de Datos
Interpretación / Evaluación
5. El presente trabajo ha servido como punto de partida para el desarrollo de un Minero de datos utilizando PHP
(processor Hipertext) el permitirá el procesamiento de la Base de Datos de Alumnos del Instituto Tecnológico de
Aguascalientes, dadas la necesidades de generación de reportes a gran escala, así como la explotación de la misma
por los usuarios.
CONCLUSIONES
Una tecnología emergente como la Minería de Datos, se presenta como una herramienta de mucha aplicabilidad para
la exploración y explotación de información en grandes almacenes de datos, almacenes que se tornan difíciles de
explorar con herramientas clásicas de administración de Bases de Datos. La Minería de Datos utiliza modelos
predictivos, modelos de segmentación, modelos de agrupamiento y de afinidad sobre el conjunto de datos existentes,
lo que permite el manejo y estructuración eficiente de la información para presentar datos visuales de gran utilidad
en la toma de decisiones, generación de datos estadísticos y otras aplicaciones útiles en Instituciones y Empresas.
REFERENCIAS
[1] Velarde M. A.(1998), Sistema de Visión Artificial; Tesis de Maestría, Centro Nacional de Investigación y
Desarrollo Tecnológico, CENIDET.
[2] Communications of the ACM: Special Issue on Data Mining:, November, 1996.
[3] Fayyad U.; Piatetsky-Shapiro, G.; Editors (1996). Advances in Knowledge Discovery and Data Mining. AAAI
Press.
[4] Gómez Flechoso A. J., (1998), Inducción de Conocimiento con Incertidumbre en Bases de Datos Relaciónales
Borrosas. Tesis Doctoral – ETSIT-UPM Madrid.
[5] Westphal, C y Blaxton, T. (1999); Data Mining Solutions. Wiley.