El documento describe las técnicas de minería de datos, incluyendo métodos supervisados como árboles de decisión y redes neuronales que predicen valores, y métodos no supervisados como clustering, reglas de asociación y patrones secuenciales que descubren patrones. Explica que la minería de datos ha reemplazado el análisis dirigido a la verificación con un enfoque de descubrimiento de conocimiento mediante algoritmos que detectan fácilmente patrones.
2. Minería de Datos
La minería de datos ha dado lugar a una paulatina sustitución
del análisis de datos dirigido a la verificación por un enfoque de
análisis de datos dirigido al descubrimiento de conocimiento.
La principal diferencia entre ambos se encuentra en que en el
último se descubre información sin necesidad de formular
previamente una hipótesis. La aplicación automatizada de
algoritmos de minería de datos permite detectar fácilmente
patrones en los datos, razón por la cual esta técnica es mucho
más eficiente que el análisis dirigido a la verificación cuando se
intenta explorar datos procedentes de repositorios de gran
tamaño y complejidad elevada.
3. Técnicas de Minería de Datos
Dichas técnicas emergentes se encuentran en continua
evolución como resultado de la colaboración entre campos de
investigación tales como bases de datos, reconocimiento de
patrones, inteligencia artificial, sistemas expertos, estadística,
visualización, recuperación de información, y computación de
altas prestaciones.
Los algoritmos de minería de datos se clasifican en dos grandes
categorías: supervisados o predictivos y no supervisados o de
descubrimiento del conocimiento.
4. Técnicas de Minería de Datos
Dichas técnicas emergentes se encuentran en continua
evolución como resultado de la colaboración entre campos de
investigación tales como bases de datos, reconocimiento de
patrones, inteligencia artificial, sistemas expertos, estadística,
visualización, recuperación de información, y computación de
altas prestaciones.
Los algoritmos de minería de datos se clasifican en dos grandes
categorías: supervisados o predictivos y no supervisados o de
descubrimiento del conocimiento.
5. Técnicas de Minería de Datos
Métodos Supervisados o Predictivos
Predicen el valor de un atributo
(etiqueta) de un conjunto de datos,
conocidos otros atributos (atributos
descriptivos). A partir de datos cuya
etiqueta se conoce se induce una
relación entre dicha etiqueta y otra
serie de atributos. Esas relaciones
sirven para realizar la predicción en
datos cuya etiqueta es desconocida.
Esta forma de trabajar se conoce
como aprendizaje supervisado.
Métodos No Supervisados o de
Descubrimiento del Conocimiento
Se recurre a esta cuando una
aplicación no es lo suficientemente
madura no tiene el potencial
necesario para una solución
predictiva
Descubren patrones y tendencias en
los datos actuales (no utilizan datos
históricos). El descubrimiento de esa
información sirve para llevar a cabo
acciones y obtener un beneficio
(científico o de negocio) de ellas.
6. Ejemplos de Técnicas de Minería de Datos
Métodos Supervisados
Arboles de Decisión
Redes Neuronales
Regresión
Series Temporales
Sobremuestreo
Métodos No Supervisados
Detección de desviaciones
Segmentación
Clustering
Reglas de Asociación
Patrones Secuenciales
7. Métodos Supervisados
Árboles de Decisión
Su representación es en forma de
árbol en donde cada nodo es una
decisión, los cuales a su vez generan
reglas para la clasificación de un
conjunto de datos.
Los árboles de decisión son fáciles
de usar, admiten atributos discretos
y continuos, tratan bien los atributos
no significativos y los valores
faltantes. Su principal ventaja es la
facilidad de interpretación.
Ejemplo:
8. Métodos Supervisados
Redes Neuronales
Esta técnica de inteligencia artificial, que
en los últimos años se ha convertido en
uno de los instrumentos de uso frecuente
para detectar categorías comunes en los
datos, debido a que son capaces de
detectar y aprender complejos patrones, y
características de los datos.
Una de las principales características de
las redes neuronales, es que son capaces
de trabajar con datos incompletos e
incluso paradójicos, que dependiendo del
problema puede resultar una ventaja o un
inconveniente. Dependiendo del enfoque
de aplicación de esta técnica también se lo
puede considerar como un método no
supervisado.
Ejemplo:
9. Métodos Supervisados
Sobremuestreo
El sobremuestreo consiste en filtrar los ejemplos (tuplas) de las clases con
mayor proporción, manteniendo las tuplas de las clases con menor
proporción.
Esto, evidentemente, cambia la proporción de las clases, pero permite
aprovechar a fondo los ejemplos de las clases más rarasSe debe usar
sobremuestreo cuando:
Cuando una clase es muy extraña: p.ej. predecir fallos de máquinas,
anomalías, excepciones, etc.
Cuando todas las clases (especialmente las escasas) deben ser validadas.
P.ej. si la clase escasa es la de los clientes fraudulentos.
10. Métodos No Supervisados
Patrones Secuenciales
Se trata de buscar asociaciones de
la forma “si sucede el evento X en el
instante de tiempo t entonces
sucederá Y en el instante t+n”.
El objetivo es tratar de describir de
forma concisa relaciones
temporales que existen entre los
valores de los atributos del conjunto
de ejemplos.
Ejemplos:
Técnicas para datos secuenciales
son:
Clasificación con Datos
Secuenciales
Agrupamiento de patrones
secuenciales.
Reglas de Asociación con datos
Secuenciales
11. Métodos No Supervisados
Clustering
Agrupan datos dentro de un número
de clases preestablecidas o no,
partiendo de criterios de distancia o
similitud, de manera que las clases
sean similares entre sí y distintas con
las otras clases. Su utilización ha
proporcionado significativos
resultados en lo que respecta a los
clasificadores o reconocedores de
patrones, como en el modelado de
sistemas. Este método debido a su
naturaleza flexible se puede combinar
fácilmente con otro tipo de técnica de
minería de datos, dando como
resultado un sistema híbrido.
Ejemplo:
12. Métodos No Supervisados
Reglas de Asociación
Se utilizan para descubrir hechos
que ocurren en común dentro de un
determinado conjunto de datos. Se
han investigado ampliamente
diversos métodos para aprendizaje
de reglas de asociación que han
resultado ser muy interesantes para
descubrir relaciones entre variables
en grandes conjuntos de datos.
Ejemplo:
La siguiente regla:
𝑐𝑒𝑏𝑜𝑙𝑙𝑎𝑠, 𝑣𝑒𝑔𝑒𝑡𝑎𝑙𝑒𝑠 ⇒ 𝑐𝑎𝑟𝑛𝑒
Encontrada en los datos de ventas de
un supermercado, indicaría que un
consumidor que compra cebollas y
verdura a la vez, es probable que
compre también carne.
Esta información se puede utilizar
como base para tomar
decisiones sobre marketing como
precios promocionales para ciertos
productos o dónde ubicar éstos dentro
del supermercado.
13. Bibliografía
García, M., Quintales, L., García, F., & Martín, M. (2001).
“Aplicación de Técnicas de Minería de Datos en la
Construcción y Validación de Modelos Predictivos y
Asociativos a Partir de Especificaciones de Requisitos De
Software” In ADIS.
Jaramillo, M. (2009). “Minería de Datos Secuenciales”
Obtenido de:
https://es.slideshare.net/marilynsilvana/mineria-de-datos-
secuenciales
Moreno, G. (2007). “Técnicas Más Usadas En La Minería
De Datos” Obtenido de:
https://gamoreno.wordpress.com/2007/10/03/tecnicas-
mas-usadas-en-la-mineria-de-datos/
Wikipedia. (2017) “Reglas de Asociación” Obtenido de:
https://es.wikipedia.org/wiki/Reglas_de_asociaci%C3%B3n