Técnicas de minería de datos

ESCUELA SUPERIOR POLITECNICA DE CHIMBORAZO
FACULTAD DE CIENCIAS
ESCUELA DE FÍSICA Y MATEMÁTICA
MINERÍA DE DATOS

TÉCNICAS DE MINERÍA DE DATOS
Las técnicas de minería de datos crean modelos que son
predictivos y/ o descriptivos.
Un modelo predictivo responde preguntas sobre datos futuros.
Un modelo descriptivo proporciona información sobre las
relaciones entre los datos y sus características.

MINERÍA DE DATOS
Predicción
Descubrimiento de
conocimiento
Regresión
Clasificación
Visualización
Detección de
Desviaciones
Clustering
Reglas de
Asociación

FORMAS DE APRENDIZAJE
Cuenta con un conocimiento a priori, al momento de clasificar un
objeto dentro de una categoría o clase contamos con modelos ya
clasificados (objetos agrupados que tienen características
comunes).
Podemos diferenciar dos fases dentro de este tipo de clasificación:
1. Tenemos un conjunto de entrenamiento o de aprendizaje
(para el diseño del clasificador) y otro llamado de test o de
validación (para clasificación), estos nos servirán para
construir un modelo o regla general para la clasificación.
2. El proceso en sí de clasificar los objetos o muestras de las
que se desconoce la clase a las que pertenecen.
SUPERVISADA

O también llamada de clustering. No se cuenta con
conocimiento a priori, por lo que tendremos un área de
entrenamiento disponible para la tarea de clasificación.
En este tipo de clasificación contamos con “objetos” o
muestras que tiene un conjunto de características, de las que
no sabemos a que clase o categoría pertenece.
NO SUPERVISADA
OBJETIVO:Es el descubrimiento de grupos de “objetos” cuyas
características afines nos permitan separar las diferentes
clases.

SUPERVISADAS NO SUPERVISADAS
Árboles de
decisión
Detección de desviaciones
Inducción
neuronal
Segmentación
Regresión Agrupamiento
Series temporales Reglas de asociación
Patrones secuenciales

REDES NEURONALES
Esta técnica de inteligencia artificial, en los últimos años se ha
convertido en uno de los instrumentos de uso frecuente para
detectar categorías comunes en los datos, debido a que son
capaces de detectar y aprender complejos patrones, y
características de los datos.
Una de las principales características de las redes neuronales,
es que son capaces de trabajar con datos incompletos e
incluso paradójicos, que dependiendo del problema puede
resultar una ventaja o un inconveniente. Además esta técnica
posee dos formas de aprendizaje: supervisado y no
supervisado.

ÁRBOLES DE DECISIÓN
Está técnica se encuentra dentro de una metodología de
aprendizaje supervisado. Su representación es en forma de
árbol en donde cada nodo es una decisión, los cuales a su vez
generan reglas para la clasificación de un conjunto de datos.
Los árboles de decisión son fáciles de usar, admiten atributos
discretos y continuos, tratan bien los atributos no
significativos y los valores faltantes. Su principal ventaja es la
facilidad de interpretación.

ALGORITMOS GÉNETICOS
Los algoritmos genéticos imitan la evolución de las especies
mediante la mutación, reproducción y selección, como
también proporcionan programas y optimizaciones que
pueden ser usadas en la construcción y entrenamiento de
otras estructuras como es el caso de las redes neuronales.
Además los algoritmos genéticos son inspirados en el principio
de la supervivencia de los más aptos.

CLUSTERING (Agrupamiento)
Agrupan datos dentro de un número de clases preestablecidas
o no, partiendo de criterios de distancia o similitud, de
manera que las clases sean similares entre sí y distintas con las
otras clases.
Su utilización ha proporcionado significativos resultados en lo
que respecta a los clasificadores o reconocedores de patrones,
como en el modelado de sistemas. Este método debido a su
naturaleza flexible se puede combinar fácilmente con otro tipo
de técnica de minería de datos, dando como resultado un
sistema híbrido.

Problemas en el análisis de cluster
Un problema relacionado con el análisis de cluster es la
selección de factores en tareas de clasificación, debido a que
no todas las variables tienen la misma importancia a la hora
de agrupar los objetos. Otro problema de gran importancia y
que actualmente despierta un gran interés es la fusión de
conocimiento, ya que existen múltiples fuentes de
información sobre un mismo tema, los cuales no utilizan una
categorización homogénea de los objetos. Para poder
solucionar estos inconvenientes es necesario fusionar la
información a la hora de recopilar, comparar o resumir los
datos.

APRENDIZAJE AUTOMÁTICO
Esta técnica de inteligencia artificial es utilizada para inferir
conocimiento del resultado de la aplicación de alguna de las
otras técnicas antes mencionadas.

Análisis de Enlace (Link Analysis)
El análisis de enlace es el proceso de crear redes de objetos
interconectados para explorar patrones y tendencias. Es parte
de una rama de la matemática llamada “teoría de graficas” -
Barry and Linoff, 1997 0 Cada objeto recibe el nombre de
nodo y el enlace se llama conexión. Relación entre artículos
comprados

Predicción
El análisis de predicción está relacionado con las técnicas de
regresión. La idea de este tipo de análisis es descubrir la
relación entre variables ya sean independientes o
dependientes. Por ejemplo, si las ventas son una variable
independiente, entonces el beneficio puede ser una variable
dependiente. Mediante el uso de datos históricos de ambas
ventas y beneficios, las técnicas lineales o no lineales de
regresión pueden producir una curva que permita la
predicción de beneficios en el futuro.

Patrones secuenciales
Estos realizan un análisis que permite encontrar patrones
similares en los datos de transacciones durante un período de
negocio. Los analistas pueden usar estos patrones para
identificar relaciones entre los datos. Los modelos
matemáticos son patrones secuenciales detrás de la lógica
normativa, la lógica difusa u otras. En la fase de minería de
datos, es posible estudiar varias secuencias similares para
identificar las tendencias futuras en el desarrollo de
transacciones. Este enfoque es útil en el tratamiento de bases
de datos con características de series de tiempo.

Naive Bayes
Se trata de una técnica que combina la clasificación y
predicción, con el fin de construir modelos para predecir
posibles resultados a partir de asociaciones en los datos
históricos.

Series de tiempo
Las series de tiempo en la minería de datos permiten buscar
patrones a partir de grandes cantidades de datos. Algunas de
sus variables están en función del tiempo. Esta técnica se
utiliza a partir del comportamiento histórico de los datos, que
permite modelar los componentes básicos de la serie, y así se
logra hacer predicciones.

BIBLIOGRAFÍA:
https://advancedtech.wordpress.com/2008/04/14/clasificacion-supervisada-y-no-supervisada/
Moreno, G. (2007). Técnica más usadas en la minería de datos. Obtenido de:
https://gamoreno.wordpress.com/2007/10/03/tecnicas-mas-usadas-en-la-mineria-de-datos/
Dueñas, M. (2009). Minería de datos espaciales en búsqueda de la verdadera información.
Scielo. Obtenido de: http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0123-
21262009000100007
Sánchez, J. (2011). Breve paseo por la Minería de Datos. SlideShare. Obtenido de:
https://es.slideshare.net/jculacio/brevepaseoporla-mineradedatos
Beltrán, B. Minería de datos. Obtenido de: http://bbeltran.cs.buap.mx/NotasMD.pdf

Técnicas de minería de datos

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (18)

Similar a Técnicas de minería de datos

Similar a Técnicas de minería de datos (20)

Último

Último (19)

Técnicas de minería de datos