1. Electiva III
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
Carrera de Ingeniería en Sistemas Computacionales
2020 - 2021 CII
Modalidad Virtual
Docente: Lsi. María Isabel Galarza S., Mg.
UNIDAD 3
Minería de Datos
2. Concepto de Minería
Es un proceso que es parte de la estadística y
de las ciencias de la computación, permite:
• Analizar información de un gran conjunto
de datos.
• Extraer patrones hasta ahora
desconocidos: análisis clúster, detección
de anomalías, minería por reglas de
asociación
• Realizar aprendizaje automático o análisis
predictivo de los patrones encontrados.
3. Características
• Permite explorar datos que se encuentran inmersos en profundas bases de datos.
• Suele tener una arquitectura cliente-servidor.
• Ayudan a extraer la información que se encuentran almacenados en archivos corporativos
o registros públicos.
• Permiten el análisis y procesamiento de la información de forma ágil.
• Permite la producción de 5 tipos de información (asociaciones, secuencia, clasificaciones,
agrupamiento, pronóstico).
5. Selección del conjunto de datos
Tanto de variables objetivo(utilizadas para predecir, calcular o inferir, así como variables independientes(para
utilizar en cálculo o proceso).
Análisis de las propiedades de los datos
En especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores
nulos).
Transformación del conjunto de datos de entrada
Conocida como preprocesamiento. Cuando se encuentra texto en inglés, se realiza simplificación antes de iniciar
con el proceso, realizando conversión a inglés básico.
Selección y aplicación de la técnica de minería de datos
Se construye el modelo predictivo, de clasificación o segmentación.
Extracción de conocimiento
Se puede obtener una o varias técnicas para generar patrones de comportamiento.
Interpretación y evaluación de datos
Validación y comprobación de las conclusiones.
6. Técnicas(I)
Redes neuronales
Maneja un sistema de interconexión de neuronas en una red que
colabora para producir un estímulo de salida.
Regresión lineal
Rápida y eficaz pero insuficiente en espacios multidimensionales
donde puedan relacionarse más de 2 variables.
Árboles de decisión
A partir de una base de datos se crean diagramas de construcciones
lógicas que sirven para representar y categorizar una serie de
condiciones que suceden de forma sucesiva, para la resolución de
un problema.
7. Técnicas(II)
Modelos estadísticos
Es una expresión simbólica en forma de igualdad, utilizado para indicar los diferentes factores que
modifican la variable de respuesta.
Agrupamiento o clustering
Procedimiento de agrupación de una serie de vectores y los dispone de manera que estén más
cercanos aquellos que tengan características comunes.
Reglas de asociación
Utilizadas para descubrir hechos que ocurren en común dentro de un determinado conjunto de
datos.
8. Clasificación de las
técnicas según el
análisis de los
datos
Supervisados
Predicen un dato a partir de otros conocidos.
No Supervisados
Se descubren patrones y tendencias en los datos.
9. Metodología CRISP-DM (CRoss-Industry Standard
Process for Data Mining)
Es una metodología de Minería de datos para desarrollo de proyectos
analíticos.
Tiene cuatro niveles de abstracción:
• Fase
• Tareas generales
• Tareas específicas
• Instancias de proceso
10. Ciclo de vida (I)
Análisis del problema
Se centra en el análisis de los objetivos y requisitos desde una perspectiva
comercial, posteriormente se diseña un plan preliminar para el logro de los
objetivos.
Análisis de los datos
Inicia con la obtención de los datos para identificar problemas de calidad,
descubrir relaciones entre ellos o detectar subconjuntos de datos y formular
hipótesis de información desconocida.
Preparación de los datos
Realiza selección de cuadro de datos, registros y atributos, además su
transformación para aplicar los modelos.
11. Ciclo de vida (II)
Modelado
Se aplican varias técnicas, algunas de ellas necesitan que los datos estén preparados de cierta forma
para aplicarse, de lo contrario es necesario volver a la fase de preparación de los datos.
Evaluación
Se valida el rendimiento del modelo y la integridad de todos los pasos , es importante verificar que
se han incluido todos los objetivos del negocio o investigación.
Desarrollo
Es importante documentar y presentar los resultados de manera comprensible. De ser posible, se
debe confirmar el mantenimiento de la aplicación y la difusión de los resultados.
12. Metodología SEMMA
Desarrollada por el instituto SAS.
Acrónimo de SAMPLE, EXPLORE, MODIFY,
MODEL, ASSESS.
A partir de una muestra representativa de los
datos, se aplican técnicas estadísticas de
exploración y visualización, se seleccionan y
transforman variables, se modela con las
variables para predecirlos y se evalúa la
exactitud del modelo.
13. Ciclo de vida (I)
Muestreo de los datos
Se extrae un subconjunto significativo con información relevante rápida de manipular.
Si existen patrones generales, serán detectados en la muestra representativa.
También se pueden realizar particiones de los datos de la siguiente forma:
• Entrenamiento, se utiliza para ajustar el modelo
• Validación, se emplea para evaluar y para evitar el sobre y sub-ajuste
• Prueba, se aprovecha para obtener una evaluación honesta del modelo en general.
Exploración de datos
Esta fase ayuda a refinar el proceso de descubrimiento. Se utilizan técnicas visuales, estadísticas incluyendo
análisis factorial, análisis de correspondencias y la segmentación.
Modificación de datos
A través de la creación, selección y transformación de las variables para dirigir el proceso de modelado. Se
utiliza para encontrar valores atípicos, reducir el número de variables y seleccionar las más significativas.
14. Ciclo de vida (II)
Modelado de datos
Los algoritmos buscan un subconjunto de datos que predicen los resultados esperados. Entre técnicas de
Minería de Datos están: las redes neuronales, árboles de decisiones, regresión logística, series temporales, y
análisis en componentes principales.
Evaluación de datos
Se observa la fiabilidad y se calcula la eficiencia de los modelos. Se reserva con frecuencia una partición de
los datos la cual es considerada hasta estos momentos. Si el modelo es estable debe tener un nivel de
predicción aceptable para estos datos, de esta forma se evalúa.
15. Modelo Predictivo
Consiste en plantear un proceso analítico sobre datos históricos para
estimar comportamientos futuros desconocidos.
En este proceso intervienen disciplinas como la minería de datos,
el machine learning, la inteligencia artificial y la estadística.
Permite analizar tendencias y calcular, estadísticamente, las
consecuencias de sus próximos movimientos.
Esta estimación les permite optimizar y agilizar la toma de decisiones.
Precisamente por ello, la implantación de herramientas analíticas y de
business intelligence en las empresas es cada vez más frecuente.
16. Métodos del Modelo Predicitivo
Forecasting:
Permite hacer predicciones sobre series temporales.
Esta funcionalidad usa el algoritmo ‘exponential smooth’
(supervised learning.
La variable principal es de formato ‘date’.
En pocas palabras, es una herramienta que permite planificar la
demanda. Es decir, ayuda a predecir la demanda de productos
por parte del cliente