SlideShare una empresa de Scribd logo
1 de 78
INTRODUCCIÓN A LA MINERÍA DE
DATOS
Ing. Ricardo L. M . Ferré/ Ing. Cristian Calla
1
¿La información está ahí?
2
¿La información está ahí?
3
Información sutilmente diferente, patrones
similares seres diferentes
4
Introducción a la Minería de Datos
• Introducir a la Minería de datos
• Presentar los conceptos y pasos para la extracción de
conocimiento.
• Conocer técnicas para exploración y preparación de
datos
• Conocer diferentes algoritmos de minería de datos
• Evaluar la calidad de un modelo, utilizando técnicas de
evaluación
• Comparar técnicas y determinar la mas apropiada para
cada problema.
5
Esquema OLAP (On Line Analitycal
Processing)
6
Sistemas ETL DW Cubo OLAP Aplicaciones
Data Mart Analíticas
El usuario es quien
analiza y Responde
a las Preguntas de
la Org.
Esquema Minería
7
Sistemas Datos Algoritmo Modelo
Fuente
El usuario Evalúa
los resultados y
utiliza el modelo
El algoritmo es
quien analiza los
datos y construye el
modelo
M
Diferencia entre OLAP y Minería de Datos
• Las herramientas OLAP
– Proporcionan facilidades para “manejar” y “transformar” los datos.
– Producen “información” (datos agregados, combinados).
– Ayudan a que el usuario analice los datos porque producen diferentes
vistas de los mismos.
• Las herramientas de Minería de Datos:
– Son muy variadas: permiten “extraer” patrones, modelos, descubrir
relaciones, regularidades, tendencias, etc.
– Producen “reglas” o “patrones” (“conocimiento”).
– La minería de datos “analiza” los datos y ayuda a que el usuario tome
decisiones a partir de la información
8
Diferencia entre OLAP y Minería de
Datos - Ejemplo
• Análisis OLAP, u otras herramientas como consultas sofisticadas
o análisis estadístico, pueden responder a preguntas como:
– “¿Han subido las ventas del producto X en junio?”
– “¿Las ventas del producto X bajan cuando se promociona el producto Y?”
• Con técnicas de minería de datos podremos responder a
preguntas del estilo:
– “¿Qué factores influyen en las ventas del producto X?”
– "¿Cuál será el producto más vendido si se abre una sucursal en Córdoba?”
9
Aplicaciones
Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería
de datos.
Los modelos de minería de datos se pueden aplicar en escenarios como los siguientes:
• Riesgo y probabilidad: elección de los mejores clientes para la distribución de
correo directo, determinación del punto de equilibrio probable para los escenarios
de riesgo, y asignación de probabilidades a diagnósticos y otros resultados.
• Recomendaciones: determinación de los productos que se pueden vender de
juntos y generación de recomendaciones.
• Búsqueda de secuencias: análisis de los artículos que los clientes han introducido
en el carrito de la compra y predicción de posibles eventos.
• Agrupación: distribución de clientes o eventos en grupos de elementos
relacionados, y análisis y predicción de afinidades.
• Pronóstico: cálculo de las ventas y predicción de las cargas del servidor o del
tiempo de inactividad del servidor.
10
Aplicaciones
• Qué clientes comprarán un determinado producto con una
probabilidad X?
– Clasificación(Predicción)
• Probabilidad de que un cliente tenga un determinado perfil?
– Segmentación
• Recomendar un producto a un cliente que realiza una determinada
compra
– Asociación
• Probabilidad de que un cliente compre un producto en el futuro
– Predicción de secuencias
• Predecir la venta de los próximos 5 meses y su error
– Forecasting
– Escenarios
11
Extracción de conocimiento en KDD
La minería de datos se refiere a la aplicación
de métodos de aprendizaje y estadísticos para
la obtención de patrones y modelos
12
Sistema de
información
Definir el
problema
Preparación
de los datos
Minería
de
datos
Patrones
Evaluación /
Interpretación /
Visualización
Conocimiento
Tipo de conocimiento a extraer
• Descriptivo
– Muestran nuevas relaciones entre las variables.
– Pueden ser utilizadas para mejorar el modelo.
– Ej: Reglas de asociación, correlaciones, etc.
• Predictivo
– En base al modelo que gobierna el sistema es posible
predecir hechos futuros.
– Soluciones basadas en Redes Neuronales y Algoritmos
Genéticos ofrecen mejores resultados que los enfoques
estadísticos.
– Ej: Clasificación, Agrupamiento (clustering), etc.
13
14
Tipos de conocimiento (cont.):
• Clasificación: Una clasificación se puede ver como el
esclarecimiento de una dependencia, en la que el atributo
dependiente puede tomar un valor entre varias clases, ya
conocidas.
• Ejemplo: se sabe (por un estudio de dependencias) que los atributos edad,
número de dioptrías y astigmatismo han determinado los pacientes para los
que su operación de cirugía ocular ha sido satisfactoria.
• Podemos intentar determinar las reglas exactas que clasifican un caso como
positivo o negativo a partir de esos atributos.
• Segmentación: La segmentación (o clustering) es la detección
de grupos de individuos. Se diferencia de la clasificación en el
que no se conocen ni las clases ni su número (aprendizaje no
supervisado), con lo que el objetivo es determinar grupos o
racimos (clusters) diferenciados del resto.
Generación de un Modelo de Minería
Definir el
problema
Preparar los
datos
Explorar los
datos
Generar
modelos
Explorar y
validar los
modelos
Implementar
y actualizar
los modelos
15
Fases del proceso de KDD
0
10
20
30
40
50
60
Definir el
Problema
Recolección de
datos
Preparación de
datos
Data Mining Análisis de
Resultados
Comprensión
16
Definir el problema
17
• ¿Entiendo las necesidades de Negocio? O es una orden de mi jefe? O es una
expresión de deseo?
• Estas necesidades, ¿caen dentro de la práctica de DM, BI, otra?
• ¿Puedo distinguir entre lo que “quieren” de lo que “necesitan”?
• ¿Tengo experiencia o conocimientos específicos para satisfacer las necesidades?
• El proyecto que imagino, ¿involucra desarrollo solamente o es más amplio, difícil y
costoso?
• ¿Cómo nos ponemos de acuerdo en la respuesta que va a tener la organización?
• Lo que me piden, ¿tiene que ver con algo ya hecho? ¿Es absolutamente nuevo?
• Lo que necesitan saber o conocer, ¿tiene valor para la organización?
• Lo que debo responder, ¿supongo que está oculto en la masa de datos
disponible? ¿Tengo herramientas y conocimiento para extraer las respuestas?
• ¿Cómo dejo constancia de todo esto?
Definir el problema
• Explorar el Problema 50%
• Explora la Solución 44%
• Implementar la especificación 6%
Fases del proceso de KDD
0
10
20
30
40
50
60
Definir el
Problema
Recolección de
datos
Preparación de
datos
Data Mining Análisis de
Resultados
Depende
del proceso
Fijado 19
Fases del proceso de KDD
0
10
20
30
40
50
60
Definir el
Problema
Recolección de
datos
Preparación de
datos
Data Mining Análisis de
Resultados
¿Es tan
Importante
20
Datos – Atributos Discretos y
Continuos
21
DISCRETOS:
Tienen un conjunto de valores finito y infinitos contables
Están a menudo expresados como números enteros
Cód Postal - Cantidades - ...
CONTINUOS:
Sus valores corresponden a números reales
Pueden estar representados por una cantidad finita de dígitos
Aunque pueden tomar valores válidos solo en un intervalo, dentro del
mismo puede tomar cualquier valor
Altura - Peso - Productividad - …
Datos – Tipos de Atributos
22
NOMINAL:
Color de Ojos, Identificadores
numéricos, códigos postales, etc.
ORDINALES:
Ránking, Grado, Medidas (chico,
medio, grande)
INTERVALOS:
Fechas de Calendarios, temperaturas
(en °C o F)
RATIOS:
Temperaturas (°K), longitud, tiempo,
áreas, porcentajes, etc.
Propiedades:
Desigualdad (= )
Desigualdad y Orden (< >)
Desigualdad, Orden y Adición (+ -)
Desigualdad, Orden, Adición y
Multiplicación (* /)
Datos – Atributos
Ob
Id
Activo Estado Edad
Camp
1 Si Soltero 25 No
2 No Casado 28 No
3 No Soltero 34 No
4 Si Casado 51 No
5 No Divorc. 60 Si
6 No Casado 28 No
7 Yes Divorc. 39 No
8 No 45 Si
9 No Casadp 44 So
10 No Soltero 7 Si
10
Atributos
Objetos
Colección de datos y sus atributos
Un atributo es una propiedad o
característica de un objeto
• Ejemplo: Color de Ojos, Estado civil,
profundidad de perforación, etc.
• Un atributo suele llamarse también
como variable, campo, característica,
columna, etc.
Una colección de atributos define a
un Objeto
Objeto es también llamado o
conocido como Registro, fila,
instancia, entidad, caso, etc.
Datos – Valores de Atributos
Ob
Id
Activo Estado Edad
Camp
1 Si Soltero 25 No
2 No Casado 28 No
3 No Soltero 34 No
4 Si Casado 51 No
5 No Divorc. 60 Si
6 No Casado 28 No
7 Yes Divorc. 39 No
8 No 45 Si
9 No Casadp 44 So
10 No Soltero 7 Si
10
Atributos
Objetos
Valor de Atributo es un número o
símbolo asignado al atributo
Distinción entre Atributo y Valor de
Atributo
• Un mismo atributo puede estar
expresado con distintos valores de
atributos: Por ejemplo Distancia
puede contener valores en kilómetros
y en millas
• Diferentes atributos pueden contener
el mismo conjunto de tipos valores
posible: Por ejemplo Ob.Id y Edad
contienen números enteros.
Preparación o Pre-procesamiento
de Datos
25
Es una tarea necesaria para preparar conjuntos de datos que serán utilizados para
cargar un repositorio de Data Warehouse o bien en un proceso de análisis de datos.
La justificación de esta etapa o fase radica en la creencia del refrán: “garbage in, garbage
out” (GIGO).
Por lo general (más de lo esperado) los problemas radican principalmente en:
• Datos Incompletos o faltantes: valores faltantes para atributos o valores útiles
• Ruido: producido por “outliers” (datos atípicos) y datos sucios
• Inconsistencias: valores incoherentes relacionados con otros (particularmente en
códigos o nombres y valores de algunas variables o características).
Pre-procesamiento – Principales
Tareas
26
• Limpieza de Datos (Data Cleansing): Completar valores faltantes,
identificar y remover outliers, resolver inconsistencias
• Integración de Datos: combinar inteligentemente datos de distintas
fuentes, manteniendo un sentido cercano al modelo a analizar
• Transformación de Datos: Normalizar datos (representación
común) y agregar datos (sumarizar)
• Reducción de Datos: Minimizar volumen de datos obteniendo una
masa que produzca un resultado analítico igual o similar
• Discretización de Datos: La discretización se usa para reducir el
número de valores para un atributo continuo, dividiendo el rango del
atributo en intervalos. Las etiquetas de los intervalos se usan para
reemplazar los valores reales de los datos.
Limpieza de Datos – Datos Faltantes
27
• Causas
• Errores Técnicos
• No ingresados / necesarios para las fuentes (por
ejemplo en ERP)
• Inconsistencia con otros datos durante alguna
integración previa
• Desactualización de valores
• Irrelevancia en otros pasos de algún proceso
• Caducidad de valores
Limpieza de Datos – Datos Faltantes
28
Soluciones (algunas posibles)
• Ignorar la tupla. Riesgo de pérdida de masa crítica en tuplas
representativas
• Ingreso manual de datos / valores faltantes. Posible
consecuencia: excesivo trabajo / costo / tiempo; falta de
conocimiento. A veces no factible.
• Valor medio: considerar una valor medio de todas las tuplas
• Valor medio por Clase: considerar una valor medio de todas las
tuplas consideradas similares de acuerdo a la clase a la que
pertenecen.
• Inferir el valor más probable para completar el valor faltante
(regresión, árbol de decisión)
Integración de Datos
29
Combinación inteligente de dos o más fuentes de datos para un único
concepto
• Integración de Campos. Problemas frecuentes:
• Dos fuentes: A y B; Un mismo campo a incorporar de ambas: Cliente
• Problema 1: No sabemos a priori si son compatibles (uno puede
corresponder a un número interno del sistema fuente y otro a un
número de documento)
• Problema 2: Aún sabiendo si corresponden al mismo elemento, no
sabemos si por temporalidad o codificación interna (máscara) puedo
relacionarlos (cliente 1 ≠ cliente 0001)
• Problema 3: una de las fuentes podría tener valores vacíos o nulos,
siendo esto aceptable en el sistema fuente
Transformación de Datos
30
Posibles métodos (no los únicos):
• Suavizado. Elimina ruidos en los datos. Por ejemplo utilizar una función
logarítmica para suavizar una curva de valores posibles.
• Agregación. También llamada Sumarización. Como en la construcción de modelos
multidimensionales (cubos)
• Generalización. subir la jerarquía de conceptos reduciendo valores y englobando
tuplas similares por clase
• Normalización: Se ajusta a una escala para caer en un rango pequeño y
especificado.
• Reverse Pivoting: Creación de nuevos atributos en función de otros existentes
dado que algunas veces los datos de entrada no determinan lo que se quiere
modelar.
Transformación de Datos - Suavizado
31
Transformación de Datos –
Normalización
¿Para que Normalizar?
Veamos un ejemplo:
Algoritmo K-NN
32
Vecinos más cercanos (Nearest Neighbor)
Idea básica: Si camina como perro, ladra como un perro, probablemente sea
un perro
Registros de
Entrenamiento
Registro de
Test
Cálculo de
Distancia
Elijo los K vecinos mas “Cercanos”
Vecinos mas cercanos (Nearest Neighbor)
• Requiere tres partes
– Un conjunto de datos guardados
– Una medida de distancia entre los
registros
– El valor de k, el número de vecinos
más cercanos a consultar
• Para clasificar un registro
desconocido:
– Se computa la distancia a los
registros de entrenamiento
– Se identifican los k vecinos más
cercanos
– Se usa la clase de los vecinos más
cercanos para determinar la clase del
registro. (por ejemplo tomando
votación por mayoría)
Registro a clasificar
Vecinos más cercanos (Nearest Neighbor)
Los K-vecinos más cercanos de un registro x son los puntos de
datos que tienen las k distancias más pequeñas a P
1 - Vecino más cercano 2 - Vecinos más cercanos 3 - Vecinos más cercanos
Vecinos más cercanos - Distancia
• Calcular de distancia entre dos puntos:
– Distancia Euclídea
 

i
i
i q
p
q
p
d 2
)
(
)
,
(
q (x1,y1)
p (x2,y2)
• Muchísimas formas de calcular la distancia. Algunos
ejemplos…
– Distancia de Manhattan:
– Distancias por Diferencia: ejemplo: if x=y then D=0 else D=1 (para
valores discretos)
• Similitud y Distancia Valores Continuos (conveniente
estandarizar antes) Valores Discretos DISTANCIA inversa a
SIMILITUD.
• Y muchísimas formas más…



n
i
i
i Y
X
1
Vecinos más cercanos (Nearest Neighbor)
p (x2,y2)
q (x1,y1)
Vecinos más cercanos (Nearest Neighbor)
• Determinar la clase a partir de la lista de
vecinos más cercanos
– Tomar el voto por mayoría entre los k-vecinos más
cercanos
– Asignarle peso a los votos de acuerdo a la
distancia
• factor de peso: w = 1/d2
39
Calificación
Promedio
Salario
10
9
8
7
6
5
4
3
2
1
$10.000 $20.000 $30.000
¿“J” Es Rojo o Azul?
A
B
C
D
J
Vecinos más cercanos (Nearest Neighbor)
40
Calificación
Promedio
Salario
10
9
8
7
6
5
4
3
2
1
$10.000 $20.000 $30.000
¿Es Rojo o Azul?
A
B
C
D
J
Según el cálculo de distancias “J” es Azul
Vecinos más cercanos (Nearest Neighbor)
Transformación de Datos –
Normalización - Ejemplos
42
Vecinos más cercanos (Nearest Neighbor)
-
0,20
0,40
0,60
0,80
1,00
1,20
- 0,50 1,00 1,50 2,00 2,50
A B
CD
j
43
Calificación
Promedio
Salario
¿Es Rojo o Azul?
A
C
D
J
Según el cálculo de distancias “J” es Rojo
Vecinos más cercanos (Nearest Neighbor)
B
Reducción de Datos - Estrategias
44
Gran volumen de datos para análisis complejo o DM podría
tomar mucho tiempo para recorrer data set completo
• Reducción de Dimensionalidad: Detectar y eliminar atributos
• Selección de Características Identificar las principales que
están relacionadas con los resultados buscados
• Muestreo: La manera más directa de reducir el tamaño de
una población o conjuntos de individuos es realizar una
selección o muestreo.
Análisis de los datos disponibles
• Se busca determinar una primera medida de
calidad de los datos
– Variables Categóricas
• Análisis de frecuencia mediante histogramas o gráficos
de sectores permitiran detectar valores nulos o fuera
de rango.
– Variables Cuantitativas
• Utilizar medidas tales como: mínimo, máximo, media,
varianza, moda, mediana, etc.
• También pueden usarse gráficos como los diagramas de
cajas o los histogramas.
45
Fases del proceso de KDD
0
10
20
30
40
50
60
Definir el
Problema
Recolección de
datos
Preparación de
datos
Data Mining Análisis de
Resultados
Fase de
Modelado
46
Fase de Modelado
• Es la fase central del descubrimiento del conocimiento.
• Se usan los datos procesados previamente y se les aplican
los algoritmos de búsqueda del conocimiento.
• Hay distintos tipos de algoritmos según el modelo que se
desee obtener.
• La elección del algoritmo a aplicar depende del tipo de
problema de resolver.
47
Ej. de problemas de Data Mining
• Predecir el nivel de morosidad de un cliente.
• Saber quienes son mis clientes.
• Encontrar el perfil del comprador del producto A.
• Encontrar los síntomas de enfermedades que suelen aparecen
juntos.
• Encontrar las características de la población fumadora.
• Detector alumnos en escuelas con alto riesgo de fracaso escolar.
48
Tipos de Problemas a Resolver
• Problemas descriptivos: Aquellos cuya meta es
encontrar una descripción de los datos en estudio
– Ejemplos: cuales son los clientes de una organización,
qué productos habitualmente se compran juntos.
• Problemas Predictivos : Aquellos que buscan
obtener un modelo que en un futuro pueda ser
aplicado para predecir comportamiento
– Ejemplo: poder predecir si un cliente nuevo que llega al
banco pidiendo un préstamo va a devolverlo o no.
49
Tipos de problemas descriptivos
• Problemas de Clustering
– Buscan agrupar los datos de manera de formar grupos lo
más homogéneos que sea posible.
– Ejemplo: Hallar el perfil de los clientes del producto A.
• Problemas de asociación
– Buscan obtener relaciones entre los valores de los
atributos de una base de datos.
– Ejemplo: Qué productos se compran juntos?
50
Tipos de problemas predictivos
• Problemas de clasificación
– Aquellos en los que la variable a predecir tiene un número
finito de valores (variable categórica).
– Ejemplo: se busca obtener un modelo que dado un nuevo
cliente pueda clasificarlo como “bueno”, “regular” o
“malo”.
• Problemas de predicción de valores
– Aquellos en los que la variable a predecir es numérica.
– Ejemplo: Obtener un modelo que dado un paciente nuevo
determine la probabilidad de que tenga cierta
enfermedad.
51
Técnicas para problemas descriptivos
• Problemas de Clustering
– K - Medias
– Redes Neuronales SOM (self-organizing maps)
• Problemas de asociación
– Reglas de Asociación
– Arboles de decisión
52
Técnicas para problemas predictivos
• Problemas de clasificación
– Redes Neuronales
– Arboles de clasificación
• Problemas de predicción de valores
– Redes Neuronales con entrenamiento por gradiente.
53
Algoritmos Supervisados
Lote de
Entrenamiento
Lote de Test
.
.
.
54
Generar Modelos
Modelo
Modelo Validac ión
Salario Historia Acción
De 0 a $10,000 Buena No Otorgar
De 0 a $10,000 Mala No Otorgar
De 0 a $10,000 Sin historia No Otorgar
De $10,000 a $30,000 Buena Otorgar
De $10,000 a $30,000 Mala No Otorgar
De $10,000 a $30,000 Sin historia No Otorgar
Más de $30,000 Buena Otorgar
De $10,000 a $30,000 Mala No Otorgar
De $10,000 a $30,000 Sin historia Otorgar
De $10,000 a $30,000 Sin historia Otorgar
De $10,000 a $30,000 Sin historia No Otorgar
De 0 a $10,000 Sin historia No Otorgar
Salario Historia Acción
De 0 a $10,000 Buena No Otorgar
De 0 a $10,000 Mala No Otorgar
De 0 a $10,000 Sin historia No Otorgar
De $10,000 a $30,000 Buena Otorgar
De $10,000 a $30,000 Mala No Otorgar
De $10,000 a $30,000 Sin historia No Otorgar
Más de $30,000 Buena Otorgar
De $10,000 a $30,000 Mala No Otorgar
De $10,000 a $30,000 Sin historia Otorgar
De $10,000 a $30,000 Sin historia Otorgar
De $10,000 a $30,000 Sin historia No Otorgar
De 0 a $10,000 Sin historia No Otorgar
55
Algoritmos Supervisados
Elección del lote de entrenamiento: Se utiliza el muestreo aleatorio simple es la técnica
de muestreo en la que todos los elementos que forman el universo y que, por lo tanto,
están descritos en el marco muestral, tienen idéntica probabilidad de ser seleccionados
para la muestra.
Función
aleatoria
Lote de entrenamiento
Lote de
Entrenamiento
Lote de Test
Salario Historia Acción
De 0 a $10,000 Buena No Otorgar
De 0 a $10,000 Mala No Otorgar
De 0 a $10,000 Sin historia No Otorgar
De $10,000 a $30,000 Buena Otorgar
De $10,000 a $30,000 Mala No Otorgar
De $10,000 a $30,000 Sin historia No Otorgar
Más de $30,000 Buena Otorgar
De $10,000 a $30,000 Mala No Otorgar
De $10,000 a $30,000 Sin historia Otorgar
De $10,000 a $30,000 Sin historia Otorgar
De $10,000 a $30,000 Sin historia No Otorgar
De 0 a $10,000 Sin historia No Otorgar
56
Lote de Test
Lote de
Entrenamiento
Lote de Test
Salario Historia Acción
De 0 a $10,000 Buena No Otorgar
De 0 a $10,000 Mala No Otorgar
De 0 a $10,000 Sin historia No Otorgar
De $10,000 a $30,000 Buena Otorgar
De $10,000 a $30,000 Mala No Otorgar
De $10,000 a $30,000 Sin historia No Otorgar
Más de $30,000 Buena Otorgar
De $10,000 a $30,000 Mala No Otorgar
De $10,000 a $30,000 Sin historia Otorgar
De $10,000 a $30,000 Sin historia Otorgar
De $10,000 a $30,000 Sin historia No Otorgar
De 0 a $10,000 Sin historia No Otorgar
57
Algoritmos Supervisados
Lote de
Entrenamiento
Lote de Test
.
.
.
58
Generar Modelos
Modelo
Modelo Validación
Validación
El proceso de validación consiste en verificar como el
Modelo generado clasifica a los elementos del lote de
Test.
–Matriz de confusión
–Matriz de costos
–Cobertura
–Confianza
59
Prospectos
De 0 a
$10.000
De $10.000
a $30.000
Más de
$30.000a
Sin Historia
Mala
Buena
Otorgar
Sin Historia
Mala
Buena
No
Otorgar
Otorgar
Otorgar
Otorgar
No
Otorgar
No
Otorgar
Sueldo
Historia
Crediticia
Árbol de Decisión
Historia
Crediticia
60
61
Salario Historia Clase
De 0 a $10,000 Buena No Otorgar
De 0 a $10,000 Mala No Otorgar
De 0 a $10,000 Sin historia No Otorgar
De $10,000 a $30,000 Buena Otorgar
De $10,000 a $30,000 Mala No Otorgar
De $10,000 a $30,000 Sin historia No Otorgar
Más de $30,000 Buena Otorgar
De $10,000 a $30,000 Mala No Otorgar
De $10,000 a $30,000 Sin historia Otorgar
De $10,000 a $30,000 Sin historia Otorgar
De $10,000 a $30,000 Sin historia No Otorgar
De 0 a $10,000 Sin historia No Otorgar
Árbol de Decisión
¿Qué atributo se elige primero para ser raíz del árbol?
Utiliza el concepto de Ganancia y Desorden.
Reglas de Decisión
Regla 1: SI Se Estira = No
ENTONCES Inflado? = No
Regla 2: SI Color = Rojo y Edad = Niño
ENTONCES Inflado? = No
Regla 3: SI Se Estira = Si y Color = Amarillo
ENTONCES Inflado? = Si
Regla 4: SI Se Estira = Si y Edad = Adulto
ENTONCES Inflado? = Si
62
Reglas de Asociación
63
Reglas de Asociación
64
1. Si compra A entonces compra B,C y E
2. Si compra A y B entonces compra C y E
3. Si compra C y B entonces compra A y E
4. Si compra Vodka entonces compra Jugo de Naranja
5. Si compra Jugo de Naranja entonces compra Vodka
6. Si copra …. entonces compra ….
¿Cual de estas reglas es valiosa?
65
Reglas de Asociación
¿Cual de estas reglas es valiosa?
• Se calcula la Cobertura se cada Regla
– En cuantos casos de da el antecedente y consecuente de la
regla sobre el total de casos
• Luego la Confianza de cada regla
– Cual es la relación entre la cobertura de la regla respecto
de la cobertura del antecedente
66
Reglas de Asociación
• Es un método de agrupamiento (clustering)
• Permite determinar grupos de observaciones
con similares características (clusters)
• Las observaciones de los grupos obtenidas
deben ser parecidas entere los miembros de
un mismo grupo y diferentes de los miembros
de otros grupos.
67
K-Medias
El Algoritmo N-Means
1. Elegir un valor de k
2. Seleccionar k objetos en forma arbitraria. Utilizar
éstos como el conjunto inicial de k centroides
3. Asignar cada uno de los objetos a la agrupación
para la que es la más cercana al centroide
4. Volver a calcular los centroides de los clusters k
5. Repita los pasos 3 y 4 hasta que los centroides ya no
se mueven.
Partida (10,10); (20,20);(50,40)– Iteración 1
0
5
10
15
20
25
30
35
40
45
50
0 20 40 60 80 100
Universo
Centroide 1
Centroide 2
Centroide 3
Partida (10,10); (20,20);(50,40)– Iteración 1
0
5
10
15
20
25
30
35
40
45
50
0 20 40 60 80 100
Cluster 1
Cluster 2
Cluster 3
Centroide 1
Centroide 2
Centroide 3
Partida (10,10); (20,20);(50,40)– Iteración 2
0
5
10
15
20
25
30
35
40
45
50
0 20 40 60 80 100
Cluster 1
Cluster 2
Cluster 3
Centroide 1
Centroide 2
Centroide 3
Partida (10,10); (20,20);(50,40)– Iteración 3
0
5
10
15
20
25
30
35
40
45
50
0 20 40 60 80 100
Cluster 1
Cluster 2
Cluster 3
Centroide 1
Centroide 2
Centroide 3
Partida (10,10); (20,20);(50,40)– Iteración 4
0
5
10
15
20
25
30
35
40
45
50
0 20 40 60 80 100
Cluster 1
Cluster 2
Cluster 3
Centroide 1
Centroide 2
Centroide 3
Partida (10,10); (20,20);(50,40)– Iteración 5
0
5
10
15
20
25
30
35
40
45
50
0 20 40 60 80 100
Cluster 1
Cluster 2
Cluster 3
Centroide 1
Centroide 2
Centroide 3
Partida (10,10); (20,20);(50,40)– Iteración 6
0
5
10
15
20
25
30
35
40
45
50
0 20 40 60 80 100
Cluster 1
Cluster 2
Cluster 3
Centroide 1
Centroide 2
Centroide 3
Partida (10,10); (20,20);(50,40)– Iteración 7
0
5
10
15
20
25
30
35
40
45
50
0 20 40 60 80 100
Cluster 1
Cluster 2
Cluster 3
Centroide 1
Centroide 2
Centroide 3
Fases del proceso de KDD
0
10
20
30
40
50
60
Definir el
Problema
Recolección de
datos
Preparación de
datos
Data Mining Análisis de
Resultados
Es un proceso iterativo que
puede llevar a repetir las
fases anteriores
77
Generación de un Modelo de Minería
Definir el
problema
Preparar los
datos
Explorar los
datos
Generar
modelos
Explorar y
validar los
modelos
Implementar
y actualizar
los modelos
78

Más contenido relacionado

Similar a Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx

Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
Etapas del proceso de investigacion2_IAFJSR
Etapas del proceso de investigacion2_IAFJSREtapas del proceso de investigacion2_IAFJSR
Etapas del proceso de investigacion2_IAFJSRMauri Rojas
 
Fases y tareas del proceso de investigacion de informacion. Mercadotecnia
Fases y tareas del proceso de investigacion de informacion. MercadotecniaFases y tareas del proceso de investigacion de informacion. Mercadotecnia
Fases y tareas del proceso de investigacion de informacion. MercadotecniaBeatrizLilianaCarrera
 
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOAPRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOsystemprisoners
 
_Mundo de los Datos (1).pdf
_Mundo de los Datos  (1).pdf_Mundo de los Datos  (1).pdf
_Mundo de los Datos (1).pdfKamZee1
 
Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Ana Delgado
 
Cómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresaCómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresaNexolution
 
8. Recolección de datos cuantitativos
8. Recolección de datos cuantitativos8. Recolección de datos cuantitativos
8. Recolección de datos cuantitativosCésar Montiel
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerEduardo Castro
 
Charla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecasCharla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecasFelipe Vera (Prodigio Consultores)
 
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Facultad de Informática UCM
 
S04 INVESTIGACIÓN DE MERCADOS.pptx
S04 INVESTIGACIÓN DE MERCADOS.pptxS04 INVESTIGACIÓN DE MERCADOS.pptx
S04 INVESTIGACIÓN DE MERCADOS.pptxPaulin
 

Similar a Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx (20)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Minería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilizaciónMinería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilización
 
Etapas del proceso de investigacion2_IAFJSR
Etapas del proceso de investigacion2_IAFJSREtapas del proceso de investigacion2_IAFJSR
Etapas del proceso de investigacion2_IAFJSR
 
Fases y tareas del proceso de investigacion de informacion. Mercadotecnia
Fases y tareas del proceso de investigacion de informacion. MercadotecniaFases y tareas del proceso de investigacion de informacion. Mercadotecnia
Fases y tareas del proceso de investigacion de informacion. Mercadotecnia
 
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOAPRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
Fundamentos Minería Datos
Fundamentos Minería DatosFundamentos Minería Datos
Fundamentos Minería Datos
 
_Mundo de los Datos (1).pdf
_Mundo de los Datos  (1).pdf_Mundo de los Datos  (1).pdf
_Mundo de los Datos (1).pdf
 
Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
 
02 extraccion de conocimiento
02 extraccion de conocimiento02 extraccion de conocimiento
02 extraccion de conocimiento
 
Cómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresaCómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresa
 
8. Recolección de datos cuantitativos
8. Recolección de datos cuantitativos8. Recolección de datos cuantitativos
8. Recolección de datos cuantitativos
 
02000 metodo validacion
02000 metodo validacion02000 metodo validacion
02000 metodo validacion
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Clase 2
Clase 2Clase 2
Clase 2
 
Charla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecasCharla big data y data mining para gestión de información y bibliotecas
Charla big data y data mining para gestión de información y bibliotecas
 
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
 
S04 INVESTIGACIÓN DE MERCADOS.pptx
S04 INVESTIGACIÓN DE MERCADOS.pptxS04 INVESTIGACIÓN DE MERCADOS.pptx
S04 INVESTIGACIÓN DE MERCADOS.pptx
 

Último

International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 

Último (20)

International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sof
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 

Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx

  • 1. INTRODUCCIÓN A LA MINERÍA DE DATOS Ing. Ricardo L. M . Ferré/ Ing. Cristian Calla 1
  • 4. Información sutilmente diferente, patrones similares seres diferentes 4
  • 5. Introducción a la Minería de Datos • Introducir a la Minería de datos • Presentar los conceptos y pasos para la extracción de conocimiento. • Conocer técnicas para exploración y preparación de datos • Conocer diferentes algoritmos de minería de datos • Evaluar la calidad de un modelo, utilizando técnicas de evaluación • Comparar técnicas y determinar la mas apropiada para cada problema. 5
  • 6. Esquema OLAP (On Line Analitycal Processing) 6 Sistemas ETL DW Cubo OLAP Aplicaciones Data Mart Analíticas El usuario es quien analiza y Responde a las Preguntas de la Org.
  • 7. Esquema Minería 7 Sistemas Datos Algoritmo Modelo Fuente El usuario Evalúa los resultados y utiliza el modelo El algoritmo es quien analiza los datos y construye el modelo M
  • 8. Diferencia entre OLAP y Minería de Datos • Las herramientas OLAP – Proporcionan facilidades para “manejar” y “transformar” los datos. – Producen “información” (datos agregados, combinados). – Ayudan a que el usuario analice los datos porque producen diferentes vistas de los mismos. • Las herramientas de Minería de Datos: – Son muy variadas: permiten “extraer” patrones, modelos, descubrir relaciones, regularidades, tendencias, etc. – Producen “reglas” o “patrones” (“conocimiento”). – La minería de datos “analiza” los datos y ayuda a que el usuario tome decisiones a partir de la información 8
  • 9. Diferencia entre OLAP y Minería de Datos - Ejemplo • Análisis OLAP, u otras herramientas como consultas sofisticadas o análisis estadístico, pueden responder a preguntas como: – “¿Han subido las ventas del producto X en junio?” – “¿Las ventas del producto X bajan cuando se promociona el producto Y?” • Con técnicas de minería de datos podremos responder a preguntas del estilo: – “¿Qué factores influyen en las ventas del producto X?” – "¿Cuál será el producto más vendido si se abre una sucursal en Córdoba?” 9
  • 10. Aplicaciones Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los modelos de minería de datos se pueden aplicar en escenarios como los siguientes: • Riesgo y probabilidad: elección de los mejores clientes para la distribución de correo directo, determinación del punto de equilibrio probable para los escenarios de riesgo, y asignación de probabilidades a diagnósticos y otros resultados. • Recomendaciones: determinación de los productos que se pueden vender de juntos y generación de recomendaciones. • Búsqueda de secuencias: análisis de los artículos que los clientes han introducido en el carrito de la compra y predicción de posibles eventos. • Agrupación: distribución de clientes o eventos en grupos de elementos relacionados, y análisis y predicción de afinidades. • Pronóstico: cálculo de las ventas y predicción de las cargas del servidor o del tiempo de inactividad del servidor. 10
  • 11. Aplicaciones • Qué clientes comprarán un determinado producto con una probabilidad X? – Clasificación(Predicción) • Probabilidad de que un cliente tenga un determinado perfil? – Segmentación • Recomendar un producto a un cliente que realiza una determinada compra – Asociación • Probabilidad de que un cliente compre un producto en el futuro – Predicción de secuencias • Predecir la venta de los próximos 5 meses y su error – Forecasting – Escenarios 11
  • 12. Extracción de conocimiento en KDD La minería de datos se refiere a la aplicación de métodos de aprendizaje y estadísticos para la obtención de patrones y modelos 12 Sistema de información Definir el problema Preparación de los datos Minería de datos Patrones Evaluación / Interpretación / Visualización Conocimiento
  • 13. Tipo de conocimiento a extraer • Descriptivo – Muestran nuevas relaciones entre las variables. – Pueden ser utilizadas para mejorar el modelo. – Ej: Reglas de asociación, correlaciones, etc. • Predictivo – En base al modelo que gobierna el sistema es posible predecir hechos futuros. – Soluciones basadas en Redes Neuronales y Algoritmos Genéticos ofrecen mejores resultados que los enfoques estadísticos. – Ej: Clasificación, Agrupamiento (clustering), etc. 13
  • 14. 14 Tipos de conocimiento (cont.): • Clasificación: Una clasificación se puede ver como el esclarecimiento de una dependencia, en la que el atributo dependiente puede tomar un valor entre varias clases, ya conocidas. • Ejemplo: se sabe (por un estudio de dependencias) que los atributos edad, número de dioptrías y astigmatismo han determinado los pacientes para los que su operación de cirugía ocular ha sido satisfactoria. • Podemos intentar determinar las reglas exactas que clasifican un caso como positivo o negativo a partir de esos atributos. • Segmentación: La segmentación (o clustering) es la detección de grupos de individuos. Se diferencia de la clasificación en el que no se conocen ni las clases ni su número (aprendizaje no supervisado), con lo que el objetivo es determinar grupos o racimos (clusters) diferenciados del resto.
  • 15. Generación de un Modelo de Minería Definir el problema Preparar los datos Explorar los datos Generar modelos Explorar y validar los modelos Implementar y actualizar los modelos 15
  • 16. Fases del proceso de KDD 0 10 20 30 40 50 60 Definir el Problema Recolección de datos Preparación de datos Data Mining Análisis de Resultados Comprensión 16
  • 17. Definir el problema 17 • ¿Entiendo las necesidades de Negocio? O es una orden de mi jefe? O es una expresión de deseo? • Estas necesidades, ¿caen dentro de la práctica de DM, BI, otra? • ¿Puedo distinguir entre lo que “quieren” de lo que “necesitan”? • ¿Tengo experiencia o conocimientos específicos para satisfacer las necesidades? • El proyecto que imagino, ¿involucra desarrollo solamente o es más amplio, difícil y costoso? • ¿Cómo nos ponemos de acuerdo en la respuesta que va a tener la organización? • Lo que me piden, ¿tiene que ver con algo ya hecho? ¿Es absolutamente nuevo? • Lo que necesitan saber o conocer, ¿tiene valor para la organización? • Lo que debo responder, ¿supongo que está oculto en la masa de datos disponible? ¿Tengo herramientas y conocimiento para extraer las respuestas? • ¿Cómo dejo constancia de todo esto?
  • 18. Definir el problema • Explorar el Problema 50% • Explora la Solución 44% • Implementar la especificación 6%
  • 19. Fases del proceso de KDD 0 10 20 30 40 50 60 Definir el Problema Recolección de datos Preparación de datos Data Mining Análisis de Resultados Depende del proceso Fijado 19
  • 20. Fases del proceso de KDD 0 10 20 30 40 50 60 Definir el Problema Recolección de datos Preparación de datos Data Mining Análisis de Resultados ¿Es tan Importante 20
  • 21. Datos – Atributos Discretos y Continuos 21 DISCRETOS: Tienen un conjunto de valores finito y infinitos contables Están a menudo expresados como números enteros Cód Postal - Cantidades - ... CONTINUOS: Sus valores corresponden a números reales Pueden estar representados por una cantidad finita de dígitos Aunque pueden tomar valores válidos solo en un intervalo, dentro del mismo puede tomar cualquier valor Altura - Peso - Productividad - …
  • 22. Datos – Tipos de Atributos 22 NOMINAL: Color de Ojos, Identificadores numéricos, códigos postales, etc. ORDINALES: Ránking, Grado, Medidas (chico, medio, grande) INTERVALOS: Fechas de Calendarios, temperaturas (en °C o F) RATIOS: Temperaturas (°K), longitud, tiempo, áreas, porcentajes, etc. Propiedades: Desigualdad (= ) Desigualdad y Orden (< >) Desigualdad, Orden y Adición (+ -) Desigualdad, Orden, Adición y Multiplicación (* /)
  • 23. Datos – Atributos Ob Id Activo Estado Edad Camp 1 Si Soltero 25 No 2 No Casado 28 No 3 No Soltero 34 No 4 Si Casado 51 No 5 No Divorc. 60 Si 6 No Casado 28 No 7 Yes Divorc. 39 No 8 No 45 Si 9 No Casadp 44 So 10 No Soltero 7 Si 10 Atributos Objetos Colección de datos y sus atributos Un atributo es una propiedad o característica de un objeto • Ejemplo: Color de Ojos, Estado civil, profundidad de perforación, etc. • Un atributo suele llamarse también como variable, campo, característica, columna, etc. Una colección de atributos define a un Objeto Objeto es también llamado o conocido como Registro, fila, instancia, entidad, caso, etc.
  • 24. Datos – Valores de Atributos Ob Id Activo Estado Edad Camp 1 Si Soltero 25 No 2 No Casado 28 No 3 No Soltero 34 No 4 Si Casado 51 No 5 No Divorc. 60 Si 6 No Casado 28 No 7 Yes Divorc. 39 No 8 No 45 Si 9 No Casadp 44 So 10 No Soltero 7 Si 10 Atributos Objetos Valor de Atributo es un número o símbolo asignado al atributo Distinción entre Atributo y Valor de Atributo • Un mismo atributo puede estar expresado con distintos valores de atributos: Por ejemplo Distancia puede contener valores en kilómetros y en millas • Diferentes atributos pueden contener el mismo conjunto de tipos valores posible: Por ejemplo Ob.Id y Edad contienen números enteros.
  • 25. Preparación o Pre-procesamiento de Datos 25 Es una tarea necesaria para preparar conjuntos de datos que serán utilizados para cargar un repositorio de Data Warehouse o bien en un proceso de análisis de datos. La justificación de esta etapa o fase radica en la creencia del refrán: “garbage in, garbage out” (GIGO). Por lo general (más de lo esperado) los problemas radican principalmente en: • Datos Incompletos o faltantes: valores faltantes para atributos o valores útiles • Ruido: producido por “outliers” (datos atípicos) y datos sucios • Inconsistencias: valores incoherentes relacionados con otros (particularmente en códigos o nombres y valores de algunas variables o características).
  • 26. Pre-procesamiento – Principales Tareas 26 • Limpieza de Datos (Data Cleansing): Completar valores faltantes, identificar y remover outliers, resolver inconsistencias • Integración de Datos: combinar inteligentemente datos de distintas fuentes, manteniendo un sentido cercano al modelo a analizar • Transformación de Datos: Normalizar datos (representación común) y agregar datos (sumarizar) • Reducción de Datos: Minimizar volumen de datos obteniendo una masa que produzca un resultado analítico igual o similar • Discretización de Datos: La discretización se usa para reducir el número de valores para un atributo continuo, dividiendo el rango del atributo en intervalos. Las etiquetas de los intervalos se usan para reemplazar los valores reales de los datos.
  • 27. Limpieza de Datos – Datos Faltantes 27 • Causas • Errores Técnicos • No ingresados / necesarios para las fuentes (por ejemplo en ERP) • Inconsistencia con otros datos durante alguna integración previa • Desactualización de valores • Irrelevancia en otros pasos de algún proceso • Caducidad de valores
  • 28. Limpieza de Datos – Datos Faltantes 28 Soluciones (algunas posibles) • Ignorar la tupla. Riesgo de pérdida de masa crítica en tuplas representativas • Ingreso manual de datos / valores faltantes. Posible consecuencia: excesivo trabajo / costo / tiempo; falta de conocimiento. A veces no factible. • Valor medio: considerar una valor medio de todas las tuplas • Valor medio por Clase: considerar una valor medio de todas las tuplas consideradas similares de acuerdo a la clase a la que pertenecen. • Inferir el valor más probable para completar el valor faltante (regresión, árbol de decisión)
  • 29. Integración de Datos 29 Combinación inteligente de dos o más fuentes de datos para un único concepto • Integración de Campos. Problemas frecuentes: • Dos fuentes: A y B; Un mismo campo a incorporar de ambas: Cliente • Problema 1: No sabemos a priori si son compatibles (uno puede corresponder a un número interno del sistema fuente y otro a un número de documento) • Problema 2: Aún sabiendo si corresponden al mismo elemento, no sabemos si por temporalidad o codificación interna (máscara) puedo relacionarlos (cliente 1 ≠ cliente 0001) • Problema 3: una de las fuentes podría tener valores vacíos o nulos, siendo esto aceptable en el sistema fuente
  • 30. Transformación de Datos 30 Posibles métodos (no los únicos): • Suavizado. Elimina ruidos en los datos. Por ejemplo utilizar una función logarítmica para suavizar una curva de valores posibles. • Agregación. También llamada Sumarización. Como en la construcción de modelos multidimensionales (cubos) • Generalización. subir la jerarquía de conceptos reduciendo valores y englobando tuplas similares por clase • Normalización: Se ajusta a una escala para caer en un rango pequeño y especificado. • Reverse Pivoting: Creación de nuevos atributos en función de otros existentes dado que algunas veces los datos de entrada no determinan lo que se quiere modelar.
  • 31. Transformación de Datos - Suavizado 31
  • 32. Transformación de Datos – Normalización ¿Para que Normalizar? Veamos un ejemplo: Algoritmo K-NN 32
  • 33. Vecinos más cercanos (Nearest Neighbor) Idea básica: Si camina como perro, ladra como un perro, probablemente sea un perro Registros de Entrenamiento Registro de Test Cálculo de Distancia Elijo los K vecinos mas “Cercanos”
  • 34. Vecinos mas cercanos (Nearest Neighbor) • Requiere tres partes – Un conjunto de datos guardados – Una medida de distancia entre los registros – El valor de k, el número de vecinos más cercanos a consultar • Para clasificar un registro desconocido: – Se computa la distancia a los registros de entrenamiento – Se identifican los k vecinos más cercanos – Se usa la clase de los vecinos más cercanos para determinar la clase del registro. (por ejemplo tomando votación por mayoría) Registro a clasificar
  • 35. Vecinos más cercanos (Nearest Neighbor) Los K-vecinos más cercanos de un registro x son los puntos de datos que tienen las k distancias más pequeñas a P 1 - Vecino más cercano 2 - Vecinos más cercanos 3 - Vecinos más cercanos
  • 36. Vecinos más cercanos - Distancia • Calcular de distancia entre dos puntos: – Distancia Euclídea    i i i q p q p d 2 ) ( ) , ( q (x1,y1) p (x2,y2)
  • 37. • Muchísimas formas de calcular la distancia. Algunos ejemplos… – Distancia de Manhattan: – Distancias por Diferencia: ejemplo: if x=y then D=0 else D=1 (para valores discretos) • Similitud y Distancia Valores Continuos (conveniente estandarizar antes) Valores Discretos DISTANCIA inversa a SIMILITUD. • Y muchísimas formas más…    n i i i Y X 1 Vecinos más cercanos (Nearest Neighbor) p (x2,y2) q (x1,y1)
  • 38. Vecinos más cercanos (Nearest Neighbor) • Determinar la clase a partir de la lista de vecinos más cercanos – Tomar el voto por mayoría entre los k-vecinos más cercanos – Asignarle peso a los votos de acuerdo a la distancia • factor de peso: w = 1/d2
  • 39. 39 Calificación Promedio Salario 10 9 8 7 6 5 4 3 2 1 $10.000 $20.000 $30.000 ¿“J” Es Rojo o Azul? A B C D J Vecinos más cercanos (Nearest Neighbor)
  • 40. 40 Calificación Promedio Salario 10 9 8 7 6 5 4 3 2 1 $10.000 $20.000 $30.000 ¿Es Rojo o Azul? A B C D J Según el cálculo de distancias “J” es Azul Vecinos más cercanos (Nearest Neighbor)
  • 41. Transformación de Datos – Normalización - Ejemplos
  • 42. 42 Vecinos más cercanos (Nearest Neighbor)
  • 43. - 0,20 0,40 0,60 0,80 1,00 1,20 - 0,50 1,00 1,50 2,00 2,50 A B CD j 43 Calificación Promedio Salario ¿Es Rojo o Azul? A C D J Según el cálculo de distancias “J” es Rojo Vecinos más cercanos (Nearest Neighbor) B
  • 44. Reducción de Datos - Estrategias 44 Gran volumen de datos para análisis complejo o DM podría tomar mucho tiempo para recorrer data set completo • Reducción de Dimensionalidad: Detectar y eliminar atributos • Selección de Características Identificar las principales que están relacionadas con los resultados buscados • Muestreo: La manera más directa de reducir el tamaño de una población o conjuntos de individuos es realizar una selección o muestreo.
  • 45. Análisis de los datos disponibles • Se busca determinar una primera medida de calidad de los datos – Variables Categóricas • Análisis de frecuencia mediante histogramas o gráficos de sectores permitiran detectar valores nulos o fuera de rango. – Variables Cuantitativas • Utilizar medidas tales como: mínimo, máximo, media, varianza, moda, mediana, etc. • También pueden usarse gráficos como los diagramas de cajas o los histogramas. 45
  • 46. Fases del proceso de KDD 0 10 20 30 40 50 60 Definir el Problema Recolección de datos Preparación de datos Data Mining Análisis de Resultados Fase de Modelado 46
  • 47. Fase de Modelado • Es la fase central del descubrimiento del conocimiento. • Se usan los datos procesados previamente y se les aplican los algoritmos de búsqueda del conocimiento. • Hay distintos tipos de algoritmos según el modelo que se desee obtener. • La elección del algoritmo a aplicar depende del tipo de problema de resolver. 47
  • 48. Ej. de problemas de Data Mining • Predecir el nivel de morosidad de un cliente. • Saber quienes son mis clientes. • Encontrar el perfil del comprador del producto A. • Encontrar los síntomas de enfermedades que suelen aparecen juntos. • Encontrar las características de la población fumadora. • Detector alumnos en escuelas con alto riesgo de fracaso escolar. 48
  • 49. Tipos de Problemas a Resolver • Problemas descriptivos: Aquellos cuya meta es encontrar una descripción de los datos en estudio – Ejemplos: cuales son los clientes de una organización, qué productos habitualmente se compran juntos. • Problemas Predictivos : Aquellos que buscan obtener un modelo que en un futuro pueda ser aplicado para predecir comportamiento – Ejemplo: poder predecir si un cliente nuevo que llega al banco pidiendo un préstamo va a devolverlo o no. 49
  • 50. Tipos de problemas descriptivos • Problemas de Clustering – Buscan agrupar los datos de manera de formar grupos lo más homogéneos que sea posible. – Ejemplo: Hallar el perfil de los clientes del producto A. • Problemas de asociación – Buscan obtener relaciones entre los valores de los atributos de una base de datos. – Ejemplo: Qué productos se compran juntos? 50
  • 51. Tipos de problemas predictivos • Problemas de clasificación – Aquellos en los que la variable a predecir tiene un número finito de valores (variable categórica). – Ejemplo: se busca obtener un modelo que dado un nuevo cliente pueda clasificarlo como “bueno”, “regular” o “malo”. • Problemas de predicción de valores – Aquellos en los que la variable a predecir es numérica. – Ejemplo: Obtener un modelo que dado un paciente nuevo determine la probabilidad de que tenga cierta enfermedad. 51
  • 52. Técnicas para problemas descriptivos • Problemas de Clustering – K - Medias – Redes Neuronales SOM (self-organizing maps) • Problemas de asociación – Reglas de Asociación – Arboles de decisión 52
  • 53. Técnicas para problemas predictivos • Problemas de clasificación – Redes Neuronales – Arboles de clasificación • Problemas de predicción de valores – Redes Neuronales con entrenamiento por gradiente. 53
  • 54. Algoritmos Supervisados Lote de Entrenamiento Lote de Test . . . 54 Generar Modelos Modelo Modelo Validac ión
  • 55. Salario Historia Acción De 0 a $10,000 Buena No Otorgar De 0 a $10,000 Mala No Otorgar De 0 a $10,000 Sin historia No Otorgar De $10,000 a $30,000 Buena Otorgar De $10,000 a $30,000 Mala No Otorgar De $10,000 a $30,000 Sin historia No Otorgar Más de $30,000 Buena Otorgar De $10,000 a $30,000 Mala No Otorgar De $10,000 a $30,000 Sin historia Otorgar De $10,000 a $30,000 Sin historia Otorgar De $10,000 a $30,000 Sin historia No Otorgar De 0 a $10,000 Sin historia No Otorgar Salario Historia Acción De 0 a $10,000 Buena No Otorgar De 0 a $10,000 Mala No Otorgar De 0 a $10,000 Sin historia No Otorgar De $10,000 a $30,000 Buena Otorgar De $10,000 a $30,000 Mala No Otorgar De $10,000 a $30,000 Sin historia No Otorgar Más de $30,000 Buena Otorgar De $10,000 a $30,000 Mala No Otorgar De $10,000 a $30,000 Sin historia Otorgar De $10,000 a $30,000 Sin historia Otorgar De $10,000 a $30,000 Sin historia No Otorgar De 0 a $10,000 Sin historia No Otorgar 55 Algoritmos Supervisados Elección del lote de entrenamiento: Se utiliza el muestreo aleatorio simple es la técnica de muestreo en la que todos los elementos que forman el universo y que, por lo tanto, están descritos en el marco muestral, tienen idéntica probabilidad de ser seleccionados para la muestra. Función aleatoria
  • 56. Lote de entrenamiento Lote de Entrenamiento Lote de Test Salario Historia Acción De 0 a $10,000 Buena No Otorgar De 0 a $10,000 Mala No Otorgar De 0 a $10,000 Sin historia No Otorgar De $10,000 a $30,000 Buena Otorgar De $10,000 a $30,000 Mala No Otorgar De $10,000 a $30,000 Sin historia No Otorgar Más de $30,000 Buena Otorgar De $10,000 a $30,000 Mala No Otorgar De $10,000 a $30,000 Sin historia Otorgar De $10,000 a $30,000 Sin historia Otorgar De $10,000 a $30,000 Sin historia No Otorgar De 0 a $10,000 Sin historia No Otorgar 56
  • 57. Lote de Test Lote de Entrenamiento Lote de Test Salario Historia Acción De 0 a $10,000 Buena No Otorgar De 0 a $10,000 Mala No Otorgar De 0 a $10,000 Sin historia No Otorgar De $10,000 a $30,000 Buena Otorgar De $10,000 a $30,000 Mala No Otorgar De $10,000 a $30,000 Sin historia No Otorgar Más de $30,000 Buena Otorgar De $10,000 a $30,000 Mala No Otorgar De $10,000 a $30,000 Sin historia Otorgar De $10,000 a $30,000 Sin historia Otorgar De $10,000 a $30,000 Sin historia No Otorgar De 0 a $10,000 Sin historia No Otorgar 57
  • 58. Algoritmos Supervisados Lote de Entrenamiento Lote de Test . . . 58 Generar Modelos Modelo Modelo Validación
  • 59. Validación El proceso de validación consiste en verificar como el Modelo generado clasifica a los elementos del lote de Test. –Matriz de confusión –Matriz de costos –Cobertura –Confianza 59
  • 60. Prospectos De 0 a $10.000 De $10.000 a $30.000 Más de $30.000a Sin Historia Mala Buena Otorgar Sin Historia Mala Buena No Otorgar Otorgar Otorgar Otorgar No Otorgar No Otorgar Sueldo Historia Crediticia Árbol de Decisión Historia Crediticia 60
  • 61. 61 Salario Historia Clase De 0 a $10,000 Buena No Otorgar De 0 a $10,000 Mala No Otorgar De 0 a $10,000 Sin historia No Otorgar De $10,000 a $30,000 Buena Otorgar De $10,000 a $30,000 Mala No Otorgar De $10,000 a $30,000 Sin historia No Otorgar Más de $30,000 Buena Otorgar De $10,000 a $30,000 Mala No Otorgar De $10,000 a $30,000 Sin historia Otorgar De $10,000 a $30,000 Sin historia Otorgar De $10,000 a $30,000 Sin historia No Otorgar De 0 a $10,000 Sin historia No Otorgar Árbol de Decisión ¿Qué atributo se elige primero para ser raíz del árbol? Utiliza el concepto de Ganancia y Desorden.
  • 62. Reglas de Decisión Regla 1: SI Se Estira = No ENTONCES Inflado? = No Regla 2: SI Color = Rojo y Edad = Niño ENTONCES Inflado? = No Regla 3: SI Se Estira = Si y Color = Amarillo ENTONCES Inflado? = Si Regla 4: SI Se Estira = Si y Edad = Adulto ENTONCES Inflado? = Si 62
  • 65. 1. Si compra A entonces compra B,C y E 2. Si compra A y B entonces compra C y E 3. Si compra C y B entonces compra A y E 4. Si compra Vodka entonces compra Jugo de Naranja 5. Si compra Jugo de Naranja entonces compra Vodka 6. Si copra …. entonces compra …. ¿Cual de estas reglas es valiosa? 65 Reglas de Asociación
  • 66. ¿Cual de estas reglas es valiosa? • Se calcula la Cobertura se cada Regla – En cuantos casos de da el antecedente y consecuente de la regla sobre el total de casos • Luego la Confianza de cada regla – Cual es la relación entre la cobertura de la regla respecto de la cobertura del antecedente 66 Reglas de Asociación
  • 67. • Es un método de agrupamiento (clustering) • Permite determinar grupos de observaciones con similares características (clusters) • Las observaciones de los grupos obtenidas deben ser parecidas entere los miembros de un mismo grupo y diferentes de los miembros de otros grupos. 67 K-Medias
  • 68. El Algoritmo N-Means 1. Elegir un valor de k 2. Seleccionar k objetos en forma arbitraria. Utilizar éstos como el conjunto inicial de k centroides 3. Asignar cada uno de los objetos a la agrupación para la que es la más cercana al centroide 4. Volver a calcular los centroides de los clusters k 5. Repita los pasos 3 y 4 hasta que los centroides ya no se mueven.
  • 69. Partida (10,10); (20,20);(50,40)– Iteración 1 0 5 10 15 20 25 30 35 40 45 50 0 20 40 60 80 100 Universo Centroide 1 Centroide 2 Centroide 3
  • 70. Partida (10,10); (20,20);(50,40)– Iteración 1 0 5 10 15 20 25 30 35 40 45 50 0 20 40 60 80 100 Cluster 1 Cluster 2 Cluster 3 Centroide 1 Centroide 2 Centroide 3
  • 71. Partida (10,10); (20,20);(50,40)– Iteración 2 0 5 10 15 20 25 30 35 40 45 50 0 20 40 60 80 100 Cluster 1 Cluster 2 Cluster 3 Centroide 1 Centroide 2 Centroide 3
  • 72. Partida (10,10); (20,20);(50,40)– Iteración 3 0 5 10 15 20 25 30 35 40 45 50 0 20 40 60 80 100 Cluster 1 Cluster 2 Cluster 3 Centroide 1 Centroide 2 Centroide 3
  • 73. Partida (10,10); (20,20);(50,40)– Iteración 4 0 5 10 15 20 25 30 35 40 45 50 0 20 40 60 80 100 Cluster 1 Cluster 2 Cluster 3 Centroide 1 Centroide 2 Centroide 3
  • 74. Partida (10,10); (20,20);(50,40)– Iteración 5 0 5 10 15 20 25 30 35 40 45 50 0 20 40 60 80 100 Cluster 1 Cluster 2 Cluster 3 Centroide 1 Centroide 2 Centroide 3
  • 75. Partida (10,10); (20,20);(50,40)– Iteración 6 0 5 10 15 20 25 30 35 40 45 50 0 20 40 60 80 100 Cluster 1 Cluster 2 Cluster 3 Centroide 1 Centroide 2 Centroide 3
  • 76. Partida (10,10); (20,20);(50,40)– Iteración 7 0 5 10 15 20 25 30 35 40 45 50 0 20 40 60 80 100 Cluster 1 Cluster 2 Cluster 3 Centroide 1 Centroide 2 Centroide 3
  • 77. Fases del proceso de KDD 0 10 20 30 40 50 60 Definir el Problema Recolección de datos Preparación de datos Data Mining Análisis de Resultados Es un proceso iterativo que puede llevar a repetir las fases anteriores 77
  • 78. Generación de un Modelo de Minería Definir el problema Preparar los datos Explorar los datos Generar modelos Explorar y validar los modelos Implementar y actualizar los modelos 78