Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx

INTRODUCCIÓN A LA MINERÍA DE
DATOS
Ing. Ricardo L. M . Ferré/ Ing. Cristian Calla
1

¿La información está ahí?
2

¿La información está ahí?
3

Información sutilmente diferente, patrones
similares seres diferentes
4

Introducción a la Minería de Datos
• Introducir a la Minería de datos
• Presentar los conceptos y pasos para la extracción de
conocimiento.
• Conocer técnicas para exploración y preparación de
datos
• Conocer diferentes algoritmos de minería de datos
• Evaluar la calidad de un modelo, utilizando técnicas de
evaluación
• Comparar técnicas y determinar la mas apropiada para
cada problema.
5

Esquema OLAP (On Line Analitycal
Processing)
6
Sistemas ETL DW Cubo OLAP Aplicaciones
Data Mart Analíticas
El usuario es quien
analiza y Responde
a las Preguntas de
la Org.

Esquema Minería
7
Sistemas Datos Algoritmo Modelo
Fuente
El usuario Evalúa
los resultados y
utiliza el modelo
El algoritmo es
quien analiza los
datos y construye el
modelo
M

Diferencia entre OLAP y Minería de Datos
• Las herramientas OLAP
– Proporcionan facilidades para “manejar” y “transformar” los datos.
– Producen “información” (datos agregados, combinados).
– Ayudan a que el usuario analice los datos porque producen diferentes
vistas de los mismos.
• Las herramientas de Minería de Datos:
– Son muy variadas: permiten “extraer” patrones, modelos, descubrir
relaciones, regularidades, tendencias, etc.
– Producen “reglas” o “patrones” (“conocimiento”).
– La minería de datos “analiza” los datos y ayuda a que el usuario tome
decisiones a partir de la información
8

Diferencia entre OLAP y Minería de
Datos - Ejemplo
• Análisis OLAP, u otras herramientas como consultas sofisticadas
o análisis estadístico, pueden responder a preguntas como:
– “¿Han subido las ventas del producto X en junio?”
– “¿Las ventas del producto X bajan cuando se promociona el producto Y?”
• Con técnicas de minería de datos podremos responder a
preguntas del estilo:
– “¿Qué factores influyen en las ventas del producto X?”
– "¿Cuál será el producto más vendido si se abre una sucursal en Córdoba?”
9

Aplicaciones
Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería
de datos.
Los modelos de minería de datos se pueden aplicar en escenarios como los siguientes:
• Riesgo y probabilidad: elección de los mejores clientes para la distribución de
correo directo, determinación del punto de equilibrio probable para los escenarios
de riesgo, y asignación de probabilidades a diagnósticos y otros resultados.
• Recomendaciones: determinación de los productos que se pueden vender de
juntos y generación de recomendaciones.
• Búsqueda de secuencias: análisis de los artículos que los clientes han introducido
en el carrito de la compra y predicción de posibles eventos.
• Agrupación: distribución de clientes o eventos en grupos de elementos
relacionados, y análisis y predicción de afinidades.
• Pronóstico: cálculo de las ventas y predicción de las cargas del servidor o del
tiempo de inactividad del servidor.
10

Aplicaciones
• Qué clientes comprarán un determinado producto con una
probabilidad X?
– Clasificación(Predicción)
• Probabilidad de que un cliente tenga un determinado perfil?
– Segmentación
• Recomendar un producto a un cliente que realiza una determinada
compra
– Asociación
• Probabilidad de que un cliente compre un producto en el futuro
– Predicción de secuencias
• Predecir la venta de los próximos 5 meses y su error
– Forecasting
– Escenarios
11

Extracción de conocimiento en KDD
La minería de datos se refiere a la aplicación
de métodos de aprendizaje y estadísticos para
la obtención de patrones y modelos
12
Sistema de
información
Definir el
problema
Preparación
de los datos
Minería
de
datos
Patrones
Evaluación /
Interpretación /
Visualización
Conocimiento

Tipo de conocimiento a extraer
• Descriptivo
– Muestran nuevas relaciones entre las variables.
– Pueden ser utilizadas para mejorar el modelo.
– Ej: Reglas de asociación, correlaciones, etc.
• Predictivo
– En base al modelo que gobierna el sistema es posible
predecir hechos futuros.
– Soluciones basadas en Redes Neuronales y Algoritmos
Genéticos ofrecen mejores resultados que los enfoques
estadísticos.
– Ej: Clasificación, Agrupamiento (clustering), etc.
13

14
Tipos de conocimiento (cont.):
• Clasificación: Una clasificación se puede ver como el
esclarecimiento de una dependencia, en la que el atributo
dependiente puede tomar un valor entre varias clases, ya
conocidas.
• Ejemplo: se sabe (por un estudio de dependencias) que los atributos edad,
número de dioptrías y astigmatismo han determinado los pacientes para los
que su operación de cirugía ocular ha sido satisfactoria.
• Podemos intentar determinar las reglas exactas que clasifican un caso como
positivo o negativo a partir de esos atributos.
• Segmentación: La segmentación (o clustering) es la detección
de grupos de individuos. Se diferencia de la clasificación en el
que no se conocen ni las clases ni su número (aprendizaje no
supervisado), con lo que el objetivo es determinar grupos o
racimos (clusters) diferenciados del resto.

Generación de un Modelo de Minería
Definir el
problema
Preparar los
datos
Explorar los
datos
Generar
modelos
Explorar y
validar los
modelos
Implementar
y actualizar
los modelos
15

Fases del proceso de KDD
0
10
20
30
40
50
60
Definir el
Problema
Recolección de
datos
Preparación de
datos
Data Mining Análisis de
Resultados
Comprensión
16

Definir el problema
17
• ¿Entiendo las necesidades de Negocio? O es una orden de mi jefe? O es una
expresión de deseo?
• Estas necesidades, ¿caen dentro de la práctica de DM, BI, otra?
• ¿Puedo distinguir entre lo que “quieren” de lo que “necesitan”?
• ¿Tengo experiencia o conocimientos específicos para satisfacer las necesidades?
• El proyecto que imagino, ¿involucra desarrollo solamente o es más amplio, difícil y
costoso?
• ¿Cómo nos ponemos de acuerdo en la respuesta que va a tener la organización?
• Lo que me piden, ¿tiene que ver con algo ya hecho? ¿Es absolutamente nuevo?
• Lo que necesitan saber o conocer, ¿tiene valor para la organización?
• Lo que debo responder, ¿supongo que está oculto en la masa de datos
disponible? ¿Tengo herramientas y conocimiento para extraer las respuestas?
• ¿Cómo dejo constancia de todo esto?

Definir el problema
• Explorar el Problema 50%
• Explora la Solución 44%
• Implementar la especificación 6%

0
10
20
30
40
50
60
Definir el
Problema
Recolección de
datos
Preparación de
datos
Resultados
Depende
del proceso
Fijado 19

0
10
20
30
40
50
60
Definir el
Problema
Recolección de
datos
Preparación de
datos
Resultados
¿Es tan
Importante
20

Datos – Atributos Discretos y
Continuos
21
DISCRETOS:
Tienen un conjunto de valores finito y infinitos contables
Están a menudo expresados como números enteros
Cód Postal - Cantidades - ...
CONTINUOS:
Sus valores corresponden a números reales
Pueden estar representados por una cantidad finita de dígitos
Aunque pueden tomar valores válidos solo en un intervalo, dentro del
mismo puede tomar cualquier valor
Altura - Peso - Productividad - …

Datos – Tipos de Atributos
22
NOMINAL:
Color de Ojos, Identificadores
numéricos, códigos postales, etc.
ORDINALES:
Ránking, Grado, Medidas (chico,
medio, grande)
INTERVALOS:
Fechas de Calendarios, temperaturas
(en °C o F)
RATIOS:
Temperaturas (°K), longitud, tiempo,
áreas, porcentajes, etc.
Propiedades:
Desigualdad (= )
Desigualdad y Orden (< >)
Desigualdad, Orden y Adición (+ -)
Desigualdad, Orden, Adición y
Multiplicación (* /)

Datos – Atributos
Ob
Id
Activo Estado Edad
Camp
1 Si Soltero 25 No
2 No Casado 28 No
3 No Soltero 34 No
4 Si Casado 51 No
5 No Divorc. 60 Si
6 No Casado 28 No
7 Yes Divorc. 39 No
8 No 45 Si
9 No Casadp 44 So
10 No Soltero 7 Si
10
Atributos
Objetos
Colección de datos y sus atributos
Un atributo es una propiedad o
característica de un objeto
• Ejemplo: Color de Ojos, Estado civil,
profundidad de perforación, etc.
• Un atributo suele llamarse también
como variable, campo, característica,
columna, etc.
Una colección de atributos define a
un Objeto
Objeto es también llamado o
conocido como Registro, fila,
instancia, entidad, caso, etc.

Datos – Valores de Atributos
Ob
Id
Activo Estado Edad
Camp
1 Si Soltero 25 No
2 No Casado 28 No
3 No Soltero 34 No
4 Si Casado 51 No
5 No Divorc. 60 Si
6 No Casado 28 No
7 Yes Divorc. 39 No
8 No 45 Si
9 No Casadp 44 So
10 No Soltero 7 Si
10
Atributos
Objetos
Valor de Atributo es un número o
símbolo asignado al atributo
Distinción entre Atributo y Valor de
Atributo
• Un mismo atributo puede estar
expresado con distintos valores de
atributos: Por ejemplo Distancia
puede contener valores en kilómetros
y en millas
• Diferentes atributos pueden contener
el mismo conjunto de tipos valores
posible: Por ejemplo Ob.Id y Edad
contienen números enteros.

Preparación o Pre-procesamiento
de Datos
25
Es una tarea necesaria para preparar conjuntos de datos que serán utilizados para
cargar un repositorio de Data Warehouse o bien en un proceso de análisis de datos.
La justificación de esta etapa o fase radica en la creencia del refrán: “garbage in, garbage
out” (GIGO).
Por lo general (más de lo esperado) los problemas radican principalmente en:
• Datos Incompletos o faltantes: valores faltantes para atributos o valores útiles
• Ruido: producido por “outliers” (datos atípicos) y datos sucios
• Inconsistencias: valores incoherentes relacionados con otros (particularmente en
códigos o nombres y valores de algunas variables o características).

Pre-procesamiento – Principales
Tareas
26
• Limpieza de Datos (Data Cleansing): Completar valores faltantes,
identificar y remover outliers, resolver inconsistencias
• Integración de Datos: combinar inteligentemente datos de distintas
fuentes, manteniendo un sentido cercano al modelo a analizar
• Transformación de Datos: Normalizar datos (representación
común) y agregar datos (sumarizar)
• Reducción de Datos: Minimizar volumen de datos obteniendo una
masa que produzca un resultado analítico igual o similar
• Discretización de Datos: La discretización se usa para reducir el
número de valores para un atributo continuo, dividiendo el rango del
atributo en intervalos. Las etiquetas de los intervalos se usan para
reemplazar los valores reales de los datos.

Limpieza de Datos – Datos Faltantes
27
• Causas
• Errores Técnicos
• No ingresados / necesarios para las fuentes (por
ejemplo en ERP)
• Inconsistencia con otros datos durante alguna
integración previa
• Desactualización de valores
• Irrelevancia en otros pasos de algún proceso
• Caducidad de valores

Limpieza de Datos – Datos Faltantes
28
Soluciones (algunas posibles)
• Ignorar la tupla. Riesgo de pérdida de masa crítica en tuplas
representativas
• Ingreso manual de datos / valores faltantes. Posible
consecuencia: excesivo trabajo / costo / tiempo; falta de
conocimiento. A veces no factible.
• Valor medio: considerar una valor medio de todas las tuplas
• Valor medio por Clase: considerar una valor medio de todas las
tuplas consideradas similares de acuerdo a la clase a la que
pertenecen.
• Inferir el valor más probable para completar el valor faltante
(regresión, árbol de decisión)

Integración de Datos
29
Combinación inteligente de dos o más fuentes de datos para un único
concepto
• Integración de Campos. Problemas frecuentes:
• Dos fuentes: A y B; Un mismo campo a incorporar de ambas: Cliente
• Problema 1: No sabemos a priori si son compatibles (uno puede
corresponder a un número interno del sistema fuente y otro a un
número de documento)
• Problema 2: Aún sabiendo si corresponden al mismo elemento, no
sabemos si por temporalidad o codificación interna (máscara) puedo
relacionarlos (cliente 1 ≠ cliente 0001)
• Problema 3: una de las fuentes podría tener valores vacíos o nulos,
siendo esto aceptable en el sistema fuente

Transformación de Datos
30
Posibles métodos (no los únicos):
• Suavizado. Elimina ruidos en los datos. Por ejemplo utilizar una función
logarítmica para suavizar una curva de valores posibles.
• Agregación. También llamada Sumarización. Como en la construcción de modelos
multidimensionales (cubos)
• Generalización. subir la jerarquía de conceptos reduciendo valores y englobando
tuplas similares por clase
• Normalización: Se ajusta a una escala para caer en un rango pequeño y
especificado.
• Reverse Pivoting: Creación de nuevos atributos en función de otros existentes
dado que algunas veces los datos de entrada no determinan lo que se quiere
modelar.

Transformación de Datos - Suavizado
31

Transformación de Datos –
Normalización
¿Para que Normalizar?
Veamos un ejemplo:
Algoritmo K-NN
32

Vecinos más cercanos (Nearest Neighbor)
Idea básica: Si camina como perro, ladra como un perro, probablemente sea
un perro
Registros de
Entrenamiento
Registro de
Test
Cálculo de
Distancia
Elijo los K vecinos mas “Cercanos”

Vecinos mas cercanos (Nearest Neighbor)
• Requiere tres partes
– Un conjunto de datos guardados
– Una medida de distancia entre los
registros
– El valor de k, el número de vecinos
más cercanos a consultar
• Para clasificar un registro
desconocido:
– Se computa la distancia a los
registros de entrenamiento
– Se identifican los k vecinos más
cercanos
– Se usa la clase de los vecinos más
cercanos para determinar la clase del
registro. (por ejemplo tomando
votación por mayoría)
Registro a clasificar

Los K-vecinos más cercanos de un registro x son los puntos de
datos que tienen las k distancias más pequeñas a P
1 - Vecino más cercano 2 - Vecinos más cercanos 3 - Vecinos más cercanos

Vecinos más cercanos - Distancia
• Calcular de distancia entre dos puntos:
– Distancia Euclídea
 

i
i
i q
p
q
p
d 2
)
(
)
,
(
q (x1,y1)
p (x2,y2)

• Muchísimas formas de calcular la distancia. Algunos
ejemplos…
– Distancia de Manhattan:
– Distancias por Diferencia: ejemplo: if x=y then D=0 else D=1 (para
valores discretos)
• Similitud y Distancia Valores Continuos (conveniente
estandarizar antes) Valores Discretos DISTANCIA inversa a
SIMILITUD.
• Y muchísimas formas más…



n
i
i
i Y
X
1
p (x2,y2)
q (x1,y1)

• Determinar la clase a partir de la lista de
vecinos más cercanos
– Tomar el voto por mayoría entre los k-vecinos más
cercanos
– Asignarle peso a los votos de acuerdo a la
distancia
• factor de peso: w = 1/d2

39
Calificación
Promedio
Salario
10
9
8
7
6
5
4
3
2
1
$10.000 $20.000 $30.000
¿“J” Es Rojo o Azul?
A
B
C
D
J

40
Calificación
Promedio
Salario
10
9
8
7
6
5
4
3
2
1
$10.000 $20.000 $30.000
¿Es Rojo o Azul?
A
B
C
D
J
Según el cálculo de distancias “J” es Azul

Transformación de Datos –
Normalización - Ejemplos

42

-
0,20
0,40
0,60
0,80
1,00
1,20
- 0,50 1,00 1,50 2,00 2,50
A B
CD
j
43
Calificación
Promedio
Salario
¿Es Rojo o Azul?
A
C
D
J
Según el cálculo de distancias “J” es Rojo
B

Reducción de Datos - Estrategias
44
Gran volumen de datos para análisis complejo o DM podría
tomar mucho tiempo para recorrer data set completo
• Reducción de Dimensionalidad: Detectar y eliminar atributos
• Selección de Características Identificar las principales que
están relacionadas con los resultados buscados
• Muestreo: La manera más directa de reducir el tamaño de
una población o conjuntos de individuos es realizar una
selección o muestreo.

Análisis de los datos disponibles
• Se busca determinar una primera medida de
calidad de los datos
– Variables Categóricas
• Análisis de frecuencia mediante histogramas o gráficos
de sectores permitiran detectar valores nulos o fuera
de rango.
– Variables Cuantitativas
• Utilizar medidas tales como: mínimo, máximo, media,
varianza, moda, mediana, etc.
• También pueden usarse gráficos como los diagramas de
cajas o los histogramas.
45

0
10
20
30
40
50
60
Definir el
Problema
Recolección de
datos
Preparación de
datos
Resultados
Fase de
Modelado
46

Fase de Modelado
• Es la fase central del descubrimiento del conocimiento.
• Se usan los datos procesados previamente y se les aplican
los algoritmos de búsqueda del conocimiento.
• Hay distintos tipos de algoritmos según el modelo que se
desee obtener.
• La elección del algoritmo a aplicar depende del tipo de
problema de resolver.
47

Ej. de problemas de Data Mining
• Predecir el nivel de morosidad de un cliente.
• Saber quienes son mis clientes.
• Encontrar el perfil del comprador del producto A.
• Encontrar los síntomas de enfermedades que suelen aparecen
juntos.
• Encontrar las características de la población fumadora.
• Detector alumnos en escuelas con alto riesgo de fracaso escolar.
48

Tipos de Problemas a Resolver
• Problemas descriptivos: Aquellos cuya meta es
encontrar una descripción de los datos en estudio
– Ejemplos: cuales son los clientes de una organización,
qué productos habitualmente se compran juntos.
• Problemas Predictivos : Aquellos que buscan
obtener un modelo que en un futuro pueda ser
aplicado para predecir comportamiento
– Ejemplo: poder predecir si un cliente nuevo que llega al
banco pidiendo un préstamo va a devolverlo o no.
49

Tipos de problemas descriptivos
• Problemas de Clustering
– Buscan agrupar los datos de manera de formar grupos lo
más homogéneos que sea posible.
– Ejemplo: Hallar el perfil de los clientes del producto A.
• Problemas de asociación
– Buscan obtener relaciones entre los valores de los
atributos de una base de datos.
– Ejemplo: Qué productos se compran juntos?
50

Tipos de problemas predictivos
• Problemas de clasificación
– Aquellos en los que la variable a predecir tiene un número
finito de valores (variable categórica).
– Ejemplo: se busca obtener un modelo que dado un nuevo
cliente pueda clasificarlo como “bueno”, “regular” o
“malo”.
• Problemas de predicción de valores
– Aquellos en los que la variable a predecir es numérica.
– Ejemplo: Obtener un modelo que dado un paciente nuevo
determine la probabilidad de que tenga cierta
enfermedad.
51

Técnicas para problemas descriptivos
• Problemas de Clustering
– K - Medias
– Redes Neuronales SOM (self-organizing maps)
• Problemas de asociación
– Reglas de Asociación
– Arboles de decisión
52

Técnicas para problemas predictivos
• Problemas de clasificación
– Redes Neuronales
– Arboles de clasificación
• Problemas de predicción de valores
– Redes Neuronales con entrenamiento por gradiente.
53

Algoritmos Supervisados
Lote de
Entrenamiento
Lote de Test
.
.
.
54
Generar Modelos
Modelo
Modelo Validac ión

Salario Historia Acción
De 0 a $10,000 Buena No Otorgar
De 0 a $10,000 Mala No Otorgar
De 0 a $10,000 Sin historia No Otorgar
De $10,000 a $30,000 Buena Otorgar
De $10,000 a $30,000 Mala No Otorgar
De $10,000 a $30,000 Sin historia No Otorgar
Más de $30,000 Buena Otorgar
De $10,000 a $30,000 Sin historia Otorgar
55
Elección del lote de entrenamiento: Se utiliza el muestreo aleatorio simple es la técnica
de muestreo en la que todos los elementos que forman el universo y que, por lo tanto,
están descritos en el marco muestral, tienen idéntica probabilidad de ser seleccionados
para la muestra.
Función
aleatoria

Lote de entrenamiento
Lote de
Entrenamiento
Lote de Test
56

Lote de Test
Lote de
Entrenamiento
Lote de Test
57

Lote de
Entrenamiento
Lote de Test
.
.
.
58
Generar Modelos
Modelo
Modelo Validación

Validación
El proceso de validación consiste en verificar como el
Modelo generado clasifica a los elementos del lote de
Test.
–Matriz de confusión
–Matriz de costos
–Cobertura
–Confianza
59

Prospectos
De 0 a
$10.000
De $10.000
a $30.000
Más de
$30.000a
Sin Historia
Mala
Buena
Otorgar
Sin Historia
Mala
Buena
No
Otorgar
Otorgar
Otorgar
Otorgar
No
Otorgar
No
Otorgar
Sueldo
Historia
Crediticia
Árbol de Decisión
Historia
Crediticia
60

61
Salario Historia Clase
Árbol de Decisión
¿Qué atributo se elige primero para ser raíz del árbol?
Utiliza el concepto de Ganancia y Desorden.

Reglas de Decisión
Regla 1: SI Se Estira = No
ENTONCES Inflado? = No
Regla 2: SI Color = Rojo y Edad = Niño
ENTONCES Inflado? = No
Regla 3: SI Se Estira = Si y Color = Amarillo
ENTONCES Inflado? = Si
Regla 4: SI Se Estira = Si y Edad = Adulto
ENTONCES Inflado? = Si
62

1. Si compra A entonces compra B,C y E
2. Si compra A y B entonces compra C y E
3. Si compra C y B entonces compra A y E
4. Si compra Vodka entonces compra Jugo de Naranja
5. Si compra Jugo de Naranja entonces compra Vodka
6. Si copra …. entonces compra ….
¿Cual de estas reglas es valiosa?
65
Reglas de Asociación

¿Cual de estas reglas es valiosa?
• Se calcula la Cobertura se cada Regla
– En cuantos casos de da el antecedente y consecuente de la
regla sobre el total de casos
• Luego la Confianza de cada regla
– Cual es la relación entre la cobertura de la regla respecto
de la cobertura del antecedente
66
Reglas de Asociación

• Es un método de agrupamiento (clustering)
• Permite determinar grupos de observaciones
con similares características (clusters)
• Las observaciones de los grupos obtenidas
deben ser parecidas entere los miembros de
un mismo grupo y diferentes de los miembros
de otros grupos.
67
K-Medias

El Algoritmo N-Means
1. Elegir un valor de k
2. Seleccionar k objetos en forma arbitraria. Utilizar
éstos como el conjunto inicial de k centroides
3. Asignar cada uno de los objetos a la agrupación
para la que es la más cercana al centroide
4. Volver a calcular los centroides de los clusters k
5. Repita los pasos 3 y 4 hasta que los centroides ya no
se mueven.

Partida (10,10); (20,20);(50,40)– Iteración 1
0
5
10
15
20
25
30
35
40
45
50
0 20 40 60 80 100
Universo
Centroide 1
Centroide 2
Centroide 3

0
5
10
15
20
25
30
35
40
45
50
0 20 40 60 80 100
Cluster 1
Cluster 2
Cluster 3
Centroide 1
Centroide 2
Centroide 3

0
10
20
30
40
50
60
Definir el
Problema
Recolección de
datos
Preparación de
datos
Resultados
Es un proceso iterativo que
puede llevar a repetir las
fases anteriores
77

Generación de un Modelo de Minería
Definir el
problema
Preparar los
datos
Explorar los
datos
Generar
modelos
Explorar y
validar los
modelos
Implementar
y actualizar
los modelos
78

Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx

Recomendados

Recomendados

Más contenido relacionado

Similar a Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx

Similar a Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx (20)

Último

Último (20)

Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx