2. Primera Parte
◦ Introducción
◦ OLTP VS OLAP
◦ Limpieza de datos e integración
Segunda Parte
◦ Modelo de datos y diseño de Bodegas
Tercera Parte
◦ Minería de Datos
3. No puedo encontrar los datos que necesito
◦ Datos dispersos en la red.
◦ Muchas versiones diferencias sutiles
No puedo obtener los datos que necesito
◦ Necesito experto para obtener los datos
No entiendo los datos que obtengo
◦ Pobre documentación de datos
No puedo usar los datos que encuentro
◦ Resultados inesperados
◦ Datos necesitan ser transformados de una forma a otra.
4. Bodega de datos es una colección de datos,
orientada a temas, integrada, no volátil, y
variante en el tiempo que soporta decisiones
administrativas. Datos obtenidos de una
variedad de fuentes diferentes, a disposición
de los usuarios finales en lo que pueden
entender y utilizar en un contexto
empresarial
5. Que epoca del año
es mejor para
lanzar promociones?
Quienes son los clientes
y que productos estan
Comprando?
Que clientes son mas
probables que se vayan
a la competencia?
Que impacto tiene
los nuevos
servicios/productos en
las ganancias?
Que producto
tiene el mayor impacto
en las ganancias?
Cual es el canal de
distribucion mas
Efectivo?
6.
7. Agregación y suma de varios conjuntos de
datos.
Agrupamiento (Cluster)
Detectar Tendencias
Proyecciones Multi-dimensionales (Como
influye el una variable en otra)
8. OLTP
• Orientado a aplicaciones
• Usado para manejar
negocios
• Usuarios de oficina
• Detalle de datos
• Datos actuales
• Accesos repetitivos en
pequeñas transacciones
• Acceso de lectura y
escritura
OLAP
• Orientado a un tema.
• Usados para analizar
negocios
• Administrador/Analista
• Suma de datos
• Datos tomados en cierto
periodo.
• Accesos usando
búsquedas extensas.
• Mayormente lectura
(Cambios por lotes)
9. Tiempo 60/90 Dias 5 a 10 años
Cambio de Registros Sofisticado Fotos de Datos
Llave puede no contener Llave debe contener
elemento de tiempo elemento de tiempo
Variante en el Tiempo
12. Un Data mart es una versión especial de almacén
de datos (data warehouse). Son subconjuntos de
datos con el propósito de ayudar a que un área
específica dentro del negocio pueda tomar mejores
decisiones. Los datos existentes en este contexto
pueden ser agrupados, explorados y propagados
de múltiples formas para que diversos grupos de
usuarios realicen la explotación de los mismos de
la forma más conveniente según sus necesidades.
Puede ser simplemente una copia de parte de un
DataWarehouse para uso departamental.
13. Fácil acceso a los datos que se necesitan
frecuentemente.
Crea vista colectiva para grupo de usuarios.
Mejora el tiempo de respuesta del usuario
final.
Facilidad de creación.
Costo inferior al de la aplicación de un
completo almacén de datos.
Los usuarios potenciales son más
claramente identificables que en un
almacén de datos completo
15. Introduccion a Bodega de Datos
Datos Sucios
◦ Multiplicidad de códigos
◦ Igual significado “EN LA WEB”, es igual que “EN
INTERNET” .
◦ Varios Estándares.
16. m,f
pipeline - cm
appl A - pipeline - cm
appl B - pipeline - in
appl C - pipeline - feet
appl D - pipeline - yds
appl A - m,f
appl B - 1,0
appl C - x,y
appl D - male, female
Bodega de Datos
17. Datos Faltantes, Falsos y Duplicados
◦ Falta la edad del empleado.
◦ Días de incapacidad digitados erróneamente.
◦ Duplicación de datos en los diferentes OLTP o
misma OLTP.
◦ Duplicación en el significado (Jon G. Ordonez,
aparece en otra OLTP como Jon Geiler Ordonez.)
18. Inconsistencia
◦ Códigos mal digitados (El codigo de genero es M/F,
se encuentran datos con 1/0).
◦ Códigos que no tienen significado (AL), no tiene
ningún significados en los códigos usados.
◦ Inconsistencia de datos duplicados (Dos datos son
encontrados con la misma persona pero ambos
tiene direcciones difentes)
19. No puede ser automatizada.
Requiere considerable conocimientos que
es tácticamente y mas allá de los
competencias en Bodega de Datos
(Medidas, Políticas, Geografía).
Complejidad se incrementa con el
incremento en base de datos.
Complejidad se incrementa con datos
históricos.
20. Problema a Detectar Tecnica Usada
Valores No Legales (Max, Min), Desviacion, Media
Falta de Estandares Comparacion de Columnas
(Compara los valores en
determinada columna en toda la
tabla)
Duplicados y Datos No Digitados Comparar con numero de filas,
Detectar nulos, usar reglas para
predecir datos incorrectos y no
digitados
21. Para garantizar el uso de los mejores datos posibles para la
bodega, se deben tener en cuenta los siguientes pasos:
Identificar la fuente de datos con la mejor calidad: Es posible que
se encuentren varias fuentes con los mismos datos, pero en
algunas se tenga mejor calidad de los mismos.
Identificar variaciones en palabras : Como errores de ortografía y
mayúscula y minúscula.
Discutir problemas de datos con el equipo.
Arreglar los problemas de datos en las fuentes cuando sea
posible, en vez de hacerlo en el proceso ETL o directamente a la
bodega.
SI existen muchos problemas en las fuentes, arreglarlos en el
proceso ira en contra del rendimiento, estos problemas deber
ser responsabilidad de los sistemas fuentes.
Realizar tareas de limpieza sobre los datos.
22. Tres funciones separadas: ETL
◦ Extracción – Leer los datos de fuentes de datos
especificadas y extraer el grupo de datos deseado.
◦ Transformación – Uso de reglas o búsqueda de
tabla, o creando combinaciones con otros datos,
para convertir fuente de datos en los estados
deseados
◦ Cargar : Escribir los datos resultantes en la base de
datos destino
23. Desarrollo del ETL
◦ Oportunidad para eliminar datos inservibles
◦ Normalmente 80% verificando integridad y reglas de
negocio
◦ Contar con un involucrado del negocio que pueda
tomar decisiones acerca de las reglas
24.
25. Combinar fuentes de datos dispares en una
sola estructura.
◦ Integración de Esquemas: Crear e integrar
esquemas con fuentes de datos disparejas.
◦ Integración de Datos: Limpiar y concatenar datos de
diferentes fuentes de datos
26. Retos
◦ Nombres diferentes
◦ Estructuras diferentes
◦ Tipo de datos diferentes
◦ Campos Faltantes
◦ Semántica diferente
29. Extractor
◦ Crea una vista común para toda las fuentes de
datos.
◦ Realiza el puente en las diferencias de nombre,
tipos y estructuras.
Mediador
◦ Construye e integra esquemas.
◦ Realiza la integración de datos y pasa la
información a la bodega de datos.
30. La Bodega de datos puede fallar sin una
apropiada estrategia de transformación es
desarrollada.
◦ Limpieza de Datos
◦ Integración de Esquemas
31. Propagar cambios en los datos fuente en el
almacén
Problemas:
Cuando refrescar
Cómo actualizar – técnicas incrementales de cargar
32. Periódicamente (por ejemplo, todas las noches,
todas las semanas) o después de eventos
importantes.
En cada actualización: no se justifica a menos que
la bodega de datos requiera datos actuales.
Política de actualización establecidos por el
administrador basadas en las necesidades de los
usuario y el tráfico.
Posiblemente diferentes políticas para diferentes
fuentes
33. Una vez se tienen los datos, es importante determinar si este
contenido es realmente correcto. Se pueden hacer varios
procesos para determinar esto:
Cruce de datos.
Se ejecutan varios Queries contra las fuentes de datos y se
verifica que el resultado de estos Queries sea el mismo que el
datos con los datos seleccionados del proceso ETL.
Validación del Proceso.
Al utilizar la bodega de datos es posible encontrar diferentes
resultados de los que se harían con simples Queries sobre las
fuentes. Esto se da debido a la limpieza y transformación
hechas a los datos en el proceso ETL. Por lo tanto es
importante identificar las causas de las diferencias y
determinar cual resultados es realmente el correcto.
34. Algunas técnicas para limitar la cantidad de
operaciones necesarias para refrescar las bodegas
de datos
Aplicación
Existente
Tiempo de
Cambio (TimeStamp)
Aplicación
Existente
Archivo de Log
Aplicación
Existente
---
---
---
---
---
---
---
---
Codigo de
Aplicacion
Antes Despues
Cambios
desde la
ultima carga
36. Esquema en Estrella
◦ Una sola tabla de hechos, y una tabla de dimensión
por cada dimensión.
◦ Soportado por múltiples RDBMS
37. Tabla de Hechos – Modelo de Estrella
◦ Ejemplo típico: los registros de ventas individuales
◦ Los hechos son valores cuantificables.
◦ Medidas numéricas para analizar.
◦ Las tablas de hechos tienen gran cantidad de
registros en comparación con el número de
columnas.
◦ Acceso a través de las dimensiones.
38. Dimensiones – Modelo de Estrella
◦ Definición de negocio en términos ya familiares para
los usuarios
◦ Las dimensiones son denormalizadas ( jerarquías que
llevan a redundancia)
◦ Tablas pequeñas.
◦ Se unen a la tabla de hechos mediante una clave
externa
◦ Bien indexada
◦ Dimensiones típicas
períodos de tiempo, región geográfica (mercados, ciudades), los
productos, clientes, vendedores, etc
39.
40. Modelo de copo de nieve
◦ Mayor normalización, es decir, los niveles de las
jerarquías se normalizan.
◦ Mayor flexibilidad
◦ Mayor dificultad de mantenimiento
◦ Joins más costosos
◦ Menos registros en las dimensiones.
42. Dimensión de Tiempo
◦ Obligatoria en la mayoría de las bodegas de datos.
◦ Tiene varios significados y técnicas roll-up
dependiente del contesto.
Calendario simple
Calendario Fiscal
Calendario Académico
◦ Se necesita indexar fechas especiales como
eventos, lanzamientos..
43. Llaves Subrogadas
Todas las llaves de las tablas de la bodega de
datos deben ser llaves subrogadas, es decir
no deben significar nada respecto a las
características de su contenido ni a su fuente
en los sistemas fuente. No se deben utilizar
las llaves originales de un sistema fuente del
cual fueron extraídas. Estas llaves subrogadas
se manejan con enteros.
44. Declaración de Granularidad de la tabla de hechos.
Es necesario definir claramente lo que es un registro
de la tabla de hechos en el diseño dimensional
propuesto. La granularidad es la respuesta a la
pregunta. Que es un registro en la tabla de hechos ?
La granularidad se refiere al nivel de detalle existente
en las unidades de los datos de la bodega. Entre mas
detalle halla, menor será el nivel de granularidad.
Entre menos detalle halla, mayor será la granularidad.
Es un factor determinante en el desarrollo de la
bodega de datos, debido a que de ella depende el
volumen de datos que será almacenada en la bodega
y el tipo de queries que pueden ser realizados.
47. Pivotear : Escoger (Rotar el cubo en un
pivote) un grupo de dimensiones a mostrar.
Slicing-Dicing : Seleccionar cierto datos de
el cubo.
Roll-up : Sumar una dimensión en una
dimensión mas pequeña (Roll-up semanas
en meses).
Drill-down : Abrir una dimensión agrega
para relevar detalles (Abrir meses para
relevar información en semanas)
48.
49.
50. Mineria de datos es una tecnología de soporte para usuario final, cuyo
objetivo es extraer conocimiento útil y utilizable a partir de la información
contenida en las bases de datos de las empresas.
Los objetivos de un sistema Mineria de Datos nos permitirían analizar
factores de influencia en determinados procesos, predecir o estimar variables
o comportamientos futuros, sementar o agrupar ítems similares, además de
obtener secuencias de eventos que provocan comportamientos específicos.
Los sistemas Minería de Datos se desarrollan bajo lenguajes de ultima
generación basados en la inteligencia artificial y utilizando métodos
matemáticos, tales como:
• Redes neuronales
• Introducción de reglas
• Arboles de decisión
• Conjunto de reglas por clase
• Soporta también sofisticadas operaciones de análisis tales como los
• sistemas Scoring y aplicaciones de detección de fraude.
51. Calificaciones de crédito / marketing dirigido:
◦ Dada una base de datos de 100.000 nombres, que las
personas son los menos propensos a dejar de pagar sus
tarjetas de crédito?
◦ Identificar las probabilidades de respuesta a las
promociones de ventas
Detección de fraudes
◦ ¿Qué tipo de operaciones es probable que sean
fraudulentas, dada la demografía y el historial de
transacciones de un cliente en particular?
Manejo de Relaciones con Clientes:
◦ ¿Cuál de mis clientes son probablemente los más fieles, y
que tienen más probabilidades de irse a la competencia? :
52. Proceso de semi-automático para analizar grandes bases de
datos en búsqueda de patrones interesantes y útiles.
Coincide en parte con el aprendizaje de máquina,
estadísticas, e inteligencia artificial y bases de datos, pero
◦ más escalable en número de características y casos
◦ más automática para manejar datos heterogéneos
54. Teniendo en cuenta los datos antiguos sobre los clientes y los
pagos, predecir si un nuevo solicitante es Elegible para
préstamo o no
Clientes Anteriores Clasificador
Arboles de
Decision
Salary > 5 L
Prof. = Exec
Edad
Salario
Profesion
Localidad
Tipo de Cliente
55. Árbol donde los nodos internos son simples reglas de decisión
en uno o más atributos y nodos de la hoja se prevé etiquetas
de clase.
Salario < 1 M
Prof = teacher
Bueno
Edad < 30
MaloMalo Bueno