Introducción a las bodegas de datos: qué son y para qué son. Metodologías para el diseño y construcción de una bodega de datos, procesos ETL e integración de tecnologías.
3. Datos (*)Datos (*)
Son colecciones de
símbolos que se tienen
en una computadora.
Cualquier interpretación
de los datos para
fines humanos se llama
información.
(*) Bertrand Meyer – Touch of Class
3
4. DatawarehouseDatawarehouse
“Es un conjunto de datos
integrados y orientados a un
objetivo específico, que varían
con el tiempo (datos históricos)
y que no son transitorios.
Soportan el proceso de toma de
decisiones de la administración y
está orientada al manejo de
grandes volúmenes de datos
provenientes de diversas
fuentes…”
(Imhoff, 2003)
4
5. BI es un conjunto de procesos Tecnológicos que
transforman los datos en conocimiento
Conocimiento
Información
Datos
Datos + contexto
Información +
Know How
5Davenport, T. H., & Prusak, L. (2000)
6. Solución completa de BISolución completa de BI
ETLETL
CalidCalid
ad dead de
datosdatos
Tomador
de decisión
UsuariosUsuarios
InternosInternos
UsuariosUsuarios
ExternosExternos
AplicacionesAplicaciones
Arquitectura de datos
(Integración)
Data MartData Mart
Deptal.Deptal.
RapidRapid
MartsMarts
Acceso
Web
FinanzasFinanzas
I +DI +D
MercadeoMercadeo
VentasVentas
ServiciosServicios
PlaneaciòPlaneaciò
nn
OtrosOtros
OperacionesOperaciones
ConsultasConsultas
Ad hocAd hoc
IndicadoreIndicadore
ss
AnálisisAnálisis
(OLAP)(OLAP)
AnalíticasAnalíticas
por procesopor proceso
Minería deMinería de
DatosDatos
Aplicació
n
analítica
PlanningPlanning
PredictivaPredictiva
ss
ConsultasConsultas
predefinidaspredefinidas
InternasInternas
ERPERP
CRMCRM
OLSOLS
SCMSCM
NegocioNegocio
OtrosOtros
Fuentes de
datos
ExternasExternas
SociosSocios
MercadosMercados
CompetenciaCompetencia
EconomíaEconomía
IndustriaIndustria
OtrosOtros
ERPERP
CRMCRM
OLSOLS
SCMSCM
NegocioNegocio
OtrosOtros
ÁreaÁrea
TempoTempo
ralral
DataData
WarehouWarehou
sese
MetadatosMetadatos
6
7. Modelos Entidad-Relación vsModelos Entidad-Relación vs
Modelos DimensionalesModelos Dimensionales
Los modelos
relacionales se
normalizan buscando
eficiencia en términos
de la operación y el
almacenamiento.
Pueden incluir muchas
tablas.
Eficiencia en
actualización
Los modelos
analíticos se orientan
a COMPRENDER el
negocio.
Eficiencia en
consultas
7
8. Modelo Entidad – RelaciónModelo Entidad – Relación
Materia Cód.
Estudiante
Nombre
Estudiante
Ge
nero
Dirección
Estudiante
Teléfono Nota
Final
Derecho
Laboral
256490 Diana Torres F Calle 12 # 7-20 7601395 4.0
Derecho
Administrativ
o
256490 Diana Torres F Calle 12 # 7-20 7601395 4.3
Derecho
Laboral
256491 Camilo
Fernandez
M Diag 19 # 163-14 2127984 3.7
Derecho Penal 256491 Camilo
Fernandez
M Diag 19 # 163-14 2127984 3.9
8
9. Modelo Entidad – RelaciónModelo Entidad – Relación
(Normalización)(Normalización)
Cód.
Estudiante
Nombre
Estudiante
Genero Dirección
Estudiante
Teléfono
256490 Diana Torres F Calle 12 # 7-20 7601395
256491 Camilo Fernández M Diag 19 # 163-14 2127984
Cód.
Materia
Nombre
Materia
11001 Derecho Laboral
11002 Derecho Administrativo
11003 Derecho Penal
Cód.
Materia
Cód.
Estudiante
Nota
Final
11001 256490 4.0
11002 256490 4.3
11001 256491 3.7
11003 256491 3.9
Estudiantes
Materias
Notas
9
10. Modelo Entidad – RelaciónModelo Entidad – Relación (Ejemplo)(Ejemplo)
Tomado de [8]
10
12. Terminología DimensionalTerminología Dimensional
Tabla de Hechos:
◦ Es la tabla principal en un
datawarehouse.
◦ Almacena las medidas
numéricas de rendimiento
de los procesos
operacionales en relación
con diferentes perspectivas
de análisis.
12
16. DatamartDatamart
Se refiere a una área sujeto
del proceso de negocio
Bodegas de datos específicas
de un departamento o
dependencia de la empresa
Utilizados para almacenar
particularidades de un sector
o para optimizar las consultas
16
18. Enfoques del DatawarehouseEnfoques del Datawarehouse
Data MartData Mart
VentasVentas
Data MartData Mart
FinancieroFinanciero
Data MartData Mart
Servicio alServicio al
ClienteCliente
DataData
WarehouseWarehouseFuente 2Fuente 2Fuente 2Fuente 2
Fuente 1Fuente 1Fuente 1Fuente 1
Fuente 3Fuente 3Fuente 3Fuente 3
Top Down (Inmon)
18
Ventajas Desventajas
• Visión general del negocio
• No replica trabajo
• Unificación de modelos
• Tiempo de implementación
• Difícil distribución de trabajo y
esfuerzo
19. Enfoques del DatawarehouseEnfoques del Datawarehouse
DataData
WarehouseWarehouse
Data MartData Mart
Ventas
Data MartData Mart
Financiero
Data MartData Mart
Servicio al
Cliente
Fuente 2Fuente 2Fuente 2Fuente 2
Fuente 1Fuente 1Fuente 1Fuente 1
Fuente 3Fuente 3Fuente 3Fuente 3
Bottom-Up (Kimball)
19
Ventajas Desventajas
• Rápida implementación
• Fácil distribución de trabajo y esfuerzo
• Implementación por fases y áreas
• Posible replicación de trabajo
20. Metas del DatawarehouseMetas del Datawarehouse
El datawarehouse provee
acceso a los datos
corporativos
Debe servir como la base
para una toma de
decisiones mas informada
(con base en hechos).
Debe ser adaptativo y
resiliente al cambio
20
21. Metas del DatawarehouseMetas del Datawarehouse
Los datos en un
datawarehouse son
consistentes
La comunidad del negocio
debe aceptar al
datawarehouse como la
única verdad, si se piensa
ser exitoso.
21
22. Metas del DatawarehouseMetas del Datawarehouse
Los datos en un
datawarehouse pueden
ser separados y
combinados por cada
posible medida del
negocio (slice and dice)
Debe hacer que la
información sea
fácilmente accesible.
22
23. Metas del DatawarehouseMetas del Datawarehouse
La calidad de los datos
en el datawarehouse es
un conductor de la
reingeniería del negocio
Debe asegurar la
protección de la
información.
23
24. Metas del DatawarehouseMetas del Datawarehouse
El datawarehouse no es
solo datos, es un
conjunto de herramientas
para consultar, analizar y
presentar información.
24
25. Componentes de unComponentes de un
datawarehousedatawarehouse
Servicios:
Limpieza,
Combinación,
Estandarización,
Dimensiones comunes
Datos:
Archivos planos
Tablas relacionales
Procesamiento:
Ordenamiento
Procesamiento
secuencial
Data Mart #1
Dimensional
Nivel de detalle
Agregados
Basado en un solo
proceso de negocio
Data Mart #2
Consultas
“Ad Hoc”
Reporteadores
Aplicaciones
Analíticas
Modelos:
• Predicción
• Minería Datos
Extracción
Extracción
Extracción
Sistemas
Operacionales
Fuente
Area de preparación
de Datos (Staging)
Area de presentación
de Datos
Cargue
Cargue
Acceso
Acceso
Herramientas de
Acceso a los Datos
DW Bus:
Dimensiones
comunes y
Facts
25
26. Sistemas Operacionales FuenteSistemas Operacionales Fuente
Sistemas que capturan
y almacenan las
operaciones del
negocio.
Sus prioridades son
rendimiento y
disponibilidad.
Son sistemas
heterogéneos.
26
27. Área de preparación de datosÁrea de preparación de datos
(Staging)(Staging)
Es a la vez un área de
almacenamiento y un
conjunto de
procedimientos (ETL)
Esta fuera de los
limites de los usuarios
de negocio y no
provee servicios de
consulta ni de
presentación.
27
28. Área de presentación de datosÁrea de presentación de datos
Lugar donde los datos
son organizados,
almacenados y
disponibles para consulta
directa por parte de los
usuarios y otras
aplicaciones.
Constituido por una
serie de Data Marts que
en conjunto constituyen
la bodega de datos.
Usa modelos
dimensionales.
28
29. Herramientas de Acceso a DatosHerramientas de Acceso a Datos
(Visualización)(Visualización)
El término
visualización, se
refiere al conjunto
de herramientas
que se proveen a
los usuarios para
facilitar el proceso
de análisis de
información para la
toma de decisiones.
29
31. Modelo de EstrellaModelo de Estrella
Es muy utilizado.
Orientado a la
comprensión del
negocio
Reduce la
complejidad de
entendimiento y uso
Eficiente para
consultas.
31
32. Modelo de SnowflakeModelo de Snowflake
Las dimensiones han sido
normalizadas.
Las dimensiones en las cuales se
conforman jerarquías se pueden
descomponer en una estructura
de copo de nieve en la cual cada
relación muchos a uno se
manejan en tablas separadas.
La razón que se expone para su
uso es el ahorro de espacio de
almacenamiento.
32
33. Modelo de SnowflakeModelo de Snowflake
Este modelo es una variante del
modelo estrella.
Puede parecer más complejo
para el usuario.
Recomendación: Tenga en
cuenta el impacto de tener el
modelo de “copo de nieve” en
dimensiones grandes. Puede ser
que comprometa rendimiento y
navegabilidad.
33
34. Errores comunes para prevenirErrores comunes para prevenir
Error 10: Permanecer
“enamorado” de la
tecnología y los datos
mas que de los
requerimientos y
metas del negocio
Error 9: No hacer
equipo con un
gerente visionario,
influyente, accesible y
razonable que sea el
patrocinador del
datawarehouse
(Sponsor)
34
35. Errores comunes para prevenirErrores comunes para prevenir
Error 8: Emprender un
proyecto “galáctico” y
“milenario” antes que
perseguir un proyecto
mas manejable que vaya
creciendo por
iteraciones.
Error 7: Asignar
energía para construir
un modelo de datos
normalizado, buscando
ahorrar recursos
físicos en vez de
preferir la facilidad de
uso para el usario final.
35
36. Errores comunes para prevenirErrores comunes para prevenir
Error 6: Poner más
atención en el
rendimiento
operacional y facilidad
de desarrollo del “back-
room” que en el
rendimiento y facilidad
de uso del “front-
room”
Error 5: Los
diseñadores de base
de datos que
prefieren la
complejidad,
posteriormente
gastarán mucho
tiempo dando
soporte a los
usuarios.
36
37. Errores comunes para prevenirErrores comunes para prevenir
Error 4: Crear modelos
dimensionales en forma
aislada sin considerar
una arquitectura de
datos que conectada,
utilizando dimensiones
compartidas.
(No aplicar arquitectura de
bus)
Error 3: Cargar
únicamente datos
sumarizados en el
área de presentación
(Profundidad de análisis)
37
38. Errores comunes para prevenirErrores comunes para prevenir
Error 2: Presumir que
el negocio, sus
requerimientos,
analíticas, datos
subyacentes y la
tecnología que lo
soportan, son estáticos
Error 1: No
reconocer que el
éxito del data
warehouse está
asociado
directamente a la
aceptación de los
usuarios.
38