DATAWAREHOUSE
Almacenes y Minería de Datos 2
Definición
• Datawarehouse (Almacen de datos) se
define como una colección de datos que
ver...
Almacenes y Minería de Datos 3
Explicación de la definición
• Orientado hacia temas: los datos se
almacenan y agrupan por ...
Almacenes y Minería de Datos 4
Explicación de la definición
• Datos integrados: el almacén de datos
integra datos que prov...
Almacenes y Minería de Datos 5
Explicación de la definición
• No volátiles: son estables, una vez
almacenados los datos no...
Almacenes y Minería de Datos 6
Explicación de la definición
• Variante en el tiempo: los datos contienen
información sobre...
Almacenes y Minería de Datos 7
Características
• Podemos resumir las características de
un Datawarehouse:
– Trabaja con da...
Almacenes y Minería de Datos 8
DIFERENCIAS
BD
OPERACIONAL
- Datos
operacionales
- Orientado a
aplicaciones
- Datos Actual...
Almacenes y Minería de Datos 9
GESTOR
CARGA
ARQUITECTURA DW
GESTOR
ALMACENAMIENT
O
GESTOR
CONSULTAS
BD
operacional
Partimo...
Almacenes y Minería de Datos 10
GESTOR DE CARGA
• Permite hacer la carga. Como dificultades
nos podemos encontrar:
– La in...
Almacenes y Minería de Datos 11
GESTOR DE ALMACENAMIENTO
• Se encarga del almacenamiento, de la
estructura,….
Existe una t...
Almacenes y Minería de Datos 12
MODELO STAR
FACT
DIM_1
DIM_2
DIM_TIEMPO
DIM_3
# PK4
# PK1
# PK2
# PK3
# PK1
# PK2
# PK3
# ...
Almacenes y Minería de Datos 13
GESTOR DE CONSULTAS
• Las consultas se hacen sobre la tabla
FACT. También se encarga de lo...
Almacenes y Minería de Datos 14
Ejemplo 1:
CATEGORIAS_PROF
# c_categoria
* descripción
* salario_min
* salario_max
USUARIO...
Almacenes y Minería de Datos 15
Ejemplo 1:
# PK1CATEGORIAS_PR
OF
# c_categoria
* descripción
* salario_min
* salario_max
U...
Almacenes y Minería de Datos 16
REPORTS
• ¿Cuántos usuarios se han apuntado a las
ofertas de empleo del mes de enero?
SELE...
17
Arquitectura de un Almacén de Datos
EJEMPLO
Organización: Cadena de supermercados.
Actividad objeto de análisis: ventas...
18
Arquitectura de un Almacén de Datos
Ventasimporte
unidades
Almacén
Almacén
Ciudad
Región
Tipo
Producto
Departamento
Nro...
19
Arquitectura de un Almacén de Datos
Ventasimporte
unidades
Departamento
Nro_producto
Categoría
Marca
Tipo
Día
Mes
Seman...
20
Arquitectura de un Almacén de Datos
Modelo multidimensional:
 en un esquema multidimensional se representa una activid...
21
Arquitectura de un Almacén de Datos
Ventas
importe
unidades
Almacén
Almacén
Ciudad
Región
Tipo
Producto
Departamento
Nr...
22
Arquitectura de un Almacén de Datos
Entre los atributos de una dimensión se definen jerarquías
departamento
almacén
ciu...
23
Arquitectura de un Almacén de Datos
Este esquema multidimensional recibe varios nombres:
• estrella: si la jerarquía de...
24
Herramientas OLAP
una consulta a un almacén de datos consiste generalmente
en la obtención de medidas sobre los hechos ...
25
Herramientas OLAP
“2002”
“Bebidas”
Producto
Tiempo
Almacén
Ventas
importe
unidades
Departamento
Nro_producto
Categoría
...
26
Diseño de un Almacén de Datos
id_dim1
id_dim2
id_dim3
...
id_dim n
....
(hechos)
Dim3
Dim2
Dim1
tabla de
hechos
tabla
D...
27
Diseño de un Almacén de Datos
producto
día
almacén
ventas
tiempo
almacén
producto
id_producto
id_fecha
id_almacén
........
28
Diseño de un Almacén de Datos
id_establec
nro_establec
nombre
dirección
distrito
ciudad
país
tlfno
fax
superficie
tipo_...
29
Diseño de un Almacén de Datos
id_fecha
id_producto
id_establec
...
...
...
Ventas
id_establec
nro_establec
nombre
direc...
30
Líneas de Investigación Abiertas
 Diseño de Almacenes de Datos: modelos conceptuales,
metodogías de diseño.
 Carga y ...
Próxima SlideShare
Cargando en…5
×

Datawarehouse práctica 6

352 visualizaciones

Publicado el

Data

Publicado en: Tecnología
0 comentarios
1 recomendación
Estadísticas
Notas
  • Sé el primero en comentar

Sin descargas
Visualizaciones
Visualizaciones totales
352
En SlideShare
0
De insertados
0
Número de insertados
4
Acciones
Compartido
0
Descargas
15
Comentarios
0
Recomendaciones
1
Insertados 0
No insertados

No hay notas en la diapositiva.

Datawarehouse práctica 6

  1. 1. DATAWAREHOUSE
  2. 2. Almacenes y Minería de Datos 2 Definición • Datawarehouse (Almacen de datos) se define como una colección de datos que verifican las siguientes propiedades: – Está orientado (a un tema) a objetos – Datos integrados – No volátiles – Variante en el tiempo que surgieron como una herramienta de soporte para la toma de decisiones a nivel gerencial
  3. 3. Almacenes y Minería de Datos 3 Explicación de la definición • Orientado hacia temas: los datos se almacenan y agrupan por temas de interés.
  4. 4. Almacenes y Minería de Datos 4 Explicación de la definición • Datos integrados: el almacén de datos integra datos que provienen de varias fuentes. Partimos de una base de datos (operacional) y mediante un proceso de carga de datos hacemos el Datawarehouse. El proceso de carga es lo más complicado por problemas de codificación, medidas de los atributos… de las bases de datos. BD BD BD DW CARGA
  5. 5. Almacenes y Minería de Datos 5 Explicación de la definición • No volátiles: son estables, una vez almacenados los datos no se modifican. BD DWD W SELECT INSERT UPDATE DELETE REPORT S SELECT CARGA
  6. 6. Almacenes y Minería de Datos 6 Explicación de la definición • Variante en el tiempo: los datos contienen información sobre la fecha de los mismos, porque se hacen cargas de datos continuamente. Cuando los datos van cambiando, se actualizan los históricos y se guardan en ficheros temporales. Siempre va haber una variable tiempo. TIEMPO # id_tiempo * periodo
  7. 7. Almacenes y Minería de Datos 7 Características • Podemos resumir las características de un Datawarehouse: – Trabaja con datos de negocio – Orientado a un sujeto – Almacena datos actuales orientado a un histórico (actual + histórico) – Datos más bien resumidos (no información detallada)
  8. 8. Almacenes y Minería de Datos 8 DIFERENCIAS BD OPERACIONAL - Datos operacionales - Orientado a aplicaciones - Datos Actuales - Datos Detallados - Datos en continuo cambio DATAWAREHOUS E - Datos de negocio - Orientado al sujeto - Actuales + Histórico - Datos Resumidos - Datos Estables
  9. 9. Almacenes y Minería de Datos 9 GESTOR CARGA ARQUITECTURA DW GESTOR ALMACENAMIENT O GESTOR CONSULTAS BD operacional Partimos de una BD operacional y se basa en 3 módulos
  10. 10. Almacenes y Minería de Datos 10 GESTOR DE CARGA • Permite hacer la carga. Como dificultades nos podemos encontrar: – La integración de los datos – Elección del momento de la carga – El tiempo de carga sea el mínimo posible – Buen diccionario de datos o METADATA (para evitar cometer errores en la carga) – Diseño de procedimientos PL/SQL
  11. 11. Almacenes y Minería de Datos 11 GESTOR DE ALMACENAMIENTO • Se encarga del almacenamiento, de la estructura,…. Existe una tabla llamada FACT (Hecho) y unas tablas llamadas dimensiones o tablas dimensionales. Entre la tabla FACT y las tablas dimensionales suele haber relaciones 1:N Este modelo tiene forma de estrella por eso se denomina MODELO STAR
  12. 12. Almacenes y Minería de Datos 12 MODELO STAR FACT DIM_1 DIM_2 DIM_TIEMPO DIM_3 # PK4 # PK1 # PK2 # PK3 # PK1 # PK2 # PK3 # PK4 *campoA *campoB
  13. 13. Almacenes y Minería de Datos 13 GESTOR DE CONSULTAS • Las consultas se hacen sobre la tabla FACT. También se encarga de los perfiles, pues las consultas (reports) serán diferentes dependiendo del usuario y sus necesidades.
  14. 14. Almacenes y Minería de Datos 14 Ejemplo 1: CATEGORIAS_PROF # c_categoria * descripción * salario_min * salario_max USUARIOS # c_usuario * nombre * apellido1 * apellido2 * c_categoria * direccion USU_OFERTAS # c_categoria # c_oferta * salario_deseado OFERTAS # c_oferta * descripción * salario_min * salario_max * fx_alta 1 n 11 nn
  15. 15. Almacenes y Minería de Datos 15 Ejemplo 1: # PK1CATEGORIAS_PR OF # c_categoria * descripción * salario_min * salario_max USUARIOS # c_usuario * nombre * apellido1 * apellido2 * c_categoria * direccion OFERTAS # c_oferta * descripción * salario_min * salario_max * fx_alta TIEMPO # c_tiempo * descripcion USU_OFERTAS # c_usuario # c_categoria # c_oferta * salario_deseado
  16. 16. Almacenes y Minería de Datos 16 REPORTS • ¿Cuántos usuarios se han apuntado a las ofertas de empleo del mes de enero? SELECT count(*) FROM USUARIOS_OFERTAS U, OFERTAS O WHERE U.c_oferta=o.c_oferta AND O.fx_alta BETWEEN (’01/01/07’,`31/01/07´)
  17. 17. 17 Arquitectura de un Almacén de Datos EJEMPLO Organización: Cadena de supermercados. Actividad objeto de análisis: ventas de productos. Información registrada sobre una venta: “del producto “Tauritón 33cl” se han vendido en el almacén “Almacén nro.1” el día 17/7/2003, 5 unidades por un importe de 103,19 dolares.” Para hacer el análisis no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena.
  18. 18. 18 Arquitectura de un Almacén de Datos Ventasimporte unidades Almacén Almacén Ciudad Región Tipo Producto Departamento Nro_producto Categoría Marca Tipo Descripción Tiempo Día Mes Semana Año Trimestre
  19. 19. 19 Arquitectura de un Almacén de Datos Ventasimporte unidades Departamento Nro_producto Categoría Marca Tipo Día Mes Semana Almacén Ciudad Región Tipo Año Descripción Actividad que es objeto de análisis con los indicadores que interesa analizar Dimensiones (puntos de vista) desde los que se puede analizar la actividad. Producto TiempoAlmacén Trimestre
  20. 20. 20 Arquitectura de un Almacén de Datos Modelo multidimensional:  en un esquema multidimensional se representa una actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones). la información relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho). la información descriptiva de cada dimensión se representa por un conjunto de atributos (atributos de dimensión).
  21. 21. 21 Arquitectura de un Almacén de Datos Ventas importe unidades Almacén Almacén Ciudad Región Tipo Producto Departamento Nro_producto Categoría Marca Tipo Descripción hecho medidas dimensión atributos Tiempo Día Mes Semana Año Trimestre
  22. 22. 22 Arquitectura de un Almacén de Datos Entre los atributos de una dimensión se definen jerarquías departamento almacén ciudad región tipo día mes año Producto Almacén Tiempo nro. producto categoría trimestre semana
  23. 23. 23 Arquitectura de un Almacén de Datos Este esquema multidimensional recibe varios nombres: • estrella: si la jerarquía de dimensiones es lineal • estrella jerárquica o copo de nieve: si la jerarquía no es lineal. PERSONAL VENTAS tiempo tiempo producto lugar proyecto equipo
  24. 24. 24 Herramientas OLAP una consulta a un almacén de datos consiste generalmente en la obtención de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones ¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre y por categoría” ?. Restricciones: productos del departamento Bebidas, ventas durante este año medida hecho Parámetros de la consulta: por categoría de producto y por trimestre
  25. 25. 25 Herramientas OLAP “2002” “Bebidas” Producto Tiempo Almacén Ventas importe unidades Departamento Nro_producto Categoría Marca Tipo Día Mes Día de la semana Almacén Ciudad Región Tipo Año “Importe total de ventas en este año, del departamento de “Bebidas”, por categoría y trimestre” Trimestre
  26. 26. 26 Diseño de un Almacén de Datos id_dim1 id_dim2 id_dim3 ... id_dim n .... (hechos) Dim3 Dim2 Dim1 tabla de hechos tabla Dimensión 3 tabla Dimensión 1 tabla Dimensión 2 tabla Dimensión nDimn
  27. 27. 27 Diseño de un Almacén de Datos producto día almacén ventas tiempo almacén producto id_producto id_fecha id_almacén ..... ..... ...... tabla de hechos la clave primaria* está formada por los identificadores de las dimensiones básicas. datos (medidas) sobre las ventas diarias de un producto en un almacén. * pueden existir excepciones a esta regla general
  28. 28. 28 Diseño de un Almacén de Datos id_establec nro_establec nombre dirección distrito ciudad país tlfno fax superficie tipo_almacén ... Establecimiento id_fecha día semana mes año día_semana día_mes trimestre festivo .... Tiempo id_producto nro_producto descripción marca subcategoría categoría departamento peso unidades_peso tipo_envase dietético ... Producto
  29. 29. 29 Diseño de un Almacén de Datos id_fecha id_producto id_establec ... ... ... Ventas id_establec nro_establec nombre dirección distrito ciudad país tlfno fax superficie tipo_almacén ... id_producto nro_producto descripción marca subcategoría categoría departamento peso unidades_peso tipo_envase dietético ... Establecimiento Producto id_fecha día semana mes año día_semana día_mes trimestre festivo .... Tiempo
  30. 30. 30 Líneas de Investigación Abiertas  Diseño de Almacenes de Datos: modelos conceptuales, metodogías de diseño.  Carga y ETL: recuperación de fallos durante la carga. Planificación de cargas y refrescos.  Limpieza y Transformación  Mantenimiento de Almacenes de Datos: mantenimiento de vistas materializadas.  Implementación de Almacenes de Datos.  Diseño Físico, optimizaciones para ROLAP, estructuras para MOLAP.  Repartición de tareas OLAP entre el cliente y el servidor.

×