SlideShare una empresa de Scribd logo
1 de 35
Descargar para leer sin conexión
Marta Millan
millan@eisc.univalle.edu.co
www.eisc.univalle.edu.co/materias
Ejemplo
Hechos
Los hechos son transacciones que han ocurrido en
algún punto en el pasado, y que es muy poco
probable que cambien en el futuro
Los hechos se pueden analizar de diferentes
formas dependiendo de la información de
referencia
Los hechos suelen tener pocos atributos, puesto
que no tiene datos operacionales
Dimensiones
Sirven para representar cada uno de los factores por los
que se puede analizar un determinado área de negocio
Son tablas siempre más pequeñas
A menudo se desnormalizan
día mes
clave_día
clave_mesclave_mes
mes
día
clave_día
clave_mes
mes
Hechos y dimensiones
Ventas
July 2001
M T W T F S S
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31
Pc
Portátil
Ratón
FaxTeléfono
Sucursales
Productos
Clientes
Fecha
Diagramas en estrella
Producto Cliente
Fecha Sucursal
Ventas Tabla de
hechos
Tablas de dimensión
Datos multidimensionales
Ventas totales de
television en T1.
Fecha
Producto
Tienda
suma
suma
TV
VCR
PC
1Qtr 2Qtr 3Qtr 4Qtr
T1
T2
T3
suma
Diseño STAR: pasos a seguir
De diagrama E/R surgen múltiples diagramas
en estrella
Separar en procesos discretos de negocio
(hechos) y modelar cada hecho
Seleccionar relaciones n:m con atributos
numéricos
Desnormalizar las tablas de dimensión
Diseño STAR: pasos a seguir
A BR
C
S
D
T E
R
A B
C Fecha
Diagrama E/R Diagrama en
estrella
Diseño de la tabla de hechos
Decidir la granularidad de la tabla de hechos
Establece lo que significa cada registro de la
tabla de hechos
Decidir las dimensiones
Decidir los hechos de la tabla de hechos
Deben ser específicos para la granularidad
seleccionada para la tabla de hechos
Diseño de la tabla de hechos
Identificar el periodo histórico significativo para los
distintos procesos y el grado de detalle requerido
Eliminar todas las columnas del hecho que no sean
requeridas para responder a preguntas de toma de
decisiones
Ajustar el tamaño de cada columna
Usar claves generadas
Claves primarias y extranjeras
Todas las claves que se utilicen en tablas del Data
Warehouse deben ser claves sin significado
Nunca se deben usar claves de producción
Facilitar los cambios
Situaciones “no lo se”, “desconocido”
Dimensiones que cambian en el tiempo
Aditividad
Siempre que sea posible, los hechos de la tabla de
hechos deberían elegirse para que sean
perfectamente aditivos (se pueden sumar por
cualquier dimensión)
Las medidas de actividad son generalmente
aditivas
Las medidas de intensidad no siempre lo son
(niveles de inventario, balance de cuentas...)
Análisis de aditividad
Cod_Fecha
Cod_Sucursal
Cod_Producto
Cod_Cliente
Unidades
Fecha
Cliente
Ventas
producto
Sucursal
Cantidad
aditiva
Fecha
producto
Almacén
Cod_Fecha
Cod_Almacén
Cod_Producto
Stock
Almacenes
Cantidad
NO aditiva
Diseño de las dimensiones
Son tablas más pequeñas
Desnormalizar si se acceden muy a menudo en las
consultas para acelerar el desempeño (Esquemas
estrella)
Establecer la política para dimensiones cambiantes
Actualizar los cambios
Atributos valor antiguo – valor nuevo
Generar un nuevo código para el nuevo valor
Normalización de dimensiones
Se dice que una dimensión está “snowflaked”
cuando los atributos de baja cardinalidad se llevan
a tablas separadas
Generalmente no se recomienda
A veces se usa para ahorrar espacio de
almacenamiento
No permite hacer uso de los índices de bitmap
Sin embargo existen situaciones (datos
demográficos) en las que son aconsejables
Diseñar las tablas dimensión
Producto
Clave_producto
SKU
Descripcion
Clave_marca_comercial
Clave_marca_financiera
Clave_tipo_embalaje
Tamaño
Clave_sabor
Altura
Cantidad_por_caja
Marketing
Clave_marca_comercial
Marca_comercial
Clave_categoria_comercial
Finanzas
Clave_marca_financiera
Marca_financiera
Clave_categoria_financiera
Embalajes
Clave_tipo_embalaje
Tipo_embalaje
Sabores
Clave_sabor
Sabor
Categorias comerciales
Clave_categoria_comercial
Categoria_comercial
Categorias financieras
Clave_categoria_financiera
Categoria_financiera
Diseñar las tablas dimensión
Producto
Clave_producto
SKU
Descripción
Clave_marca_comercial
Clave_marca_financiera
Clave_tipo_embalaje
Tamaño
Clave_sabor
Altura
Cantidad_por_caja
Categoria_comercial
Categoria_financiera
Marca_financiera
Marca_comercial
Tipo_embalaje
Sabor
Tabla de hechos
Clave_producto
Diseñar las tablas dimensión
Cliente
Clave cliente (PK)
ID_cliente
Nombre
Dirección
Ciudad
Departamento
Fecha primera compra
Score de compra
Score de crédito
Subdimensión demográfica
Departamento
Número de segmento
Nombre del segmeto
Contador del segmento
Porcentaje del segmento
Ranking del segmento
Ventas
Clave_cliente
Clave_producto
Un esquema en estrella
Ventas
Cod_Fecha
Clave_Cliente
Clave_Sucursal
Clave_Producto
unidades
precio_unidad
ticket
Fechas
Código
Sysdate
Día
Mes
día_semana
___
Sucursal
Clave
Dirección
Segmento
Descripción
Producto
Clave_producto
SKU
Descripción
Clave_marca_comercial
Clave_marca_financiera
Clave_tipo_embalaje
Tamaño
Clave_sabor
Altura
Cantidad_por_caja
Categoria_comercial
Categoria_financiera
Marca_financiera
Marca_comercial
Tipo_embalaje
Sabor
Cliente
Clave cliente (PK)
ID_cliente
Nombre
Dirección
Ciudad
Departamento
Fecha primera compra
Score de compra
Score de crédito
Subdimensión demográfica
Departamento
Número de segmento
Nombre del segmento
Contador del segmento
Porcentaje del segmento
Ranking del segmento
La importancia de los atributos
La calidad del Data Warehouse se mide por la
calidad de los atributos
Descriptivos
Completos (sin valores nulos)
Indexados
Palabras enteras
Documentados (metadatos)
Calidad asegurada
Tabla de fechas
Fecha
Codigo
Día
Día semana (numero)
Dia semana (nombre)
Festivo
Mes (numero)
Mes (nombre)
Fin de semana
Dia antes fin de semana
....
Sucesos climaticos
Codigo_Fecha
Codigo de suceso
Nombre de suceso
Fiestas nacionales
Codigo_Fecha
Codigo de fiesta
Nombre fiesta
Fiestas locales
Codigo_Fecha
Codigo de fiesta
Nombre fiesta
Sucesos politicos
Codigo_Fecha
Codigo de suceso
Nombre de suceso
Dimensión “degenerada”
La mayoría de los diseños multidimensionales están
alrededor de un documento de control: número de
pedido, factura, ticket, ...
Generalmente son contenedores de más de un
producto
Generalmente en estos casos la granularidad de la
tabla la marca este número
¿Qué se hace con los números?
Se ponen en las tablas pero no tienen una dimensión
con la que hacer “join”
Aplicación de dimensiones “degeneradas”
Ventas
Cod_Fecha
Cod_Cliente
Cod_Sucursal
Cod_Producto
unidades
precio_unidad
ticket
Cliente
Codigo
Nombre
Sexo
Cluster
___
Fechas
Codigo
Sysdate
Día
Mes
día_semana
___
Producto
Codigo
Descripción
tipo
sección
Sucursal
Codigo
Dirección
Segmento
Descripcion
Dimensión
degenerada
Dimensión “Cajón desastre”
En ocasiones se tienen atributos textuales y “flags” de
distinta naturaleza que no parecen organizarse de
manera coherente
La solución no parece sencilla
• Dejar los atributos en la tabla de hechos
• Hacer dimensiones separadas para cada atributo
• Quitar directamente estos atributos
La mejor solución es compactarlos todos en lo que se
denomina una “junk dimension”
Aplicación de dimensión “junk"
Gustos
Codigo
Niños
Ascensor
Almohada
Tipo_cama
___
Cliente
Codigo
Nombre
Fecha_nacimiento
Sexo
Tipo
___
Fecha
Codigo
Día
Día semana
Festivo
Mes
___
Sucesos
Codigo_Fecha
Suceso Politico
___
Reservas
Cod_Cliente
Cod_Habitacion
Cod_Fecha
Reserva
Gustos
días
coste
descuento
Habitacion
Codigo
Planta
Sección
Tamaño
Cajón desastre
Tablas de hechos sin hechos
Hay situaciones en las que se tiene en el
diseño final una tabla de hechos sin hechos
Son situaciones en las que interesa el
suceso en sí
Afluencia de público
Coberturas
Tablas de hechos sin hechos
Productos en promocion
Cod_Fecha
Cod_promocion
Cod_producto
"1"
Producto
Codigo
Nombre
Tipo
___
Fecha
Codigo
Día
Día semana
Festivo
Mes
___
Promocion
Codigo
Tipo
Dias
Descripcion
Ejercicio a resolver
Supónga un hospital en el se ha decidido construir
un Data Warehouse para analizar
Ocupación
Tratamientos
Diagnósticos
Pasos a seguir
Estudiar el problema
Determinar los hechos fundamentales a estudiar
Para cada hecho
Analizar la granularidad del hecho
Decidir las dimensiones
Diseñar las dimensiones
Ocupación de camas
July 2001
S M T W T F S
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Ocupación
Pacientes
Camas
Fecha
Tratamientos
Tratamientos
July 2001
S M T W T F S
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Pacientes
Médicos
Fecha
Tratamientos
Diagnósticos
July 2001
S M T W T F S
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Pacientes
Doctores
Fecha
Diagnósticos
Diagnósticos
Tabla de ocupaciones
Ocupación
Cod_Fecha
Cod_cama
Cod_paciente
"1"
Paciente
Código
Nombre
Fecha_nacimiento
Sexo
Identificación
___
Fecha
Código
Día
Día semana
Festivo
Mes
___
Cama
Código
Planta
Sección
Especialidad
Sucesos
Código_Fecha
Epidemia
___
Datos médicod
Tabla de diagnósticos
Paciente
Código
Nombre
Fecha_nacimiento
Sexo
Fe
___
Médico
Código
Licencia
Nombre
Fecha_nacimiento
Especialidad
___
Diagnóstico
Código
Nombre
Especialidad
Tipo
Diagnósticos_realizados
Cod_Medico
Cod_Paciente
Cod_Diagnóstico
Cod_Fecha
Cod_Ingreso
Costo
Fecha
Código
Día
Día semana
Festivo
Mes
___
Sucesos
Código_Fecha
Epidemia
___
Sexo
Fecha de Grado...
Tabla de tratamientos
Tratamiento
Código
Nombre
Presentación
Laboratorio
Posología
Flags_efectos_secundarios
Código
Exito
Problemas gástricos
Insomnio
Alergia
___
Médico
Código
Licencia
Nombre
Fecha_nacimiento
Especialidad
___
Fecha
Código
Día
Día semana
Festivo
Mes
___
Sucesos
Código_Fecha
Epidemia
___
Tratamientos_realizados
Cod_Medico
Cod_Paciente
Cod_Fecha
Cod_Tratamiento
NIngreso
Costo
Número de días
Dosis diarias
Cod_Junk
Paciente
Código
Nombre
Fecha_nacimiento
Sexo
Fe
___

Más contenido relacionado

La actualidad más candente

Data Democratization for Faster Decision-making and Business Agility (ASEAN)
Data Democratization for Faster Decision-making and Business Agility (ASEAN)Data Democratization for Faster Decision-making and Business Agility (ASEAN)
Data Democratization for Faster Decision-making and Business Agility (ASEAN)Denodo
 
Data Quality Best Practices
Data Quality Best PracticesData Quality Best Practices
Data Quality Best PracticesDATAVERSITY
 
White Paper - Data Warehouse Project Management
White Paper - Data Warehouse Project ManagementWhite Paper - Data Warehouse Project Management
White Paper - Data Warehouse Project ManagementDavid Walker
 
Enterprise Data Management
Enterprise Data ManagementEnterprise Data Management
Enterprise Data ManagementBhavendra Chavan
 
Data Warehouse Back to Basics: Dimensional Modeling
Data Warehouse Back to Basics: Dimensional ModelingData Warehouse Back to Basics: Dimensional Modeling
Data Warehouse Back to Basics: Dimensional ModelingDunn Solutions Group
 
Data Scientist Salary, Skills, Jobs And Resume | Data Scientist Career | Data...
Data Scientist Salary, Skills, Jobs And Resume | Data Scientist Career | Data...Data Scientist Salary, Skills, Jobs And Resume | Data Scientist Career | Data...
Data Scientist Salary, Skills, Jobs And Resume | Data Scientist Career | Data...Simplilearn
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouseEduardo Castro
 
data warehouse , data mart, etl
data warehouse , data mart, etldata warehouse , data mart, etl
data warehouse , data mart, etlAashish Rathod
 
Gathering Business Requirements for Data Warehouses
Gathering Business Requirements for Data WarehousesGathering Business Requirements for Data Warehouses
Gathering Business Requirements for Data WarehousesDavid Walker
 
Informatica Data Quality Training
Informatica Data Quality TrainingInformatica Data Quality Training
Informatica Data Quality Trainingtekslate1
 
A Comparative Study of Data Management Maturity Models
A Comparative Study of Data Management Maturity ModelsA Comparative Study of Data Management Maturity Models
A Comparative Study of Data Management Maturity ModelsData Crossroads
 
1.4 data warehouse
1.4 data warehouse1.4 data warehouse
1.4 data warehouseKrish_ver2
 
Unidad 5. inteligencia de negocios
Unidad 5. inteligencia de negociosUnidad 5. inteligencia de negocios
Unidad 5. inteligencia de negociosLupita Eguia
 
The Business Glossary, Data Dictionary, Data Catalog Trifecta
The Business Glossary, Data Dictionary, Data Catalog TrifectaThe Business Glossary, Data Dictionary, Data Catalog Trifecta
The Business Glossary, Data Dictionary, Data Catalog Trifectageorgefirican
 
RWDG Slides: Governing Your Data Catalog, Business Glossary, and Data Dictionary
RWDG Slides: Governing Your Data Catalog, Business Glossary, and Data DictionaryRWDG Slides: Governing Your Data Catalog, Business Glossary, and Data Dictionary
RWDG Slides: Governing Your Data Catalog, Business Glossary, and Data DictionaryDATAVERSITY
 

La actualidad más candente (20)

Data Democratization for Faster Decision-making and Business Agility (ASEAN)
Data Democratization for Faster Decision-making and Business Agility (ASEAN)Data Democratization for Faster Decision-making and Business Agility (ASEAN)
Data Democratization for Faster Decision-making and Business Agility (ASEAN)
 
Data Quality Best Practices
Data Quality Best PracticesData Quality Best Practices
Data Quality Best Practices
 
White Paper - Data Warehouse Project Management
White Paper - Data Warehouse Project ManagementWhite Paper - Data Warehouse Project Management
White Paper - Data Warehouse Project Management
 
Enterprise Data Management
Enterprise Data ManagementEnterprise Data Management
Enterprise Data Management
 
Data Warehouse Back to Basics: Dimensional Modeling
Data Warehouse Back to Basics: Dimensional ModelingData Warehouse Back to Basics: Dimensional Modeling
Data Warehouse Back to Basics: Dimensional Modeling
 
Data Scientist Salary, Skills, Jobs And Resume | Data Scientist Career | Data...
Data Scientist Salary, Skills, Jobs And Resume | Data Scientist Career | Data...Data Scientist Salary, Skills, Jobs And Resume | Data Scientist Career | Data...
Data Scientist Salary, Skills, Jobs And Resume | Data Scientist Career | Data...
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
data warehouse , data mart, etl
data warehouse , data mart, etldata warehouse , data mart, etl
data warehouse , data mart, etl
 
Gathering Business Requirements for Data Warehouses
Gathering Business Requirements for Data WarehousesGathering Business Requirements for Data Warehouses
Gathering Business Requirements for Data Warehouses
 
Informatica Data Quality Training
Informatica Data Quality TrainingInformatica Data Quality Training
Informatica Data Quality Training
 
A Comparative Study of Data Management Maturity Models
A Comparative Study of Data Management Maturity ModelsA Comparative Study of Data Management Maturity Models
A Comparative Study of Data Management Maturity Models
 
1.4 data warehouse
1.4 data warehouse1.4 data warehouse
1.4 data warehouse
 
Data Warehousing
Data WarehousingData Warehousing
Data Warehousing
 
Data Warehouse 101
Data Warehouse 101Data Warehouse 101
Data Warehouse 101
 
Diapositivas De Tablas y Base Datos
Diapositivas De Tablas y Base DatosDiapositivas De Tablas y Base Datos
Diapositivas De Tablas y Base Datos
 
Unidad 5. inteligencia de negocios
Unidad 5. inteligencia de negociosUnidad 5. inteligencia de negocios
Unidad 5. inteligencia de negocios
 
Data warehousing
Data warehousingData warehousing
Data warehousing
 
Fact table facts
Fact table factsFact table facts
Fact table facts
 
The Business Glossary, Data Dictionary, Data Catalog Trifecta
The Business Glossary, Data Dictionary, Data Catalog TrifectaThe Business Glossary, Data Dictionary, Data Catalog Trifecta
The Business Glossary, Data Dictionary, Data Catalog Trifecta
 
RWDG Slides: Governing Your Data Catalog, Business Glossary, and Data Dictionary
RWDG Slides: Governing Your Data Catalog, Business Glossary, and Data DictionaryRWDG Slides: Governing Your Data Catalog, Business Glossary, and Data Dictionary
RWDG Slides: Governing Your Data Catalog, Business Glossary, and Data Dictionary
 

Similar a Datawarehouse

2 Desa Sincrono 2 Caso Modelamiento.doc
2 Desa Sincrono 2 Caso Modelamiento.doc2 Desa Sincrono 2 Caso Modelamiento.doc
2 Desa Sincrono 2 Caso Modelamiento.docaldair441257
 
Bussines Intelligence
Bussines IntelligenceBussines Intelligence
Bussines Intelligencebrobelo
 
10Guia2
10Guia210Guia2
10Guia2Wilson
 
Entender-la-disminucion-de-visitas-a-tiendas-fisicas.pdf
Entender-la-disminucion-de-visitas-a-tiendas-fisicas.pdfEntender-la-disminucion-de-visitas-a-tiendas-fisicas.pdf
Entender-la-disminucion-de-visitas-a-tiendas-fisicas.pdfEdgar Joel Leon Rosales
 
Actividad 1 modelo entidad relación- entregable
Actividad 1  modelo entidad relación- entregableActividad 1  modelo entidad relación- entregable
Actividad 1 modelo entidad relación- entregablejohnjanner
 
Mirol Información Gerencial
Mirol Información GerencialMirol Información Gerencial
Mirol Información GerencialMirol SyS
 
Introduccion a las Bodegas de Datos
Introduccion a las Bodegas de DatosIntroduccion a las Bodegas de Datos
Introduccion a las Bodegas de DatosJoseph Lopez
 
Modelamiento del Data Warehouse (caso práctico)
Modelamiento del Data Warehouse (caso práctico)Modelamiento del Data Warehouse (caso práctico)
Modelamiento del Data Warehouse (caso práctico)LPI ONG
 
Diseño eficiente de un cubo para resolver problemas en las áreas de negocio
Diseño eficiente de un cubo para resolver problemas en las áreas de negocioDiseño eficiente de un cubo para resolver problemas en las áreas de negocio
Diseño eficiente de un cubo para resolver problemas en las áreas de negocioSebastian Rodriguez Robotham
 
Comercio electrónico el mercado
Comercio electrónico   el mercadoComercio electrónico   el mercado
Comercio electrónico el mercadoDuoc UC
 
Mercadotecnia detallista (tiendas de autoservicio)
Mercadotecnia detallista (tiendas de autoservicio)Mercadotecnia detallista (tiendas de autoservicio)
Mercadotecnia detallista (tiendas de autoservicio)Enrico García Martínez
 
Multidimensional manager
Multidimensional managerMultidimensional manager
Multidimensional managertroppoumano
 
Etl datamart multitienda
Etl datamart multitiendaEtl datamart multitienda
Etl datamart multitiendaGallinaSb
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentaciónedmaga
 
Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3Climanfef
 
Análisis Efectivo de los Costos de Manufactura
Análisis Efectivo de los Costos de ManufacturaAnálisis Efectivo de los Costos de Manufactura
Análisis Efectivo de los Costos de ManufacturaSeidor México
 

Similar a Datawarehouse (20)

2 Desa Sincrono 2 Caso Modelamiento.doc
2 Desa Sincrono 2 Caso Modelamiento.doc2 Desa Sincrono 2 Caso Modelamiento.doc
2 Desa Sincrono 2 Caso Modelamiento.doc
 
Presentación.pdf
Presentación.pdfPresentación.pdf
Presentación.pdf
 
Diseño Dimensional
Diseño DimensionalDiseño Dimensional
Diseño Dimensional
 
Bussines Intelligence
Bussines IntelligenceBussines Intelligence
Bussines Intelligence
 
10Guia2
10Guia210Guia2
10Guia2
 
Entender-la-disminucion-de-visitas-a-tiendas-fisicas.pdf
Entender-la-disminucion-de-visitas-a-tiendas-fisicas.pdfEntender-la-disminucion-de-visitas-a-tiendas-fisicas.pdf
Entender-la-disminucion-de-visitas-a-tiendas-fisicas.pdf
 
Actividad 1 modelo entidad relación- entregable
Actividad 1  modelo entidad relación- entregableActividad 1  modelo entidad relación- entregable
Actividad 1 modelo entidad relación- entregable
 
Mirol Información Gerencial
Mirol Información GerencialMirol Información Gerencial
Mirol Información Gerencial
 
Introduccion a las Bodegas de Datos
Introduccion a las Bodegas de DatosIntroduccion a las Bodegas de Datos
Introduccion a las Bodegas de Datos
 
Modelamiento del Data Warehouse (caso práctico)
Modelamiento del Data Warehouse (caso práctico)Modelamiento del Data Warehouse (caso práctico)
Modelamiento del Data Warehouse (caso práctico)
 
Diseño eficiente de un cubo para resolver problemas en las áreas de negocio
Diseño eficiente de un cubo para resolver problemas en las áreas de negocioDiseño eficiente de un cubo para resolver problemas en las áreas de negocio
Diseño eficiente de un cubo para resolver problemas en las áreas de negocio
 
Coffe Place.docx
Coffe Place.docxCoffe Place.docx
Coffe Place.docx
 
Comercio electrónico el mercado
Comercio electrónico   el mercadoComercio electrónico   el mercado
Comercio electrónico el mercado
 
Mercadotecnia detallista (tiendas de autoservicio)
Mercadotecnia detallista (tiendas de autoservicio)Mercadotecnia detallista (tiendas de autoservicio)
Mercadotecnia detallista (tiendas de autoservicio)
 
Multidimensional manager
Multidimensional managerMultidimensional manager
Multidimensional manager
 
Inteligencia de Negocios – Data Warehouse
Inteligencia de Negocios – Data WarehouseInteligencia de Negocios – Data Warehouse
Inteligencia de Negocios – Data Warehouse
 
Etl datamart multitienda
Etl datamart multitiendaEtl datamart multitienda
Etl datamart multitienda
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3
 
Análisis Efectivo de los Costos de Manufactura
Análisis Efectivo de los Costos de ManufacturaAnálisis Efectivo de los Costos de Manufactura
Análisis Efectivo de los Costos de Manufactura
 

Último

SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPJosLuisFrancoCaldern
 
PRESENTACION DE CLASE. Factor de potencia
PRESENTACION DE CLASE. Factor de potenciaPRESENTACION DE CLASE. Factor de potencia
PRESENTACION DE CLASE. Factor de potenciazacariasd49
 
Cadenas de Markov investigación de operaciones
Cadenas de Markov investigación de operacionesCadenas de Markov investigación de operaciones
Cadenas de Markov investigación de operacionesal21510263
 
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...Francisco Javier Mora Serrano
 
Topografía 1 Nivelación y Carretera en la Ingenierías
Topografía 1 Nivelación y Carretera en la IngenieríasTopografía 1 Nivelación y Carretera en la Ingenierías
Topografía 1 Nivelación y Carretera en la IngenieríasSegundo Silva Maguiña
 
Propositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicacionesPropositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicaciones025ca20
 
Manual de Usuario Estacion total Sokkia SERIE SET10K.pdf
Manual de Usuario Estacion total Sokkia SERIE SET10K.pdfManual de Usuario Estacion total Sokkia SERIE SET10K.pdf
Manual de Usuario Estacion total Sokkia SERIE SET10K.pdfSandXmovex
 
Electromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdfElectromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdfAnonymous0pBRsQXfnx
 
Flujo potencial, conceptos básicos y ejemplos resueltos.
Flujo potencial, conceptos básicos y ejemplos resueltos.Flujo potencial, conceptos básicos y ejemplos resueltos.
Flujo potencial, conceptos básicos y ejemplos resueltos.ALEJANDROLEONGALICIA
 
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdf
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdfPPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdf
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdfZamiertCruzSuyo
 
Historia de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdfHistoria de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdfIsbelRodrguez
 
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdfAnthonyTiclia
 
Flujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxFlujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxEduardoSnchezHernnde5
 
Edificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes GranadaEdificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes GranadaANDECE
 
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdfCAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdfReneBellido1
 
LEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdf
LEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdfLEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdf
LEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdfAdelaHerrera9
 
Linealización de sistemas no lineales.pdf
Linealización de sistemas no lineales.pdfLinealización de sistemas no lineales.pdf
Linealización de sistemas no lineales.pdfrolandolazartep
 
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023ANDECE
 
Conservatorio de danza Kina Jiménez de Almería
Conservatorio de danza Kina Jiménez de AlmeríaConservatorio de danza Kina Jiménez de Almería
Conservatorio de danza Kina Jiménez de AlmeríaANDECE
 
estadisticasII Metodo-de-la-gran-M.pdf
estadisticasII   Metodo-de-la-gran-M.pdfestadisticasII   Metodo-de-la-gran-M.pdf
estadisticasII Metodo-de-la-gran-M.pdfFlorenciopeaortiz
 

Último (20)

SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
 
PRESENTACION DE CLASE. Factor de potencia
PRESENTACION DE CLASE. Factor de potenciaPRESENTACION DE CLASE. Factor de potencia
PRESENTACION DE CLASE. Factor de potencia
 
Cadenas de Markov investigación de operaciones
Cadenas de Markov investigación de operacionesCadenas de Markov investigación de operaciones
Cadenas de Markov investigación de operaciones
 
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...
Hanns Recabarren Diaz (2024), Implementación de una herramienta de realidad v...
 
Topografía 1 Nivelación y Carretera en la Ingenierías
Topografía 1 Nivelación y Carretera en la IngenieríasTopografía 1 Nivelación y Carretera en la Ingenierías
Topografía 1 Nivelación y Carretera en la Ingenierías
 
Propositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicacionesPropositos del comportamiento de fases y aplicaciones
Propositos del comportamiento de fases y aplicaciones
 
Manual de Usuario Estacion total Sokkia SERIE SET10K.pdf
Manual de Usuario Estacion total Sokkia SERIE SET10K.pdfManual de Usuario Estacion total Sokkia SERIE SET10K.pdf
Manual de Usuario Estacion total Sokkia SERIE SET10K.pdf
 
Electromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdfElectromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdf
 
Flujo potencial, conceptos básicos y ejemplos resueltos.
Flujo potencial, conceptos básicos y ejemplos resueltos.Flujo potencial, conceptos básicos y ejemplos resueltos.
Flujo potencial, conceptos básicos y ejemplos resueltos.
 
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdf
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdfPPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdf
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdf
 
Historia de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdfHistoria de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdf
 
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
 
Flujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxFlujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptx
 
Edificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes GranadaEdificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes Granada
 
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdfCAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
 
LEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdf
LEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdfLEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdf
LEYES DE EXPONENTES SEMANA 1 CESAR VALLEJO.pdf
 
Linealización de sistemas no lineales.pdf
Linealización de sistemas no lineales.pdfLinealización de sistemas no lineales.pdf
Linealización de sistemas no lineales.pdf
 
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023
Centro Integral del Transporte de Metro de Madrid (CIT). Premio COAM 2023
 
Conservatorio de danza Kina Jiménez de Almería
Conservatorio de danza Kina Jiménez de AlmeríaConservatorio de danza Kina Jiménez de Almería
Conservatorio de danza Kina Jiménez de Almería
 
estadisticasII Metodo-de-la-gran-M.pdf
estadisticasII   Metodo-de-la-gran-M.pdfestadisticasII   Metodo-de-la-gran-M.pdf
estadisticasII Metodo-de-la-gran-M.pdf
 

Datawarehouse

  • 2. Hechos Los hechos son transacciones que han ocurrido en algún punto en el pasado, y que es muy poco probable que cambien en el futuro Los hechos se pueden analizar de diferentes formas dependiendo de la información de referencia Los hechos suelen tener pocos atributos, puesto que no tiene datos operacionales
  • 3. Dimensiones Sirven para representar cada uno de los factores por los que se puede analizar un determinado área de negocio Son tablas siempre más pequeñas A menudo se desnormalizan día mes clave_día clave_mesclave_mes mes día clave_día clave_mes mes
  • 4. Hechos y dimensiones Ventas July 2001 M T W T F S S 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Pc Portátil Ratón FaxTeléfono Sucursales Productos Clientes Fecha
  • 5. Diagramas en estrella Producto Cliente Fecha Sucursal Ventas Tabla de hechos Tablas de dimensión
  • 6. Datos multidimensionales Ventas totales de television en T1. Fecha Producto Tienda suma suma TV VCR PC 1Qtr 2Qtr 3Qtr 4Qtr T1 T2 T3 suma
  • 7. Diseño STAR: pasos a seguir De diagrama E/R surgen múltiples diagramas en estrella Separar en procesos discretos de negocio (hechos) y modelar cada hecho Seleccionar relaciones n:m con atributos numéricos Desnormalizar las tablas de dimensión
  • 8. Diseño STAR: pasos a seguir A BR C S D T E R A B C Fecha Diagrama E/R Diagrama en estrella
  • 9. Diseño de la tabla de hechos Decidir la granularidad de la tabla de hechos Establece lo que significa cada registro de la tabla de hechos Decidir las dimensiones Decidir los hechos de la tabla de hechos Deben ser específicos para la granularidad seleccionada para la tabla de hechos
  • 10. Diseño de la tabla de hechos Identificar el periodo histórico significativo para los distintos procesos y el grado de detalle requerido Eliminar todas las columnas del hecho que no sean requeridas para responder a preguntas de toma de decisiones Ajustar el tamaño de cada columna Usar claves generadas
  • 11. Claves primarias y extranjeras Todas las claves que se utilicen en tablas del Data Warehouse deben ser claves sin significado Nunca se deben usar claves de producción Facilitar los cambios Situaciones “no lo se”, “desconocido” Dimensiones que cambian en el tiempo
  • 12. Aditividad Siempre que sea posible, los hechos de la tabla de hechos deberían elegirse para que sean perfectamente aditivos (se pueden sumar por cualquier dimensión) Las medidas de actividad son generalmente aditivas Las medidas de intensidad no siempre lo son (niveles de inventario, balance de cuentas...)
  • 14. Diseño de las dimensiones Son tablas más pequeñas Desnormalizar si se acceden muy a menudo en las consultas para acelerar el desempeño (Esquemas estrella) Establecer la política para dimensiones cambiantes Actualizar los cambios Atributos valor antiguo – valor nuevo Generar un nuevo código para el nuevo valor
  • 15. Normalización de dimensiones Se dice que una dimensión está “snowflaked” cuando los atributos de baja cardinalidad se llevan a tablas separadas Generalmente no se recomienda A veces se usa para ahorrar espacio de almacenamiento No permite hacer uso de los índices de bitmap Sin embargo existen situaciones (datos demográficos) en las que son aconsejables
  • 16. Diseñar las tablas dimensión Producto Clave_producto SKU Descripcion Clave_marca_comercial Clave_marca_financiera Clave_tipo_embalaje Tamaño Clave_sabor Altura Cantidad_por_caja Marketing Clave_marca_comercial Marca_comercial Clave_categoria_comercial Finanzas Clave_marca_financiera Marca_financiera Clave_categoria_financiera Embalajes Clave_tipo_embalaje Tipo_embalaje Sabores Clave_sabor Sabor Categorias comerciales Clave_categoria_comercial Categoria_comercial Categorias financieras Clave_categoria_financiera Categoria_financiera
  • 17. Diseñar las tablas dimensión Producto Clave_producto SKU Descripción Clave_marca_comercial Clave_marca_financiera Clave_tipo_embalaje Tamaño Clave_sabor Altura Cantidad_por_caja Categoria_comercial Categoria_financiera Marca_financiera Marca_comercial Tipo_embalaje Sabor Tabla de hechos Clave_producto
  • 18. Diseñar las tablas dimensión Cliente Clave cliente (PK) ID_cliente Nombre Dirección Ciudad Departamento Fecha primera compra Score de compra Score de crédito Subdimensión demográfica Departamento Número de segmento Nombre del segmeto Contador del segmento Porcentaje del segmento Ranking del segmento Ventas Clave_cliente Clave_producto
  • 19. Un esquema en estrella Ventas Cod_Fecha Clave_Cliente Clave_Sucursal Clave_Producto unidades precio_unidad ticket Fechas Código Sysdate Día Mes día_semana ___ Sucursal Clave Dirección Segmento Descripción Producto Clave_producto SKU Descripción Clave_marca_comercial Clave_marca_financiera Clave_tipo_embalaje Tamaño Clave_sabor Altura Cantidad_por_caja Categoria_comercial Categoria_financiera Marca_financiera Marca_comercial Tipo_embalaje Sabor Cliente Clave cliente (PK) ID_cliente Nombre Dirección Ciudad Departamento Fecha primera compra Score de compra Score de crédito Subdimensión demográfica Departamento Número de segmento Nombre del segmento Contador del segmento Porcentaje del segmento Ranking del segmento
  • 20. La importancia de los atributos La calidad del Data Warehouse se mide por la calidad de los atributos Descriptivos Completos (sin valores nulos) Indexados Palabras enteras Documentados (metadatos) Calidad asegurada
  • 21. Tabla de fechas Fecha Codigo Día Día semana (numero) Dia semana (nombre) Festivo Mes (numero) Mes (nombre) Fin de semana Dia antes fin de semana .... Sucesos climaticos Codigo_Fecha Codigo de suceso Nombre de suceso Fiestas nacionales Codigo_Fecha Codigo de fiesta Nombre fiesta Fiestas locales Codigo_Fecha Codigo de fiesta Nombre fiesta Sucesos politicos Codigo_Fecha Codigo de suceso Nombre de suceso
  • 22. Dimensión “degenerada” La mayoría de los diseños multidimensionales están alrededor de un documento de control: número de pedido, factura, ticket, ... Generalmente son contenedores de más de un producto Generalmente en estos casos la granularidad de la tabla la marca este número ¿Qué se hace con los números? Se ponen en las tablas pero no tienen una dimensión con la que hacer “join”
  • 23. Aplicación de dimensiones “degeneradas” Ventas Cod_Fecha Cod_Cliente Cod_Sucursal Cod_Producto unidades precio_unidad ticket Cliente Codigo Nombre Sexo Cluster ___ Fechas Codigo Sysdate Día Mes día_semana ___ Producto Codigo Descripción tipo sección Sucursal Codigo Dirección Segmento Descripcion Dimensión degenerada
  • 24. Dimensión “Cajón desastre” En ocasiones se tienen atributos textuales y “flags” de distinta naturaleza que no parecen organizarse de manera coherente La solución no parece sencilla • Dejar los atributos en la tabla de hechos • Hacer dimensiones separadas para cada atributo • Quitar directamente estos atributos La mejor solución es compactarlos todos en lo que se denomina una “junk dimension”
  • 25. Aplicación de dimensión “junk" Gustos Codigo Niños Ascensor Almohada Tipo_cama ___ Cliente Codigo Nombre Fecha_nacimiento Sexo Tipo ___ Fecha Codigo Día Día semana Festivo Mes ___ Sucesos Codigo_Fecha Suceso Politico ___ Reservas Cod_Cliente Cod_Habitacion Cod_Fecha Reserva Gustos días coste descuento Habitacion Codigo Planta Sección Tamaño Cajón desastre
  • 26. Tablas de hechos sin hechos Hay situaciones en las que se tiene en el diseño final una tabla de hechos sin hechos Son situaciones en las que interesa el suceso en sí Afluencia de público Coberturas
  • 27. Tablas de hechos sin hechos Productos en promocion Cod_Fecha Cod_promocion Cod_producto "1" Producto Codigo Nombre Tipo ___ Fecha Codigo Día Día semana Festivo Mes ___ Promocion Codigo Tipo Dias Descripcion
  • 28. Ejercicio a resolver Supónga un hospital en el se ha decidido construir un Data Warehouse para analizar Ocupación Tratamientos Diagnósticos
  • 29. Pasos a seguir Estudiar el problema Determinar los hechos fundamentales a estudiar Para cada hecho Analizar la granularidad del hecho Decidir las dimensiones Diseñar las dimensiones
  • 30. Ocupación de camas July 2001 S M T W T F S 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Ocupación Pacientes Camas Fecha
  • 31. Tratamientos Tratamientos July 2001 S M T W T F S 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Pacientes Médicos Fecha Tratamientos
  • 32. Diagnósticos July 2001 S M T W T F S 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Pacientes Doctores Fecha Diagnósticos Diagnósticos
  • 33. Tabla de ocupaciones Ocupación Cod_Fecha Cod_cama Cod_paciente "1" Paciente Código Nombre Fecha_nacimiento Sexo Identificación ___ Fecha Código Día Día semana Festivo Mes ___ Cama Código Planta Sección Especialidad Sucesos Código_Fecha Epidemia ___ Datos médicod
  • 35. Tabla de tratamientos Tratamiento Código Nombre Presentación Laboratorio Posología Flags_efectos_secundarios Código Exito Problemas gástricos Insomnio Alergia ___ Médico Código Licencia Nombre Fecha_nacimiento Especialidad ___ Fecha Código Día Día semana Festivo Mes ___ Sucesos Código_Fecha Epidemia ___ Tratamientos_realizados Cod_Medico Cod_Paciente Cod_Fecha Cod_Tratamiento NIngreso Costo Número de días Dosis diarias Cod_Junk Paciente Código Nombre Fecha_nacimiento Sexo Fe ___