SlideShare una empresa de Scribd logo
1 de 13
Descargar para leer sin conexión
Capítulo 2 Tecnología data warehouse
El objetivo de éste capítulo es mostrar la tecnología data warehouse (DW) como una
herramienta para analizar la información. Este capítulo se encuentra organizado de la
siguiente manera. En la sección 2.1 se analiza la arquitectura de un DW. La sección 2.2
define el modelo multidimensional y muestra los diferentes esquemas relacionales para
implementar un esquema multidimensional como esquema relacional. En la sección 2.3 se
explicará la construcción del DW, es decir el cargado de la información y el refrescado de
la misma. En la sección 2.4 se discutirá el análisis que se puede llevar a cabo en un DW y la
sección 2.5 concluye el capítulo.
2.1 Arquitectura de un DW
Un DW es una colección de grandes cantidades de datos que se encuentran seleccionados,
organizados e historiados para soportar aplicaciones. Un DW es un repositorio donde se
almacena de manera integrada la información de una organización. Se almacenan datos con
el objetivo de obtener información estratégica y táctica para predecir o ayudar en la toma de
decisiones [21].
A diferencia de un sistema tradicional de bases de datos, un DW brinda soporte de análisis
a una empresa. Algunas de sus principales características son: ejecutar consultas para
facilitar el análisis de datos, la cantidad de datos administrados sobrepasan los miles incluso
llegan a ser millones, su uso se basa en la lectura y puede soportar un gran número de
usuarios.
La figura 2.1 muestra la arquitectura básica de un DW. En la parte inferior de la figura se
pueden ver las fuentes conectadas a un extractor – monitor. El extractor es un módulo
responsable de homogenizar la información. El monitor es el responsable de detectar los
cambios que puedan ser realizados en las fuentes y reportarlos al integrador [2].
Figura 2.1. Arquitectura básica de un DW
El integrador recibe los resultados de los extractores y después de integrarlos, los carga al
DW. Para poder cargar la información, se debe diseñar una estructura, para almacenar los
datos, el esquema multidimensional del DW.
fuente fuente
extractor /monitor extractor /monitor
integrador
DW
Fase
Construcción
Fase
Explotación
Administrador de consultas
Interfaz
El administrador de consultas se encarga de organizar las consultas y seleccionar los
operadores para permitir su análisis. Para explicar la actividad de un DW podemos
identificar dos grandes fases: construcción y explotación.
La fase de construcción se refiere al diseño e implementación de las herramientas
encargadas de llevar los datos de las fuentes al repositorio. Tomando en cuenta que se debe
integrar y homogenizar la información previamente. Un proceso posterior pero asociado a
esta misma fase es el proceso de mantenimiento. Este se encarga de llevar los datos nuevos
al DW.
En la fase de explotación se lleva a cabo el análisis de los datos almacenados dentro del
DW a través de técnicas que facilitan y hacen más eficiente su consulta. Ya con el DW
poblado lo último es diseñar e implementar una interfaz que le permita al usuario final
interactuar con el repositorio, brindándole todas las ventajas del análisis de la información.
2.2 Modelo multidimensional
El modelo multidimensional describe la organización de la información en un DW. Define
los conceptos para agregar hechos a lo largo de muchos atributos, llamados dimensiones.
2.2.1 Conceptos
Dimensión
Una dimensión representa una perspectiva de los datos. Las dimensiones son usadas para
seleccionar y agregar datos a un cierto nivel deseado de detalle. Podemos definir el
concepto de dimensión como el grado de libertad de movimiento en el espacio.
Entenderemos esta libertad como el número de direcciones ortogonales diferentes que
podamos tomar [18].
Las dimensiones se relacionan en jerarquías o niveles. Por ejemplo, la dimensión Zona
puede tener los siguientes niveles: ciudad, estado, región, país y continente. Otro ejemplo
es la dimensión Tiempo que presenta los siguientes niveles: día, semana, mes y año [21].
Medida
Una medida es un valor en un espacio multidimensional definido por dimensiones
ortogonales [1]. La medida es un dato numérico que representa la agregación de un
conjunto de datos. Los datos son producidos como resultado del funcionamiento de una
empresa. Un DW comúnmente tiene tres tipos de medidas [25]:
• Snapshots: modelan entidades en un punto dado en el tiempo.
• Eventos: modelan eventos del mundo real, con el grano más fino.
• Snapshots fijos acumulativos: modelan actividades en un punto dado en el tiempo.
Dependiendo de sus propiedades podemos tener medidas:
• Aditivas, pueden ser combinadas a lo largo de cualquier dimensión. Por ejemplo
“temperatura”, que puede estar dada por las dimensiones estación, región y fecha.
• Semi – aditivas, pueden no ser combinadas a lo largo de una o más dimensiones.
Por ejemplo “nómina” que puede estar dada por las dimensiones empleados y
tiempo, pero no producto.
• No aditivas, no pueden combinarse a lo largo de ninguna dimensión. Por ejemplo
“cantidad de producto”, que únicamente puede estar dada por la dimensión
producto.
Cubo
Una instancia del modelo multidimensional, esquema multidimensional, es conocida como
cubo o hipercubo de n dimensiones. Cuando la gente observa los datos en un cubo de n
dimensiones, es más fácil interpretar la información que contiene dicho cubo, así como las
distintas operaciones que se le pueden realizar
Para ejemplificar consideremos la existencia de una aplicación que realiza la venta de
juguetes. Para organizar sus ventas se define el cubo formado por las dimensiones:
producto, tiempo y región. La figura 2.2 presenta el esquema multidimensional de un DW
para la venta de productos que organiza un conjunto de medidas según las dimensiones
REGIÓN, TIEMPO y PRODUCTO.
Figura 2.2. Esquema multidimensional
Cada dimensión tiene asociada una jerarquía de niveles que denotan la granularidad de
observación de la medida con respecto a una dimensión. Por ejemplo, la dimensión
REGIÓN se organiza por Ciudad à Estado à RegiónàPaís. Así se puede observar la
cantidad de muñecas vendidas el martes 26 en la tienda ubicada en la ciudad de Puebla.
2.2.2 Esquema de representación
Un esquema multidimensional puede instrumentarse usando un esquema relacional en
estrella (Star Schema) o usando un esquema copo de nieve (Show Flake Schema) [1]. Un
esquema en estrella está formado por una tabla por cada dimensión y una tabla principal de
hechos. En la tabla de hechos cada uno de los atributos es a una llave extranjera hacia cada
tabla de dimensión como se puede apreciar en la figura 2.3.
n
Producto
Región
Tiempo
Martes 26
Puebla
Muñeca
(ciudad – estado- región- país)
(día – mes – año)
(unidad – grupo – familia)
Figura 2.3 Esquema en estrella
En un esquema copo de nieve las tablas de dimensiones están normalizadas. Esto evita
redundancia en los datos. Este esquema representa mejor la semántica de las dimensiones
del ambiente de los negocios, ya que tiene un acceso más directo a los datos [1]. La figura
2.4 muestra el esquema copo de nieve de nuestro ejemplo.
Medida
Id_Ciudad
nombre
dirección
region
Región
Id_Producto
descripción
marca
grupo
familia
tipo
precio
Producto
Id_Tiempo
fecha
Tiempo
Id_Producto
Id_Ciudad
Id_Tiempo
unid_vendidas
Figura 2.4. Esquema copo de nieve
2.3 Construcción y mantenimiento de un DW
2.3.1 Construcción
Para poder llevar a cabo la construcción del DW, se necesitan herramientas de extracción
de datos a partir de las fuentes externas. Estas herramientas extraen y homogenizan los
datos y se comunican con un integrador que integra los datos con respecto al esquema del
DW [1].
Tabla de hechos
Id_Ciudad
nombre
dirección
Región
Id_Producto
descripción
marca
tipo
precio
Producto
Id_Tiempo
díaTiempo
Id_Producto
Id_Ciudad
Id_Tiempo
unid_vendidas
Id Región
región
Id_Mes
mes
Id_Año
año
Id_Grupo
grupo
Id_Familia
familia
La Figura 2.5 presenta la arquitectura del mecanismo de construcción de un DW que
consiste en un conjunto de extractores asociados a las fuentes. Un extractor interactúa con
la fuente para extraer la información y la transforma a una representación comprendida por
un integrador. El extractor conoce el formato de las fuentes, el formato de representación de
datos del DW, el protocolo de comunicación y la ubicación de ambos.
Figura 2.5. Arquitectura básica de la construcción de un DW
El integrador integra la información y calcula los valores agregados con respecto al
esquema del DW [2]. Las tareas principales del integrador son: combinar los datos
obtenidos de las diversas fuentes y cargar estos datos ya integrados en el DW [5].
extractor
DWintegradorextractor
extractor
2.3.2 Mantenimiento
El mantenimiento del DW o “refrescado” asegura contar con datos actualizados. Existen
dos formas de refrescar los datos: la primera es llevar los datos al DW segundos después de
que las fuentes fueron actualizadas. La segunda es acumulando y almacenando los datos ya
integrados y transformados, en un sitio intermedio para que de forma periódica pasar la
información al DW. El refrescado se puede realizar de manera incremental o recalculando
todos los datos.
El refrescado de un DW está considerado como un problema difícil debido a las siguientes
razones: primero, el volumen de datos almacenados en el DW es muy grande y crece cada
vez más. Segundo, el refrescado debe ser accesible a los diferentes cambios de ejecución
del DW. Finalmente, el refrescado engloba transacciones que por lo regular acceden
múltiples datos, lo que implicaría contar con cálculos que pueden convertirse en complejos
ya que producirían un alto nivel de agregación.
2.4 Explotación de un DW
La explotación consiste en llevar a cabo consultas al DW. Cuando hablamos de consultas
nos referimos a la manipulación, análisis y visualización de la información que realiza el
usuario sobre la información del DW. Para el análisis de los datos almacenados en el DW
se utiliza la tecnología OLAP (On-Line Analytical Processing). Ésta tecnología cuenta con
operadores tales como: Slice´n dice roll-up y drill-down [1].
Slice´n dice permite restringir los valores asociados a una o varias dimensiones del cubo, es
decir, toma un subconjunto de dimensiones y de niveles seleccionados del DW [4]. En la
figura 2.6 se observa un ejemplo en el que se restringe el resultado para analizar solo las
ventas de las cubetas y los trapeadores en 2003 y 2002 en Monterrey y Puebla.
Figura 2.6 Operador Slice ´n dice
Roll-up agrega medidas que van de un nivel Ni a un nivel más general Nj de una
dimensión. Permite analizar la información a través de diferentes niveles de granularidad de
las dimensiones. Drill-down es la operación inversa. A partir de un nivel superior éste
349 300 280
900 100 898
300 850 630
Cubeta
Escoba
Trapeador
PRODUCTO
REGIÓN
Monterrey
Puebla
Yucatán
TIEMPO
2001
2002
2003
Trapeador
900 100
300 850
REGIÓN
Monterrey Puebla
TIEMPO
2002
2003
Cubeta
PRODUCTO
Slice ´n dice
operador permite bajar de nivel. En la figura 2.7 se observa un claro ejemplo de cómo la
dimensión tiempo cambia de nivel días a meses y viceversa.
Figura 2.7 Operadores drill-down y roll-up
2.5 Discusión
En este capítulo se explicó la tecnología que se usará para resolver las necesidades de la
empresa “Textiles Carmelita”. Se definieron conceptos importantes como dimensión y
medida para poder representar un esquema multidimensional. Se explicaron las fases de
construcción y explotación de un DW. Esta tecnología permite organizar la información
Trapeador
PRODUCTO
TIEMPO
Monterrey Yucatán
Escoba
Cubeta
Puebla
REGIÓN
día30
TIEMPO
REGIÓN
Monterrey
Puebla
Yucatán
PRODUCTO
Cubeta
Trapeador
Escoba
Abril
Roll - up
Drill - down
día 29
día 2
día 1
para analizarla y tomar decisiones que le permiten obtener ventajas competitivas y mejorar
su posición en el mercado en el que opera. Con el apoyo de esta tecnología esta empresa
puede responder preguntas tales como: ¿Cuál es el perfil de sus clientes? ¿Cómo es su
comportamiento con respecto a las compras? ¿Cuál es la utilidad de sus ventas? ¿Cuál es la
evaluación de sus inventarios en el tiempo?

Más contenido relacionado

Similar a Arquitectura y tecnología data warehouse

Similar a Arquitectura y tecnología data warehouse (20)

DATA WAREHOUSE
DATA WAREHOUSEDATA WAREHOUSE
DATA WAREHOUSE
 
Arquitectura de un dw
Arquitectura de un dwArquitectura de un dw
Arquitectura de un dw
 
Ciclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negociosCiclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negocios
 
Trabajo ayudantia
Trabajo ayudantiaTrabajo ayudantia
Trabajo ayudantia
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Estructuras basicas
Estructuras basicasEstructuras basicas
Estructuras basicas
 
Estructuras basicas
Estructuras basicas Estructuras basicas
Estructuras basicas
 
Estructuras básicas
Estructuras básicasEstructuras básicas
Estructuras básicas
 
Estructuras basicas
Estructuras basicasEstructuras basicas
Estructuras basicas
 
Estructuras basicas
Estructuras basicasEstructuras basicas
Estructuras basicas
 
Creacion de data mart
Creacion de data martCreacion de data mart
Creacion de data mart
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introduction
 
M4 sbd s01
M4 sbd s01M4 sbd s01
M4 sbd s01
 
M4 sbd s01
M4 sbd s01M4 sbd s01
M4 sbd s01
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Analisis services
Analisis servicesAnalisis services
Analisis services
 
Josue
JosueJosue
Josue
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
La planificación
La planificaciónLa planificación
La planificación
 
tarea 3 ayudantia
tarea 3 ayudantiatarea 3 ayudantia
tarea 3 ayudantia
 

Más de Liliana Charco

Más de Liliana Charco (20)

Plan curricular
Plan curricularPlan curricular
Plan curricular
 
Correccion examen2
Correccion examen2Correccion examen2
Correccion examen2
 
Corrección del examen redes
Corrección del examen redesCorrección del examen redes
Corrección del examen redes
 
Prac6 cuadernia exposición
Prac6 cuadernia exposiciónPrac6 cuadernia exposición
Prac6 cuadernia exposición
 
Prac5 charco liliana
Prac5 charco lilianaPrac5 charco liliana
Prac5 charco liliana
 
Prac03 charco-liliana
Prac03 charco-lilianaPrac03 charco-liliana
Prac03 charco-liliana
 
Prac02 charco-liliana
Prac02 charco-lilianaPrac02 charco-liliana
Prac02 charco-liliana
 
Rep01 charco-liliana
Rep01 charco-lilianaRep01 charco-liliana
Rep01 charco-liliana
 
Pwtic1
Pwtic1Pwtic1
Pwtic1
 
Anexos
AnexosAnexos
Anexos
 
Sugerencias
SugerenciasSugerencias
Sugerencias
 
Practica 150209131703-conversion-gate02
Practica 150209131703-conversion-gate02Practica 150209131703-conversion-gate02
Practica 150209131703-conversion-gate02
 
Practica 150209131703-conversion-gate02
Practica 150209131703-conversion-gate02Practica 150209131703-conversion-gate02
Practica 150209131703-conversion-gate02
 
Experiencias
ExperienciasExperiencias
Experiencias
 
Practica 150209131703-conversion-gate02
Practica 150209131703-conversion-gate02Practica 150209131703-conversion-gate02
Practica 150209131703-conversion-gate02
 
Autorretrato del estudiante
Autorretrato del estudianteAutorretrato del estudiante
Autorretrato del estudiante
 
Charco liliana t08
Charco liliana t08Charco liliana t08
Charco liliana t08
 
Charco liliana t07
Charco liliana t07Charco liliana t07
Charco liliana t07
 
Charco liliana t07
Charco liliana t07Charco liliana t07
Charco liliana t07
 
Charco liliana t06
Charco liliana t06Charco liliana t06
Charco liliana t06
 

Último

Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPELaura Chacón
 
TEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdfTEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdfDannyTola1
 
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIATRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIAAbelardoVelaAlbrecht1
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxlclcarmen
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfsamyarrocha1
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para eventoDiegoMtsS
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxjosetrinidadchavez
 
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdfBIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdfCESARMALAGA4
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzprofefilete
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...fcastellanos3
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOweislaco
 
Unidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parteUnidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parteJuan Hernandez
 
Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024IES Vicent Andres Estelles
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxAna Fernandez
 
c3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptxc3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptxMartín Ramírez
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADOJosé Luis Palma
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALEDUCCUniversidadCatl
 

Último (20)

Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPE
 
TEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdfTEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdf
 
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIATRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
TRIPTICO-SISTEMA-MUSCULAR. PARA NIÑOS DE PRIMARIA
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdf
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para evento
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
 
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdfBIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
 
VISITA À PROTEÇÃO CIVIL _
VISITA À PROTEÇÃO CIVIL                  _VISITA À PROTEÇÃO CIVIL                  _
VISITA À PROTEÇÃO CIVIL _
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
 
Unidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parteUnidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parte
 
Sesión La luz brilla en la oscuridad.pdf
Sesión  La luz brilla en la oscuridad.pdfSesión  La luz brilla en la oscuridad.pdf
Sesión La luz brilla en la oscuridad.pdf
 
Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docx
 
c3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptxc3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptx
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
 
Repaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia GeneralRepaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia General
 

Arquitectura y tecnología data warehouse

  • 1. Capítulo 2 Tecnología data warehouse El objetivo de éste capítulo es mostrar la tecnología data warehouse (DW) como una herramienta para analizar la información. Este capítulo se encuentra organizado de la siguiente manera. En la sección 2.1 se analiza la arquitectura de un DW. La sección 2.2 define el modelo multidimensional y muestra los diferentes esquemas relacionales para implementar un esquema multidimensional como esquema relacional. En la sección 2.3 se explicará la construcción del DW, es decir el cargado de la información y el refrescado de la misma. En la sección 2.4 se discutirá el análisis que se puede llevar a cabo en un DW y la sección 2.5 concluye el capítulo. 2.1 Arquitectura de un DW Un DW es una colección de grandes cantidades de datos que se encuentran seleccionados, organizados e historiados para soportar aplicaciones. Un DW es un repositorio donde se almacena de manera integrada la información de una organización. Se almacenan datos con el objetivo de obtener información estratégica y táctica para predecir o ayudar en la toma de decisiones [21]. A diferencia de un sistema tradicional de bases de datos, un DW brinda soporte de análisis a una empresa. Algunas de sus principales características son: ejecutar consultas para facilitar el análisis de datos, la cantidad de datos administrados sobrepasan los miles incluso
  • 2. llegan a ser millones, su uso se basa en la lectura y puede soportar un gran número de usuarios. La figura 2.1 muestra la arquitectura básica de un DW. En la parte inferior de la figura se pueden ver las fuentes conectadas a un extractor – monitor. El extractor es un módulo responsable de homogenizar la información. El monitor es el responsable de detectar los cambios que puedan ser realizados en las fuentes y reportarlos al integrador [2]. Figura 2.1. Arquitectura básica de un DW El integrador recibe los resultados de los extractores y después de integrarlos, los carga al DW. Para poder cargar la información, se debe diseñar una estructura, para almacenar los datos, el esquema multidimensional del DW. fuente fuente extractor /monitor extractor /monitor integrador DW Fase Construcción Fase Explotación Administrador de consultas Interfaz
  • 3. El administrador de consultas se encarga de organizar las consultas y seleccionar los operadores para permitir su análisis. Para explicar la actividad de un DW podemos identificar dos grandes fases: construcción y explotación. La fase de construcción se refiere al diseño e implementación de las herramientas encargadas de llevar los datos de las fuentes al repositorio. Tomando en cuenta que se debe integrar y homogenizar la información previamente. Un proceso posterior pero asociado a esta misma fase es el proceso de mantenimiento. Este se encarga de llevar los datos nuevos al DW. En la fase de explotación se lleva a cabo el análisis de los datos almacenados dentro del DW a través de técnicas que facilitan y hacen más eficiente su consulta. Ya con el DW poblado lo último es diseñar e implementar una interfaz que le permita al usuario final interactuar con el repositorio, brindándole todas las ventajas del análisis de la información. 2.2 Modelo multidimensional El modelo multidimensional describe la organización de la información en un DW. Define los conceptos para agregar hechos a lo largo de muchos atributos, llamados dimensiones.
  • 4. 2.2.1 Conceptos Dimensión Una dimensión representa una perspectiva de los datos. Las dimensiones son usadas para seleccionar y agregar datos a un cierto nivel deseado de detalle. Podemos definir el concepto de dimensión como el grado de libertad de movimiento en el espacio. Entenderemos esta libertad como el número de direcciones ortogonales diferentes que podamos tomar [18]. Las dimensiones se relacionan en jerarquías o niveles. Por ejemplo, la dimensión Zona puede tener los siguientes niveles: ciudad, estado, región, país y continente. Otro ejemplo es la dimensión Tiempo que presenta los siguientes niveles: día, semana, mes y año [21]. Medida Una medida es un valor en un espacio multidimensional definido por dimensiones ortogonales [1]. La medida es un dato numérico que representa la agregación de un conjunto de datos. Los datos son producidos como resultado del funcionamiento de una empresa. Un DW comúnmente tiene tres tipos de medidas [25]: • Snapshots: modelan entidades en un punto dado en el tiempo. • Eventos: modelan eventos del mundo real, con el grano más fino. • Snapshots fijos acumulativos: modelan actividades en un punto dado en el tiempo. Dependiendo de sus propiedades podemos tener medidas:
  • 5. • Aditivas, pueden ser combinadas a lo largo de cualquier dimensión. Por ejemplo “temperatura”, que puede estar dada por las dimensiones estación, región y fecha. • Semi – aditivas, pueden no ser combinadas a lo largo de una o más dimensiones. Por ejemplo “nómina” que puede estar dada por las dimensiones empleados y tiempo, pero no producto. • No aditivas, no pueden combinarse a lo largo de ninguna dimensión. Por ejemplo “cantidad de producto”, que únicamente puede estar dada por la dimensión producto. Cubo Una instancia del modelo multidimensional, esquema multidimensional, es conocida como cubo o hipercubo de n dimensiones. Cuando la gente observa los datos en un cubo de n dimensiones, es más fácil interpretar la información que contiene dicho cubo, así como las distintas operaciones que se le pueden realizar Para ejemplificar consideremos la existencia de una aplicación que realiza la venta de juguetes. Para organizar sus ventas se define el cubo formado por las dimensiones: producto, tiempo y región. La figura 2.2 presenta el esquema multidimensional de un DW para la venta de productos que organiza un conjunto de medidas según las dimensiones REGIÓN, TIEMPO y PRODUCTO.
  • 6. Figura 2.2. Esquema multidimensional Cada dimensión tiene asociada una jerarquía de niveles que denotan la granularidad de observación de la medida con respecto a una dimensión. Por ejemplo, la dimensión REGIÓN se organiza por Ciudad à Estado à RegiónàPaís. Así se puede observar la cantidad de muñecas vendidas el martes 26 en la tienda ubicada en la ciudad de Puebla. 2.2.2 Esquema de representación Un esquema multidimensional puede instrumentarse usando un esquema relacional en estrella (Star Schema) o usando un esquema copo de nieve (Show Flake Schema) [1]. Un esquema en estrella está formado por una tabla por cada dimensión y una tabla principal de hechos. En la tabla de hechos cada uno de los atributos es a una llave extranjera hacia cada tabla de dimensión como se puede apreciar en la figura 2.3. n Producto Región Tiempo Martes 26 Puebla Muñeca (ciudad – estado- región- país) (día – mes – año) (unidad – grupo – familia)
  • 7. Figura 2.3 Esquema en estrella En un esquema copo de nieve las tablas de dimensiones están normalizadas. Esto evita redundancia en los datos. Este esquema representa mejor la semántica de las dimensiones del ambiente de los negocios, ya que tiene un acceso más directo a los datos [1]. La figura 2.4 muestra el esquema copo de nieve de nuestro ejemplo. Medida Id_Ciudad nombre dirección region Región Id_Producto descripción marca grupo familia tipo precio Producto Id_Tiempo fecha Tiempo Id_Producto Id_Ciudad Id_Tiempo unid_vendidas
  • 8. Figura 2.4. Esquema copo de nieve 2.3 Construcción y mantenimiento de un DW 2.3.1 Construcción Para poder llevar a cabo la construcción del DW, se necesitan herramientas de extracción de datos a partir de las fuentes externas. Estas herramientas extraen y homogenizan los datos y se comunican con un integrador que integra los datos con respecto al esquema del DW [1]. Tabla de hechos Id_Ciudad nombre dirección Región Id_Producto descripción marca tipo precio Producto Id_Tiempo díaTiempo Id_Producto Id_Ciudad Id_Tiempo unid_vendidas Id Región región Id_Mes mes Id_Año año Id_Grupo grupo Id_Familia familia
  • 9. La Figura 2.5 presenta la arquitectura del mecanismo de construcción de un DW que consiste en un conjunto de extractores asociados a las fuentes. Un extractor interactúa con la fuente para extraer la información y la transforma a una representación comprendida por un integrador. El extractor conoce el formato de las fuentes, el formato de representación de datos del DW, el protocolo de comunicación y la ubicación de ambos. Figura 2.5. Arquitectura básica de la construcción de un DW El integrador integra la información y calcula los valores agregados con respecto al esquema del DW [2]. Las tareas principales del integrador son: combinar los datos obtenidos de las diversas fuentes y cargar estos datos ya integrados en el DW [5]. extractor DWintegradorextractor extractor
  • 10. 2.3.2 Mantenimiento El mantenimiento del DW o “refrescado” asegura contar con datos actualizados. Existen dos formas de refrescar los datos: la primera es llevar los datos al DW segundos después de que las fuentes fueron actualizadas. La segunda es acumulando y almacenando los datos ya integrados y transformados, en un sitio intermedio para que de forma periódica pasar la información al DW. El refrescado se puede realizar de manera incremental o recalculando todos los datos. El refrescado de un DW está considerado como un problema difícil debido a las siguientes razones: primero, el volumen de datos almacenados en el DW es muy grande y crece cada vez más. Segundo, el refrescado debe ser accesible a los diferentes cambios de ejecución del DW. Finalmente, el refrescado engloba transacciones que por lo regular acceden múltiples datos, lo que implicaría contar con cálculos que pueden convertirse en complejos ya que producirían un alto nivel de agregación. 2.4 Explotación de un DW La explotación consiste en llevar a cabo consultas al DW. Cuando hablamos de consultas nos referimos a la manipulación, análisis y visualización de la información que realiza el usuario sobre la información del DW. Para el análisis de los datos almacenados en el DW se utiliza la tecnología OLAP (On-Line Analytical Processing). Ésta tecnología cuenta con operadores tales como: Slice´n dice roll-up y drill-down [1].
  • 11. Slice´n dice permite restringir los valores asociados a una o varias dimensiones del cubo, es decir, toma un subconjunto de dimensiones y de niveles seleccionados del DW [4]. En la figura 2.6 se observa un ejemplo en el que se restringe el resultado para analizar solo las ventas de las cubetas y los trapeadores en 2003 y 2002 en Monterrey y Puebla. Figura 2.6 Operador Slice ´n dice Roll-up agrega medidas que van de un nivel Ni a un nivel más general Nj de una dimensión. Permite analizar la información a través de diferentes niveles de granularidad de las dimensiones. Drill-down es la operación inversa. A partir de un nivel superior éste 349 300 280 900 100 898 300 850 630 Cubeta Escoba Trapeador PRODUCTO REGIÓN Monterrey Puebla Yucatán TIEMPO 2001 2002 2003 Trapeador 900 100 300 850 REGIÓN Monterrey Puebla TIEMPO 2002 2003 Cubeta PRODUCTO Slice ´n dice
  • 12. operador permite bajar de nivel. En la figura 2.7 se observa un claro ejemplo de cómo la dimensión tiempo cambia de nivel días a meses y viceversa. Figura 2.7 Operadores drill-down y roll-up 2.5 Discusión En este capítulo se explicó la tecnología que se usará para resolver las necesidades de la empresa “Textiles Carmelita”. Se definieron conceptos importantes como dimensión y medida para poder representar un esquema multidimensional. Se explicaron las fases de construcción y explotación de un DW. Esta tecnología permite organizar la información Trapeador PRODUCTO TIEMPO Monterrey Yucatán Escoba Cubeta Puebla REGIÓN día30 TIEMPO REGIÓN Monterrey Puebla Yucatán PRODUCTO Cubeta Trapeador Escoba Abril Roll - up Drill - down día 29 día 2 día 1
  • 13. para analizarla y tomar decisiones que le permiten obtener ventajas competitivas y mejorar su posición en el mercado en el que opera. Con el apoyo de esta tecnología esta empresa puede responder preguntas tales como: ¿Cuál es el perfil de sus clientes? ¿Cómo es su comportamiento con respecto a las compras? ¿Cuál es la utilidad de sus ventas? ¿Cuál es la evaluación de sus inventarios en el tiempo?