SlideShare una empresa de Scribd logo
1 de 13
Descargar para leer sin conexión
Capítulo 2 Tecnología data warehouse
El objetivo de éste capítulo es mostrar la tecnología data warehouse (DW) como una
herramienta para analizar la información. Este capítulo se encuentra organizado de la
siguiente manera. En la sección 2.1 se analiza la arquitectura de un DW. La sección 2.2
define el modelo multidimensional y muestra los diferentes esquemas relacionales para
implementar un esquema multidimensional como esquema relacional. En la sección 2.3 se
explicará la construcción del DW, es decir el cargado de la información y el refrescado de
la misma. En la sección 2.4 se discutirá el análisis que se puede llevar a cabo en un DW y la
sección 2.5 concluye el capítulo.

2.1 Arquitectura de un DW
Un DW es una colección de grandes cantidades de datos que se encuentran seleccionados,
organizados e historiados para soportar aplicaciones. Un DW es un repositorio donde se
almacena de manera integrada la información de una organización. Se almacenan datos con
el objetivo de obtener información estratégica y táctica para predecir o ayudar en la toma de
decisiones [21].

A diferencia de un sistema tradicional de bases de datos, un DW brinda soporte de análisis
a una empresa. Algunas de sus principales características son: ejecutar consultas para
facilitar el análisis de datos, la cantidad de datos administrados sobrepasan los miles incluso
llegan a ser millones, su uso se basa en la lectura y puede soportar un gran número de
usuarios.

La figura 2.1 muestra la arquitectura básica de un DW. En la parte inferior de la figura se
pueden ver las fuentes conectadas a un extractor – monitor. El extractor es un módulo
responsable de homogenizar la información. El monitor es el responsable de detectar los
cambios que puedan ser realizados en las fuentes y reportarlos al integrador [2].

Fase
Explotación

Interfaz

Administrador de consultas

DW

Fase
Construcción

integrador

extractor /monitor

fuente

extractor /monitor

fuente

Figura 2.1. Arquitectura básica de un DW
El integrador recibe los resultados de los extractores y después de integrarlos, los carga al
DW. Para poder cargar la información, se debe diseñar una estructura, para almacenar los
datos, el esquema multidimensional del DW.
El administrador de consultas se encarga de organizar las consultas y seleccionar los
operadores para permitir su análisis. Para explicar la actividad de un DW podemos
identificar dos grandes fases: construcción y explotación.

La fase de construcción se refiere al diseño e implementación de las herramientas
encargadas de llevar los datos de las fuentes al repositorio. Tomando en cuenta que se debe
integrar y homogenizar la información previamente. Un proceso posterior pero asociado a
esta misma fase es el proceso de mantenimiento. Este se encarga de llevar los datos nuevos
al DW.

En la fase de explotación se lleva a cabo el análisis de los datos almacenados dentro del
DW a través de técnicas que facilitan y hacen más eficiente su consulta. Ya con el DW
poblado lo último es diseñar e implementar una interfaz que le permita al usuario final
interactuar con el repositorio, brindándole todas las ventajas del análisis de la información.

2.2 Modelo multidimensional
El modelo multidimensional describe la organización de la información en un DW. Define
los conceptos para agregar hechos a lo largo de muchos atributos, llamados dimensiones.
2.2.1 Conceptos
Dimensión
Una dimensión representa una perspectiva de los datos. Las dimensiones son usadas para
seleccionar y agregar datos a un cierto nivel deseado de detalle. Podemos definir el
concepto de dimensión como el grado de libertad de movimiento en el espacio.
Entenderemos esta libertad como el número de direcciones ortogonales diferentes que
podamos tomar [18].

Las dimensiones se relacionan en jerarquías o niveles. Por ejemplo, la dimensión Zona
puede tener los siguientes niveles: ciudad, estado, región, país y continente. Otro ejemplo
es la dimensión Tiempo que presenta los siguientes niveles: día, semana, mes y año [21].

Medida
Una medida es un valor en un espacio multidimensional definido por dimensiones
ortogonales [1]. La medida es un dato numérico que representa la agregación de un
conjunto de datos. Los datos son producidos como resultado del funcionamiento de una
empresa. Un DW comúnmente tiene tres tipos de medidas [25]:
•

Snapshots: modelan entidades en un punto dado en el tiempo.

•

Eventos: modelan eventos del mundo real, con el grano más fino.

•

Snapshots fijos acumulativos: modelan actividades en un punto dado en el tiempo.

Dependiendo de sus propiedades podemos tener medidas:
•

Aditivas, pueden ser combinadas a lo largo de cualquier dimensión. Por ejemplo
“temperatura”, que puede estar dada por las dimensiones estación, región y fecha.

•

Semi – aditivas, pueden no ser combinadas a lo largo de una o más dimensiones.
Por ejemplo “nómina” que puede estar dada por las dimensiones empleados y
tiempo, pero no producto.

•

No aditivas, no pueden combinarse a lo largo de ninguna dimensión. Por ejemplo
“cantidad de producto”, que únicamente puede estar dada por la dimensión
producto.

Cubo
Una instancia del modelo multidimensional, esquema multidimensional, es conocida como
cubo o hipercubo de n dimensiones. Cuando la gente observa los datos en un cubo de n
dimensiones, es más fácil interpretar la información que contiene dicho cubo, así como las
distintas operaciones que se le pueden realizar

Para ejemplificar consideremos la existencia de una aplicación que realiza la venta de
juguetes. Para organizar sus ventas se define el cubo formado por las dimensiones:
producto, tiempo y región. La figura 2.2 presenta el esquema multidimensional de un DW
para la venta de productos que organiza un conjunto de medidas según las dimensiones
REGIÓN, TIEMPO y PRODUCTO.
Región

(ciudad – estado- región- país)

Puebla

n

Martes 26
Muñeca

Tiempo

Producto

(día – mes – año)

(unidad – grupo – familia)

Figura 2.2. Esquema multidimensional

Cada dimensión tiene asociada una jerarquía de niveles que denotan la granularidad de
observación de la medida con respecto a una dimensión. Por ejemplo, la dimensión
REGIÓN se organiza por Ciudad à Estado à RegiónàPaís. Así se puede observar la
cantidad de muñecas vendidas el martes 26 en la tienda ubicada en la ciudad de Puebla.

2.2.2 Esquema de representación
Un esquema multidimensional puede instrumentarse usando un esquema relacional en
estrella (Star Schema) o usando un esquema copo de nieve (Show Flake Schema) [1]. Un
esquema en estrella está formado por una tabla por cada dimensión y una tabla principal de
hechos. En la tabla de hechos cada uno de los atributos es a una llave extranjera hacia cada
tabla de dimensión como se puede apreciar en la figura 2.3.
Región
Id_Ciudad
nombre
dirección
region

Medida

Id_Producto
Id_Ciudad
Id_Tiempo
unid_vendidas

Producto
Id_Producto
descripción
marca
grupo
familia
tipo
precio

Tiempo
Id_Tiempo
fecha

Figura 2.3 Esquema en estrella

En un esquema copo de nieve las tablas de dimensiones están normalizadas. Esto evita
redundancia en los datos. Este esquema representa mejor la semántica de las dimensiones
del ambiente de los negocios, ya que tiene un acceso más directo a los datos [1]. La figura
2.4 muestra el esquema copo de nieve de nuestro ejemplo.
Id Región
región

Región

Id_Ciudad
nombre
dirección

Tabla de hechos

Id_Producto
Id_Ciudad
Id_Tiempo
unid_vendidas

Id_Producto
descripción
marca
tipo
precio

Id_Tiempo
día

Tiempo
Id_Mes
mes

Id_Grupo
grupo

Id_Año
año

Producto

Id_Familia
familia

Figura 2.4. Esquema copo de nieve

2.3 Construcción y mantenimiento de un DW

2.3.1 Construcción
Para poder llevar a cabo la construcción del DW, se necesitan herramientas de extracción
de datos a partir de las fuentes externas. Estas herramientas extraen y homogenizan los
datos y se comunican con un integrador que integra los datos con respecto al esquema del
DW [1].
La Figura 2.5 presenta la arquitectura del mecanismo de construcción de un DW que
consiste en un conjunto de extractores asociados a las fuentes. Un extractor interactúa con
la fuente para extraer la información y la transforma a una representación comprendida por
un integrador. El extractor conoce el formato de las fuentes, el formato de representación de
datos del DW, el protocolo de comunicación y la ubicación de ambos.

extractor

extractor

integrador

DW

extractor

Figura 2.5. Arquitectura básica de la construcción de un DW

El integrador integra la información y calcula los valores agregados con respecto al
esquema del DW [2]. Las tareas principales del integrador son: combinar los datos
obtenidos de las diversas fuentes y cargar estos datos ya integrados en el DW [5].
2.3.2 Mantenimiento
El mantenimiento del DW o “refrescado” asegura contar con datos actualizados. Existen
dos formas de refrescar los datos: la primera es llevar los datos al DW segundos después de
que las fuentes fueron actualizadas. La segunda es acumulando y almacenando los datos ya
integrados y transformados, en un sitio intermedio para que de forma periódica pasar la
información al DW. El refrescado se puede realizar de manera incremental o recalculando
todos los datos.

El refrescado de un DW está considerado como un problema difícil debido a las siguientes
razones: primero, el volumen de datos almacenados en el DW es muy grande y crece cada
vez más. Segundo, el refrescado debe ser accesible a los diferentes cambios de ejecución
del DW. Finalmente, el refrescado engloba transacciones que por lo regular acceden
múltiples datos, lo que implicaría contar con cálculos que pueden convertirse en complejos
ya que producirían un alto nivel de agregación.

2.4 Explotación de un DW
La explotación consiste en llevar a cabo consultas al DW. Cuando hablamos de consultas
nos referimos a la manipulación, análisis y visualización de la información que realiza el
usuario sobre la información del DW. Para el análisis de los datos almacenados en el DW
se utiliza la tecnología OLAP (On-Line Analytical Processing). Ésta tecnología cuenta con
operadores tales como: Slice´n dice roll-up y drill-down [1].
Slice´n dice permite restringir los valores asociados a una o varias dimensiones del cubo, es
decir, toma un subconjunto de dimensiones y de niveles seleccionados del DW [4]. En la
figura 2.6 se observa un ejemplo en el que se restringe el resultado para analizar solo las
ventas de las cubetas y los trapeadores en 2003 y 2002 en Monterrey y Puebla.

PRODUCTO
300

Cubeta
Trapeador

850

630

900

100

898
2001

349 300

280

Escoba

2002
TIEMPO
2003

Monterrey

Yucatán

Puebla
REGIÓN

PRODUCTO

Cubeta
Slice ´n dice

Trapeador

300

850

900 100

2002
2003

Monterrey

TIEMPO

Puebla

REGIÓN

Figura 2.6 Operador Slice ´n dice

Roll-up agrega medidas que van de un nivel Ni a un nivel más general Nj de una
dimensión. Permite analizar la información a través de diferentes niveles de granularidad de
las dimensiones. Drill-down es la operación inversa. A partir de un nivel superior éste
operador permite bajar de nivel. En la figura 2.7 se observa un claro ejemplo de cómo la
dimensión tiempo cambia de nivel días a meses y viceversa.

PRODUCTO
Cubeta
Trapeador
Escoba

Abril
Yucatán

Monterrey
Drill - down

TIEMPO

Puebla
REGIÓN

PRODUCTO
Roll - up
Cubeta
Trapeador

día30
día 29
día 2
día 1
TIEMPO

Escoba
Monterrey

Yucatán

Puebla
REGIÓN

Figura 2.7 Operadores drill-down y roll-up

2.5 Discusión
En este capítulo se explicó la tecnología que se usará para resolver las necesidades de la
empresa “Textiles Carmelita”. Se definieron conceptos importantes como dimensión y
medida para poder representar un esquema multidimensional. Se explicaron las fases de
construcción y explotación de un DW. Esta tecnología permite organizar la información
para analizarla y tomar decisiones que le permiten obtener ventajas competitivas y mejorar
su posición en el mercado en el que opera. Con el apoyo de esta tecnología esta empresa
puede responder preguntas tales como: ¿Cuál es el perfil de sus clientes? ¿Cómo es su
comportamiento con respecto a las compras? ¿Cuál es la utilidad de sus ventas? ¿Cuál es la
evaluación de sus inventarios en el tiempo?

Más contenido relacionado

Similar a Data Warehuose (20)

Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data warehouse.
Data warehouse.Data warehouse.
Data warehouse.
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
DATA WAREHOUSE
DATA WAREHOUSEDATA WAREHOUSE
DATA WAREHOUSE
 
Arquitectura de un dw
Arquitectura de un dwArquitectura de un dw
Arquitectura de un dw
 
Ciclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negociosCiclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negocios
 
Trabajo ayudantia
Trabajo ayudantiaTrabajo ayudantia
Trabajo ayudantia
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introduction
 
Estructuras basicas
Estructuras basicasEstructuras basicas
Estructuras basicas
 

Más de José Tomás Diarte Añazco

Introducción a la Arquitectura de Computadoras.
Introducción a la Arquitectura de Computadoras.Introducción a la Arquitectura de Computadoras.
Introducción a la Arquitectura de Computadoras.José Tomás Diarte Añazco
 

Más de José Tomás Diarte Añazco (20)

S2214750014000067 gr1.jpg
S2214750014000067 gr1.jpgS2214750014000067 gr1.jpg
S2214750014000067 gr1.jpg
 
Primer trabajo practico de dreamweaver cs3
Primer trabajo practico de dreamweaver cs3Primer trabajo practico de dreamweaver cs3
Primer trabajo practico de dreamweaver cs3
 
VARIABLE COMPLEJA
VARIABLE COMPLEJAVARIABLE COMPLEJA
VARIABLE COMPLEJA
 
Control Industrial
Control IndustrialControl Industrial
Control Industrial
 
Microcontroladores
MicrocontroladoresMicrocontroladores
Microcontroladores
 
Investigación Cientifica
Investigación CientificaInvestigación Cientifica
Investigación Cientifica
 
Introduccion a la Robótica
Introduccion a la RobóticaIntroduccion a la Robótica
Introduccion a la Robótica
 
Sistemas de ecuaciones Lineales
Sistemas de ecuaciones Lineales Sistemas de ecuaciones Lineales
Sistemas de ecuaciones Lineales
 
Algebra de Boole
Algebra de BooleAlgebra de Boole
Algebra de Boole
 
Introducción a la Gerencia Informática
Introducción a la Gerencia InformáticaIntroducción a la Gerencia Informática
Introducción a la Gerencia Informática
 
Introducción al Lenguaje de Programación
Introducción al Lenguaje de ProgramaciónIntroducción al Lenguaje de Programación
Introducción al Lenguaje de Programación
 
Auditoria de SISTEMAS
Auditoria de SISTEMASAuditoria de SISTEMAS
Auditoria de SISTEMAS
 
Auditoria de sistemas
Auditoria de sistemasAuditoria de sistemas
Auditoria de sistemas
 
Investigación de Operaciones
Investigación de OperacionesInvestigación de Operaciones
Investigación de Operaciones
 
Proyectos Informaticos
Proyectos InformaticosProyectos Informaticos
Proyectos Informaticos
 
Seguridad informatica
Seguridad informaticaSeguridad informatica
Seguridad informatica
 
Introducción a la Arquitectura de Computadoras.
Introducción a la Arquitectura de Computadoras.Introducción a la Arquitectura de Computadoras.
Introducción a la Arquitectura de Computadoras.
 
Introducción de Ingeniería de Software
Introducción de Ingeniería de SoftwareIntroducción de Ingeniería de Software
Introducción de Ingeniería de Software
 
Inteligencia Artificial
Inteligencia ArtificialInteligencia Artificial
Inteligencia Artificial
 
Inteligencia Artificail
Inteligencia ArtificailInteligencia Artificail
Inteligencia Artificail
 

Último

Manual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfManual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfMaryRotonda1
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptxFelicitasAsuncionDia
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptxJunkotantik
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptELENA GALLARDO PAÚLS
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADOJosé Luis Palma
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.amayarogel
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Lourdes Feria
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxlclcarmen
 
MAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMarjorie Burga
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIACarlos Campaña Montenegro
 
Neurociencias para Educadores NE24 Ccesa007.pdf
Neurociencias para Educadores  NE24  Ccesa007.pdfNeurociencias para Educadores  NE24  Ccesa007.pdf
Neurociencias para Educadores NE24 Ccesa007.pdfDemetrio Ccesa Rayme
 
EXPECTATIVAS vs PERSPECTIVA en la vida.
EXPECTATIVAS vs PERSPECTIVA  en la vida.EXPECTATIVAS vs PERSPECTIVA  en la vida.
EXPECTATIVAS vs PERSPECTIVA en la vida.DaluiMonasterio
 
codigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karinacodigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karinavergarakarina022
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadAlejandrino Halire Ccahuana
 
Herramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdfHerramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdfMARIAPAULAMAHECHAMOR
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para eventoDiegoMtsS
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxlclcarmen
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónLourdes Feria
 
Historia y técnica del collage en el arte
Historia y técnica del collage en el arteHistoria y técnica del collage en el arte
Historia y técnica del collage en el arteRaquel Martín Contreras
 

Último (20)

Manual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdfManual - ABAS II completo 263 hojas .pdf
Manual - ABAS II completo 263 hojas .pdf
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptx
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptx
 
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.pptDE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
DE LAS OLIMPIADAS GRIEGAS A LAS DEL MUNDO MODERNO.ppt
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...
 
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptxTIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
TIPOLOGÍA TEXTUAL- EXPOSICIÓN Y ARGUMENTACIÓN.pptx
 
MAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grande
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
 
Neurociencias para Educadores NE24 Ccesa007.pdf
Neurociencias para Educadores  NE24  Ccesa007.pdfNeurociencias para Educadores  NE24  Ccesa007.pdf
Neurociencias para Educadores NE24 Ccesa007.pdf
 
EXPECTATIVAS vs PERSPECTIVA en la vida.
EXPECTATIVAS vs PERSPECTIVA  en la vida.EXPECTATIVAS vs PERSPECTIVA  en la vida.
EXPECTATIVAS vs PERSPECTIVA en la vida.
 
codigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karinacodigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karina
 
Sesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdfSesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdf
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdad
 
Herramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdfHerramientas de Inteligencia Artificial.pdf
Herramientas de Inteligencia Artificial.pdf
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para evento
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcción
 
Historia y técnica del collage en el arte
Historia y técnica del collage en el arteHistoria y técnica del collage en el arte
Historia y técnica del collage en el arte
 

Data Warehuose

  • 1. Capítulo 2 Tecnología data warehouse El objetivo de éste capítulo es mostrar la tecnología data warehouse (DW) como una herramienta para analizar la información. Este capítulo se encuentra organizado de la siguiente manera. En la sección 2.1 se analiza la arquitectura de un DW. La sección 2.2 define el modelo multidimensional y muestra los diferentes esquemas relacionales para implementar un esquema multidimensional como esquema relacional. En la sección 2.3 se explicará la construcción del DW, es decir el cargado de la información y el refrescado de la misma. En la sección 2.4 se discutirá el análisis que se puede llevar a cabo en un DW y la sección 2.5 concluye el capítulo. 2.1 Arquitectura de un DW Un DW es una colección de grandes cantidades de datos que se encuentran seleccionados, organizados e historiados para soportar aplicaciones. Un DW es un repositorio donde se almacena de manera integrada la información de una organización. Se almacenan datos con el objetivo de obtener información estratégica y táctica para predecir o ayudar en la toma de decisiones [21]. A diferencia de un sistema tradicional de bases de datos, un DW brinda soporte de análisis a una empresa. Algunas de sus principales características son: ejecutar consultas para facilitar el análisis de datos, la cantidad de datos administrados sobrepasan los miles incluso
  • 2. llegan a ser millones, su uso se basa en la lectura y puede soportar un gran número de usuarios. La figura 2.1 muestra la arquitectura básica de un DW. En la parte inferior de la figura se pueden ver las fuentes conectadas a un extractor – monitor. El extractor es un módulo responsable de homogenizar la información. El monitor es el responsable de detectar los cambios que puedan ser realizados en las fuentes y reportarlos al integrador [2]. Fase Explotación Interfaz Administrador de consultas DW Fase Construcción integrador extractor /monitor fuente extractor /monitor fuente Figura 2.1. Arquitectura básica de un DW El integrador recibe los resultados de los extractores y después de integrarlos, los carga al DW. Para poder cargar la información, se debe diseñar una estructura, para almacenar los datos, el esquema multidimensional del DW.
  • 3. El administrador de consultas se encarga de organizar las consultas y seleccionar los operadores para permitir su análisis. Para explicar la actividad de un DW podemos identificar dos grandes fases: construcción y explotación. La fase de construcción se refiere al diseño e implementación de las herramientas encargadas de llevar los datos de las fuentes al repositorio. Tomando en cuenta que se debe integrar y homogenizar la información previamente. Un proceso posterior pero asociado a esta misma fase es el proceso de mantenimiento. Este se encarga de llevar los datos nuevos al DW. En la fase de explotación se lleva a cabo el análisis de los datos almacenados dentro del DW a través de técnicas que facilitan y hacen más eficiente su consulta. Ya con el DW poblado lo último es diseñar e implementar una interfaz que le permita al usuario final interactuar con el repositorio, brindándole todas las ventajas del análisis de la información. 2.2 Modelo multidimensional El modelo multidimensional describe la organización de la información en un DW. Define los conceptos para agregar hechos a lo largo de muchos atributos, llamados dimensiones.
  • 4. 2.2.1 Conceptos Dimensión Una dimensión representa una perspectiva de los datos. Las dimensiones son usadas para seleccionar y agregar datos a un cierto nivel deseado de detalle. Podemos definir el concepto de dimensión como el grado de libertad de movimiento en el espacio. Entenderemos esta libertad como el número de direcciones ortogonales diferentes que podamos tomar [18]. Las dimensiones se relacionan en jerarquías o niveles. Por ejemplo, la dimensión Zona puede tener los siguientes niveles: ciudad, estado, región, país y continente. Otro ejemplo es la dimensión Tiempo que presenta los siguientes niveles: día, semana, mes y año [21]. Medida Una medida es un valor en un espacio multidimensional definido por dimensiones ortogonales [1]. La medida es un dato numérico que representa la agregación de un conjunto de datos. Los datos son producidos como resultado del funcionamiento de una empresa. Un DW comúnmente tiene tres tipos de medidas [25]: • Snapshots: modelan entidades en un punto dado en el tiempo. • Eventos: modelan eventos del mundo real, con el grano más fino. • Snapshots fijos acumulativos: modelan actividades en un punto dado en el tiempo. Dependiendo de sus propiedades podemos tener medidas:
  • 5. • Aditivas, pueden ser combinadas a lo largo de cualquier dimensión. Por ejemplo “temperatura”, que puede estar dada por las dimensiones estación, región y fecha. • Semi – aditivas, pueden no ser combinadas a lo largo de una o más dimensiones. Por ejemplo “nómina” que puede estar dada por las dimensiones empleados y tiempo, pero no producto. • No aditivas, no pueden combinarse a lo largo de ninguna dimensión. Por ejemplo “cantidad de producto”, que únicamente puede estar dada por la dimensión producto. Cubo Una instancia del modelo multidimensional, esquema multidimensional, es conocida como cubo o hipercubo de n dimensiones. Cuando la gente observa los datos en un cubo de n dimensiones, es más fácil interpretar la información que contiene dicho cubo, así como las distintas operaciones que se le pueden realizar Para ejemplificar consideremos la existencia de una aplicación que realiza la venta de juguetes. Para organizar sus ventas se define el cubo formado por las dimensiones: producto, tiempo y región. La figura 2.2 presenta el esquema multidimensional de un DW para la venta de productos que organiza un conjunto de medidas según las dimensiones REGIÓN, TIEMPO y PRODUCTO.
  • 6. Región (ciudad – estado- región- país) Puebla n Martes 26 Muñeca Tiempo Producto (día – mes – año) (unidad – grupo – familia) Figura 2.2. Esquema multidimensional Cada dimensión tiene asociada una jerarquía de niveles que denotan la granularidad de observación de la medida con respecto a una dimensión. Por ejemplo, la dimensión REGIÓN se organiza por Ciudad à Estado à RegiónàPaís. Así se puede observar la cantidad de muñecas vendidas el martes 26 en la tienda ubicada en la ciudad de Puebla. 2.2.2 Esquema de representación Un esquema multidimensional puede instrumentarse usando un esquema relacional en estrella (Star Schema) o usando un esquema copo de nieve (Show Flake Schema) [1]. Un esquema en estrella está formado por una tabla por cada dimensión y una tabla principal de hechos. En la tabla de hechos cada uno de los atributos es a una llave extranjera hacia cada tabla de dimensión como se puede apreciar en la figura 2.3.
  • 7. Región Id_Ciudad nombre dirección region Medida Id_Producto Id_Ciudad Id_Tiempo unid_vendidas Producto Id_Producto descripción marca grupo familia tipo precio Tiempo Id_Tiempo fecha Figura 2.3 Esquema en estrella En un esquema copo de nieve las tablas de dimensiones están normalizadas. Esto evita redundancia en los datos. Este esquema representa mejor la semántica de las dimensiones del ambiente de los negocios, ya que tiene un acceso más directo a los datos [1]. La figura 2.4 muestra el esquema copo de nieve de nuestro ejemplo.
  • 8. Id Región región Región Id_Ciudad nombre dirección Tabla de hechos Id_Producto Id_Ciudad Id_Tiempo unid_vendidas Id_Producto descripción marca tipo precio Id_Tiempo día Tiempo Id_Mes mes Id_Grupo grupo Id_Año año Producto Id_Familia familia Figura 2.4. Esquema copo de nieve 2.3 Construcción y mantenimiento de un DW 2.3.1 Construcción Para poder llevar a cabo la construcción del DW, se necesitan herramientas de extracción de datos a partir de las fuentes externas. Estas herramientas extraen y homogenizan los datos y se comunican con un integrador que integra los datos con respecto al esquema del DW [1].
  • 9. La Figura 2.5 presenta la arquitectura del mecanismo de construcción de un DW que consiste en un conjunto de extractores asociados a las fuentes. Un extractor interactúa con la fuente para extraer la información y la transforma a una representación comprendida por un integrador. El extractor conoce el formato de las fuentes, el formato de representación de datos del DW, el protocolo de comunicación y la ubicación de ambos. extractor extractor integrador DW extractor Figura 2.5. Arquitectura básica de la construcción de un DW El integrador integra la información y calcula los valores agregados con respecto al esquema del DW [2]. Las tareas principales del integrador son: combinar los datos obtenidos de las diversas fuentes y cargar estos datos ya integrados en el DW [5].
  • 10. 2.3.2 Mantenimiento El mantenimiento del DW o “refrescado” asegura contar con datos actualizados. Existen dos formas de refrescar los datos: la primera es llevar los datos al DW segundos después de que las fuentes fueron actualizadas. La segunda es acumulando y almacenando los datos ya integrados y transformados, en un sitio intermedio para que de forma periódica pasar la información al DW. El refrescado se puede realizar de manera incremental o recalculando todos los datos. El refrescado de un DW está considerado como un problema difícil debido a las siguientes razones: primero, el volumen de datos almacenados en el DW es muy grande y crece cada vez más. Segundo, el refrescado debe ser accesible a los diferentes cambios de ejecución del DW. Finalmente, el refrescado engloba transacciones que por lo regular acceden múltiples datos, lo que implicaría contar con cálculos que pueden convertirse en complejos ya que producirían un alto nivel de agregación. 2.4 Explotación de un DW La explotación consiste en llevar a cabo consultas al DW. Cuando hablamos de consultas nos referimos a la manipulación, análisis y visualización de la información que realiza el usuario sobre la información del DW. Para el análisis de los datos almacenados en el DW se utiliza la tecnología OLAP (On-Line Analytical Processing). Ésta tecnología cuenta con operadores tales como: Slice´n dice roll-up y drill-down [1].
  • 11. Slice´n dice permite restringir los valores asociados a una o varias dimensiones del cubo, es decir, toma un subconjunto de dimensiones y de niveles seleccionados del DW [4]. En la figura 2.6 se observa un ejemplo en el que se restringe el resultado para analizar solo las ventas de las cubetas y los trapeadores en 2003 y 2002 en Monterrey y Puebla. PRODUCTO 300 Cubeta Trapeador 850 630 900 100 898 2001 349 300 280 Escoba 2002 TIEMPO 2003 Monterrey Yucatán Puebla REGIÓN PRODUCTO Cubeta Slice ´n dice Trapeador 300 850 900 100 2002 2003 Monterrey TIEMPO Puebla REGIÓN Figura 2.6 Operador Slice ´n dice Roll-up agrega medidas que van de un nivel Ni a un nivel más general Nj de una dimensión. Permite analizar la información a través de diferentes niveles de granularidad de las dimensiones. Drill-down es la operación inversa. A partir de un nivel superior éste
  • 12. operador permite bajar de nivel. En la figura 2.7 se observa un claro ejemplo de cómo la dimensión tiempo cambia de nivel días a meses y viceversa. PRODUCTO Cubeta Trapeador Escoba Abril Yucatán Monterrey Drill - down TIEMPO Puebla REGIÓN PRODUCTO Roll - up Cubeta Trapeador día30 día 29 día 2 día 1 TIEMPO Escoba Monterrey Yucatán Puebla REGIÓN Figura 2.7 Operadores drill-down y roll-up 2.5 Discusión En este capítulo se explicó la tecnología que se usará para resolver las necesidades de la empresa “Textiles Carmelita”. Se definieron conceptos importantes como dimensión y medida para poder representar un esquema multidimensional. Se explicaron las fases de construcción y explotación de un DW. Esta tecnología permite organizar la información
  • 13. para analizarla y tomar decisiones que le permiten obtener ventajas competitivas y mejorar su posición en el mercado en el que opera. Con el apoyo de esta tecnología esta empresa puede responder preguntas tales como: ¿Cuál es el perfil de sus clientes? ¿Cómo es su comportamiento con respecto a las compras? ¿Cuál es la utilidad de sus ventas? ¿Cuál es la evaluación de sus inventarios en el tiempo?