SlideShare una empresa de Scribd logo
1 de 13
Descargar para leer sin conexión
Capítulo 2 Tecnología data warehouse
El objetivo de éste capítulo es mostrar la tecnología data warehouse (DW) como una
herramienta para analizar la información. Este capítulo se encuentra organizado de la
siguiente manera. En la sección 2.1 se analiza la arquitectura de un DW. La sección 2.2
define el modelo multidimensional y muestra los diferentes esquemas relacionales para
implementar un esquema multidimensional como esquema relacional. En la sección 2.3 se
explicará la construcción del DW, es decir el cargado de la información y el refrescado de
la misma. En la sección 2.4 se discutirá el análisis que se puede llevar a cabo en un DW y la
sección 2.5 concluye el capítulo.
2.1 Arquitectura de un DW
Un DW es una colección de grandes cantidades de datos que se encuentran seleccionados,
organizados e historiados para soportar aplicaciones. Un DW es un repositorio donde se
almacena de manera integrada la información de una organización. Se almacenan datos con
el objetivo de obtener información estratégica y táctica para predecir o ayudar en la toma de
decisiones [21].
A diferencia de un sistema tradicional de bases de datos, un DW brinda soporte de análisis
a una empresa. Algunas de sus principales características son: ejecutar consultas para
facilitar el análisis de datos, la cantidad de datos administrados sobrepasan los miles incluso
llegan a ser millones, su uso se basa en la lectura y puede soportar un gran número de
usuarios.
La figura 2.1 muestra la arquitectura básica de un DW. En la parte inferior de la figura se
pueden ver las fuentes conectadas a un extractor – monitor. El extractor es un módulo
responsable de homogenizar la información. El monitor es el responsable de detectar los
cambios que puedan ser realizados en las fuentes y reportarlos al integrador [2].
Figura 2.1. Arquitectura básica de un DW
El integrador recibe los resultados de los extractores y después de integrarlos, los carga al
DW. Para poder cargar la información, se debe diseñar una estructura, para almacenar los
datos, el esquema multidimensional del DW.
fuente fuente
extractor /monitor extractor /monitor
integrador
DW
Fase
Construcción
Fase
Explotación
Administrador de consultas
Interfaz
El administrador de consultas se encarga de organizar las consultas y seleccionar los
operadores para permitir su análisis. Para explicar la actividad de un DW podemos
identificar dos grandes fases: construcción y explotación.
La fase de construcción se refiere al diseño e implementación de las herramientas
encargadas de llevar los datos de las fuentes al repositorio. Tomando en cuenta que se debe
integrar y homogenizar la información previamente. Un proceso posterior pero asociado a
esta misma fase es el proceso de mantenimiento. Este se encarga de llevar los datos nuevos
al DW.
En la fase de explotación se lleva a cabo el análisis de los datos almacenados dentro del
DW a través de técnicas que facilitan y hacen más eficiente su consulta. Ya con el DW
poblado lo último es diseñar e implementar una interfaz que le permita al usuario final
interactuar con el repositorio, brindándole todas las ventajas del análisis de la información.
2.2 Modelo multidimensional
El modelo multidimensional describe la organización de la información en un DW. Define
los conceptos para agregar hechos a lo largo de muchos atributos, llamados dimensiones.
2.2.1 Conceptos
Dimensión
Una dimensión representa una perspectiva de los datos. Las dimensiones son usadas para
seleccionar y agregar datos a un cierto nivel deseado de detalle. Podemos definir el
concepto de dimensión como el grado de libertad de movimiento en el espacio.
Entenderemos esta libertad como el número de direcciones ortogonales diferentes que
podamos tomar [18].
Las dimensiones se relacionan en jerarquías o niveles. Por ejemplo, la dimensión Zona
puede tener los siguientes niveles: ciudad, estado, región, país y continente. Otro ejemplo
es la dimensión Tiempo que presenta los siguientes niveles: día, semana, mes y año [21].
Medida
Una medida es un valor en un espacio multidimensional definido por dimensiones
ortogonales [1]. La medida es un dato numérico que representa la agregación de un
conjunto de datos. Los datos son producidos como resultado del funcionamiento de una
empresa. Un DW comúnmente tiene tres tipos de medidas [25]:
• Snapshots: modelan entidades en un punto dado en el tiempo.
• Eventos: modelan eventos del mundo real, con el grano más fino.
• Snapshots fijos acumulativos: modelan actividades en un punto dado en el tiempo.
Dependiendo de sus propiedades podemos tener medidas:
• Aditivas, pueden ser combinadas a lo largo de cualquier dimensión. Por ejemplo
“temperatura”, que puede estar dada por las dimensiones estación, región y fecha.
• Semi – aditivas, pueden no ser combinadas a lo largo de una o más dimensiones.
Por ejemplo “nómina” que puede estar dada por las dimensiones empleados y
tiempo, pero no producto.
• No aditivas, no pueden combinarse a lo largo de ninguna dimensión. Por ejemplo
“cantidad de producto”, que únicamente puede estar dada por la dimensión
producto.
Cubo
Una instancia del modelo multidimensional, esquema multidimensional, es conocida como
cubo o hipercubo de n dimensiones. Cuando la gente observa los datos en un cubo de n
dimensiones, es más fácil interpretar la información que contiene dicho cubo, así como las
distintas operaciones que se le pueden realizar
Para ejemplificar consideremos la existencia de una aplicación que realiza la venta de
juguetes. Para organizar sus ventas se define el cubo formado por las dimensiones:
producto, tiempo y región. La figura 2.2 presenta el esquema multidimensional de un DW
para la venta de productos que organiza un conjunto de medidas según las dimensiones
REGIÓN, TIEMPO y PRODUCTO.
Figura 2.2. Esquema multidimensional
Cada dimensión tiene asociada una jerarquía de niveles que denotan la granularidad de
observación de la medida con respecto a una dimensión. Por ejemplo, la dimensión
REGIÓN se organiza por Ciudad à Estado à RegiónàPaís. Así se puede observar la
cantidad de muñecas vendidas el martes 26 en la tienda ubicada en la ciudad de Puebla.
2.2.2 Esquema de representación
Un esquema multidimensional puede instrumentarse usando un esquema relacional en
estrella (Star Schema) o usando un esquema copo de nieve (Show Flake Schema) [1]. Un
esquema en estrella está formado por una tabla por cada dimensión y una tabla principal de
hechos. En la tabla de hechos cada uno de los atributos es a una llave extranjera hacia cada
tabla de dimensión como se puede apreciar en la figura 2.3.
n
Producto
Región
Tiempo
Martes 26
Puebla
Muñeca
(ciudad – estado- región- país)
(día – mes – año)
(unidad – grupo – familia)
Figura 2.3 Esquema en estrella
En un esquema copo de nieve las tablas de dimensiones están normalizadas. Esto evita
redundancia en los datos. Este esquema representa mejor la semántica de las dimensiones
del ambiente de los negocios, ya que tiene un acceso más directo a los datos [1]. La figura
2.4 muestra el esquema copo de nieve de nuestro ejemplo.
Medida
Id_Ciudad
nombre
dirección
region
Región
Id_Producto
descripción
marca
grupo
familia
tipo
precio
Producto
Id_Tiempo
fecha
Tiempo
Id_Producto
Id_Ciudad
Id_Tiempo
unid_vendidas
Figura 2.4. Esquema copo de nieve
2.3 Construcción y mantenimiento de un DW
2.3.1 Construcción
Para poder llevar a cabo la construcción del DW, se necesitan herramientas de extracción
de datos a partir de las fuentes externas. Estas herramientas extraen y homogenizan los
datos y se comunican con un integrador que integra los datos con respecto al esquema del
DW [1].
Tabla de hechos
Id_Ciudad
nombre
dirección
Región
Id_Producto
descripción
marca
tipo
precio
Producto
Id_Tiempo
díaTiempo
Id_Producto
Id_Ciudad
Id_Tiempo
unid_vendidas
Id Región
región
Id_Mes
mes
Id_Año
año
Id_Grupo
grupo
Id_Familia
familia
La Figura 2.5 presenta la arquitectura del mecanismo de construcción de un DW que
consiste en un conjunto de extractores asociados a las fuentes. Un extractor interactúa con
la fuente para extraer la información y la transforma a una representación comprendida por
un integrador. El extractor conoce el formato de las fuentes, el formato de representación de
datos del DW, el protocolo de comunicación y la ubicación de ambos.
Figura 2.5. Arquitectura básica de la construcción de un DW
El integrador integra la información y calcula los valores agregados con respecto al
esquema del DW [2]. Las tareas principales del integrador son: combinar los datos
obtenidos de las diversas fuentes y cargar estos datos ya integrados en el DW [5].
extractor
DWintegradorextractor
extractor
2.3.2 Mantenimiento
El mantenimiento del DW o “refrescado” asegura contar con datos actualizados. Existen
dos formas de refrescar los datos: la primera es llevar los datos al DW segundos después de
que las fuentes fueron actualizadas. La segunda es acumulando y almacenando los datos ya
integrados y transformados, en un sitio intermedio para que de forma periódica pasar la
información al DW. El refrescado se puede realizar de manera incremental o recalculando
todos los datos.
El refrescado de un DW está considerado como un problema difícil debido a las siguientes
razones: primero, el volumen de datos almacenados en el DW es muy grande y crece cada
vez más. Segundo, el refrescado debe ser accesible a los diferentes cambios de ejecución
del DW. Finalmente, el refrescado engloba transacciones que por lo regular acceden
múltiples datos, lo que implicaría contar con cálculos que pueden convertirse en complejos
ya que producirían un alto nivel de agregación.
2.4 Explotación de un DW
La explotación consiste en llevar a cabo consultas al DW. Cuando hablamos de consultas
nos referimos a la manipulación, análisis y visualización de la información que realiza el
usuario sobre la información del DW. Para el análisis de los datos almacenados en el DW
se utiliza la tecnología OLAP (On-Line Analytical Processing). Ésta tecnología cuenta con
operadores tales como: Slice´n dice roll-up y drill-down [1].
Slice´n dice permite restringir los valores asociados a una o varias dimensiones del cubo, es
decir, toma un subconjunto de dimensiones y de niveles seleccionados del DW [4]. En la
figura 2.6 se observa un ejemplo en el que se restringe el resultado para analizar solo las
ventas de las cubetas y los trapeadores en 2003 y 2002 en Monterrey y Puebla.
Figura 2.6 Operador Slice ´n dice
Roll-up agrega medidas que van de un nivel Ni a un nivel más general Nj de una
dimensión. Permite analizar la información a través de diferentes niveles de granularidad de
las dimensiones. Drill-down es la operación inversa. A partir de un nivel superior éste
349 300 280
900 100 898
300 850 630
Cubeta
Escoba
Trapeador
PRODUCTO
REGIÓN
Monterrey
Puebla
Yucatán
TIEMPO
2001
2002
2003
Trapeador
900 100
300 850
REGIÓN
Monterrey Puebla
TIEMPO
2002
2003
Cubeta
PRODUCTO
Slice ´n dice
operador permite bajar de nivel. En la figura 2.7 se observa un claro ejemplo de cómo la
dimensión tiempo cambia de nivel días a meses y viceversa.
Figura 2.7 Operadores drill-down y roll-up
2.5 Discusión
En este capítulo se explicó la tecnología que se usará para resolver las necesidades de la
empresa “Textiles Carmelita”. Se definieron conceptos importantes como dimensión y
medida para poder representar un esquema multidimensional. Se explicaron las fases de
construcción y explotación de un DW. Esta tecnología permite organizar la información
Trapeador
PRODUCTO
TIEMPO
Monterrey Yucatán
Escoba
Cubeta
Puebla
REGIÓN
día30
TIEMPO
REGIÓN
Monterrey
Puebla
Yucatán
PRODUCTO
Cubeta
Trapeador
Escoba
Abril
Roll - up
Drill - down
día 29
día 2
día 1
para analizarla y tomar decisiones que le permiten obtener ventajas competitivas y mejorar
su posición en el mercado en el que opera. Con el apoyo de esta tecnología esta empresa
puede responder preguntas tales como: ¿Cuál es el perfil de sus clientes? ¿Cómo es su
comportamiento con respecto a las compras? ¿Cuál es la utilidad de sus ventas? ¿Cuál es la
evaluación de sus inventarios en el tiempo?

Más contenido relacionado

Destacado (9)

Photoshop
PhotoshopPhotoshop
Photoshop
 
Revistasjulio02.compressed
Revistasjulio02.compressedRevistasjulio02.compressed
Revistasjulio02.compressed
 
Fabula problema
Fabula problemaFabula problema
Fabula problema
 
Article
ArticleArticle
Article
 
Los símbolos patrios del perú
Los símbolos patrios del perúLos símbolos patrios del perú
Los símbolos patrios del perú
 
Props and costumes
Props and costumesProps and costumes
Props and costumes
 
Perfil span02
Perfil span02Perfil span02
Perfil span02
 
Jonatan.maila
Jonatan.mailaJonatan.maila
Jonatan.maila
 
Plan estratégico Mariel y Yeneli DVIII
Plan estratégico Mariel y Yeneli DVIIIPlan estratégico Mariel y Yeneli DVIII
Plan estratégico Mariel y Yeneli DVIII
 

Similar a Data warehouse

DATA WAREHOUSE
DATA WAREHOUSEDATA WAREHOUSE
DATA WAREHOUSE
Grupo Dos
 
Analisis services
Analisis servicesAnalisis services
Analisis services
Irene Lorza
 

Similar a Data warehouse (20)

DATA WAREHOUSE
DATA WAREHOUSEDATA WAREHOUSE
DATA WAREHOUSE
 
Arquitectura de un dw
Arquitectura de un dwArquitectura de un dw
Arquitectura de un dw
 
Ciclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negociosCiclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negocios
 
Trabajo ayudantia
Trabajo ayudantiaTrabajo ayudantia
Trabajo ayudantia
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Estructuras basicas
Estructuras basicasEstructuras basicas
Estructuras basicas
 
Estructuras basicas
Estructuras basicas Estructuras basicas
Estructuras basicas
 
Estructuras basicas
Estructuras basicasEstructuras basicas
Estructuras basicas
 
Estructuras básicas
Estructuras básicasEstructuras básicas
Estructuras básicas
 
Estructuras basicas
Estructuras basicasEstructuras basicas
Estructuras basicas
 
Creacion de data mart
Creacion de data martCreacion de data mart
Creacion de data mart
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introduction
 
M4 sbd s01
M4 sbd s01M4 sbd s01
M4 sbd s01
 
M4 sbd s01
M4 sbd s01M4 sbd s01
M4 sbd s01
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Analisis services
Analisis servicesAnalisis services
Analisis services
 
Josue
JosueJosue
Josue
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
La planificación
La planificaciónLa planificación
La planificación
 
tarea 3 ayudantia
tarea 3 ayudantiatarea 3 ayudantia
tarea 3 ayudantia
 

Más de Doris Aguagallo (20)

Universidad nacional de chimborazo
Universidad nacional de chimborazoUniversidad nacional de chimborazo
Universidad nacional de chimborazo
 
Doris 5
Doris 5Doris 5
Doris 5
 
Doris
DorisDoris
Doris
 
Pract.3 aguagallo doris
Pract.3 aguagallo dorisPract.3 aguagallo doris
Pract.3 aguagallo doris
 
Rep01 aguagallo doris
Rep01 aguagallo dorisRep01 aguagallo doris
Rep01 aguagallo doris
 
La computadora-1217776129057718-9
La computadora-1217776129057718-9La computadora-1217776129057718-9
La computadora-1217776129057718-9
 
Codigo ascii
Codigo asciiCodigo ascii
Codigo ascii
 
Introduccion a las telecomunicaciones
Introduccion a las telecomunicacionesIntroduccion a las telecomunicaciones
Introduccion a las telecomunicaciones
 
Aguagallo doris 07
Aguagallo  doris 07Aguagallo  doris 07
Aguagallo doris 07
 
Aguagallo doris 06
Aguagallo doris  06Aguagallo doris  06
Aguagallo doris 06
 
Aguagallo doris informe
Aguagallo doris informeAguagallo doris informe
Aguagallo doris informe
 
Aguagallo doris 005
Aguagallo doris 005Aguagallo doris 005
Aguagallo doris 005
 
Aguagallo doris t 004
Aguagallo  doris t 004Aguagallo  doris t 004
Aguagallo doris t 004
 
Aguagallo doris t 3
Aguagallo doris t 3Aguagallo doris t 3
Aguagallo doris t 3
 
Aguagallo doris 005
Aguagallo doris 005Aguagallo doris 005
Aguagallo doris 005
 
Aguagallo doris t 004
Aguagallo  doris t 004Aguagallo  doris t 004
Aguagallo doris t 004
 
Aguagallo doris t 3
Aguagallo doris t 3Aguagallo doris t 3
Aguagallo doris t 3
 
002 teoria de redes
002 teoria de redes002 teoria de redes
002 teoria de redes
 
Aguagallo doris 1
Aguagallo doris 1Aguagallo doris 1
Aguagallo doris 1
 
Universidad nacional de chimborazo
Universidad nacional de chimborazoUniversidad nacional de chimborazo
Universidad nacional de chimborazo
 

Último

Las Preguntas Educativas entran a las Aulas CIAESA Ccesa007.pdf
Las Preguntas Educativas entran a las Aulas CIAESA  Ccesa007.pdfLas Preguntas Educativas entran a las Aulas CIAESA  Ccesa007.pdf
Las Preguntas Educativas entran a las Aulas CIAESA Ccesa007.pdf
Demetrio Ccesa Rayme
 
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONRESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
amelia poma
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria
Wilian24
 

Último (20)

Las Preguntas Educativas entran a las Aulas CIAESA Ccesa007.pdf
Las Preguntas Educativas entran a las Aulas CIAESA  Ccesa007.pdfLas Preguntas Educativas entran a las Aulas CIAESA  Ccesa007.pdf
Las Preguntas Educativas entran a las Aulas CIAESA Ccesa007.pdf
 
PP_Comunicacion en Salud: Objetivación de signos y síntomas
PP_Comunicacion en Salud: Objetivación de signos y síntomasPP_Comunicacion en Salud: Objetivación de signos y síntomas
PP_Comunicacion en Salud: Objetivación de signos y síntomas
 
Novena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan EudesNovena de Pentecostés con textos de san Juan Eudes
Novena de Pentecostés con textos de san Juan Eudes
 
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACIONRESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
RESOLUCIÓN VICEMINISTERIAL 00048 - 2024 EVALUACION
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria
 
activ4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdfactiv4-bloque4 transversal doctorado.pdf
activ4-bloque4 transversal doctorado.pdf
 
La Evaluacion Formativa SM6 Ccesa007.pdf
La Evaluacion Formativa SM6  Ccesa007.pdfLa Evaluacion Formativa SM6  Ccesa007.pdf
La Evaluacion Formativa SM6 Ccesa007.pdf
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024
 
ACERTIJO EL NÚMERO PI COLOREA EMBLEMA OLÍMPICO DE PARÍS. Por JAVIER SOLIS NOYOLA
ACERTIJO EL NÚMERO PI COLOREA EMBLEMA OLÍMPICO DE PARÍS. Por JAVIER SOLIS NOYOLAACERTIJO EL NÚMERO PI COLOREA EMBLEMA OLÍMPICO DE PARÍS. Por JAVIER SOLIS NOYOLA
ACERTIJO EL NÚMERO PI COLOREA EMBLEMA OLÍMPICO DE PARÍS. Por JAVIER SOLIS NOYOLA
 
AEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptxAEC 2. Aventura en el Antiguo Egipto.pptx
AEC 2. Aventura en el Antiguo Egipto.pptx
 
Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024Tema 19. Inmunología y el sistema inmunitario 2024
Tema 19. Inmunología y el sistema inmunitario 2024
 
Presentación de la propuesta de clase.pdf
Presentación de la propuesta de clase.pdfPresentación de la propuesta de clase.pdf
Presentación de la propuesta de clase.pdf
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdf
 
Santa Criz de Eslava, la más monumental de las ciudades romanas de Navarra
Santa Criz de Eslava, la más monumental de las ciudades romanas de NavarraSanta Criz de Eslava, la más monumental de las ciudades romanas de Navarra
Santa Criz de Eslava, la más monumental de las ciudades romanas de Navarra
 
animalesdelaproincia de beunos aires.pdf
animalesdelaproincia de beunos aires.pdfanimalesdelaproincia de beunos aires.pdf
animalesdelaproincia de beunos aires.pdf
 
Sesión de clase APC: Los dos testigos.pdf
Sesión de clase APC: Los dos testigos.pdfSesión de clase APC: Los dos testigos.pdf
Sesión de clase APC: Los dos testigos.pdf
 
Planeacion para 1er Grado - (2023-2024)-1.docx
Planeacion para 1er Grado - (2023-2024)-1.docxPlaneacion para 1er Grado - (2023-2024)-1.docx
Planeacion para 1er Grado - (2023-2024)-1.docx
 
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdfPlan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
Plan-de-la-Patria-2019-2025- TERCER PLAN SOCIALISTA DE LA NACIÓN.pdf
 
UNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docx
UNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docxUNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docx
UNIDAD DIDACTICA nivel inicial EL SUPERMERCADO.docx
 

Data warehouse

  • 1. Capítulo 2 Tecnología data warehouse El objetivo de éste capítulo es mostrar la tecnología data warehouse (DW) como una herramienta para analizar la información. Este capítulo se encuentra organizado de la siguiente manera. En la sección 2.1 se analiza la arquitectura de un DW. La sección 2.2 define el modelo multidimensional y muestra los diferentes esquemas relacionales para implementar un esquema multidimensional como esquema relacional. En la sección 2.3 se explicará la construcción del DW, es decir el cargado de la información y el refrescado de la misma. En la sección 2.4 se discutirá el análisis que se puede llevar a cabo en un DW y la sección 2.5 concluye el capítulo. 2.1 Arquitectura de un DW Un DW es una colección de grandes cantidades de datos que se encuentran seleccionados, organizados e historiados para soportar aplicaciones. Un DW es un repositorio donde se almacena de manera integrada la información de una organización. Se almacenan datos con el objetivo de obtener información estratégica y táctica para predecir o ayudar en la toma de decisiones [21]. A diferencia de un sistema tradicional de bases de datos, un DW brinda soporte de análisis a una empresa. Algunas de sus principales características son: ejecutar consultas para facilitar el análisis de datos, la cantidad de datos administrados sobrepasan los miles incluso
  • 2. llegan a ser millones, su uso se basa en la lectura y puede soportar un gran número de usuarios. La figura 2.1 muestra la arquitectura básica de un DW. En la parte inferior de la figura se pueden ver las fuentes conectadas a un extractor – monitor. El extractor es un módulo responsable de homogenizar la información. El monitor es el responsable de detectar los cambios que puedan ser realizados en las fuentes y reportarlos al integrador [2]. Figura 2.1. Arquitectura básica de un DW El integrador recibe los resultados de los extractores y después de integrarlos, los carga al DW. Para poder cargar la información, se debe diseñar una estructura, para almacenar los datos, el esquema multidimensional del DW. fuente fuente extractor /monitor extractor /monitor integrador DW Fase Construcción Fase Explotación Administrador de consultas Interfaz
  • 3. El administrador de consultas se encarga de organizar las consultas y seleccionar los operadores para permitir su análisis. Para explicar la actividad de un DW podemos identificar dos grandes fases: construcción y explotación. La fase de construcción se refiere al diseño e implementación de las herramientas encargadas de llevar los datos de las fuentes al repositorio. Tomando en cuenta que se debe integrar y homogenizar la información previamente. Un proceso posterior pero asociado a esta misma fase es el proceso de mantenimiento. Este se encarga de llevar los datos nuevos al DW. En la fase de explotación se lleva a cabo el análisis de los datos almacenados dentro del DW a través de técnicas que facilitan y hacen más eficiente su consulta. Ya con el DW poblado lo último es diseñar e implementar una interfaz que le permita al usuario final interactuar con el repositorio, brindándole todas las ventajas del análisis de la información. 2.2 Modelo multidimensional El modelo multidimensional describe la organización de la información en un DW. Define los conceptos para agregar hechos a lo largo de muchos atributos, llamados dimensiones.
  • 4. 2.2.1 Conceptos Dimensión Una dimensión representa una perspectiva de los datos. Las dimensiones son usadas para seleccionar y agregar datos a un cierto nivel deseado de detalle. Podemos definir el concepto de dimensión como el grado de libertad de movimiento en el espacio. Entenderemos esta libertad como el número de direcciones ortogonales diferentes que podamos tomar [18]. Las dimensiones se relacionan en jerarquías o niveles. Por ejemplo, la dimensión Zona puede tener los siguientes niveles: ciudad, estado, región, país y continente. Otro ejemplo es la dimensión Tiempo que presenta los siguientes niveles: día, semana, mes y año [21]. Medida Una medida es un valor en un espacio multidimensional definido por dimensiones ortogonales [1]. La medida es un dato numérico que representa la agregación de un conjunto de datos. Los datos son producidos como resultado del funcionamiento de una empresa. Un DW comúnmente tiene tres tipos de medidas [25]: • Snapshots: modelan entidades en un punto dado en el tiempo. • Eventos: modelan eventos del mundo real, con el grano más fino. • Snapshots fijos acumulativos: modelan actividades en un punto dado en el tiempo. Dependiendo de sus propiedades podemos tener medidas:
  • 5. • Aditivas, pueden ser combinadas a lo largo de cualquier dimensión. Por ejemplo “temperatura”, que puede estar dada por las dimensiones estación, región y fecha. • Semi – aditivas, pueden no ser combinadas a lo largo de una o más dimensiones. Por ejemplo “nómina” que puede estar dada por las dimensiones empleados y tiempo, pero no producto. • No aditivas, no pueden combinarse a lo largo de ninguna dimensión. Por ejemplo “cantidad de producto”, que únicamente puede estar dada por la dimensión producto. Cubo Una instancia del modelo multidimensional, esquema multidimensional, es conocida como cubo o hipercubo de n dimensiones. Cuando la gente observa los datos en un cubo de n dimensiones, es más fácil interpretar la información que contiene dicho cubo, así como las distintas operaciones que se le pueden realizar Para ejemplificar consideremos la existencia de una aplicación que realiza la venta de juguetes. Para organizar sus ventas se define el cubo formado por las dimensiones: producto, tiempo y región. La figura 2.2 presenta el esquema multidimensional de un DW para la venta de productos que organiza un conjunto de medidas según las dimensiones REGIÓN, TIEMPO y PRODUCTO.
  • 6. Figura 2.2. Esquema multidimensional Cada dimensión tiene asociada una jerarquía de niveles que denotan la granularidad de observación de la medida con respecto a una dimensión. Por ejemplo, la dimensión REGIÓN se organiza por Ciudad à Estado à RegiónàPaís. Así se puede observar la cantidad de muñecas vendidas el martes 26 en la tienda ubicada en la ciudad de Puebla. 2.2.2 Esquema de representación Un esquema multidimensional puede instrumentarse usando un esquema relacional en estrella (Star Schema) o usando un esquema copo de nieve (Show Flake Schema) [1]. Un esquema en estrella está formado por una tabla por cada dimensión y una tabla principal de hechos. En la tabla de hechos cada uno de los atributos es a una llave extranjera hacia cada tabla de dimensión como se puede apreciar en la figura 2.3. n Producto Región Tiempo Martes 26 Puebla Muñeca (ciudad – estado- región- país) (día – mes – año) (unidad – grupo – familia)
  • 7. Figura 2.3 Esquema en estrella En un esquema copo de nieve las tablas de dimensiones están normalizadas. Esto evita redundancia en los datos. Este esquema representa mejor la semántica de las dimensiones del ambiente de los negocios, ya que tiene un acceso más directo a los datos [1]. La figura 2.4 muestra el esquema copo de nieve de nuestro ejemplo. Medida Id_Ciudad nombre dirección region Región Id_Producto descripción marca grupo familia tipo precio Producto Id_Tiempo fecha Tiempo Id_Producto Id_Ciudad Id_Tiempo unid_vendidas
  • 8. Figura 2.4. Esquema copo de nieve 2.3 Construcción y mantenimiento de un DW 2.3.1 Construcción Para poder llevar a cabo la construcción del DW, se necesitan herramientas de extracción de datos a partir de las fuentes externas. Estas herramientas extraen y homogenizan los datos y se comunican con un integrador que integra los datos con respecto al esquema del DW [1]. Tabla de hechos Id_Ciudad nombre dirección Región Id_Producto descripción marca tipo precio Producto Id_Tiempo díaTiempo Id_Producto Id_Ciudad Id_Tiempo unid_vendidas Id Región región Id_Mes mes Id_Año año Id_Grupo grupo Id_Familia familia
  • 9. La Figura 2.5 presenta la arquitectura del mecanismo de construcción de un DW que consiste en un conjunto de extractores asociados a las fuentes. Un extractor interactúa con la fuente para extraer la información y la transforma a una representación comprendida por un integrador. El extractor conoce el formato de las fuentes, el formato de representación de datos del DW, el protocolo de comunicación y la ubicación de ambos. Figura 2.5. Arquitectura básica de la construcción de un DW El integrador integra la información y calcula los valores agregados con respecto al esquema del DW [2]. Las tareas principales del integrador son: combinar los datos obtenidos de las diversas fuentes y cargar estos datos ya integrados en el DW [5]. extractor DWintegradorextractor extractor
  • 10. 2.3.2 Mantenimiento El mantenimiento del DW o “refrescado” asegura contar con datos actualizados. Existen dos formas de refrescar los datos: la primera es llevar los datos al DW segundos después de que las fuentes fueron actualizadas. La segunda es acumulando y almacenando los datos ya integrados y transformados, en un sitio intermedio para que de forma periódica pasar la información al DW. El refrescado se puede realizar de manera incremental o recalculando todos los datos. El refrescado de un DW está considerado como un problema difícil debido a las siguientes razones: primero, el volumen de datos almacenados en el DW es muy grande y crece cada vez más. Segundo, el refrescado debe ser accesible a los diferentes cambios de ejecución del DW. Finalmente, el refrescado engloba transacciones que por lo regular acceden múltiples datos, lo que implicaría contar con cálculos que pueden convertirse en complejos ya que producirían un alto nivel de agregación. 2.4 Explotación de un DW La explotación consiste en llevar a cabo consultas al DW. Cuando hablamos de consultas nos referimos a la manipulación, análisis y visualización de la información que realiza el usuario sobre la información del DW. Para el análisis de los datos almacenados en el DW se utiliza la tecnología OLAP (On-Line Analytical Processing). Ésta tecnología cuenta con operadores tales como: Slice´n dice roll-up y drill-down [1].
  • 11. Slice´n dice permite restringir los valores asociados a una o varias dimensiones del cubo, es decir, toma un subconjunto de dimensiones y de niveles seleccionados del DW [4]. En la figura 2.6 se observa un ejemplo en el que se restringe el resultado para analizar solo las ventas de las cubetas y los trapeadores en 2003 y 2002 en Monterrey y Puebla. Figura 2.6 Operador Slice ´n dice Roll-up agrega medidas que van de un nivel Ni a un nivel más general Nj de una dimensión. Permite analizar la información a través de diferentes niveles de granularidad de las dimensiones. Drill-down es la operación inversa. A partir de un nivel superior éste 349 300 280 900 100 898 300 850 630 Cubeta Escoba Trapeador PRODUCTO REGIÓN Monterrey Puebla Yucatán TIEMPO 2001 2002 2003 Trapeador 900 100 300 850 REGIÓN Monterrey Puebla TIEMPO 2002 2003 Cubeta PRODUCTO Slice ´n dice
  • 12. operador permite bajar de nivel. En la figura 2.7 se observa un claro ejemplo de cómo la dimensión tiempo cambia de nivel días a meses y viceversa. Figura 2.7 Operadores drill-down y roll-up 2.5 Discusión En este capítulo se explicó la tecnología que se usará para resolver las necesidades de la empresa “Textiles Carmelita”. Se definieron conceptos importantes como dimensión y medida para poder representar un esquema multidimensional. Se explicaron las fases de construcción y explotación de un DW. Esta tecnología permite organizar la información Trapeador PRODUCTO TIEMPO Monterrey Yucatán Escoba Cubeta Puebla REGIÓN día30 TIEMPO REGIÓN Monterrey Puebla Yucatán PRODUCTO Cubeta Trapeador Escoba Abril Roll - up Drill - down día 29 día 2 día 1
  • 13. para analizarla y tomar decisiones que le permiten obtener ventajas competitivas y mejorar su posición en el mercado en el que opera. Con el apoyo de esta tecnología esta empresa puede responder preguntas tales como: ¿Cuál es el perfil de sus clientes? ¿Cómo es su comportamiento con respecto a las compras? ¿Cuál es la utilidad de sus ventas? ¿Cuál es la evaluación de sus inventarios en el tiempo?