1. Universidad Austral de Chile
Facultad de Cs. Económicas y Administrativas
Escuela de Ingeniería Comercial
Laboratorio de Sistemas de Información Empresarial
ADMI – 273
“Data Warehouse”
Integrantes:
Carol Ruiz
Pablo Navarro
Jorge Huaquin
Marisa Mera
Ayudante:
Jose Luis Carrasco
Valdivia, 06 de Junio de 2010
2. INTRODUCCION
Hoy en día toda empresa necesita depositar mucha confianza
en la toma de decisiones sobre los negocios por lo que requerimos
hechos y cifras, con las que tomaremos decisiones en nuestra
empresa y estas deberán ser mas aceleradas; por este motivo se
requieren herramientas que nos ayuden a minimizar el tiempo para
analizar mucha información con mayor velocidad y precisión; El
Componente de Bussines Intelligence que resuelve este caos de los
datos es el Data Warehouse el cual es un conjunto de procesos y
acciones, es una colección de datos orientados a un tema, integrados
y no volátiles en el soporte al proceso de toma de decisiones de la
gerencia.
3. I. DEFINICION DE CONCEPTOS
1. BUSINESS INTELLIGENCE
Business Intelligence es la habilidad para transformar los datos
en información, y la información en conocimiento, de forma que se
pueda optimizar el proceso de toma de decisiones en los negocios.
Desde un punto de vista más pragmático, y asociándolo
directamente con las tecnologías de la información, podemos definir
Business Intelligence como el conjunto de metodologías,
aplicaciones y tecnologías que permiten reunir, depurar y
transformar datos de los sistemas transaccionales e
información desestructurada (interna y externa a la
compañía) en información estructurada, para su explotación
directa (reporting, análisis OLTP / OLAP, alertas...) o para su
análisis y conversión en conocimiento, dando así soporte a la
toma de decisiones sobre el negocio.
Los principales productos de Business Intelligence que existen
hoy en día son:
- Cuadros de Mando Integrales (CMI)
- Sistemas de Soporte a la Decisión (DSS)
- Sistemas de Información Ejecutiva (EIS)
Por otro lado, los principales componentes de orígenes de datos
en el Business Intelligence que existen en la actualidad son:
- Datamart
- Datawarehouse
Los sistemas y componentes del BI se diferencian de los
sistemas operacionales en que están optimizados para preguntar y
divulgar sobre datos. Esto significa típicamente que, en un
datawarehouse, los datos están desnormalizados para apoyar
consultas de alto rendimiento, mientras que en los sistemas
operacionales suelen encontrarse normalizados para apoyar
operaciones continuas de inserción, modificación y borrado de datos.
En este sentido, los procesos ETL (extracción, transformación y
4. carga), que nutren los sistemas BI, tienen que traducir de uno o
varios sistemas operacionales normalizados e independientes a un
único sistema desnormalizado, cuyos datos estén completamente
integrados.
En definitiva, una solución BI completa
permite:
- Observar ¿qué está ocurriendo?
- Comprender ¿por qué ocurre?
- Predecir ¿qué ocurriría?
- Colaborar ¿qué debería hacer el
equipo?
- Decidir ¿qué camino se debe
seguir?
5. BI como solución tecnológica
- Centralizar, depurar y afianzar los datos. Las tecnologías de
BI permiten reunir, normalizar y centralizar toda la
información de la empresa, mediante un almacén de datos,
permitiendo así su explotación sin esfuerzo. De esta forma,
los departamentos comercial, operativo y financiero basan
las decisiones estratégicas en la misma información.
- Descubrir información no evidente para las aplicaciones
actuales.
- Optimizar el rendimiento de los sistemas. Las plataformas de
BI se diseñan para perfeccionar al máximo las consultas de
alto nivel, realizando las transformaciones oportunas a cada
sistema (OLTP - OLAP), y liberando los servidores
operacionales.
BI como ventaja competitiva
- Seguimiento real del plan estratégico. Si su empresa dispone
de plan estratégico, el business intelligence le permite,
mediante un cuadro de mando, crear, manejar y monitorizar
las métricas y los objetivos estratégicos propuestos en ese
plan, para poder detectar a tiempo las desviaciones,
adoptando las acciones oportunas para corregirlas.
- Mejorar la competitividad. Este mecanismo les permite
maximizar su rentabilidad.
- Obtener el verdadero valor de las aplicaciones de gestión.
Con el business intelligence, todos los empleados, desde el
director general hasta el último analista, tienen acceso a
información adecuada, integrada y actualizada
Ejemplo de Business Intelligence
Operador de telecomunicaciones
Este ejemplo hace referencia a uno de los mayores operadores
de telecomunicación del mundo, con más de 91 millones de clientes
en 220 países de los cinco continentes. Esta organización cuenta con
190.000 empleados y ofrece una gama completa de servicios de
telecomunicaciones: telefonía local, internacional y móvil; internet y
multimedia; transporte de datos; y difusión de TV por cable. En los
últimos años, la empresa ha venido utilizando los sistemas
informáticos como un arma estratégica fundamental en la batalla
entre operadores de telecomunicaciones. El objetivo de una de sus
principales iniciativas ha sido reducir las inconsistencias en los datos
y compartir la información de manera más eficaz entre las diferentes
6. áreas de negocio, implementando en toda la organización estándares
en el campo del software de gestión.
2. ERP
Los sistemas de planificación de recursos empresariales (en
inglés ERP, Enterprise Resource Planning) son sistemas de gestión de
información que integran y automatizan muchas de las prácticas de
negocio asociadas con los aspectos operativos o productivos de una
empresa.
Se caracterizan por estar compuestos por diferentes partes
integradas en una única aplicación. Estas partes son de diferente uso,
por ejemplo: producción, ventas, compras, logística, contabilidad (de
varios tipos), gestión de proyectos, GIS (sistema de información
geográfica), inventarios y control de almacenes, pedidos, nóminas,
etc. Sólo podemos definir un ERP como la integración de todas estas
partes. El ERP integra todo lo necesario para el funcionamiento de los
procesos de negocio de la empresa.
Objetivos y características de un ERP
Los objetivos principales de un sistema ERP son:
- Optimización de los procesos empresariales.
- Acceso a toda la información de forma confiable, precisa y
oportuna (integridad de datos).
- La posibilidad de compartir información entre todos los
componentes de la organización.
- Eliminación de datos y operaciones innecesarias (o
redundantes).
- Reducción de tiempos y de los costes de los procesos (mediante
procesos de reingeniería).
Las características que distinguen a un ERP de un simple software
empresarial es que debe ser un sistema integral, modular y adaptable
Integral
Porque permite controlar los diferentes procesos de la compañía
bajo la óptica de que todos los departamentos de una empresa se
relacionan entre sí, es decir, que el resultado de un proceso es punto
de inicio del siguiente. Por ejemplo, si un cliente hace un pedido esto
representa que se crea una orden de venta que desencadena el
proceso de producción, de control de inventarios, de planificación de
distribución del producto, cobro, y por supuesto sus respectivos
movimientos contables. Si la empresa no usa un ERP y son soluciones
departamentales no integradas las que controlan todos los procesos
mencionados, la información se duplica y crece el margen de
contaminación en la información (sobre todo por errores de captura).
Con un ERP, el operador simplemente captura el pedido y el sistema
7. se encarga de todo lo demás, por lo que la información no se
manipula y se encuentra protegida.
Modular
Una de sus ventajas, tanto económica como técnica es que la
funcionalidad se encuentra dividida en módulos, que pueden
instalarse de acuerdo con los requerimientos del cliente.
Adaptable
Los ERP están creados para adaptarse a la condición de cada
empresa. Esto se logra por medio de la configuración o
parametrización de los procesos de acuerdo con las salidas que se
necesiten de cada uno. La parametrización es el valor añadido
fundamental que se debe hacer con cualquier ERP para adaptarlo a
las necesidades concretas de cada empresa.
Módulos de un ERP
Los módulos de un sistema ERP varían dependiendo de las
características de la empresa, pues son muy diferentes los
requerimientos en organizaciones en las que, por ejemplo, su
principal negocio es la producción, la distribución o los servicios.
Algunos de los módulos más comunes son:
- Gestión Financiera
- Gestión de Ventas
- Gestión de Compras
- Gestión de la Distribución y Logística
- Gestión y planificación de la Producción
- Gestión de Proyectos
- Gestión de Recursos Humanos
Ejemplos de ERP en empresas internacionales
KFC
El manejo de ERP dentro de una empresa de más de 60 años
como KFC es notable, actualmente presenta cambios tecnológicos en
su sitio web, para hacer los negocios más rápidos con empresas como
TACO BELL, PIZZA HUT, servicios online, sin necesidad de estar
presente.
GM
GM siendo una empresa con mayor demanda de vehículos
alrededor del mundo, necesita contar con información confiable
oportuna y veraz, por tal razón trabajan en red con los demás países.
De igual manera el usuario de ésta pagina podrá desplazarse de un
lugar a otro dentro de las páginas web de las marcas de vehículos de
8. GM ( Chevrolet, Cadillac, Saturn, Buick y Hummer), Indagando y
aportando información relevante para la organización.
3. ETL
Extract, Transform and Load (Extraer, transformar y cargar en
inglés, frecuentemente abreviado a ETL) es el proceso que permite a
las organizaciones mover datos desde múltiples fuentes,
reformatearlos y limpiarlos, y cargarlos en otra base de datos, data
mart, o data warehouse para analizar, o en otro sistema operacional
para apoyar un proceso de negocio.
Los procesos ETL también se pueden utilizar para la integración
con sistemas heredados.
a) Extraer
La primera parte del proceso ETL consiste en extraer los datos
desde los sistemas de origen. La mayoría de los proyectos de
almacenamiento de datos fusionan datos provenientes de diferentes
sistemas de origen. Cada sistema separado puede usar una
organización diferente de los datos o formatos distintos. Los formatos
de las fuentes normalmente se encuentran en bases de datos
relacionales o ficheros planos, pero pueden incluir bases de datos no
relacionales u otras estructuras diferentes. La extracción convierte los
datos a un formato preparado para iniciar el proceso de
transformación.
Una parte intrínseca del proceso de extracción es la de analizar
los datos extraídos, de lo que resulta un chequeo que verifica si los
datos cumplen la pauta o estructura que se esperaba. De no ser así
los datos son rechazados.
Un requerimiento importante que se debe exigir a la tarea de
extracción es que ésta cause un impacto mínimo en el sistema
origen. Si los datos a extraer son muchos, el sistema de origen se
podría ralentizar e incluso colapsar, provocando que éste no pueda
utilizarse con normalidad para su uso cotidiano. Por esta razón, en
sistemas grandes las operaciones de extracción suelen programarse
en horarios o días donde este impacto sea nulo o mínimo.
b) Transformar
9. La fase de transformación aplica una serie de reglas de negocio
o funciones sobre los datos extraídos para convertirlos en datos que
serán cargados. Algunas fuentes de datos requerirán alguna pequeña
manipulación de los datos. No obstante en otros casos pueden ser
necesarias aplicar algunas de las siguientes transformaciones:
- Seleccionar sólo ciertas columnas para su carga (por ejemplo, que
las columnas con valores nulos no se carguen).
- Traducir códigos (por ejemplo, si la fuente almacena una "H" para
Hombre y "M" para Mujer pero el destino tiene que guardar "1"
para Hombre y "2" para Mujer).
- Codificar valores libres (por ejemplo, convertir "Hombre" en "H" o
"Sr" en "1").
- Obtener nuevos valores calculados (por ejemplo, total_venta =
cantidad * precio).
- Unir datos de múltiples fuentes (por ejemplo, búsquedas,
combinaciones, etc.).
- Calcular totales de múltiples filas de datos (por ejemplo, ventas
totales de cada región).
- Generación de campos clave en el destino.
- Transponer o pivotar (girando múltiples columnas en filas o
viceversa).
- Dividir una columna en varias (por ejemplo, columna "Nombre:
García, Miguel"; pasar a dos columnas "Nombre: Miguel" y
"Apellido: García").
- La aplicación de cualquier forma, simple o compleja, de validación
de datos, y la consiguiente aplicación de la acción que en cada
caso se requiera:
- Datos OK: Entregar datos a la siguiente etapa (Carga).
- Datos Erróneos: Ejecutar políticas de tratamiento de
excepciones (por ejemplo, rechazar el registro completo, dar al
campo erróneo un valor nulo o un valor centinela).
c) Carga
La fase de carga es el momento en el cual los datos de la fase
anterior (transformación) son cargados en el sistema de destino.
Dependiendo de los requerimientos de la organización, este proceso
puede abarcar una amplia variedad de acciones diferentes. En
algunas bases de datos se sobrescribe la información antigua con
nuevos datos. Los data warehouse mantienen un historial de los
registros de manera que se pueda hacer una auditoría de los mismos
y disponer de un rastro de toda la historia de un valor a lo largo del
tiempo.
Existen dos formas básicas de desarrollar el proceso de carga:
- Acumulación simple: La acumulación simple es la más sencilla y
común, y consiste en realizar un resumen de todas las
10. transacciones comprendidas en el período de tiempo seleccionado
y transportar el resultado como una única transacción hacia el
data warehouse, almacenando un valor calculado que consistirá
típicamente en un sumatorio o un promedio de la magnitud
considerada.
- Rolling: El proceso de Rolling por su parte, se aplica en los casos
en que se opta por mantener varios niveles de granularidad. Para
ello se almacena información resumida a distintos niveles,
correspondientes a distintas agrupaciones de la unidad de tiempo
o diferentes niveles jerárquicos en alguna o varias de las
dimensiones de la magnitud almacenada (por ejemplo, totales
diarios, totales semanales, totales mensuales, etc.).
La fase de carga interactúa directamente con la base de datos de
destino. Al realizar esta operación se aplicarán todas las restricciones
y triggers (disparadores) que se hayan definido en ésta (por ejemplo,
valores únicos, integridad referencial, campos obligatorios, rangos de
valores). Estas restricciones y triggers (si están bien definidos)
contribuyen a que se garantice la calidad de los datos en el proceso
ETL, y deben ser tenidos en cuenta.
Ejemplo de ETL
Oracle Warehouse Builder (OWB)
Oracle Warehouse Builder es un cliente de ETL que permite al
usuario tomar ventaja de múltiples herramientas de ETL que hacen
más fácil la gestión de datos. Oracle Warehouse Builder cuenta con
funciones completas de modelado, los datos del cribado de calidad,
las herramientas de auditoría, así como los datos y características de
gestión de metadatos. Oracle Warehouse Builder utiliza la base de
datos Oracle para almacenar metadatos y se ha incorporado un motor
de transformación que da a Oracle Warehouse Builder mayor
rendimiento y mayor seguridad que sus competidores. Oracle
Warehouse Builder también es fácilmente escalable a las necesidades
del usuario y que permite a los líderes empresariales de todos los
orígenes para mejorar su empresa, utilizando el software.
4. INTERFASE WEB
Hace ya algunos años comenzó el fenómeno de la revolución de
la comunicación entre seres humanos: Internet y la WWW. Con la
aparición de la web se hizo posible que cualquier persona pudiera
ofrecer información particularizada a los demás y encontrar
documentos interactivos sobre cualquier tema, lograr informarse en
11. tiempo real, relacionados unos con otros mediante enlaces que
permitían saltar de página en página alrededor del mundo.
Las páginas web por ende supusieron la aparición de las interfaces
web, interfaces gráficas de usuario con unos elementos comunes de
presentación y navegación que pronto se convirtieron en estándares
en toda la industria web. Este tipo de interfaces deben servir de
intermediarias entre unos usuarios genéricos, no acostumbrados
generalmente al uso de aplicaciones informáticas, y unos sistemas de
información y procesos transaccionales que corren por debajo,
debiendo posibilitar la localización de la información deseada, el
entendimiento claro de las funcionalidades ofrecidas, la realización
práctica de tareas específicas por parte de los usuarios y la
navegación intuitiva por las diferentes páginas que forman el sitio
web.
Ejemplo
Cualquier interacción que se pueda producir entre un usuario y una
página web, al realizar una búsqueda de información etc.
5. INTERFASE CLIENTE-SERVIDOR
QUE ES UN CLIENTE
Es el que inicia un requerimiento de servicio. El requerimiento
inicial puede convertirse en múltiples requerimientos de trabajo a
través de redes LAN o WAN. La ubicación de los datos o de las
aplicaciones es totalmente transparente para el cliente.
QUE ES UN SERVIDOR
12. Es cualquier recurso de cómputo dedicado a responder a los
requerimientos del cliente. Los servidores pueden estar conectados a
los clientes a través de redes LANs o WANs, para proveer de
múltiples servicios a los clientes y ciudadanos tales como impresión,
acceso a bases de datos, fax, procesamiento de imágenes, etc.
Esta arquitectura consiste básicamente en un cliente que realiza
peticiones a otro programa (el servidor) que le da respuesta. Aunque
esta idea se puede aplicar a programas que se ejecutan sobre una
sola computadora es más ventajosa en un sistema operativo
multiusuario distribuido a través de una red de computadoras.
En esta arquitectura la capacidad de proceso está repartida
entre los clientes y los servidores, aunque son más importantes las
ventajas de tipo organizativo debidas a la centralización de la gestión
de la información y la separación de responsabilidades, lo que facilita
y clarifica el diseño del sistema.
La separación entre cliente y servidor es una separación de tipo
lógico, donde el servidor no se ejecuta necesariamente sobre una
sola máquina ni es necesariamente un sólo programa. Los tipos
específicos de servidores incluyen los servidores web, los servidores
de archivo, los servidores del correo, etc. Mientras que sus propósitos
varían de unos servicios a otros, la arquitectura básica seguirá siendo
la misma.
Ejemplo:
Visitar un sitio web es un buen ejemplo de la arquitectura
cliente/servidor. El servidor web sirve las páginas web al navegador
(el cliente). La mayoría de los servicios de Internet son tipo de
servidores. Por ejemplo, si estás leyendo este artículo en Wikipedia,
la computadora y el navegador web serían considerados un cliente, y
las computadoras, las bases de datos, y los usos que componen
Wikipedia serían considerados el servidor.
6. MODELO DE DATOS
Un modelo de datos es un lenguaje orientado a describir una Base
de Datos. Típicamente un modelo de datos permite describir:
- Las estructuras de datos de la base: El tipo de los datos que
hay en la base y la forma en que se relacionan.
- Las restricciones de integridad: Un conjunto de condiciones que
deben cumplir los datos para reflejar correctamente la realidad
deseada.
13. - Operaciones de manipulación de los datos: típicamente,
operaciones de agregado, borrado, modificación y recuperación
de los datos de la base.
Un modelo de datos es un lenguaje que, típicamente, tiene dos
sublenguajes:
Lenguaje de Definición de Datos o DDL (Data definition
Language), orientado a describir de una forma abstracta las
estructuras de datos y las restricciones de integridad.
Lenguaje de Manipulación de Datos o DML (Data
Manipulation Language), orientado a describir las operaciones
de manipulación de los datos.
A la parte del DML orientada a la recuperación de datos,
usualmente se le llama Lenguaje de Consulta o QL (Query
Language).
Una opción bastante usada a la hora de clasificar los modelos de
datos es hacerlo de acuerdo al nivel de abstracción que presentan:
Modelos de Datos Conceptuales
Son los orientados a la descripción de estructuras de datos y
restricciones de integridad. Se usan fundamentalmente durante la
etapa de Análisis de un problema dado y están orientados a
representar los elementos que intervienen en ese problema y sus
relaciones. El ejemplo más típico es el Modelo Entidad-Relación.
Modelos de Datos Lógicos
Son orientados a las operaciones más que a la descripción de una
realidad. Usualmente están implementados en algún Manejador de
Base de Datos. El ejemplo más típico es el Modelo Relacional, que
cuenta con la particularidad de contar también con buenas
características conceptuales (Normalización de bases de datos).
Modelos de Datos Físicos
Son estructuras de datos a bajo nivel implementadas dentro del
propio manejador. Ejemplos típicos de estas estructuras son los
Árboles B+, las estructuras de Hash, etc.
A. ER (Entidad Relación)
14. El Modelo Entidad-Relación, también conocido como DER
(diagramas entidad-relación) es una herramienta de modelado para
bases de datos, propuesto por Peter Chen en 1976, mediante el cual
se pretende 'visualizar' los objetos que pertenecen a la Base de Datos
como entidades (se corresponde al concepto de clase, cada tupla
representaría un objeto, de la Programación Orientada a Objetos) las
cuales tienen unos atributos y se vinculan mediante relaciones.
Es una representación conceptual de la información. Mediante
una serie de procedimientos se puede pasar del modelo E-R a otros,
como por ejemplo el modelo relacional.
El modelado entidad-relación es una técnica para el modelado
de datos utilizando diagramas entidad relación.
B. UML (Lenguaje de Modelado Unificado)
Es el lenguaje de modelado de sistemas de software más
conocido y utilizado en la actualidad; está respaldado por el OMG
(Object Management Group). Es un lenguaje gráfico para visualizar,
especificar, construir y documentar un sistema. UML ofrece un
estándar para describir un "plano" del sistema (modelo), incluyendo
aspectos conceptuales tales como procesos de negocio y funciones
del sistema, y aspectos concretos como expresiones de lenguajes de
programación, esquemas de bases de datos y componentes
reutilizables.
En UML 2.0 hay 13 tipos diferentes de diagramas. Para
comprenderlos de manera concreta, a veces es útil categorizarlos
jerárquicamente, como se muestra en la figura de la derecha.
Los Diagramas de Estructura enfatizan en los elementos que deben
existir en el sistema modelado:
- Diagrama de clases
- Diagrama de componentes
- Diagrama de objetos
- Diagrama de estructura compuesta (UML 2.0)
- Diagrama de despliegue
- Diagrama de paquetes
15. Los Diagramas de Comportamiento enfatizan en lo que debe
suceder en el sistema modelado:
- Diagrama de actividades
- Diagrama de casos de uso
- Diagrama de estados
- Diagrama de secuencia
Los Diagramas de Interacción son un subtipo de diagramas de
comportamiento, que enfatiza sobre el flujo de control y de datos
entre los elementos del sistema modelado:
- Diagrama de secuencia
- Diagrama de comunicación, que es una versión
simplificada del Diagrama de colaboración (UML 1.x)
- Diagrama de tiempos (UML 2.0)
- Diagrama global de interacciones o Diagrama de vista
de interacción (UML 2.0)
C. OO (Orientado a Objetos)
El modelo de bases de datos orientado a objetos es una
adaptación a los sistemas de bases de datos. Se basa en el concepto
de encapsulamiento de datos y código que opera sobre estos en un
objeto. Los objetos estructurados se agrupan en clases. El conjunto
de clases está estructurado en sub y superclases basado en una
extensión del concepto ISA del modelo Entidad - Relación. Puesto que
el valor de un dato en un objeto también es un objeto, es posible
representar el contenido del objeto dando como resultado un objeto
compuesto.
El propósito de los sistemas de bases de datos es la gestión de
grandes cantidades de información. Las primeras bases de datos
surgieron del desarrollo de los sistemas de gestión de archivos. Estos
sistemas primero evolucionaron en bases de datos de red o en bases
de datos jerárquicas y, más tarde, en bases de datos relacionales.
El modelo orientado a objetos se basa en encapsular código y
datos en una única unidad, llamada objeto. El interfaz entre un objeto
y el resto del sistema se define mediante un conjunto de mensajes.
Un objeto tiene asociado:
- Un conjunto de variables que contienen los datos del objeto. El
valor de cada variable es un objeto.
- Un conjunto de mensajes a los que el objeto responde.
- Un método, que es un trozo de código para implementar cada
mensaje. Un método devuelve un valor como respuesta al
mensaje.
16. El término mensaje en un contexto orientado a objetos, no
implica el uso de un mensaje físico en una red de computadoras, si
no que se refiere al paso de solicitudes entre objetos sin tener en
cuenta detalles específicos de implementación.
La capacidad de modificar la definición de un objeto sin afectar
al resto del sistema está considerada como una de las mayores
ventajas del modelo de programación orientado a objetos.
7. ETAPAS DEL DISEÑO DE UN DW
La metodología propuesta por SAS Institute: la "Rapid
Warehousing Methodology" consta de 5 fases:
- Definición de objetivos
- Definición de los requerimientos de información
- Diseño y modelización
- Implementación
- Revisión
Definición de los objetivos
Se definirá el alcance del sistema y cuales son las funciones que
el Data Warehouse realizará como suministrador de información de
17. negocio estratégica para la empresa. Se definirán así mismo, los
parámetros que permitan evaluar el éxito del proyecto.
Definición de los requerimientos de información
Tal como sucede en todo tipo de proyectos, sobre todo si
involucran técnicas novedosas como son las relativas al Data
Warehouse, es analizar las necesidades y hacer comprender las
ventajas que este sistema puede reportar.
Diseño y modelización
Los requerimientos de información identificados durante la
anterior fase proporcionarán las bases para realizar el diseño y la
modelización del Data Warehouse.
En esta fase se identificarán las fuentes de los datos (sistema
operacional, fuentes externas,..) y las transformaciones necesarias
para, a partir de dichas fuentes, obtener el modelo lógico de datos
del Data Warehouse. Este modelo estará formado por entidades y
relaciones que permitirán resolver las necesidades de negocio de la
organización.
El modelo lógico se traducirá posteriormente en el modelo físico
de datos que se almacenará en el Data Warehouse y que definirá la
arquitectura de almacenamiento del Data Warehouse adaptándose al
tipo de explotación que se realice del mismo.
La mayor parte estas definiciones de los datos del Data
Warehouse estarán almacenadas en los metadatos y formarán parte
del mismo.
Implementación
La implantación de un Data Warehouse lleva implícitos los
siguientes pasos:
- Extracción de los datos del sistema operacional y
transformación de los mismos.
- Carga de los datos validados en el Data Warehouse. Esta
carga deberá ser planificada con una periodicidad que se
adaptará a las necesidades de refresco detectadas durante
las fases de diseño del nuevo sistema.
- Explotación del Data Warehouse mediante diversas técnicas
dependiendo del tipo de aplicación que se dé a los datos:
Query & Reporting
On-line analytical processing (OLAP)
Executive Information System (EIS) ó Información de
gestión
18. Decision Support Systems (DSS)
Visualización de la información
Data Mining ó Minería de Datos, etc.
La información necesaria para mantener el control sobre los
datos se almacena en los metadatos técnicos (cuando describen las
características físicas de los datos) y de negocio (cuando describen
cómo se usan esos datos). Dichos metadatos deberán ser accesibles
por los usuarios finales que permitirán en todo momento tanto al
usuario, como al administrador que deberá además tener la facultad
de modificarlos según varíen las necesidades de información.
Con la finalización de esta fase se obtendrá un Data Warehouse
disponible para su uso por parte de los usuarios finales y el
departamento de informática.
Revisión
La construcción del Data Warehouse no finaliza con la
implantación del mismo, sino que es una tarea iterativa en la que se
trata de incrementar su alcance aprendiendo de las experiencias
anteriores. Después de implantarse, debería realizarse una revisión
del Data Warehouse planteando preguntas que permitan, después de
los seis o nueve meses posteriores a su puesta en marcha, definir
cuáles serían los aspectos a mejorar o potenciar en función de la
utilización que se haga del nuevo sistema.
8. MODELOS DE DW
A. Star Schema
Consiste en estructurar la información en procesos, vistas y
métricas recordando a una estrella (por ello el nombre star schema).
Es decir, tendremos una visión multidimensional de un proceso que
medimos a través de unas métricas. A nivel de diseño, consiste en
una tabla de hechos (fact table) en el centro para el hecho objeto de
análisis y una o varias tablas de dimensión (dimension table) por
cada dimensión de análisis que participa de la descripción de ese
hecho. En la tabla de hecho encontramos los atributos destinados a
medir (cuantificar) el hecho: sus métricas. Mientras, en las tablas de
dimensión, los atributos se destinan a elementos de nivel (que
representan los distintos niveles de las jerarquías de dimensión) y a
atributos de dimensión (encargados de la descripción de estos
elementos de nivel). En el esquema en estrella la tabla de hechos es
la única tabla del esquema que tiene múltiples joins que la conectan
con otras tablas (foreign keys hacia otras tablas). El resto de tablas
del esquema (tablas de dimensión) únicamente hacen join con esta
tabla de hechos. Las tablas de dimensión se encuentran además
19. totalmente desnormalizadas, es decir, toda la información referente a
una dimensión se almacena en la misma tabla.
B. Snowflake Schema
Es un esquema de representación derivado del esquema en
estrella, en el que las tablas de dimensión se normalizan en múltiples
tablas. Por esta razón, la tabla de hechos deja de ser la única tabla
del esquema que se relaciona con otras tablas, y aparecen nuevas
joins gracias a que las dimensiones de análisis se representan ahora
en tablas de dimensión normalizadas. En la estructura dimensional
normalizada, la tabla que representa el nivel base de la dimensión es
la que hace join directamente con la tabla de hechos. La diferencia
entre ambos esquemas (star y snowflake) reside entonces en la
estructura de las tablas de dimensión. Para conseguir un esquema en
copo de nieve se ha de tomar un esquema en estrella y conservar la
tabla de hechos, centrándose únicamente en el modelado de las
tablas de dimensión, que si bien en el esquema en estrella se
encontraban totalmente denormalizadas, ahora se dividen en
subtablas tras un proceso de normalización. Es posible distinguir dos
tipos de esquemas en copo de nieve, un snowflake completo (en el
que todas las tablas de dimensión en el esquema en estrella aparecen
ahora normalizadas en el snowflake) o un snowflake parcial (sólo se
lleva a cabo la normalización de algunas de ellas).
20. 9. AREA DE NEGOCIO PARA APLICAR BI
Área Seleccionada: Maderera
La maderera es una microempresa que se dedica a la venta de
maderas elaboradas cepilladas y manufacturadas, además de pisos,
frisos, marcos de puertas y ventanas, en general madera estructural.
También se dedica a las prestaciones de servicios tales como
dimensionado, impregnación y secado. Esta fue elegida debido a que
al ser una microempresa no cuenta con ningún tipo de sistema que le
proporcione la información necesaria para llevar a cabo la toma de
desiciones.
21. CONCLUSION
Un DW en cambio, está orientado a mejorar el proceso de toma
de decisiones, el cual resulta ser un proceso muy variable a través del
tiempo debido a las diversas y cambiantes situaciones en las cuales
se deben analizar los datos, haciendo de su diseño un proceso
definido en una forma mucho menos precisa.
Es muy importante considerar que los profesionales
informáticos que participen en el proyecto, tengan un conocimiento
del tema de negocios que contemplará existiendo un trabajo en
conjunto con los usuarios finales de la aplicación, esto debido a que
se debe tener por lo menos una proyección de los requerimientos
futuros para poder darle un cierto nivel de flexibilidad a la estructura
dimensional.