SlideShare una empresa de Scribd logo
1 de 31
Año de la Promoción de la Industria Responsable y del Compromiso
Climático
“Universidad Privada
San Pedro”
Integrantes:
 Balcázar Vega Kelly Xiomara
 Moran Gallo Jhonatan
 Chamba Jiménez Segundo
Curso: Base de Datos II
Tema: Almacén de Datos (data warehouse)
Profesor(a): Rivera Montero Freddy
Sullana 2014
Universidad san Pedro
Facultad Ing. Informática y de Sistemas
Escuela de Ingeniería
Almacén de Datos
Profesor: Rivera Montero Freddy
Autores: Moran Gallo Jhonatan
Balcázar Vega Kelly
Chamba Jiménez Segundo
Sullana, Mayo 6
Índice
1 Introducción
2 Presentación
3 Resumen
4 Almacén de Datos
4.1 Definiciones de almacén de datos
4.1.1 Definición de Bill Inmon
4.1.2 Definición de Ralph Kimball
4.1.3 Una definición más amplia de almacén de datos
5 Arquitectura
5.1 Nivel operacional
5.2 Almacén de datos o DW
5.3 Nivel departamental (Data Mart)
5.4 Nivel individual
6 Función de un Almacén de Datos
7 Procesos
8 Cubos de Información
8.1 Dimensiones
8.2 Variables
8.3 Ejemplos
9 Limpieza de Datos
10. ¿Qué es estandarización? importancia de la estandarización de direcciones para
las empresas de hoy en día?
11. ¿Cómo está integrado un almacén de datos?
11.1 Metadatos
11.2 Funciones ETL (extracción, transformación y carga)
11.3 Middleware
12 Diseño de un almacén de datos
13 Almacén de datos especial
14 Los elementos básicos de un Almacén de Datos (Data WareHouse)
15 Objetivos de Un Almacén de Datos
16 Características
16.4 No Volátil
16.3 De tiempo variante
16.2 Temático
16.1 Integrado
17 Ventajas e Inconvenientes
17.1 Ventajas
17.2 Inconvenientes
18 Conclusiones
19 Bibliografía
1. Introducción
Desde un inicio, las bases de datos se convirtieron en una herramienta fundamental de
control y manejo de las operaciones comerciales. Fue así como en unos pocos años en
grandes empresas y negocios existía un considerable número de información almacenada
en diferentes fuentes de datos y estas ya habían alcanzado un tamaño considerablemente
grande.
Con esta gran acumulación de información, los directivos de tales empresas y negocios
se dieron cuenta que esta podría tener un fin útil, al estar reflejada la mayoría de sus
operaciones comerciales durante los llamados ciclos de negocios propios del mercado.
A su vez, los mercados empresariales han experimentado una transformación radical. Las
empresas demandan mayor rapidez y eficiencia en la entrega de productos, y mejora en
todos los servicios existentes, por lo que se hace imprescindible encontrar formas más
eficaces de distribuir los productos, más facilidades para hacer estudios de mercado
basados en la información de las operaciones comerciales de las empresas y de sus
clientes y, en definitiva, mayor rapidez a la hora de tomar decisiones.
Por tanto, pensaron en lo ideal que sería unificar las diferentes fuentes de información de
las cuales disponían, en un único lugar, al que sólo se le incorporaría información
relevante, sobre la base de una estructura organizada, integrada, lógica, dinámica y de
fácil explotación. La respuesta a esto fueron los Almacenes de Datos o Data Warehouse
(DW).
Sin embargo, para hacer un uso eficiente de la información histórica almacenada en un
DW para la ayuda a la toma de decisiones, era vital garantizar que estos datos fueran
fáciles de obtener, estandarizados y confiables.
Así y todo, el problema de la limpieza de datos es poco tratado o evitado por muchas
empresas, al no considerar adecuadamente el impacto para el negocio de tener
almacenada información deficiente.
2. Presentación
A continuación presentamos todo lo referente a lo que es un almacén de datos o un data
warehouse y todo lo más importante de este tema, veremos información como algunas de
sus definiciones, características, como es su arquitectura, ventajas, desventajas y una
amplia información que espero les pueda servir para que se informen y aclaren sus
dudas acerca de este tema.
3. Resumen
Los almacenes de datos son el centro de atención para las grandes empresas de hoy en
día, ya que constituyen uno de los soportes fundamentales para el proceso de toma de
decisiones gerenciales; de ahí la importancia de que la información guardada en ellos sea
confiable y con calidad. Uno de los procesos en la construcción de estos y que contribuye
a lograr este objetivo es la limpieza de datos, y junto con ella la estandarización de
direcciones.
Para comunicarse efectivamente con sus clientes, por teléfono o por correo, una empresa
debe mantener una lista de sus clientes extraordinariamente limpia y con sus direcciones
normalizadas. Esto evita problemas como el de la pérdida de credibilidad o de imagen de
la organización, al hacer envíos precisos y al brindarle al cliente un servicio más rápido y
profesional.
4. Almacén de Datos
Un Almacén de Datos o Data Warehouse (DW) es un almacén de información temática
orientado a cubrir las necesidades de aplicaciones de los sistemas de Soporte de
Decisiones (DSS) y de la Información de Ejecutivos (EIS), que permite acceder a la
información corporativa para la gestión, control y apoyo a la toma de decisiones.
Dicha información es construida a partir de bases de datos que registran las
transacciones de los negocios de las organizaciones (bases de datos operacionales), y su
importancia reside en elementos como los siguientes:
 Contribuye a la toma de decisiones tácticas y estratégicas proporcionando un
sentido automatizado para identificar información clave desde volúmenes de datos
generados por procesos tradicionales o elementos de software.
 Posibilita medir las acciones y los resultados de una mejor forma.
 Los procesos empresariales pueden ser optimizados. El tiempo perdido esperando
por información que finalmente es incorrecta o no encontrada, es eliminada.
 Permite a los usuarios dar prioridad a decisiones y acciones, por ejemplo, a qué
segmentos de clientes deben ir dirigidas las siguientes acciones de marketing.
4.1 Definiciones de almacén de datos
4.1.1 Definición de Bill Inmon
Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de
datos, define un data warehouse (almacén de datos) en términos de las características del
repositorio de datos:
 Orientado a temas.- Los datos en la base de datos están organizados de manera
que todos los elementos de datos relativos al mismo evento u objeto del mundo
real queden unidos entre sí.
 Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo
quedan registrados para que los informes que se puedan generar reflejen esas
variaciones.
 No volátil.- La información no se modifica ni se elimina, una vez almacenado un
dato, éste se convierte en información de sólo lectura, y se mantiene para futuras
consultas.
 Integrado.- La base de datos contiene los datos de todos los sistemas
operacionales de la organización, y dichos datos deben ser consistentes.
Inmon defiende una metodología descendente (top-down) a la hora de diseñar un
almacén de datos, ya que de esta forma se considerarán mejor todos los datos
corporativos. En esta metodología los Data marts se crearán después de haber terminado
el data warehouse completo de la organización.
4.1.2 Definición de Ralph Kimball
Ralph Kimball2 es otro conocido autor en el tema de los data warehouse, define un
almacén de datos como: "una copia de las transacciones de datos específicamente
estructurada para la consulta y el análisis". También fue Kimball quien determinó que un
data warehouse no era más que: "la unión de todos los Data marts de una entidad".
Defiende por tanto una metodología ascendente (bottom-up) a la hora de diseñar un
almacén de datos.
4.1.3 Una definición más amplia de almacén de datos
Las definiciones anteriores se centran en los datos en sí mismos. Sin embargo, los
medios para obtener esos datos, para extraerlos, transformarlos y cargarlos, las técnicas
para analizarlos y generar información, así como las diferentes formas para realizar la
gestión de datos son componentes esenciales de un almacén de datos. Muchas
referencias a un almacén de datos utilizan esta definición más amplia. Por lo tanto, en
esta definición se incluyen herramientas para extraer, transformar y cargar datos,
herramientas para el análisis (inteligencia empresarial) y herramientas para gestionar y
recuperar los metadatos.
5. Arquitectura
Los bloques funcionales que se corresponden con un sistema de información completo
que utiliza un DW se muestran gráficamente en la Figura:
Arquitectura de un Data Warehouse
5.1 Nivel operacional
Contiene datos primitivos (operacionales) que están siendo permanentemente
actualizados, usados por los sistemas operacionales tradicionales que realizan
operaciones transaccionales.
5.2 Almacén de datos o DW
Contiene datos primitivos correspondientes a sucesivas cargas del DW y algunos datos
derivados. Los datos derivados son datos generados a partir de los datos primitivos al
aplicarles algún tipo de procesamiento (resúmenes).
5.3 Nivel departamental (Data Mart)
Contiene casi exclusivamente datos derivados. Cada departamento de la empresa
determina su nivel departamental con información de interés a dicho nivel. Va a ser el
blanco de salida sobre el cual los datos en el almacén son organizados y almacenados
para las consultas directas por los usuarios finales, los desarrolladores de reportes y otras
aplicaciones.
Entre las características de un data mart destacan:
 Usuarios limitados.
 Área específica.
 Tiene un propósito específico.
 Tiene una función de apoyo.
5.4 Nivel individual
Contiene pocos datos, resultado de aplicar heurísticas, procesos estadísticos, etc., a los
datos contenidos en el nivel anterior. El nivel individual es el objetivo final de un DW.
Desde este nivel accederá el usuario final y se podrán plantear diferentes hipótesis, así
como navegar a través de los datos contenidos en el DW.
6. Función de un Almacén de Datos
En un almacén de datos lo que se quiere es contener datos que son necesarios o útiles
para una organización, es decir, que se utiliza como un repositorio de datos para
posteriormente transformarlos en información útil para el usuario. Un almacén de datos
debe entregar la información correcta a la gente indicada en el momento óptimo y en el
formato adecuado. El almacén de datos da respuesta a las necesidades de usuarios
expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de información
ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales
pueden hacer fácilmente consultas sobre sus almacenes de datos sin tocar o afectar la
operación del sistema.
En el funcionamiento de un almacén de datos son muy importantes las siguientes ideas:
 Integración de los datos provenientes de bases de datos distribuidas por las
diferentes unidades de la organización y que con frecuencia tendrán diferentes
estructuras (fuentes heterogéneas). Se debe facilitar una descripción global y un
análisis comprensivo de toda la organización en el almacén de datos.
 Separación de los datos usados en operaciones diarias de los datos usados en el
almacén de datos para los propósitos de divulgación, de ayuda en la toma de
decisiones, para el análisis y para operaciones de control. Ambos tipos de datos
no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy
distintos y podrían entorpecerse entre sí.
Periódicamente, se importan datos al almacén de datos de los distintos sistemas de
planeamiento de recursos de la entidad (ERP) y de otros sistemas de software
relacionados con el negocio para la transformación posterior. Es práctica común
normalizar los datos antes de combinarlos en el almacén de datos mediante herramientas
de extracción, transformación y carga (ETL). Estas herramientas leen los datos primarios
(a menudo bases de datos OLTP de un negocio), realizan el proceso de transformación al
almacén de datos (filtración, adaptación, cambios de formato, etc.) y escriben en el
almacén.
7. Procesos
Existen un conjunto básico de procesos detrás de una arquitectura de un DW de suma
importancia para el mismo.
Primeramente se realiza el proceso de extracción, que consiste en estudiar y entender los
datos fuente, tomando aquellos que son de utilidad para el almacén. Una vez que los
datos son extraídos, éstos se transforman a una forma presentable y de valor para los
usuarios. Este proceso incluye corrección de errores, resolución de problemas de
dominio, borrado de campos que no son de interés, generación de claves, agregación de
información, etc.
Al terminar el proceso de transformación, se hace la carga de los datos en el DW y
seguido se realizan controles de calidad para asegurar que la misma sea correcta.
Cuando la información se encuentra disponible, se le informa al usuario. Es importante
publicar todos los cambios que se hayan realizado. En este momento ya el usuario final
puede realizar consultas. Este debe disponer de herramientas de consulta y
procesamiento de datos.
A veces es aconsejable seguir el camino inverso de carga. Por ejemplo, pueden
alimentarse los sistemas con información depurada del DW o almacenar en el mismo
alguna consulta generada por el usuario que sea de interés, por eso se realiza la
retroalimentación de datos o feedback.
También se realiza el proceso de auditoría, que permite conocer de dónde proviene la
información así como qué cálculos la generaron.
Ya construido el DW, es de interés para la empresa que llegue la información a la mayor
cantidad de usuarios pero, por otro lado, se tiene sumo cuidado de protegerla contra
posibles 'hackers', 'snoopers' o espías (seguridad).
Además, se deben realizar actividades de backup y restauración de la información, tanto
de la almacenada en el DW como de la que circula desde los sistemas fuente al almacén.
8. Cubos de Información
Los cubos de información o cubos OLAP funcionan como los cubos de rompecabezas en
los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de
organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones,
los cubos OLAP tienen un número indefinido de dimensiones, razón por la cual también
reciben el nombre de hipercubos. Un cubo OLAP contendrá datos de una determinada
variable que se desea analizar, proporcionando una vista lógica de los datos provistos por
el sistema de información hacia el data warehouse, esta vista estará dispuesta según
unas dimensiones y podrá contener información calculada. El análisis de los datos está
basado en las dimensiones del hipercubo, por lo tanto, se trata de un análisis
multidimensional.
A la información de un cubo puede acceder el ejecutivo mediante "tablas dinámicas" en
una hoja de cálculo o a través de programas personalizados. Las tablas dinámicas le
permiten manipular las vistas (cruces, filtrados, organización, totales) de la información
con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de
información se producen con mucha rapidez. Llevando estos conceptos a un data
warehouse, éste es una colección de datos que está formada por «dimensiones» y
«variables», entendiendo como dimensiones a aquellos elementos que participan en el
análisis y variables a los valores que se desean analizar.
8.1 Dimensiones
Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas
de análisis de las variables (forman parte de la tabla de dimensiones). Son catálogos de
información complementaria necesaria para la presentación de los datos a los usuarios,
como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la
información general complementaria a cada uno de los registros de la tabla de hechos.
8.2 Variables
También llamadas “indicadores de gestión”, son los datos que están siendo analizados.
Forman parte de la tabla de hechos. Más formalmente, las variables representan algún
aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las
variables son representadas por valores detallados y numéricos para cada instancia del
objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a las
variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las
mismas. Las dimensiones poseen una granularidad menor, tomando como valores un
conjunto de elementos menor que el de las variables; ejemplos de dimensiones podrían
ser: “productos”, “localidades” (o zonas), “el tiempo” (medido en días, horas, semanas,
etc.)
8.3 Ejemplos
 Ejemplos de variables podrían ser:
 Beneficios
 Gastos
 Ventas
 etc.
Ejemplos de dimensiones podrían ser:
 producto (diferentes tipos o denominaciones de productos)
 localidades (o provincia, o regiones, o zonas geográficas)
 tiempo (medido de diferentes maneras, por horas, por días, por meses, por años,
...)
 tipo de cliente (casado/soltero, joven/adulto/anciano, ...)
 etc.
Según lo anterior, podríamos construir un cubo de información sobre el índice de ventas
(variable a estudiar) en función del producto vendido, la provincia, el mes del año y si el
cliente está casado o soltero (dimensiones). Tendríamos un cubo de 4 dimensiones.
9. Limpieza de Datos
Generalmente las empresas no cuentan con aplicaciones únicas para cada parte de la
operativa del negocio, sino que pueden tener replicaciones y distintos sistemas para
atender un mismo conjunto de operaciones, y en esos casos es probable que las bases
de datos de los sistemas operacionales contengan datos duplicados, a veces erróneos,
superfluos o incompletos. A esto se le suman los posibles errores a la hora de la entrada
de datos a los sistemas de datos operacionales. Estas, y otras mostradas en la Figura,
son algunas de las cuestiones que contribuyen a la suciedad de los datos.
Algunos errores que provocan suciedad en los datos
La limpieza de datos se encuentra dentro del proceso de transformación de datos. Esta,
es mucho más que simplemente actualizar registros con datos buenos. Una limpieza de
datos seria, involucra descomposición y reensamblaje de datos. La limpieza de datos se
puede dividir en seis pasos: separar en elementos, estandarizar, verificar, machear,
agrupar y documentar.
Por ejemplo, si tenemos direcciones de clientes las cuales queremos limpiar, lo primero
sería separar este campo en los elementos principales de la dirección (Calle, No., Entre
Calles, Código Postal, etc.). Lo segundo sería estandarizar los elementos, o sea lograr
que estos queden de forma normalizada. Luego se verificaría si los elementos
estandarizados contienen errores en su contenido, y ya estaríamos listos para machear
(hacer parejas o correspondencias) y agrupar, que consiste en reconocer que algunas de
las partes de la dirección constituyen una agrupación, por ejemplo, si se tienen dos
direcciones iguales de diferentes clientes que están relacionados de alguna forma (son
hermanos o están casados), estos forman un grupo. Por último se documentarían los
resultados de los pasos anteriores en metadatos.
Esto ayuda a que las siguientes limpiezas sean más capaces de reconocer direcciones y
a que los usuarios finales de las aplicaciones puedan llevar a cabo mejor las operaciones
de un DW.
Como se puede apreciar, sería bastante tedioso llevar manualmente este proceso, y para
hacerlo automatizado se necesitaría de aplicaciones sofisticadas que contengan
algoritmos de análisis gramatical (parsing) de direcciones, algoritmos de macheo, e
inmensas tablas con gran cantidad de entradas que provea sinónimos para las diferentes
partes de las direcciones.
En algunos casos es posible crear programas de limpieza efectivos. Pero en el caso de
bases de datos grandes, imprecisas e inconsistentes, el uso de las herramientas
comerciales, ya existentes, puede ser casi obligatorio.
10. ¿QUE ES ESTANDARIZACION? IMPORTANCIA DE LA
ESTANDARIZACION DE DIRECCIONES PARA LAS EMPRESAS DE
HOY EN DIA?
La estandarización forma parte de los seis pasos necesarios para llevar a cabo la limpieza
de datos. Esta consiste en separar la información en diferentes campos, así como unificar
ciertos criterios para un mejor manejo y manipulación de los datos.
Tener datos estandarizados, consistentes y con calidad, resulta muy útil y a veces de vital
importancia para las empresas que utilizan almacenes de datos. Un ejemplo de ello son
aquellas organizaciones cuyos datos referentes a sus clientes son de gran valor. El
manejo de los nombres y direcciones de los clientes no es tarea fácil. Más del 50% de las
compañías en Internet no pueden responder a las necesidades de todos sus clientes y no
se pueden relacionar con ellos a causa de la falta de calidad en sus datos.
Para comunicarse efectivamente con sus clientes, por teléfono, por correo o por cualquier
otra vía, una empresa debe mantener una lista de sus clientes extraordinariamente limpia.
Esto no solo provoca que existan menos correos devueltos y más envíos precisos, sino
que además, mejora la descripción y análisis de los clientes, que se traduce en un servicio
más rápido y profesional.
Hay muchos ejemplos de aplicaciones basadas en la información del cliente que
necesitan que sus datos, y principalmente sus direcciones tengan integridad, algunos de
ellos son:
 Sistemas CRM (Customer Relationship Management, Gestión de las Relaciones
con el Cliente)
 E-Business (Negocios electrónicos)
 Call Centers (Oficina o compañía centralizada que responde llamadas telefónicas
de clientes o que hacen llamadas a clientes (telemarketing))
 Sistemas de Marketing
Del mismo modo, podemos mencionar algunas de las organizaciones que mayormente
son beneficiadas por la limpieza de los datos de sus clientes.
 Bancos y Finanzas
 Gobierno
 Salud
 Telecomunicaciones
11. ¿Cómo esta integrado un almacén de datos?
11.1 Metadatos
Uno de los componentes más importantes de la arquitectura de un almacén de datos son
los metadatos. Se define comúnmente como "datos acerca de los datos", en el sentido de
que se trata de datos que describen cuál es la estructura de los datos que se van a
almacenar y cómo se relacionan.
El metadato documenta, entre otras cosas, qué tablas existen en una base de datos, qué
columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar. Los
datos son de interés para el usuario final, el metadato es de interés para los programas
que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un
entorno de almacén de datos es muy diferente al rol que cumple en los ambientes
operacionales. En el ámbito de los data warehouse el metadato juega un papel
fundamental, su función consiste en recoger todas las definiciones de la organización y el
concepto de los datos en el almacén de datos, debe contener toda la información
concerniente a:
 Tablas
 Columnas de tablas
 Relaciones entre tablas
 Jerarquías y Dimensiones de datos
 Entidades y Relaciones
11.2 Funciones ETL (extracción, transformación y carga)
Los procesos de extracción, transformación y carga (ETL) son importantes ya que son la
forma en que los datos se guardan en un almacén de datos (o en cualquier base de
datos). Implican las siguientes operaciones:
 Extracción. Acción de obtener la información deseada a partir de los datos
almacenados en fuentes externas.
 Transformación. Cualquier operación realizada sobre los datos para que puedan
ser cargados en el data warehouse o se puedan migrar de éste a otra base de
datos.
 Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el
almacén de datos objetivo normal.
11.3 Middleware
Middleware es un término genérico que se utiliza para referirse a todo tipo de software de
conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de
aplicaciones distribuidas sobre plataformas heterogéneas. Estos servicios funcionan como
una capa de abstracción de software distribuida, que se sitúa entre las capas de
aplicaciones y las capas inferiores (sistema operativo y red). El middleware puede verse
como una capa API, que sirve como base a los programadores para que puedan
desarrollar aplicaciones que trabajen en diferentes entornos sin preocuparse de los
protocolos de red y comunicaciones en que se ejecutarán. De esta manera se ofrece una
mejor relación costo/rendimiento que pasa por el desarrollo de aplicaciones más
complejas, en menos tiempo.
La función del middleware en el contexto de los data warehouse es la de asegurar la
conectividad entre todos los componentes de la arquitectura de un almacén de datos.
12. Diseño de un almacén de datos
Para construir un Data Warehouse se necesitan herramientas para ayudar a la migración
y a la transformación de los datos hacia el almacén. Una vez construido, se requieren
medios para manejar grandes volúmenes de información. Se diseña su arquitectura
dependiendo de la estructura interna de los datos del almacén y especialmente del tipo de
consultas a realizar. Con este criterio los datos deben ser repartidos entre numerosos
data marts. Para abordar un proyecto de data warehouse es necesario hacer un estudio
de algunos temas generales de la organización o empresa, los cuales se describen a
continuación:
 Situación actual de partida.- Cualquier solución propuesta de data warehouse
debe estar muy orientada por las necesidades del negocio y debe ser compatible
con la arquitectura técnica existente y planeada de la compañía.
 Tipo y características del negocio.- Es indispensable tener el conocimiento
exacto sobre el tipo de negocios de la organización y el soporte que representa la
información dentro de todo su proceso de toma de decisiones.
 Entorno técnico.- Se debe incluir tanto el aspecto del hardware (mainframes,
servidores, redes,...) así como aplicaciones y herramientas. Se dará énfasis a los
Sistemas de soporte a decisiones (DSS), si existen en la actualidad, cómo operan,
etc.
 Expectativas de los usuarios.- Un proyecto de data warehouse no es
únicamente un proyecto tecnológico, es una forma de vida de las organizaciones y
como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento
sobre su bondad.
 Etapas de desarrollo.- Con el conocimiento previo, ya se entra en el desarrollo de
un modelo conceptual para la construcción del data warehouse.
 Prototipo.- Un prototipo es un esfuerzo designado a simular tanto como sea
posible el producto final que será entregado a los usuarios.
 Piloto.- El piloto de un data warehouse es el primero, o cada uno de los primeros
resultados generados de forma iterativa que se harán para llegar a la construcción
del producto final deseado.
 Prueba del concepto tecnológico.- Es un paso opcional que se puede necesitar
para determinar si la arquitectura especificada del data warehouse funcionará
finalmente como se espera.
13. Almacén de datos especial
Almacén de datos especial es una colección de datos orientados al tema, integrados, no
volátiles, variantes en el tiempo y que añaden la geografía de los datos, para la toma de
decisiones. Sin embargo la componente geográfica no es un dato agregado, sino que es
una dimensión o variable en la tecnología de la información, de tal manera que permita
modelar todo el negocio como un ente holístico, y que a través de herramientas de
procesamiento analítico en línea (OLAP), no solamente se posea un alto desempeño en
consultas multidimensionales sino que adicionalmente se puedan visualizar
espacialmente los resultados.
El almacén de datos especial forma parte de un extensivo Sistema de Información
Geográfica para la toma de decisiones, éste al igual que los SIG, permiten que un gran
número de usuarios accedan a información integrada, a diferencia de un simple almacén
de datos que está orientado al tema, el Data warehouse especial adicionalmente es Geo-
Relacional, es decir que en estructuras relacionales combina e integra los datos
espaciales con los datos descriptivos.
Actualmente es geo-objetos, esto es que los elementos geográficos se manifiestan como
objetos con todas sus propiedades y comportamientos, y que adicionalmente están
almacenados en una única base de datos Objeto-Relacional.
Los Data Warehouse Especiales son aplicaciones basadas en un alto desempeño de las
bases de datos, que utilizan arquitecturas Cliente-Servidor para integrar diversos datos en
tiempo real. Mientras los almacenes de datos trabajan con muchos tipos y dimensiones de
datos, muchos de los cuales no referencian ubicación especial, a pesar de poseerla
intrínsecamente, y sabiendo que un 80% de los datos poseen representación y ubicación
en el espacio, en los Data warehouse especiales, la variable geográfica desempeña un
papel importante en la base de información para la construcción del análisis, y de igual
manera que para un Data warehouse, la variable tiempo es imprescindible en los análisis,
para los Data warehouse especiales la variable geográfica debe ser almacenada
directamente en ella.
14. Los elementos básicos de un Almacén de Datos (Data
WareHouse)
 Sistema fuente: sistemas operacionales de registros donde sus funciones son
capturar las transacciones del negocio. A los sistemas fuentes también se le conoce
como Legacy System.
 Área de trafico de datos: es un área de almacenamiento y grupo de procesos, que
limpian transforman, combinan, remover los duplicados, guardan, archivan y preparan
los datos fuente para ser usados en el Data WareHouse.
 Servidor de presentación: la maquina física objetivo en donde los datos del Data
WareHouse son organizados y almacenados para queries directos por los usuarios
finales, reportes y otras aplicaciones.
 Modelo dimensional: una disciplina especifica para el modelado de datos que es
una alternativa para los modelos de entidad – relación.
 Procesos de negocios: un coherente grupo de actividades de negocio que hacen
sentido a los usuarios del negocio del Data WareHouse.
 Data Mart: un subgrupo lógico del Data WareHouse completo.
 Data WareHouse: búsquedas fuentes de datos de la empresa. Y es la unión de todos
los data marts que la constituyen.
 Almacenamiento operacional de datos: es el punto de integración por los sistemas
operacionales. Es el acceso al soporte de decisiones por los ejecutivos.
 OLAP: actividad general de búsquedas para presentación de texto y números del
Data WareHouse, también un estilo dimensional especifico de búsquedas y
presentación de información y que es ejemplificada por vendedores de OLAP.
 ROLAP: un grupo de interfases de usuarios y aplicaciones que le dan a la base de
datos relacional un estilo dimensional.
 MOLAP: un grupo de interfases de usuarios, aplicaciones y propietarios de
tecnología de bases de datos que tienen un fuerte estilo dimensional.
 Aplicaciones para usuarios finales: una colección de herramientas que hacen los
queries, analizan y presentan la información objetivo para el soporte de las
necesidades del negocio.
 Herramientas de acceso a datos por usuarios finales: un cliente de Data
WareHouse.
 Ad Hoc Query Tool: un tipo especifico de herramientas de acceso a datos por
usuarios finales que invita al usuario a formas sus propios queries manipulando
directamente las tablas relacionales y sus uniones.
 Modelado de aplicaciones: un sofisticado tipo de cliente de Data WareHouse con
capacidades analíticas que transforma o digiere las salidas del Data WareHouse.
 Meta Data: toda la información en el ambiente del Data WareHouse que no son así
mismo los datos actuales.
15. Objetivos de Un Almacén de Datos
Los objetivos fundamentales de un Almacén de Datos o Data WareHouse son:
 Hace que la información de la organización sea accesible: los contenidos del Data
WareHouse son entendibles y navegables, y el acceso a ellos son caracterizado
por el rápido desempeño. Estos requerimientos no tienen fronteras y tampoco
limites fijos. Cuando hablamos de entendible significa, que los niveles de la
información sean correctos y obvios. Y Navegables significa el reconocer el
destino en la pantalla y llegar a donde queramos con solo un clic. Rápido
desempeño significa, cero tiempo de espera. Todo lo demás es un compromiso y
por consiguiente algo que queremos mejorar.
 Hacer que la información de la organización sea consistente: la información de una
parte de la organización puede hacerse coincidir con la información de la otra
parte de la organización. Si dos medidas de la organización tienen el mismo
nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas
no significan la misma cosa, entonces son etiquetados diferentes. Información
consistente significa, información de alta calidad. Significa que toda la información
es contabilizada y completada. Todo lo demás es un compromiso y por
consiguiente algo que queremos mejorar.
 Es información adaptable y elástica: el Data WareHouse esta diseñado para
cambios continuos. Cuando se le hacen nuevas preguntas al Data WareHouse, los
datos existentes y las tecnologías no cambian ni se corrompen. Cuando se
agregan datos nuevos al Data WareHouse, los datos existentes y las tecnologías
tampoco cambian ni se corrompen. El diseño de Data Marts separados que hacen
al Data WareHouse, deben ser distribuidos e incrementados. Todo lo demás es un
compromiso y por consiguiente algo que queremos mejorar.
 Es un seguro baluarte que protege los valores de la información: el Data
WareHouse no solamente controla el acceso efectivo a los datos, si no que da a
los dueños de la información gran visibilidad en el uso y abusos de los datos, aún
después de haber dejado el Data WareHouse. Todo lo demás es un compromiso y
por consiguiente algo que queremos mejorar.
 Es la fundación de la toma de decisiones: el Data WareHouse tiene los datos
correctos para soportar la toma de decisiones. Solo hay una salida verdadera del
Data WareHouse: las decisiones que son hechas después de que el Data
WareHouse haya presentado las evidencias. La original etiqueta que preside el
Data WareHouse sigue siendo la mejor descripción de lo que queremos construir:
un sistema de soporte a las decisiones.
16. Características
Un DW es un conjunto de datos con las siguientes características:
16.1 Integrado
Los datos almacenados en el datawarehouse deben integrarse en una estructura
consistente, por lo que las inconsistencias existentes entre los diversos sistemas
operacionales deben ser eliminadas. La información suele estructurarse también en
distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.
En la siguiente imagen podemos ver cómo se maneja la información en distintas
aplicaciones y lo que buscamos con la integración seria escoger de todas un estándar de
información para que uniformice los datos y se introduzcan al repositorio
16.2 Temático
Sólo los datos necesarios para el proceso de generación del conocimiento del negocio se
integran desde el entorno operacional. Los datos se organizan por temas para facilitar su
acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos
sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De esta
forma, las peticiones de información sobre clientes serán más fáciles de responder dado
que toda la información reside en el mismo lugar.
En la siguiente imagen se muestra cómo se maneja un sistema de información orientada
a sus aplicaciones y otra temática una diferencia importante entre estas está en la
interrelación de la información. Los datos operacionales (aplicaciones) mantienen una
relación continua entre dos o más tablas basadas en una regla comercial. Las del data
warehouse miden espectros de tiempo y las relaciones encontradas en la data warehouse
(podremos indagar en toda la información pasada relacionada entre todas las
aplicaciones).
16.3 De tiempo variante
El tiempo es parte implícita de la información contenida en un datawarehouse. En los
sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio
en el momento presente. Por el contrario, la información almacenada en el
datawarehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto,
el datawarehouse se carga con los distintos valores que toma una variable en el tiempo
para permitir comparaciones.
Los datos históricos son de poco uso en el procedimiento operacional. La información del
depósito por el contrario, debe incluir los datos históricos para usarse en la identificación y
evaluación de tendencias.
16.4 No Volátil
El almacén de información de un datawarehouse existe para ser leído, pero no
modificado. La información es por tanto permanente, significando la actualización del
datawarehouse la incorporación de los últimos valores que tomaron las distintas variables
contenidas en él sin ningún tipo de acción sobre lo que ya existía.
Como se puede observar en la imagen en la base de datos operacional la actualización
(actualizar, borrar y modificar) se hace regularmente, mientras en el data warehouse sea
una sola actualización esto hace que cuando tengamos que tomar una decisión con esta
información tengamos seguridad de esta.
17. Ventajas e Inconvenientes
17.1 Ventajas
Hay muchas ventajas por las que es recomendable usar un almacén de datos. Algunas de
ellas son:
 Los almacenes de datos hacen más fácil el acceso a una gran variedad de datos a
los usuarios finales
 Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la
decisión tales como informes de tendencia, por ejemplo: obtener los ítems con la
mayoría de las ventas en un área en particular dentro de los últimos dos años;
informes de excepción, informes que muestran los resultados reales frente a los
objetivos planteados a priori.
 Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el
valor operacional de las aplicaciones empresariales, en especial la gestión de
relaciones con clientes.
17.2 Inconvenientes
Utilizar almacenes de datos también plantea algunos inconvenientes, algunos de ellos
son:
 A lo largo de su vida los almacenes de datos pueden suponer altos costos. El
almacén de datos no suele ser estático. Los costos de mantenimiento son
elevados.
 Los almacenes de datos se pueden quedar obsoletos relativamente pronto
 A veces, ante una petición de información estos devuelven una información
subóptima, que también supone una pérdida para la organización.
 A menudo existe una delgada línea entre los almacenes de datos y los sistemas
operacionales. Hay que determinar qué funcionalidades de estos se pueden
aprovechar y cuáles se deben implementar en el data warehouse, resultaría
costoso implementar operaciones no necesarias o dejar de implementar alguna
que sí vaya a necesitarse.
18. Conclusiones
 Los almacenes de datos son el centro de atención de las grandes empresas
actuales, porque son una colección de datos donde se encuentra integrada la
información de estas, proporcionando una herramienta para que puedan hacer un
mejor uso de la información y para el soporte al proceso de toma de decisiones
gerenciales.
 Existen numerosas causas que provocan suciedad en los registros de los sistemas
operacionales, lo que trae como consecuencia que haya gran cantidad de datos
almacenados en las empresas que carece de la calidad adecuada para ser
utilizada de forma confiable.
 El problema de la limpieza de datos es uno de los tres problemas fundamentales
de los DW. Sin embargo, es poco tratado o evitado por muchas organizaciones, ya
que no consideran adecuadamente el impacto negativo que puede ocasionar para
el negocio el tener almacenada información deficiente.
 En algunos casos es posible crear programas de limpieza a la medida para la
empresa en cuestión, pero en el caso de bases de datos con grandes números de
registros puede ser casi obligatorio el uso de las herramientas comerciales ya
existentes.
 Para las organizaciones actuales, la estandarización de las direcciones de sus
listas de clientes es un punto fundamental a tener en cuenta, ya que direcciones
de un DW que no tengan esta característica pueden provocar pérdida de
credibilidad de las organizaciones, que a su vez, lleva a la pérdida de clientes
como consecuencia de un servicio poco eficaz.
19. Bibliografía
 Casares C. (Nov/2005) - Data
Warehousing, http://www.programacion.com/bbdd/tutorial/warehouse/15/#wareho
using_desarrollo_confi
 Hussain S.; Beg J. (Oct/2005). - Data Quality: A Problem and an
Approach, http://doc.advisor.com/doc/13060
 Kimball R. (Oct/2005) -Dealing with Dirty
Data, http://www.dbmsmag.com/9609d14.html
 Martín J.; Morrás C.; García M. L.; Tello L. I.;Vivancos A. J. (Oct/2005) - Sistemas
de soporte a la gestión del
negocio, http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol812/so
porte/soporte.html
 Torres H.; Visitación M.; Grau A.; Mar M.; Barranco H.; Soldado M. (Oct/2005). -
Bases de datos y data warehouse: Herramientas estratégicas para
la eficacia comercial, http://www-lsi.ugr.es/~rosana/ investigacion/bd_efsi04.pdf
 Laudon Keneth C., Laudon Jane P., Sistemas de Información Gerencial (8ª ed.)
 México, Pearson Educación, (2004)
 http://www.dwinfocenter.org/casefor.html
 http://datawarehouse.ittoolbox.com/
 http://dwhucv.blogspot.com/p/caracteristicas-de-un-datawarehouse.html

Más contenido relacionado

La actualidad más candente

trabajo de redes mapa mental
trabajo de redes mapa mentaltrabajo de redes mapa mental
trabajo de redes mapa mentalyochahuam
 
Bases de datos distribuidas
Bases de datos distribuidasBases de datos distribuidas
Bases de datos distribuidasMax Perez
 
SIBus Tuning for production WebSphere Application Server
SIBus Tuning for production WebSphere Application Server SIBus Tuning for production WebSphere Application Server
SIBus Tuning for production WebSphere Application Server Rohit Kelapure
 
Aula 1 rede com packet tracer
Aula 1 rede com packet tracerAula 1 rede com packet tracer
Aula 1 rede com packet tracerArlimar Jacinto
 
What is NoSQL and CAP Theorem
What is NoSQL and CAP TheoremWhat is NoSQL and CAP Theorem
What is NoSQL and CAP TheoremRahul Jain
 
Learn to setup a Hadoop Multi Node Cluster
Learn to setup a Hadoop Multi Node ClusterLearn to setup a Hadoop Multi Node Cluster
Learn to setup a Hadoop Multi Node ClusterEdureka!
 
Hadoop Installation presentation
Hadoop Installation presentationHadoop Installation presentation
Hadoop Installation presentationpuneet yadav
 
Arquitectura harvard y de von neumann
Arquitectura harvard y de von neumannArquitectura harvard y de von neumann
Arquitectura harvard y de von neumannCarloscv321
 
Big Data and Hadoop
Big Data and HadoopBig Data and Hadoop
Big Data and HadoopFlavio Vit
 
Configuracion servidor web, dns, ftp, pop3 y smtp txt para linux
Configuracion servidor web, dns, ftp, pop3 y smtp txt para linuxConfiguracion servidor web, dns, ftp, pop3 y smtp txt para linux
Configuracion servidor web, dns, ftp, pop3 y smtp txt para linuxMohamed Diop
 
Enterprise Java Beans - EJB
Enterprise Java Beans - EJBEnterprise Java Beans - EJB
Enterprise Java Beans - EJBPeter R. Egli
 
Remote Method Invocation
Remote Method InvocationRemote Method Invocation
Remote Method InvocationPaul Pajo
 
Introduction to Hadoop and Hadoop component
Introduction to Hadoop and Hadoop component Introduction to Hadoop and Hadoop component
Introduction to Hadoop and Hadoop component rebeccatho
 
Hadoop Architecture and HDFS
Hadoop Architecture and HDFSHadoop Architecture and HDFS
Hadoop Architecture and HDFSEdureka!
 

La actualidad más candente (20)

trabajo de redes mapa mental
trabajo de redes mapa mentaltrabajo de redes mapa mental
trabajo de redes mapa mental
 
Rpc te
Rpc teRpc te
Rpc te
 
Bases de datos distribuidas
Bases de datos distribuidasBases de datos distribuidas
Bases de datos distribuidas
 
SIBus Tuning for production WebSphere Application Server
SIBus Tuning for production WebSphere Application Server SIBus Tuning for production WebSphere Application Server
SIBus Tuning for production WebSphere Application Server
 
Aula 1 rede com packet tracer
Aula 1 rede com packet tracerAula 1 rede com packet tracer
Aula 1 rede com packet tracer
 
Architecture of Facebook
Architecture of FacebookArchitecture of Facebook
Architecture of Facebook
 
memoria virtual
memoria virtualmemoria virtual
memoria virtual
 
What is NoSQL and CAP Theorem
What is NoSQL and CAP TheoremWhat is NoSQL and CAP Theorem
What is NoSQL and CAP Theorem
 
Learn to setup a Hadoop Multi Node Cluster
Learn to setup a Hadoop Multi Node ClusterLearn to setup a Hadoop Multi Node Cluster
Learn to setup a Hadoop Multi Node Cluster
 
Couch db
Couch dbCouch db
Couch db
 
Hadoop Installation presentation
Hadoop Installation presentationHadoop Installation presentation
Hadoop Installation presentation
 
Servidor WEB
Servidor WEBServidor WEB
Servidor WEB
 
Arquitectura harvard y de von neumann
Arquitectura harvard y de von neumannArquitectura harvard y de von neumann
Arquitectura harvard y de von neumann
 
Big Data and Hadoop
Big Data and HadoopBig Data and Hadoop
Big Data and Hadoop
 
Gestion de procesos Android
Gestion de procesos AndroidGestion de procesos Android
Gestion de procesos Android
 
Configuracion servidor web, dns, ftp, pop3 y smtp txt para linux
Configuracion servidor web, dns, ftp, pop3 y smtp txt para linuxConfiguracion servidor web, dns, ftp, pop3 y smtp txt para linux
Configuracion servidor web, dns, ftp, pop3 y smtp txt para linux
 
Enterprise Java Beans - EJB
Enterprise Java Beans - EJBEnterprise Java Beans - EJB
Enterprise Java Beans - EJB
 
Remote Method Invocation
Remote Method InvocationRemote Method Invocation
Remote Method Invocation
 
Introduction to Hadoop and Hadoop component
Introduction to Hadoop and Hadoop component Introduction to Hadoop and Hadoop component
Introduction to Hadoop and Hadoop component
 
Hadoop Architecture and HDFS
Hadoop Architecture and HDFSHadoop Architecture and HDFS
Hadoop Architecture and HDFS
 

Destacado

Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datosen mi casa
 
¿Cómo implementar con éxito una solución de BI?
¿Cómo implementar con éxito una solución de BI?¿Cómo implementar con éxito una solución de BI?
¿Cómo implementar con éxito una solución de BI?Daniel Chavez Flores
 
Diseño de almacenes de datos
Diseño de almacenes de datosDiseño de almacenes de datos
Diseño de almacenes de datosUTPL UTPL
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningNintendo
 
Tecnologia y Recoleccion de Datos Primarios
Tecnologia y Recoleccion de Datos PrimariosTecnologia y Recoleccion de Datos Primarios
Tecnologia y Recoleccion de Datos PrimariosCristian Castro Sanchez
 
La moderna investigación de mercado
La moderna investigación de mercadoLa moderna investigación de mercado
La moderna investigación de mercadoAlberto Veintimilla
 
DATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosDATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosMaría Isabel Bautista
 
Datawarehouse y Datamining
Datawarehouse y DataminingDatawarehouse y Datamining
Datawarehouse y Dataminingdannoblack
 
Sistema de Administracion del Mantenimiento
Sistema de Administracion del MantenimientoSistema de Administracion del Mantenimiento
Sistema de Administracion del MantenimientoCris Tenorio
 
Fundamentos de DataWarehouse
Fundamentos de DataWarehouseFundamentos de DataWarehouse
Fundamentos de DataWarehouseHermes Romero
 
Diagramas De Estado
Diagramas De EstadoDiagramas De Estado
Diagramas De Estadoguest5ed375
 
Funciones de informática
Funciones de informáticaFunciones de informática
Funciones de informáticajaninagoyes
 
Programación Orientada a Objetos - Resumen
Programación Orientada a Objetos - ResumenProgramación Orientada a Objetos - Resumen
Programación Orientada a Objetos - ResumenKarlytoz_36
 

Destacado (20)

Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
¿Cómo implementar con éxito una solución de BI?
¿Cómo implementar con éxito una solución de BI?¿Cómo implementar con éxito una solución de BI?
¿Cómo implementar con éxito una solución de BI?
 
Almacenes de datos
Almacenes de datosAlmacenes de datos
Almacenes de datos
 
Diseño de almacenes de datos
Diseño de almacenes de datosDiseño de almacenes de datos
Diseño de almacenes de datos
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-mining
 
Modelización del negocio
Modelización del negocio Modelización del negocio
Modelización del negocio
 
Tecnologia y Recoleccion de Datos Primarios
Tecnologia y Recoleccion de Datos PrimariosTecnologia y Recoleccion de Datos Primarios
Tecnologia y Recoleccion de Datos Primarios
 
La moderna investigación de mercado
La moderna investigación de mercadoLa moderna investigación de mercado
La moderna investigación de mercado
 
Modelos dinamicos Orientado a Objetos
Modelos dinamicos Orientado a ObjetosModelos dinamicos Orientado a Objetos
Modelos dinamicos Orientado a Objetos
 
DATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosDATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datos
 
Datawarehouse y Datamining
Datawarehouse y DataminingDatawarehouse y Datamining
Datawarehouse y Datamining
 
Sistema de Administracion del Mantenimiento
Sistema de Administracion del MantenimientoSistema de Administracion del Mantenimiento
Sistema de Administracion del Mantenimiento
 
Fundamentos de DataWarehouse
Fundamentos de DataWarehouseFundamentos de DataWarehouse
Fundamentos de DataWarehouse
 
Resumen java
Resumen javaResumen java
Resumen java
 
Diagramas De Estado
Diagramas De EstadoDiagramas De Estado
Diagramas De Estado
 
Funciones de informática
Funciones de informáticaFunciones de informática
Funciones de informática
 
Modelo de datos
Modelo de datosModelo de datos
Modelo de datos
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Programación Orientada a Objetos - Resumen
Programación Orientada a Objetos - ResumenProgramación Orientada a Objetos - Resumen
Programación Orientada a Objetos - Resumen
 

Similar a Almacén de datos

Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligenceMaryy Aqua
 
La planificacion segun_data_ware_house
La planificacion segun_data_ware_houseLa planificacion segun_data_ware_house
La planificacion segun_data_ware_houseernestoicidec
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 
Data warehouse
Data warehouseData warehouse
Data warehouseMarian C.
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1nestor
 
DATAWAREHOUSE
DATAWAREHOUSEDATAWAREHOUSE
DATAWAREHOUSEnestor
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningNintendo
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentaciónedmaga
 
Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3Climanfef
 
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...Julio Antonio Huaman Chuque
 
Repositorio De InformacióN
Repositorio De InformacióNRepositorio De InformacióN
Repositorio De InformacióNgabisss
 
Ensayo Omar Enrique Aguilar Aquino
Ensayo Omar Enrique Aguilar AquinoEnsayo Omar Enrique Aguilar Aquino
Ensayo Omar Enrique Aguilar Aquinocoprse aquino
 

Similar a Almacén de datos (20)

Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligence
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
La planificacion segun_data_ware_house
La planificacion segun_data_ware_houseLa planificacion segun_data_ware_house
La planificacion segun_data_ware_house
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
Cuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utplCuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utpl
 
Negocios inteligentes
Negocios inteligentesNegocios inteligentes
Negocios inteligentes
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Datawarehouse 1
Datawarehouse   1Datawarehouse   1
Datawarehouse 1
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1
 
DATAWAREHOUSE
DATAWAREHOUSEDATAWAREHOUSE
DATAWAREHOUSE
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-mining
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3
 
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...
 
1DATA WAREHOUSE.ppt
1DATA WAREHOUSE.ppt1DATA WAREHOUSE.ppt
1DATA WAREHOUSE.ppt
 
Kdd fase1
Kdd fase1Kdd fase1
Kdd fase1
 
Repositorio De InformacióN
Repositorio De InformacióNRepositorio De InformacióN
Repositorio De InformacióN
 
Ensayo Omar Enrique Aguilar Aquino
Ensayo Omar Enrique Aguilar AquinoEnsayo Omar Enrique Aguilar Aquino
Ensayo Omar Enrique Aguilar Aquino
 

Más de Yuleysi Lupuche Benites

Más de Yuleysi Lupuche Benites (7)

Diplomas 5to A_20240108_065627_0000.pptx
Diplomas 5to A_20240108_065627_0000.pptxDiplomas 5to A_20240108_065627_0000.pptx
Diplomas 5to A_20240108_065627_0000.pptx
 
Origen de la vida - ALEXANDER OPARIN
Origen de la vida - ALEXANDER OPARINOrigen de la vida - ALEXANDER OPARIN
Origen de la vida - ALEXANDER OPARIN
 
Acta para eleccion del Comité de Aula
Acta para eleccion del Comité de AulaActa para eleccion del Comité de Aula
Acta para eleccion del Comité de Aula
 
Replicación con sql server
Replicación con sql serverReplicación con sql server
Replicación con sql server
 
Base de datos distribuidas
Base de datos distribuidasBase de datos distribuidas
Base de datos distribuidas
 
Diagrama pert
Diagrama pertDiagrama pert
Diagrama pert
 
Diagrama gantt
Diagrama ganttDiagrama gantt
Diagrama gantt
 

Almacén de datos

  • 1. Año de la Promoción de la Industria Responsable y del Compromiso Climático “Universidad Privada San Pedro” Integrantes:  Balcázar Vega Kelly Xiomara  Moran Gallo Jhonatan  Chamba Jiménez Segundo Curso: Base de Datos II Tema: Almacén de Datos (data warehouse) Profesor(a): Rivera Montero Freddy Sullana 2014
  • 2. Universidad san Pedro Facultad Ing. Informática y de Sistemas Escuela de Ingeniería Almacén de Datos Profesor: Rivera Montero Freddy Autores: Moran Gallo Jhonatan Balcázar Vega Kelly Chamba Jiménez Segundo Sullana, Mayo 6
  • 3. Índice 1 Introducción 2 Presentación 3 Resumen 4 Almacén de Datos 4.1 Definiciones de almacén de datos 4.1.1 Definición de Bill Inmon 4.1.2 Definición de Ralph Kimball 4.1.3 Una definición más amplia de almacén de datos 5 Arquitectura 5.1 Nivel operacional 5.2 Almacén de datos o DW 5.3 Nivel departamental (Data Mart) 5.4 Nivel individual 6 Función de un Almacén de Datos 7 Procesos 8 Cubos de Información 8.1 Dimensiones 8.2 Variables 8.3 Ejemplos 9 Limpieza de Datos 10. ¿Qué es estandarización? importancia de la estandarización de direcciones para las empresas de hoy en día? 11. ¿Cómo está integrado un almacén de datos?
  • 4. 11.1 Metadatos 11.2 Funciones ETL (extracción, transformación y carga) 11.3 Middleware 12 Diseño de un almacén de datos 13 Almacén de datos especial 14 Los elementos básicos de un Almacén de Datos (Data WareHouse) 15 Objetivos de Un Almacén de Datos 16 Características 16.4 No Volátil 16.3 De tiempo variante 16.2 Temático 16.1 Integrado 17 Ventajas e Inconvenientes 17.1 Ventajas 17.2 Inconvenientes 18 Conclusiones 19 Bibliografía
  • 5. 1. Introducción Desde un inicio, las bases de datos se convirtieron en una herramienta fundamental de control y manejo de las operaciones comerciales. Fue así como en unos pocos años en grandes empresas y negocios existía un considerable número de información almacenada en diferentes fuentes de datos y estas ya habían alcanzado un tamaño considerablemente grande. Con esta gran acumulación de información, los directivos de tales empresas y negocios se dieron cuenta que esta podría tener un fin útil, al estar reflejada la mayoría de sus operaciones comerciales durante los llamados ciclos de negocios propios del mercado. A su vez, los mercados empresariales han experimentado una transformación radical. Las empresas demandan mayor rapidez y eficiencia en la entrega de productos, y mejora en todos los servicios existentes, por lo que se hace imprescindible encontrar formas más eficaces de distribuir los productos, más facilidades para hacer estudios de mercado basados en la información de las operaciones comerciales de las empresas y de sus clientes y, en definitiva, mayor rapidez a la hora de tomar decisiones. Por tanto, pensaron en lo ideal que sería unificar las diferentes fuentes de información de las cuales disponían, en un único lugar, al que sólo se le incorporaría información relevante, sobre la base de una estructura organizada, integrada, lógica, dinámica y de fácil explotación. La respuesta a esto fueron los Almacenes de Datos o Data Warehouse (DW). Sin embargo, para hacer un uso eficiente de la información histórica almacenada en un DW para la ayuda a la toma de decisiones, era vital garantizar que estos datos fueran fáciles de obtener, estandarizados y confiables. Así y todo, el problema de la limpieza de datos es poco tratado o evitado por muchas empresas, al no considerar adecuadamente el impacto para el negocio de tener almacenada información deficiente.
  • 6. 2. Presentación A continuación presentamos todo lo referente a lo que es un almacén de datos o un data warehouse y todo lo más importante de este tema, veremos información como algunas de sus definiciones, características, como es su arquitectura, ventajas, desventajas y una amplia información que espero les pueda servir para que se informen y aclaren sus dudas acerca de este tema.
  • 7. 3. Resumen Los almacenes de datos son el centro de atención para las grandes empresas de hoy en día, ya que constituyen uno de los soportes fundamentales para el proceso de toma de decisiones gerenciales; de ahí la importancia de que la información guardada en ellos sea confiable y con calidad. Uno de los procesos en la construcción de estos y que contribuye a lograr este objetivo es la limpieza de datos, y junto con ella la estandarización de direcciones. Para comunicarse efectivamente con sus clientes, por teléfono o por correo, una empresa debe mantener una lista de sus clientes extraordinariamente limpia y con sus direcciones normalizadas. Esto evita problemas como el de la pérdida de credibilidad o de imagen de la organización, al hacer envíos precisos y al brindarle al cliente un servicio más rápido y profesional.
  • 8. 4. Almacén de Datos Un Almacén de Datos o Data Warehouse (DW) es un almacén de información temática orientado a cubrir las necesidades de aplicaciones de los sistemas de Soporte de Decisiones (DSS) y de la Información de Ejecutivos (EIS), que permite acceder a la información corporativa para la gestión, control y apoyo a la toma de decisiones. Dicha información es construida a partir de bases de datos que registran las transacciones de los negocios de las organizaciones (bases de datos operacionales), y su importancia reside en elementos como los siguientes:  Contribuye a la toma de decisiones tácticas y estratégicas proporcionando un sentido automatizado para identificar información clave desde volúmenes de datos generados por procesos tradicionales o elementos de software.  Posibilita medir las acciones y los resultados de una mejor forma.  Los procesos empresariales pueden ser optimizados. El tiempo perdido esperando por información que finalmente es incorrecta o no encontrada, es eliminada.  Permite a los usuarios dar prioridad a decisiones y acciones, por ejemplo, a qué segmentos de clientes deben ir dirigidas las siguientes acciones de marketing. 4.1 Definiciones de almacén de datos 4.1.1 Definición de Bill Inmon Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, define un data warehouse (almacén de datos) en términos de las características del repositorio de datos:  Orientado a temas.- Los datos en la base de datos están organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre sí.  Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones.
  • 9.  No volátil.- La información no se modifica ni se elimina, una vez almacenado un dato, éste se convierte en información de sólo lectura, y se mantiene para futuras consultas.  Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organización, y dichos datos deben ser consistentes. Inmon defiende una metodología descendente (top-down) a la hora de diseñar un almacén de datos, ya que de esta forma se considerarán mejor todos los datos corporativos. En esta metodología los Data marts se crearán después de haber terminado el data warehouse completo de la organización. 4.1.2 Definición de Ralph Kimball Ralph Kimball2 es otro conocido autor en el tema de los data warehouse, define un almacén de datos como: "una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis". También fue Kimball quien determinó que un data warehouse no era más que: "la unión de todos los Data marts de una entidad". Defiende por tanto una metodología ascendente (bottom-up) a la hora de diseñar un almacén de datos. 4.1.3 Una definición más amplia de almacén de datos Las definiciones anteriores se centran en los datos en sí mismos. Sin embargo, los medios para obtener esos datos, para extraerlos, transformarlos y cargarlos, las técnicas para analizarlos y generar información, así como las diferentes formas para realizar la gestión de datos son componentes esenciales de un almacén de datos. Muchas referencias a un almacén de datos utilizan esta definición más amplia. Por lo tanto, en esta definición se incluyen herramientas para extraer, transformar y cargar datos, herramientas para el análisis (inteligencia empresarial) y herramientas para gestionar y recuperar los metadatos.
  • 10. 5. Arquitectura Los bloques funcionales que se corresponden con un sistema de información completo que utiliza un DW se muestran gráficamente en la Figura: Arquitectura de un Data Warehouse 5.1 Nivel operacional Contiene datos primitivos (operacionales) que están siendo permanentemente actualizados, usados por los sistemas operacionales tradicionales que realizan operaciones transaccionales. 5.2 Almacén de datos o DW Contiene datos primitivos correspondientes a sucesivas cargas del DW y algunos datos derivados. Los datos derivados son datos generados a partir de los datos primitivos al aplicarles algún tipo de procesamiento (resúmenes).
  • 11. 5.3 Nivel departamental (Data Mart) Contiene casi exclusivamente datos derivados. Cada departamento de la empresa determina su nivel departamental con información de interés a dicho nivel. Va a ser el blanco de salida sobre el cual los datos en el almacén son organizados y almacenados para las consultas directas por los usuarios finales, los desarrolladores de reportes y otras aplicaciones. Entre las características de un data mart destacan:  Usuarios limitados.  Área específica.  Tiene un propósito específico.  Tiene una función de apoyo. 5.4 Nivel individual Contiene pocos datos, resultado de aplicar heurísticas, procesos estadísticos, etc., a los datos contenidos en el nivel anterior. El nivel individual es el objetivo final de un DW. Desde este nivel accederá el usuario final y se podrán plantear diferentes hipótesis, así como navegar a través de los datos contenidos en el DW. 6. Función de un Almacén de Datos En un almacén de datos lo que se quiere es contener datos que son necesarios o útiles para una organización, es decir, que se utiliza como un repositorio de datos para posteriormente transformarlos en información útil para el usuario. Un almacén de datos debe entregar la información correcta a la gente indicada en el momento óptimo y en el formato adecuado. El almacén de datos da respuesta a las necesidades de usuarios expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de información ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales pueden hacer fácilmente consultas sobre sus almacenes de datos sin tocar o afectar la operación del sistema. En el funcionamiento de un almacén de datos son muy importantes las siguientes ideas:  Integración de los datos provenientes de bases de datos distribuidas por las diferentes unidades de la organización y que con frecuencia tendrán diferentes
  • 12. estructuras (fuentes heterogéneas). Se debe facilitar una descripción global y un análisis comprensivo de toda la organización en el almacén de datos.  Separación de los datos usados en operaciones diarias de los datos usados en el almacén de datos para los propósitos de divulgación, de ayuda en la toma de decisiones, para el análisis y para operaciones de control. Ambos tipos de datos no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy distintos y podrían entorpecerse entre sí. Periódicamente, se importan datos al almacén de datos de los distintos sistemas de planeamiento de recursos de la entidad (ERP) y de otros sistemas de software relacionados con el negocio para la transformación posterior. Es práctica común normalizar los datos antes de combinarlos en el almacén de datos mediante herramientas de extracción, transformación y carga (ETL). Estas herramientas leen los datos primarios (a menudo bases de datos OLTP de un negocio), realizan el proceso de transformación al almacén de datos (filtración, adaptación, cambios de formato, etc.) y escriben en el almacén. 7. Procesos Existen un conjunto básico de procesos detrás de una arquitectura de un DW de suma importancia para el mismo. Primeramente se realiza el proceso de extracción, que consiste en estudiar y entender los datos fuente, tomando aquellos que son de utilidad para el almacén. Una vez que los datos son extraídos, éstos se transforman a una forma presentable y de valor para los usuarios. Este proceso incluye corrección de errores, resolución de problemas de dominio, borrado de campos que no son de interés, generación de claves, agregación de información, etc. Al terminar el proceso de transformación, se hace la carga de los datos en el DW y seguido se realizan controles de calidad para asegurar que la misma sea correcta. Cuando la información se encuentra disponible, se le informa al usuario. Es importante publicar todos los cambios que se hayan realizado. En este momento ya el usuario final puede realizar consultas. Este debe disponer de herramientas de consulta y procesamiento de datos.
  • 13. A veces es aconsejable seguir el camino inverso de carga. Por ejemplo, pueden alimentarse los sistemas con información depurada del DW o almacenar en el mismo alguna consulta generada por el usuario que sea de interés, por eso se realiza la retroalimentación de datos o feedback. También se realiza el proceso de auditoría, que permite conocer de dónde proviene la información así como qué cálculos la generaron. Ya construido el DW, es de interés para la empresa que llegue la información a la mayor cantidad de usuarios pero, por otro lado, se tiene sumo cuidado de protegerla contra posibles 'hackers', 'snoopers' o espías (seguridad). Además, se deben realizar actividades de backup y restauración de la información, tanto de la almacenada en el DW como de la que circula desde los sistemas fuente al almacén. 8. Cubos de Información Los cubos de información o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un número indefinido de dimensiones, razón por la cual también reciben el nombre de hipercubos. Un cubo OLAP contendrá datos de una determinada variable que se desea analizar, proporcionando una vista lógica de los datos provistos por el sistema de información hacia el data warehouse, esta vista estará dispuesta según unas dimensiones y podrá contener información calculada. El análisis de los datos está basado en las dimensiones del hipercubo, por lo tanto, se trata de un análisis multidimensional. A la información de un cubo puede acceder el ejecutivo mediante "tablas dinámicas" en una hoja de cálculo o a través de programas personalizados. Las tablas dinámicas le permiten manipular las vistas (cruces, filtrados, organización, totales) de la información con mucha facilidad. Las diferentes operaciones que se pueden realizar con cubos de información se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, éste es una colección de datos que está formada por «dimensiones» y «variables», entendiendo como dimensiones a aquellos elementos que participan en el análisis y variables a los valores que se desean analizar.
  • 14. 8.1 Dimensiones Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de análisis de las variables (forman parte de la tabla de dimensiones). Son catálogos de información complementaria necesaria para la presentación de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la información general complementaria a cada uno de los registros de la tabla de hechos. 8.2 Variables También llamadas “indicadores de gestión”, son los datos que están siendo analizados. Forman parte de la tabla de hechos. Más formalmente, las variables representan algún aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numéricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a las variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables; ejemplos de dimensiones podrían ser: “productos”, “localidades” (o zonas), “el tiempo” (medido en días, horas, semanas, etc.) 8.3 Ejemplos  Ejemplos de variables podrían ser:  Beneficios  Gastos  Ventas  etc. Ejemplos de dimensiones podrían ser:  producto (diferentes tipos o denominaciones de productos)  localidades (o provincia, o regiones, o zonas geográficas)  tiempo (medido de diferentes maneras, por horas, por días, por meses, por años, ...)  tipo de cliente (casado/soltero, joven/adulto/anciano, ...)  etc.
  • 15. Según lo anterior, podríamos construir un cubo de información sobre el índice de ventas (variable a estudiar) en función del producto vendido, la provincia, el mes del año y si el cliente está casado o soltero (dimensiones). Tendríamos un cubo de 4 dimensiones. 9. Limpieza de Datos Generalmente las empresas no cuentan con aplicaciones únicas para cada parte de la operativa del negocio, sino que pueden tener replicaciones y distintos sistemas para atender un mismo conjunto de operaciones, y en esos casos es probable que las bases de datos de los sistemas operacionales contengan datos duplicados, a veces erróneos, superfluos o incompletos. A esto se le suman los posibles errores a la hora de la entrada de datos a los sistemas de datos operacionales. Estas, y otras mostradas en la Figura, son algunas de las cuestiones que contribuyen a la suciedad de los datos. Algunos errores que provocan suciedad en los datos La limpieza de datos se encuentra dentro del proceso de transformación de datos. Esta, es mucho más que simplemente actualizar registros con datos buenos. Una limpieza de datos seria, involucra descomposición y reensamblaje de datos. La limpieza de datos se puede dividir en seis pasos: separar en elementos, estandarizar, verificar, machear, agrupar y documentar. Por ejemplo, si tenemos direcciones de clientes las cuales queremos limpiar, lo primero sería separar este campo en los elementos principales de la dirección (Calle, No., Entre
  • 16. Calles, Código Postal, etc.). Lo segundo sería estandarizar los elementos, o sea lograr que estos queden de forma normalizada. Luego se verificaría si los elementos estandarizados contienen errores en su contenido, y ya estaríamos listos para machear (hacer parejas o correspondencias) y agrupar, que consiste en reconocer que algunas de las partes de la dirección constituyen una agrupación, por ejemplo, si se tienen dos direcciones iguales de diferentes clientes que están relacionados de alguna forma (son hermanos o están casados), estos forman un grupo. Por último se documentarían los resultados de los pasos anteriores en metadatos. Esto ayuda a que las siguientes limpiezas sean más capaces de reconocer direcciones y a que los usuarios finales de las aplicaciones puedan llevar a cabo mejor las operaciones de un DW. Como se puede apreciar, sería bastante tedioso llevar manualmente este proceso, y para hacerlo automatizado se necesitaría de aplicaciones sofisticadas que contengan algoritmos de análisis gramatical (parsing) de direcciones, algoritmos de macheo, e inmensas tablas con gran cantidad de entradas que provea sinónimos para las diferentes partes de las direcciones. En algunos casos es posible crear programas de limpieza efectivos. Pero en el caso de bases de datos grandes, imprecisas e inconsistentes, el uso de las herramientas comerciales, ya existentes, puede ser casi obligatorio.
  • 17. 10. ¿QUE ES ESTANDARIZACION? IMPORTANCIA DE LA ESTANDARIZACION DE DIRECCIONES PARA LAS EMPRESAS DE HOY EN DIA? La estandarización forma parte de los seis pasos necesarios para llevar a cabo la limpieza de datos. Esta consiste en separar la información en diferentes campos, así como unificar ciertos criterios para un mejor manejo y manipulación de los datos. Tener datos estandarizados, consistentes y con calidad, resulta muy útil y a veces de vital importancia para las empresas que utilizan almacenes de datos. Un ejemplo de ello son aquellas organizaciones cuyos datos referentes a sus clientes son de gran valor. El manejo de los nombres y direcciones de los clientes no es tarea fácil. Más del 50% de las compañías en Internet no pueden responder a las necesidades de todos sus clientes y no se pueden relacionar con ellos a causa de la falta de calidad en sus datos. Para comunicarse efectivamente con sus clientes, por teléfono, por correo o por cualquier otra vía, una empresa debe mantener una lista de sus clientes extraordinariamente limpia. Esto no solo provoca que existan menos correos devueltos y más envíos precisos, sino que además, mejora la descripción y análisis de los clientes, que se traduce en un servicio más rápido y profesional. Hay muchos ejemplos de aplicaciones basadas en la información del cliente que necesitan que sus datos, y principalmente sus direcciones tengan integridad, algunos de ellos son:  Sistemas CRM (Customer Relationship Management, Gestión de las Relaciones con el Cliente)  E-Business (Negocios electrónicos)  Call Centers (Oficina o compañía centralizada que responde llamadas telefónicas de clientes o que hacen llamadas a clientes (telemarketing))  Sistemas de Marketing Del mismo modo, podemos mencionar algunas de las organizaciones que mayormente son beneficiadas por la limpieza de los datos de sus clientes.  Bancos y Finanzas  Gobierno  Salud
  • 18.  Telecomunicaciones 11. ¿Cómo esta integrado un almacén de datos? 11.1 Metadatos Uno de los componentes más importantes de la arquitectura de un almacén de datos son los metadatos. Se define comúnmente como "datos acerca de los datos", en el sentido de que se trata de datos que describen cuál es la estructura de los datos que se van a almacenar y cómo se relacionan. El metadato documenta, entre otras cosas, qué tablas existen en una base de datos, qué columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar. Los datos son de interés para el usuario final, el metadato es de interés para los programas que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un entorno de almacén de datos es muy diferente al rol que cumple en los ambientes operacionales. En el ámbito de los data warehouse el metadato juega un papel fundamental, su función consiste en recoger todas las definiciones de la organización y el concepto de los datos en el almacén de datos, debe contener toda la información concerniente a:  Tablas  Columnas de tablas  Relaciones entre tablas  Jerarquías y Dimensiones de datos  Entidades y Relaciones 11.2 Funciones ETL (extracción, transformación y carga) Los procesos de extracción, transformación y carga (ETL) son importantes ya que son la forma en que los datos se guardan en un almacén de datos (o en cualquier base de datos). Implican las siguientes operaciones:  Extracción. Acción de obtener la información deseada a partir de los datos almacenados en fuentes externas.  Transformación. Cualquier operación realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de éste a otra base de datos.
  • 19.  Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el almacén de datos objetivo normal. 11.3 Middleware Middleware es un término genérico que se utiliza para referirse a todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas. Estos servicios funcionan como una capa de abstracción de software distribuida, que se sitúa entre las capas de aplicaciones y las capas inferiores (sistema operativo y red). El middleware puede verse como una capa API, que sirve como base a los programadores para que puedan desarrollar aplicaciones que trabajen en diferentes entornos sin preocuparse de los protocolos de red y comunicaciones en que se ejecutarán. De esta manera se ofrece una mejor relación costo/rendimiento que pasa por el desarrollo de aplicaciones más complejas, en menos tiempo. La función del middleware en el contexto de los data warehouse es la de asegurar la conectividad entre todos los componentes de la arquitectura de un almacén de datos. 12. Diseño de un almacén de datos Para construir un Data Warehouse se necesitan herramientas para ayudar a la migración y a la transformación de los datos hacia el almacén. Una vez construido, se requieren medios para manejar grandes volúmenes de información. Se diseña su arquitectura dependiendo de la estructura interna de los datos del almacén y especialmente del tipo de consultas a realizar. Con este criterio los datos deben ser repartidos entre numerosos data marts. Para abordar un proyecto de data warehouse es necesario hacer un estudio de algunos temas generales de la organización o empresa, los cuales se describen a continuación:  Situación actual de partida.- Cualquier solución propuesta de data warehouse debe estar muy orientada por las necesidades del negocio y debe ser compatible con la arquitectura técnica existente y planeada de la compañía.  Tipo y características del negocio.- Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la organización y el soporte que representa la información dentro de todo su proceso de toma de decisiones.
  • 20.  Entorno técnico.- Se debe incluir tanto el aspecto del hardware (mainframes, servidores, redes,...) así como aplicaciones y herramientas. Se dará énfasis a los Sistemas de soporte a decisiones (DSS), si existen en la actualidad, cómo operan, etc.  Expectativas de los usuarios.- Un proyecto de data warehouse no es únicamente un proyecto tecnológico, es una forma de vida de las organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su bondad.  Etapas de desarrollo.- Con el conocimiento previo, ya se entra en el desarrollo de un modelo conceptual para la construcción del data warehouse.  Prototipo.- Un prototipo es un esfuerzo designado a simular tanto como sea posible el producto final que será entregado a los usuarios.  Piloto.- El piloto de un data warehouse es el primero, o cada uno de los primeros resultados generados de forma iterativa que se harán para llegar a la construcción del producto final deseado.  Prueba del concepto tecnológico.- Es un paso opcional que se puede necesitar para determinar si la arquitectura especificada del data warehouse funcionará finalmente como se espera. 13. Almacén de datos especial Almacén de datos especial es una colección de datos orientados al tema, integrados, no volátiles, variantes en el tiempo y que añaden la geografía de los datos, para la toma de decisiones. Sin embargo la componente geográfica no es un dato agregado, sino que es una dimensión o variable en la tecnología de la información, de tal manera que permita modelar todo el negocio como un ente holístico, y que a través de herramientas de procesamiento analítico en línea (OLAP), no solamente se posea un alto desempeño en consultas multidimensionales sino que adicionalmente se puedan visualizar espacialmente los resultados. El almacén de datos especial forma parte de un extensivo Sistema de Información Geográfica para la toma de decisiones, éste al igual que los SIG, permiten que un gran número de usuarios accedan a información integrada, a diferencia de un simple almacén de datos que está orientado al tema, el Data warehouse especial adicionalmente es Geo-
  • 21. Relacional, es decir que en estructuras relacionales combina e integra los datos espaciales con los datos descriptivos. Actualmente es geo-objetos, esto es que los elementos geográficos se manifiestan como objetos con todas sus propiedades y comportamientos, y que adicionalmente están almacenados en una única base de datos Objeto-Relacional. Los Data Warehouse Especiales son aplicaciones basadas en un alto desempeño de las bases de datos, que utilizan arquitecturas Cliente-Servidor para integrar diversos datos en tiempo real. Mientras los almacenes de datos trabajan con muchos tipos y dimensiones de datos, muchos de los cuales no referencian ubicación especial, a pesar de poseerla intrínsecamente, y sabiendo que un 80% de los datos poseen representación y ubicación en el espacio, en los Data warehouse especiales, la variable geográfica desempeña un papel importante en la base de información para la construcción del análisis, y de igual manera que para un Data warehouse, la variable tiempo es imprescindible en los análisis, para los Data warehouse especiales la variable geográfica debe ser almacenada directamente en ella.
  • 22. 14. Los elementos básicos de un Almacén de Datos (Data WareHouse)  Sistema fuente: sistemas operacionales de registros donde sus funciones son capturar las transacciones del negocio. A los sistemas fuentes también se le conoce como Legacy System.  Área de trafico de datos: es un área de almacenamiento y grupo de procesos, que limpian transforman, combinan, remover los duplicados, guardan, archivan y preparan los datos fuente para ser usados en el Data WareHouse.  Servidor de presentación: la maquina física objetivo en donde los datos del Data WareHouse son organizados y almacenados para queries directos por los usuarios finales, reportes y otras aplicaciones.  Modelo dimensional: una disciplina especifica para el modelado de datos que es una alternativa para los modelos de entidad – relación.  Procesos de negocios: un coherente grupo de actividades de negocio que hacen sentido a los usuarios del negocio del Data WareHouse.  Data Mart: un subgrupo lógico del Data WareHouse completo.  Data WareHouse: búsquedas fuentes de datos de la empresa. Y es la unión de todos los data marts que la constituyen.  Almacenamiento operacional de datos: es el punto de integración por los sistemas operacionales. Es el acceso al soporte de decisiones por los ejecutivos.  OLAP: actividad general de búsquedas para presentación de texto y números del Data WareHouse, también un estilo dimensional especifico de búsquedas y presentación de información y que es ejemplificada por vendedores de OLAP.  ROLAP: un grupo de interfases de usuarios y aplicaciones que le dan a la base de datos relacional un estilo dimensional.  MOLAP: un grupo de interfases de usuarios, aplicaciones y propietarios de tecnología de bases de datos que tienen un fuerte estilo dimensional.  Aplicaciones para usuarios finales: una colección de herramientas que hacen los queries, analizan y presentan la información objetivo para el soporte de las necesidades del negocio.  Herramientas de acceso a datos por usuarios finales: un cliente de Data WareHouse.
  • 23.  Ad Hoc Query Tool: un tipo especifico de herramientas de acceso a datos por usuarios finales que invita al usuario a formas sus propios queries manipulando directamente las tablas relacionales y sus uniones.  Modelado de aplicaciones: un sofisticado tipo de cliente de Data WareHouse con capacidades analíticas que transforma o digiere las salidas del Data WareHouse.  Meta Data: toda la información en el ambiente del Data WareHouse que no son así mismo los datos actuales.
  • 24. 15. Objetivos de Un Almacén de Datos Los objetivos fundamentales de un Almacén de Datos o Data WareHouse son:  Hace que la información de la organización sea accesible: los contenidos del Data WareHouse son entendibles y navegables, y el acceso a ellos son caracterizado por el rápido desempeño. Estos requerimientos no tienen fronteras y tampoco limites fijos. Cuando hablamos de entendible significa, que los niveles de la información sean correctos y obvios. Y Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic. Rápido desempeño significa, cero tiempo de espera. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar.  Hacer que la información de la organización sea consistente: la información de una parte de la organización puede hacerse coincidir con la información de la otra parte de la organización. Si dos medidas de la organización tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Información consistente significa, información de alta calidad. Significa que toda la información es contabilizada y completada. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar.  Es información adaptable y elástica: el Data WareHouse esta diseñado para cambios continuos. Cuando se le hacen nuevas preguntas al Data WareHouse, los datos existentes y las tecnologías no cambian ni se corrompen. Cuando se agregan datos nuevos al Data WareHouse, los datos existentes y las tecnologías tampoco cambian ni se corrompen. El diseño de Data Marts separados que hacen al Data WareHouse, deben ser distribuidos e incrementados. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar.  Es un seguro baluarte que protege los valores de la información: el Data WareHouse no solamente controla el acceso efectivo a los datos, si no que da a los dueños de la información gran visibilidad en el uso y abusos de los datos, aún después de haber dejado el Data WareHouse. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar.
  • 25.  Es la fundación de la toma de decisiones: el Data WareHouse tiene los datos correctos para soportar la toma de decisiones. Solo hay una salida verdadera del Data WareHouse: las decisiones que son hechas después de que el Data WareHouse haya presentado las evidencias. La original etiqueta que preside el Data WareHouse sigue siendo la mejor descripción de lo que queremos construir: un sistema de soporte a las decisiones. 16. Características Un DW es un conjunto de datos con las siguientes características: 16.1 Integrado Los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios. En la siguiente imagen podemos ver cómo se maneja la información en distintas aplicaciones y lo que buscamos con la integración seria escoger de todas un estándar de información para que uniformice los datos y se introduzcan al repositorio
  • 26. 16.2 Temático Sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De esta forma, las peticiones de información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar. En la siguiente imagen se muestra cómo se maneja un sistema de información orientada a sus aplicaciones y otra temática una diferencia importante entre estas está en la interrelación de la información. Los datos operacionales (aplicaciones) mantienen una relación continua entre dos o más tablas basadas en una regla comercial. Las del data warehouse miden espectros de tiempo y las relaciones encontradas en la data warehouse (podremos indagar en toda la información pasada relacionada entre todas las aplicaciones).
  • 27. 16.3 De tiempo variante El tiempo es parte implícita de la información contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la información almacenada en el datawarehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. Los datos históricos son de poco uso en el procedimiento operacional. La información del depósito por el contrario, debe incluir los datos históricos para usarse en la identificación y evaluación de tendencias. 16.4 No Volátil El almacén de información de un datawarehouse existe para ser leído, pero no modificado. La información es por tanto permanente, significando la actualización del datawarehouse la incorporación de los últimos valores que tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya existía. Como se puede observar en la imagen en la base de datos operacional la actualización (actualizar, borrar y modificar) se hace regularmente, mientras en el data warehouse sea una sola actualización esto hace que cuando tengamos que tomar una decisión con esta información tengamos seguridad de esta.
  • 28. 17. Ventajas e Inconvenientes 17.1 Ventajas Hay muchas ventajas por las que es recomendable usar un almacén de datos. Algunas de ellas son:  Los almacenes de datos hacen más fácil el acceso a una gran variedad de datos a los usuarios finales  Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decisión tales como informes de tendencia, por ejemplo: obtener los ítems con la mayoría de las ventas en un área en particular dentro de los últimos dos años; informes de excepción, informes que muestran los resultados reales frente a los objetivos planteados a priori.  Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestión de relaciones con clientes.
  • 29. 17.2 Inconvenientes Utilizar almacenes de datos también plantea algunos inconvenientes, algunos de ellos son:  A lo largo de su vida los almacenes de datos pueden suponer altos costos. El almacén de datos no suele ser estático. Los costos de mantenimiento son elevados.  Los almacenes de datos se pueden quedar obsoletos relativamente pronto  A veces, ante una petición de información estos devuelven una información subóptima, que también supone una pérdida para la organización.  A menudo existe una delgada línea entre los almacenes de datos y los sistemas operacionales. Hay que determinar qué funcionalidades de estos se pueden aprovechar y cuáles se deben implementar en el data warehouse, resultaría costoso implementar operaciones no necesarias o dejar de implementar alguna que sí vaya a necesitarse.
  • 30. 18. Conclusiones  Los almacenes de datos son el centro de atención de las grandes empresas actuales, porque son una colección de datos donde se encuentra integrada la información de estas, proporcionando una herramienta para que puedan hacer un mejor uso de la información y para el soporte al proceso de toma de decisiones gerenciales.  Existen numerosas causas que provocan suciedad en los registros de los sistemas operacionales, lo que trae como consecuencia que haya gran cantidad de datos almacenados en las empresas que carece de la calidad adecuada para ser utilizada de forma confiable.  El problema de la limpieza de datos es uno de los tres problemas fundamentales de los DW. Sin embargo, es poco tratado o evitado por muchas organizaciones, ya que no consideran adecuadamente el impacto negativo que puede ocasionar para el negocio el tener almacenada información deficiente.  En algunos casos es posible crear programas de limpieza a la medida para la empresa en cuestión, pero en el caso de bases de datos con grandes números de registros puede ser casi obligatorio el uso de las herramientas comerciales ya existentes.  Para las organizaciones actuales, la estandarización de las direcciones de sus listas de clientes es un punto fundamental a tener en cuenta, ya que direcciones de un DW que no tengan esta característica pueden provocar pérdida de credibilidad de las organizaciones, que a su vez, lleva a la pérdida de clientes como consecuencia de un servicio poco eficaz.
  • 31. 19. Bibliografía  Casares C. (Nov/2005) - Data Warehousing, http://www.programacion.com/bbdd/tutorial/warehouse/15/#wareho using_desarrollo_confi  Hussain S.; Beg J. (Oct/2005). - Data Quality: A Problem and an Approach, http://doc.advisor.com/doc/13060  Kimball R. (Oct/2005) -Dealing with Dirty Data, http://www.dbmsmag.com/9609d14.html  Martín J.; Morrás C.; García M. L.; Tello L. I.;Vivancos A. J. (Oct/2005) - Sistemas de soporte a la gestión del negocio, http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol812/so porte/soporte.html  Torres H.; Visitación M.; Grau A.; Mar M.; Barranco H.; Soldado M. (Oct/2005). - Bases de datos y data warehouse: Herramientas estratégicas para la eficacia comercial, http://www-lsi.ugr.es/~rosana/ investigacion/bd_efsi04.pdf  Laudon Keneth C., Laudon Jane P., Sistemas de Información Gerencial (8ª ed.)  México, Pearson Educación, (2004)  http://www.dwinfocenter.org/casefor.html  http://datawarehouse.ittoolbox.com/  http://dwhucv.blogspot.com/p/caracteristicas-de-un-datawarehouse.html