DATA
WAREHOUSE
ASIGNATURA: TALLER DE BASE DE DATOS
DOCENTE: ING. MARIA YUSARA FARAH
CHAVEZ
TEMARIO
1. ¿Qué es Data Warehouse?
2. Conceptos básicos:
a. Características
b. Aplicaciones
c. Alternativas de Diseño
d. Herramientas Utilizadas
e. Datamining
f. Base de Datos Multidimensional
g. Metadatos
h. Procesos de Construcción
i. Técnicas Explotación
Un Data Warehouse es un conjunto de datos
integrados, orientados a una materia, que varían
con el tiempo y que no son transitorios, los
cuales soportan el proceso de toma de decisiones
de una administración.“
William Harvey Inmon
Definición
Data Warehouse
Es un repositorio estructurado, a
nivel Empresa, de datos
orientados hacia áreas de
negocio, que contiene datos
históricos y que está preparado
para facilitar la toma de
decisiones.
Diferencias
Base de Datos Operacional Data Warehouse
Datos Operacionales Datos del negocio para Información
Orientado a la aplicación Orientado al sujeto
Actual Actual + histórico
Detallada Detallada + más resumida
Cambia continuamente Estable
Entre las principales se tiene:
· Orientado al tema
· Integrado
· Variante en el Tiempo
· No volátil
Características
Orientado al Tema
Una primera característica
del data warehouse es que
la información se clasifica
en base a los aspectos que
son de interés para la
empresa.
Ejemplo: Para un
fabricante pueden ser
cliente, vendedor y
producto.
Integrado
La base de datos contiene
los datos de todos los
sistemas operacionales de
la organización, y dichos
datos deben ser
consistentes.
Variante en el Tiempo
Como la información en
el data warehouse es
solicitada en cualquier
momento (es decir, no
"ahora mismo"), los datos
encontrados en el
depósito se llaman
“variante en el tiempo".
No volátil
La información no se
modifica ni se elimina,
una vez almacenado un
dato, éste se convierte en
información de sólo
lectura, y se mantiene
para futuras consultas.
Aplicaciones
- Sistemas de Marketing
- Análisis de Riesgo Financiero
- Análisis de Riesgo de Crédito
- Control de Gestión
- Logística
- Recursos Humanos
¿Quiénes y para qué lo usan?
 Dadas las características de un sistema de Data
Warehousing, su aplicación puede tener variados fines,
en una diversidad de industrias. No obstante, en
términos generales, podemos decir que su aplicación
más rica corresponde a entornos de empresas en los
que se identifican grandes volúmenes de datos,
asociados a: cantidad de clientes, variedad de
productos y cantidad de transacciones. Veremos
algunas aplicaciones típicas en distintas industrias.
 Comercio Minorista: Utilizan grandes sistemas de
Procesamiento Paralelo Masivo para acceder a meses o
años de historia transaccional tomada directamente en
los puntos de venta de cientos, o miles, de sucursales.
 Manufactura de Bienes de Consumo Masivo: Las
empresas de este sector necesitan hacer un manejo
cada vez más ágil de la información para mantenerse
competitivas en la industria. Los Data Warehouses se
utilizan para predecir la cantidad de producto que se
venderá a un determinado precio y, por consiguiente,
producir la cantidad adecuada para una entrega "justo
a tiempo".
 Transporte de Cargas y Pasajeros: Se utilizan Data
Warehouses para almacenar y acceder a meses o años
de datos de clientes y sistemas de reservas para realizar
actividades de marketing, planeamiento de capacidad,
monitoreo de ganancias, proyecciones y análisis de
ventas y costos, programas de calidad y servicio a
clientes.
 Telecomunicaciones: Estas empresas utilizan sus Data
Warehouses para operar en un mercado
crecientemente competitivo, desregulado y global que,
a su vez, atraviesa profundos cambios tecnológicos. Se
almacenan datos de millones de clientes
 Muchas otras industrias y actividades utilizan
actualmente, o están comenzando a instalar, Data
Warehouses: entidades gubernamentales,
 especialmente para el control impositivo, empresas de
servicios públicos, de entretenimiento, editoriales,
fabricantes de automóviles, empresas de petróleo y
gas, laboratorios farmacéuticos, droguerías, etc.
Alternativas de Diseño
1. Creación de varios Datamarts independientes, uno
por cada dominio o fuente de información, y definición
de una Capa Usuario por cada uno de estos Datamarts.
2. Creación de un único Datawarehouse que englobe
todos los datos, del que se extraigan diferentes
Datamarts, uno por cada dominio o fuente de
información y definición de una Capa Usuario por cada
Datamart.
3. Creación de un único Datawarehouse con definición
de una única Capa Usuario.
4. Creación de un único Datawarehouse con definición
de varias Capas Usuario.
REPRESENTACION DE UN
DATAWAREHOUSE Y UN DATAMARTS
Herramientas Utilizadas
- Herramientas para
la inteligencia empresarial.
- Herramientas para extraer,
transformar y cargar datos en el
almacén de datos.
- Herramientas para gestionar y
recuperar los metadatos.
Datamining (Minería de Datos)
Es el conjunto de técnicas y tecnologías que
permiten explorar grandes bases de datos, de
manera automática o semiautomática, con el
objetivo de encontrar patrones repetitivos,
tendencias o reglas que expliquen el
comportamiento de los datos en un
determinado contexto. Hace uso de prácticas
estadísticas y, en algunos casos, de algoritmos
de búsqueda próximos a la Inteligencia
Artificial y a las redes neuronales.
Base de Datos Multidimensionales
Se utilizan principalmente para crear aplicaciones OLAP y pueden
verse como bases de datos de una sola tabla, su peculiaridad es que
por cada dimensión tienen un campo (o columna), y
otro campo por cada métrica o hecho, es decir estas tablas
almacenan registros cuyos campos son de la forma:
(d1,d2,d3,...,f1,f2,f3,...)
Donde los campos 'di' hacen referencia a las dimensiones de la
tabla, y los campos 'fi' a las métricas o hechos que se quiere
almacenar, estudiar o analizar.
Metadatos
Uno de los componentes más importantes de
la arquitectura de un almacén de datos son
los metadatos. Se define comúnmente como
"datos acerca de los datos", en el sentido de
que se trata de datos que describen cuál es la
estructura de los datos que se van a almacenar
y cómo se relacionan.
El Metadato documenta, entre otras cosas,
qué tablas existen en una base de datos, qué
columnas posee cada una de las tablas y qué
tipo de datos se pueden almacenar.
Procesos de Construcción
ETL (Extracción, Transformación y Carga).
Extracción: Obtención de información de las
distintas fuentes tanto internas como
externas.
Transformación: Filtrado, limpieza,
depuración, homogeneización y agrupación
de la información.
Carga: Organización y actualización de los
datos y los metadatos en la base de datos.
Técnicas de Explotación
La explotación del Data Warehouse mediante información de
gestión, se fundamenta básicamente en los niveles agrupados o
calculados de información.
Carga de Base de datos
Extracción, Depuración, Filtro, Elaboración
Glosario
• Data Warehouse: Es un repositorio estructurado, a nivel
Empresa, de datos orientados hacia áreas de negocio, que contiene
datos históricos y que está preparado para facilitar la toma de
decisiones.
• Datamart: Es una base de datos orientada a un tema específico.
En otras palabras es un subconjunto del Data Warehouse
Corporativo.
• Capa Usuario: Es una vista usuario de la base de datos que
permite su aislamiento respecto de la complejidad física de la
misma. No incluye ningún dato físico. Es una agrupación lógica de
los datos adaptada a los conocimientos y filosofía del Usuario
• OLAP: Tecnología que permite la explotación de datos en
diferentes niveles organizacionales y periodos de tiempo.
GRACIAS POR SU
ATENCION

1DATA WAREHOUSE.ppt

  • 1.
    DATA WAREHOUSE ASIGNATURA: TALLER DEBASE DE DATOS DOCENTE: ING. MARIA YUSARA FARAH CHAVEZ
  • 2.
    TEMARIO 1. ¿Qué esData Warehouse? 2. Conceptos básicos: a. Características b. Aplicaciones c. Alternativas de Diseño d. Herramientas Utilizadas e. Datamining f. Base de Datos Multidimensional g. Metadatos h. Procesos de Construcción i. Técnicas Explotación
  • 3.
    Un Data Warehousees un conjunto de datos integrados, orientados a una materia, que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de una administración.“ William Harvey Inmon Definición
  • 4.
    Data Warehouse Es unrepositorio estructurado, a nivel Empresa, de datos orientados hacia áreas de negocio, que contiene datos históricos y que está preparado para facilitar la toma de decisiones.
  • 5.
    Diferencias Base de DatosOperacional Data Warehouse Datos Operacionales Datos del negocio para Información Orientado a la aplicación Orientado al sujeto Actual Actual + histórico Detallada Detallada + más resumida Cambia continuamente Estable
  • 6.
    Entre las principalesse tiene: · Orientado al tema · Integrado · Variante en el Tiempo · No volátil Características
  • 7.
    Orientado al Tema Unaprimera característica del data warehouse es que la información se clasifica en base a los aspectos que son de interés para la empresa. Ejemplo: Para un fabricante pueden ser cliente, vendedor y producto.
  • 8.
    Integrado La base dedatos contiene los datos de todos los sistemas operacionales de la organización, y dichos datos deben ser consistentes.
  • 9.
    Variante en elTiempo Como la información en el data warehouse es solicitada en cualquier momento (es decir, no "ahora mismo"), los datos encontrados en el depósito se llaman “variante en el tiempo".
  • 10.
    No volátil La informaciónno se modifica ni se elimina, una vez almacenado un dato, éste se convierte en información de sólo lectura, y se mantiene para futuras consultas.
  • 11.
    Aplicaciones - Sistemas deMarketing - Análisis de Riesgo Financiero - Análisis de Riesgo de Crédito - Control de Gestión - Logística - Recursos Humanos
  • 12.
    ¿Quiénes y paraqué lo usan?  Dadas las características de un sistema de Data Warehousing, su aplicación puede tener variados fines, en una diversidad de industrias. No obstante, en términos generales, podemos decir que su aplicación más rica corresponde a entornos de empresas en los que se identifican grandes volúmenes de datos, asociados a: cantidad de clientes, variedad de productos y cantidad de transacciones. Veremos algunas aplicaciones típicas en distintas industrias.
  • 13.
     Comercio Minorista:Utilizan grandes sistemas de Procesamiento Paralelo Masivo para acceder a meses o años de historia transaccional tomada directamente en los puntos de venta de cientos, o miles, de sucursales.  Manufactura de Bienes de Consumo Masivo: Las empresas de este sector necesitan hacer un manejo cada vez más ágil de la información para mantenerse competitivas en la industria. Los Data Warehouses se utilizan para predecir la cantidad de producto que se venderá a un determinado precio y, por consiguiente, producir la cantidad adecuada para una entrega "justo a tiempo".
  • 14.
     Transporte deCargas y Pasajeros: Se utilizan Data Warehouses para almacenar y acceder a meses o años de datos de clientes y sistemas de reservas para realizar actividades de marketing, planeamiento de capacidad, monitoreo de ganancias, proyecciones y análisis de ventas y costos, programas de calidad y servicio a clientes.  Telecomunicaciones: Estas empresas utilizan sus Data Warehouses para operar en un mercado crecientemente competitivo, desregulado y global que, a su vez, atraviesa profundos cambios tecnológicos. Se almacenan datos de millones de clientes
  • 15.
     Muchas otrasindustrias y actividades utilizan actualmente, o están comenzando a instalar, Data Warehouses: entidades gubernamentales,  especialmente para el control impositivo, empresas de servicios públicos, de entretenimiento, editoriales, fabricantes de automóviles, empresas de petróleo y gas, laboratorios farmacéuticos, droguerías, etc.
  • 16.
    Alternativas de Diseño 1.Creación de varios Datamarts independientes, uno por cada dominio o fuente de información, y definición de una Capa Usuario por cada uno de estos Datamarts. 2. Creación de un único Datawarehouse que englobe todos los datos, del que se extraigan diferentes Datamarts, uno por cada dominio o fuente de información y definición de una Capa Usuario por cada Datamart. 3. Creación de un único Datawarehouse con definición de una única Capa Usuario. 4. Creación de un único Datawarehouse con definición de varias Capas Usuario.
  • 17.
  • 18.
    Herramientas Utilizadas - Herramientaspara la inteligencia empresarial. - Herramientas para extraer, transformar y cargar datos en el almacén de datos. - Herramientas para gestionar y recuperar los metadatos.
  • 19.
    Datamining (Minería deDatos) Es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.
  • 20.
    Base de DatosMultidimensionales Se utilizan principalmente para crear aplicaciones OLAP y pueden verse como bases de datos de una sola tabla, su peculiaridad es que por cada dimensión tienen un campo (o columna), y otro campo por cada métrica o hecho, es decir estas tablas almacenan registros cuyos campos son de la forma: (d1,d2,d3,...,f1,f2,f3,...) Donde los campos 'di' hacen referencia a las dimensiones de la tabla, y los campos 'fi' a las métricas o hechos que se quiere almacenar, estudiar o analizar.
  • 21.
    Metadatos Uno de loscomponentes más importantes de la arquitectura de un almacén de datos son los metadatos. Se define comúnmente como "datos acerca de los datos", en el sentido de que se trata de datos que describen cuál es la estructura de los datos que se van a almacenar y cómo se relacionan. El Metadato documenta, entre otras cosas, qué tablas existen en una base de datos, qué columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar.
  • 22.
    Procesos de Construcción ETL(Extracción, Transformación y Carga). Extracción: Obtención de información de las distintas fuentes tanto internas como externas. Transformación: Filtrado, limpieza, depuración, homogeneización y agrupación de la información. Carga: Organización y actualización de los datos y los metadatos en la base de datos.
  • 23.
    Técnicas de Explotación Laexplotación del Data Warehouse mediante información de gestión, se fundamenta básicamente en los niveles agrupados o calculados de información. Carga de Base de datos Extracción, Depuración, Filtro, Elaboración
  • 24.
    Glosario • Data Warehouse:Es un repositorio estructurado, a nivel Empresa, de datos orientados hacia áreas de negocio, que contiene datos históricos y que está preparado para facilitar la toma de decisiones. • Datamart: Es una base de datos orientada a un tema específico. En otras palabras es un subconjunto del Data Warehouse Corporativo. • Capa Usuario: Es una vista usuario de la base de datos que permite su aislamiento respecto de la complejidad física de la misma. No incluye ningún dato físico. Es una agrupación lógica de los datos adaptada a los conocimientos y filosofía del Usuario • OLAP: Tecnología que permite la explotación de datos en diferentes niveles organizacionales y periodos de tiempo.
  • 25.