Definir los pasos clave para construir una data warehouse
1.
2. 1) Reconocer que el trabajo será más duro de lo que se esperaba
inicialmente.
2) Conocer los datos en los sistemas origen.
3) Saber reconocer entidades equivalentes.
4) Usar metadatos como soporte a la calidad de los datos.
5) Seleccionar las herramientas ETL adecuadas.
6) Tomar ventaja de las fuentes externas.
7) Utilizar nuevos métodos de distribución de la información.
8) Centrarse en aplicaciones para uso en Marketing.
9) Enfatizar los primeros resultados positivos para ganar apoyo de la
organización.
10) No hay que infravalorar los requerimientos de Hardware.
3. DEFINIR
Existen varios enfoques en este sentido:
Fábrica de información corporativa (CIF): incluyen ODS, data
Warehouse y data Marts, junto con otras varias interfaces de aplicaciones y, el
ambiente operacional, fue desarrollada por Bill Inmon, Claudia Imhoff, Ryan
Sousa.
Esquema en estrella: Este método replica las estructuras
multidimensionales de hechos, dimensiones, pero usa tablas de RDBMS,
específicamente tablas de hechos, tablas de dimensiones. Se dejan de lado las
reglas de normalización de base de datos y, se ponen los datos donde tienen
más sentido.
Data Vault (Arquitectura de modelado fundacional común -
CFIMA): Esta es una arquitectura de integración de datos que contiene una
base de datos orientada al detalle que contiene un conjunto de tablas
normalizadas únicamente enlazadas que soportan una o más áreas funcionales
de las tablas de negocio con tablas satélites para rastrear cambios históricos.
Este enfoque híbrido reúne lo mejor del cruce entre la tercera forma normal
(3NF).
4. CONSEGUIR
Definir el mejor diseño físico para el modelo de datos. El diseño físico
debe estar orientado a generar buen rendimiento en el procesamiento
de consultas, a diferencia del modelo lógico que está orientado al
usuario y a la facilidad de consulta.
Definir los procesos de extracción, filtro, transformación de
información y, carga de datos que se deben implementar para poblar
ese modelo de datos.
Definir los procesos de administración de la información que
permanece en el data Warehouse.
Definir las formas de consultas a la información de la data Warehouse
que se le proporcionará al usuario. Para ello, debe considerarse la
necesidad de resolver un problema y la potencia de consulta
5. DEPURAR
Se refiere a Múltiples Fuentes,
orientadas a trabajo Batch: cagas de
estos sistemas son más fuertes
cuando los sistemas de producción
tienen poca carga, conectividad a
diferentes tecnologías, diferentes
manejadores de BDs.
6. TRANSFORMAR
Se refiere a la manipulación de data
compleja, la reunión de diferentes
fuentes para la complementación de
reglas de negocio, limpiado,
ordenado y eliminando duplicidades
y adicionalmente optimizado para el
desempeño y para grandes
volúmenes.
7. CARGAR
Establecer una metodología de trabajo.
Establecer claramente el origen de los datos que se necesitan.
Identificar los dueños de la información de negocio.
Los dueños de la información deben contar con autoridad para
tomar decisiones en representación de la organización.
Comprometer recursos de negocio y técnicos con conocimiento
de los actuales sistemas y sus datos.
Comenzar a determinar la calidad de los datos de los actuales
sistemas.
Corregir o limpiar inconsistencias en estos sistemas, no es
bueno corregirlo durante la migración.
Archivar los datos históricos de los sistemas actuales antes de
comenzar la migración.