Construyendo pruebas para un DWH usando un paradigma de modelado Data Vault

Construyendo pruebas para un
DWH usando un paradigma de
modelado Data Vault
Presenta:
Tania Gómez Jiménez

INDICE
1. Conceptos Generales para Pruebas de Modelado Data Vault
2. Pruebas para un DWH usando un paradigma de modelado Data Vault

ETL
Extract, Transform and Load («extraer, transformar y cargar», frecuentemente
abreviado ETL) es el proceso que permite a las organizaciones mover datos desde
múltiples fuentes, transformarlos y cargarlos en otra base de datos, data mart o
data warehouse para analizar, o en otro sistema operacional para apoyar un
Proceso de Negocio.
Los procesos de extracción de información dependen de la base de datos en la que
se creará el Data Warehouse
Componentes de un proceso de ETL:
o Extracción
o Transformación
o Carga

Pruebas ETL’S
• Cifras Control (Origen vs Destino)
• Mapeo de datos
• Estructura (tipo de dato, longitudes, campos obligatorios)
• Consistencia de datos (Integridad)
• Reglas de negocio
Cifras
Control
Reglas de
Negocio
Detalle de la
Información

Modelo Data Vault
• Es una técnica de modelado de datos que permite explotar la información para
una toma de decisiones
• El modelo es construido para una extrema flexibilidad y escalabilidad, ejemplo,
desde cuando un cliente cambio de ciudad, domicilio, estado civil, etc.
• Consiste de tres tipos de entidades:
• Hub
• Satellite
• Links

Hub
• Se definen por una lista única de llaves de negocio (Business keys)
• Una llave de negocio, es usado por negocio para localizar e identificar
registros únicos en un compendio de información
• Ejemplos:
• Número de empleado
• Número de licencia de manejo
• Número de boleto
SEQUENCE
<BUSINESS KEY>
<LOAD DATE>
<RECORD SOURCE>
Hub_EmpID_SQN: numeric
(8)
EmpleadoID: integer (25)
Hub_EmpID_LDTS:
datetime (8)
Hub_EmpID_RSRC:
varchar(12)
Índice único
Hub_Empleado
SQN: Sequence number
LDTS: Load Date Time Stamp
RSRC: Record Source

Satellite
• Proporciona un contexto de las llaves de negocio (hubs)
• Descriptores
SEQUENCE
<BUSINESS KEY>
<LOAD DATE>
<RECORD SOURCE>

Links
• Asociaciones
• Es una intersección de llaves de negocio
• Se utilizan para conectar múltiple conjuntos de información
Link_Empleado_
Cuenta
Hub Empleado Hub Cuenta
SEQUENCE
<HUB KEY SQN 1>
<HUB KEY SQN 2>
<HUB KEY SQN N>
<LOAD DATE>
<RECORD SOURCE>

Pruebas para un DWH usando un
paradigma de modelado Data Vault

Ambientes
• Ambientes separados:
• Desarrollo
• Pruebas
• Producción
• Un proceso estandarizado de despliegue, es requerido
Desarrollo Pruebas Producción

Datos de Prueba
• Participación Equipo Análisis vs Pruebas
• Aquí es donde el entorno de prueba entra en juego:
• Proporciona una copia de los datos reales de producción con todas las
funcionalidades
• Se trata de una copia de toda la funcionalidad y los datos de producción tanto
como sea posible
• El ambiente de pruebas debería contener una copia completa de los datos que
están siendo usados actualmente por los usuarios de negocio
• No siempre es posible tener una copia completa de los datos en el ambiente de
pruebas debido a limitaciones de espacio
• Al menos el 50% de los datos productivos deben ser usados para pruebas

Capas
• Adquisición
• Extracción de información
• Capa cruda
• Contiene la información del sistema operacional, de acuerdo a las llaves
de negocio
• Capa Homologado
• Contiene la información de todos los sistemas centrales homologando los
conceptos de negocio y aplicando las reglas de negocio

¿Qué Probar?
FUENTES ADQUISICION CRUDO HOMOLOGADO

Ciclos de Pruebas
Se determina el periodo a cargar para los ciclos de pruebas, la recomendación es
trabajar en conjunto con el equipo de análisis:
• Ciclo de Pruebas 1
• Cargas Iniciales
• Deltas
• Ciclo de Pruebas 2
• Cargas Iniciales
• Deltas

Casos de Prueba Adquisición
Source vs Adquisición
• Query Pivote
• Se extrae en base a un query pivote, contra el cual se hará join el
resto de las tablas
• Cifras control (conteo registros)
• Pueden contener o no una llave de negocio y agruparse o no por la
misma
• Longitud de datos

Casos de Prueba Crudo
Adquisición vs Hub
• Hub
• Cifras control (agrupado por llaves de negocio)
• Llaves de negocio únicas
• Atributos
• Longitud de datos
• Campos control (Fecha_Carga, Source, etc.)
• Registros activos (Estatus)

Casos de Prueba Crudo…
Adquisición vs Satellite
• Satellite
• Cifras control (agrupado por llaves de negocio) (Acq vs Sat y Hub vs Sat)
• Llaves de negocio únicas
• Atributos
• Longitud
• Tipo dato
• Registros activos / inactivos (Estatus)

Casos de Prueba Crudo…
Hub vs Link
• Link
• Cifras control (conformación hubs)
• Registros activos (Estatus)

Referencias
• Super Charge your Data Warehouse. Dan Linstedt
• www.learndatavault.com

Tania Gómez
Jiménez
tgomezj@wssgroup.com
cctania_utm@yahoo.com.mx
taniagomezjimenez

Construyendo pruebas para un DWH usando un paradigma de modelado Data Vault

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (15)

Similar a Construyendo pruebas para un DWH usando un paradigma de modelado Data Vault

Similar a Construyendo pruebas para un DWH usando un paradigma de modelado Data Vault (20)

Más de Software Guru

Más de Software Guru (20)

Último

Último (6)

Construyendo pruebas para un DWH usando un paradigma de modelado Data Vault