Extract, Transform and Load («Extraer, Transformar y Cargar», frecuentemente abreviado ETL) es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra Base de Datos, Data Mart, o Data Warehouse para analizar, o en otro sistema operacional para apoyar un Proceso de Negocio.
2. Extracción (Extract)
Para llevar a cabo de manera correcta el
proceso de extracción:
Extraer los
datos desde
los sistemas
de origen
Analizar los
datos
extraídos
obteniendo
un chequeo
Interpretar
este chequeo
para verificar
que los datos
Convertir los
datos a un
formato
preparado
para iniciar
el proceso
de
transformaci
ón
3. Transformación (Transform )
Aplica una serie de reglas de negocio o funciones sobre los datos
extraídos para convertirlos en datos que serán cargados.
En ocasiones será necesario realizar alguna pequeña manipulación
de los datos, sin embargo, y dependiendo siempre de las fuentes
de datos, a veces los que hará falta será aplicar algunas
transformaciones
4. Carga (Load )
En esta fase, los datos procedentes de la fase anterior (Fase de
Transformación) son cargados en el sistema de destino. Formas:
Acumulación Simple:
Consiste en realizar un resumen de
todas las transacciones comprendidas
en el período de tiempo seleccionado
y transportar el resultado como una
única transacción hacia la data
Warehouse.
Rolling (Recomendable)
Almacena información resumida a
distintos niveles, correspondientes a
distintas agrupaciones de la unidad
de tiempo o diferentes niveles
jerárquicos en alguna o varias de las
dimensiones de la magnitud
almacenada.
5. ¿Cómo funcionan las Herramientas ETL?
Existen principalmente tres tipos de paralelismo que se pueden implementar
en las aplicaciones ETL:
Paralelismo de Datos (Dividir un único
archivo)
Paralelismo de Segmentación (Pipeline -
funcionamiento simultáneo)
Paralelismo de Componente (Procesos en
diferentes flujos de datos)
6.
7. Desafíos para los Procesos y Herramientas ETL
Los procesos ETL pueden ser muy complejos. Un sistema ETL mal diseñado
puede causar importantes problemas operativos.
La escalabilidad (Capacidad del sistema
para reaccionar y adaptarse)
La funcionalidad (ETL puede utilizarse en
diversos entornos)
8. Recomendaciones
En la práctica, una buena solución para simplificar algunas
partes del proceso puede ser, siempre que sea aplicable, el
capturar los registros que contienen datos no válidos en un
archivo de rechazos para su posterior inspección.
El siguiente paso sería analizar todos estos datos anómalos
y actuar sobre ellos. De esta manera, el diseño de procesos
ETL será bastante sencillo y contará con una entrada, una
etapa de validación y salidas
9. Conclusiones
ETL es una de las herramientas en la actualidad
que permiten el procesamiento y análisis para
datos masivos
Se puede realizar consultas en tiempo real
utilizando las herramientas ETL en una manera
abstracta para el usuario (Internet - tecnologías)