Este documento explica los procesos ETL (extracción, transformación y carga) involucrados en mover datos desde múltiples fuentes a un almacén de datos. Detalla las tres fases del proceso ETL y cómo se usan herramientas como Microsoft SQL Server y Visual Studio para extraer tablas de una base de datos origen, transformar los datos y cargarlos en tablas de una base de datos de destino. El documento también concluye resaltando la importancia de planificar y modelar correctamente el proceso ETL.
3. ETL
Son una parte de la integración de datos, pero es un elemento importante cuya función
completa el resultado de todo el desarrollo de la cohesión de aplicaciones y sistemas.
La palabra ETL corresponde a las siglas en inglés de:
• Extraer: extract.
• Transformar: transform.
• Y Cargar: load.
Con ello, queremos decir que todo proceso ETL consta precisamente de estas tres fases:
extracción, transformación y carga. Vamos a definir en qué consisten cada una de estas
fases
4. PROCESOS ETL DEL DATAWAREHOUSE
Teniendo como primer paso para la obtención de la información hacia el ambiente del
Data WareHouse. Una vez que la información es extraída hacia el área de tráfico de
datos, hay posibles pasos de transformación.
Ejemplo limpieza de la información, que no nos sirve, seleccionar únicamente los
campos necesarios para el Data WareHouse, combinar fuentes de datos, haciéndolas
coincidir por los valores de las llaves, creando nuevas llaves para cada registro de una
dimensión.
DATAMART
Es una versión especial de almacén de datos (Data WareHouse).
Son subconjuntos de datos con el propósito de ayudar a que un área específica.
Los datos existentes en este contexto pueden ser agrupados, explorados y
transmitidos de múltiples formas para que diversos grupos de usuarios realicen la
explotación de los mismos de la forma más conveniente según sus necesidades.
El Data Mart es un sistema orientado a la consulta.
5. MICROSOFT SQL SERVER 2008
Primero instalamos el programa En el programa sql server 2008r2
En database se realiza un anticlick en Attach sebusca la base de datos a ser agregada
6. El attach Database
Seleccionamos en Add
Se selecciona las unidades lo cual elegimos la unidad donde esta nuestra carpeta con la base
de datos.
12. Nombre del archivo. , o se elige por defecto el nombre indicado
Elegimos la base de destino
Verificamos la conexión realizando el clic en Test Conection
16. Le damos nombre a la base
Ubicamos en la parte inferior para la coneccion: en Conection Managerscon anticlic(1)
Conectamos las bases de origen – destino(2)
2
1
17. Agregamos la 1ª conection de origen
Agregamos la segunda conection de destino visualizamos las conecciones
18. Creamos las Dimensiones
Se realizaran 3 Dimensiones de la base de destino especificada en la tabla siguiente:
Tabla a relacionarse con la de destino
19. DTL
Iniciamos con la tabla Proveedor – Dimension Proveedor por estar en ese orden
Con la herramienta – SQL Task
Insertamos en la opción arrastrando la herramienta SQL Task
20. Conectamos con la base de destino hacia donde nos dirigimos
Para realizar la limpieza de datos
La tabla de Productos no se elimina datos por lo que actualiza
21. Las tablas siguientes tablas de destino se borraran datos
Copiamos las consultas realizadas
22. Trabajamos con data flow task para las 3 dimensiones
Observamos las Dimensiones a tratar
24. La base de origen
Seleccionamos table por que ambas bases se relacionan con tablas sus datos
Se origina la activación
25. Ingresamos un data convertion lo cual homogeniza los datos ()
Doble clic mostrando este cuadro
26. Seleccionamos lo requerido por no ser de igual tipo dato, en este caso todos
Especificamos con un nombre para ubicarlo en el mapping con mayor facilidad
33. Seleccionamos Comand por lo que ingresamos las consultas:
Ingresamos la herramienta destino aquí no insertamos la herramienta data conection por
ingresar consultas
47. Conclusiones
Indicar y señalar la importancia del proceso ETL y la necesidad
de que ésta sea planificada y modelada correctamente.
Facilitar esfuerzos de definición y redefinición de actividades.
ETL es la etapa más crítica para la calidad de la información de
los almacenes de datos.
Se pretende desarrollar un modelo conceptual para procesos
ETL con su propia notación gráfica, tomando en cuenta los
aspectos de seguridad.
ETL es el proceso que organiza el flujo de los datos entre diferentes
sistemas en una organización y aporta los métodos y herramientas
necesarias para mover datos desde múltiples fuentes como la compra.
ETL forma parte de la Inteligencia de Negocios (Business Intelligence),
también llamado “Gestión de los Datos” (Data Management).