TUTORIAL ETL
Asignatura: BASE DE DATOS AVANZADA
Autora: Fanny Pita Chapilliquen
Docente Ingeniero: Hector Zelada
BI
(Business Intelligence)
Datos
Informaci
ón
Conocimien
tos
Toma de
Decisiones
Cumple con sus objetivos
Cumple con sus objetivos
estratégicos
Logra su Visión
Analizar
ETL
Son una parte de la integración de datos, pero es un elemento importante cuya función
completa el resultado de todo el desarrollo de la cohesión de aplicaciones y sistemas.
La palabra ETL corresponde a las siglas en inglés de:
• Extraer: extract.
• Transformar: transform.
• Y Cargar: load.
Con ello, queremos decir que todo proceso ETL consta precisamente de estas tres fases:
extracción, transformación y carga. Vamos a definir en qué consisten cada una de estas
fases
PROCESOS ETL DEL DATAWAREHOUSE
Teniendo como primer paso para la obtención de la información hacia el ambiente del
Data WareHouse. Una vez que la información es extraída hacia el área de tráfico de
datos, hay posibles pasos de transformación.
Ejemplo limpieza de la información, que no nos sirve, seleccionar únicamente los
campos necesarios para el Data WareHouse, combinar fuentes de datos, haciéndolas
coincidir por los valores de las llaves, creando nuevas llaves para cada registro de una
dimensión.
DATAMART
Es una versión especial de almacén de datos (Data WareHouse).
Son subconjuntos de datos con el propósito de ayudar a que un área específica.
Los datos existentes en este contexto pueden ser agrupados, explorados y
transmitidos de múltiples formas para que diversos grupos de usuarios realicen la
explotación de los mismos de la forma más conveniente según sus necesidades.
El Data Mart es un sistema orientado a la consulta.
MICROSOFT SQL SERVER 2008
Primero instalamos el programa En el programa sql server 2008r2
En database se realiza un anticlick en Attach sebusca la base de datos a ser agregada
El attach Database
Seleccionamos en Add
Se selecciona las unidades lo cual elegimos la unidad donde esta nuestra carpeta con la base
de datos.
Verificamos la conexión al realizar clic en nuestra base de datos
Procedemos a trabajar el Visual Studio
Inicio
Creando un Proyecto
Elegimos el proyecto a trabajar Integration
Elegimos un nombre para el proyecto
Elegimos la unidad a guardarla
Se crea una carpeta
Aceptamos
Realizamos Clic en Data Source
 Nombre del archivo. , o se elige por defecto el nombre indicado
 Elegimos la base de destino
Verificamos la conexión realizando el clic en Test Conection
Declaramos el nombre del origen
Ingresamos otra data para el destino
 Siguiente
 New(nuevo)
Seleccionamos la base de datos de destino
Verificamos la conection
Observamos la siguiente data con las dos bases:
Le damos nombre a la base
 Ubicamos en la parte inferior para la coneccion: en Conection Managerscon anticlic(1)
 Conectamos las bases de origen – destino(2)
2
1
Agregamos la 1ª conection de origen
Agregamos la segunda conection de destino visualizamos las conecciones
Creamos las Dimensiones
Se realizaran 3 Dimensiones de la base de destino especificada en la tabla siguiente:
Tabla a relacionarse con la de destino
DTL
Iniciamos con la tabla Proveedor – Dimension Proveedor por estar en ese orden
Con la herramienta – SQL Task
Insertamos en la opción arrastrando la herramienta SQL Task
Conectamos con la base de destino hacia donde nos dirigimos
Para realizar la limpieza de datos
La tabla de Productos no se elimina datos por lo que actualiza
Las tablas siguientes tablas de destino se borraran datos
Copiamos las consultas realizadas
Trabajamos con data flow task para las 3 dimensiones
Observamos las Dimensiones a tratar
Realizamos dobleclic en dataflowProveedor
Ingresamos un OLB Source
 La base de origen
 Seleccionamos table por que ambas bases se relacionan con tablas sus datos
Se origina la activación
Ingresamos un data convertion lo cual homogeniza los datos ()
Doble clic mostrando este cuadro
Seleccionamos lo requerido por no ser de igual tipo dato, en este caso todos
Especificamos con un nombre para ubicarlo en el mapping con mayor facilidad
Ingresamos una herramienta de destino
Dobleclic en sourcedestino verificamos y ubicamos en el destino
Nos ubicamos en mapping
Seleccionamos lo requerido(a relacionar)
Comprobamos la conexión como alerta origina de color verde
Datos Origen
Dimensión tiempo en origen no tiene fecha, año, mes luego se completaran creando su
consulta : SELECT * FROM Compra
Agrupamos con GROUP BY Fecha
Consulta Mes
Consulta TRIMESTRE
Consulta Año
Dobleclic ingresamos
Seleccionamos Comand por lo que ingresamos las consultas:
Ingresamos la herramienta destino aquí no insertamos la herramienta data conection por
ingresar consultas
Conexión Tiempo
Relacionamos con lo correspondiente
Ejecutamos
Conectamos
 Ubicamos el Producto desde valor cero
 Insertamos 2 OLE DB
 Un origen
 Un destino
Configuramos Origen
Destino
 Destino Producto
 Los elementos son iguales
Modificamos para que tengan los mismos caracteres sor
Soordestino
Para unir a los sor con el main ubicamos derecha o izquierda
Clic en Mage Join
Activamos
Ingresamos un conditional
Dobleclic
NULL
Verificamos en las Columnas
Ubicamos a KEY
Al unir origina
Dobleclic
Relacionamos
Ejecutamos
Conclusiones
 Indicar y señalar la importancia del proceso ETL y la necesidad
de que ésta sea planificada y modelada correctamente.
 Facilitar esfuerzos de definición y redefinición de actividades.
 ETL es la etapa más crítica para la calidad de la información de
los almacenes de datos.
 Se pretende desarrollar un modelo conceptual para procesos
ETL con su propia notación gráfica, tomando en cuenta los
aspectos de seguridad.
 ETL es el proceso que organiza el flujo de los datos entre diferentes
sistemas en una organización y aporta los métodos y herramientas
necesarias para mover datos desde múltiples fuentes como la compra.
 ETL forma parte de la Inteligencia de Negocios (Business Intelligence),
también llamado “Gestión de los Datos” (Data Management).

Microsoft sql server 2008 - ETL

  • 1.
    TUTORIAL ETL Asignatura: BASEDE DATOS AVANZADA Autora: Fanny Pita Chapilliquen Docente Ingeniero: Hector Zelada
  • 2.
    BI (Business Intelligence) Datos Informaci ón Conocimien tos Toma de Decisiones Cumplecon sus objetivos Cumple con sus objetivos estratégicos Logra su Visión Analizar
  • 3.
    ETL Son una partede la integración de datos, pero es un elemento importante cuya función completa el resultado de todo el desarrollo de la cohesión de aplicaciones y sistemas. La palabra ETL corresponde a las siglas en inglés de: • Extraer: extract. • Transformar: transform. • Y Cargar: load. Con ello, queremos decir que todo proceso ETL consta precisamente de estas tres fases: extracción, transformación y carga. Vamos a definir en qué consisten cada una de estas fases
  • 4.
    PROCESOS ETL DELDATAWAREHOUSE Teniendo como primer paso para la obtención de la información hacia el ambiente del Data WareHouse. Una vez que la información es extraída hacia el área de tráfico de datos, hay posibles pasos de transformación. Ejemplo limpieza de la información, que no nos sirve, seleccionar únicamente los campos necesarios para el Data WareHouse, combinar fuentes de datos, haciéndolas coincidir por los valores de las llaves, creando nuevas llaves para cada registro de una dimensión. DATAMART Es una versión especial de almacén de datos (Data WareHouse). Son subconjuntos de datos con el propósito de ayudar a que un área específica. Los datos existentes en este contexto pueden ser agrupados, explorados y transmitidos de múltiples formas para que diversos grupos de usuarios realicen la explotación de los mismos de la forma más conveniente según sus necesidades. El Data Mart es un sistema orientado a la consulta.
  • 5.
    MICROSOFT SQL SERVER2008 Primero instalamos el programa En el programa sql server 2008r2 En database se realiza un anticlick en Attach sebusca la base de datos a ser agregada
  • 6.
    El attach Database Seleccionamosen Add Se selecciona las unidades lo cual elegimos la unidad donde esta nuestra carpeta con la base de datos.
  • 7.
    Verificamos la conexiónal realizar clic en nuestra base de datos
  • 8.
    Procedemos a trabajarel Visual Studio Inicio Creando un Proyecto
  • 9.
    Elegimos el proyectoa trabajar Integration Elegimos un nombre para el proyecto Elegimos la unidad a guardarla Se crea una carpeta
  • 10.
  • 12.
     Nombre delarchivo. , o se elige por defecto el nombre indicado  Elegimos la base de destino Verificamos la conexión realizando el clic en Test Conection
  • 13.
    Declaramos el nombredel origen Ingresamos otra data para el destino
  • 14.
     Siguiente  New(nuevo) Seleccionamosla base de datos de destino
  • 15.
    Verificamos la conection Observamosla siguiente data con las dos bases:
  • 16.
    Le damos nombrea la base  Ubicamos en la parte inferior para la coneccion: en Conection Managerscon anticlic(1)  Conectamos las bases de origen – destino(2) 2 1
  • 17.
    Agregamos la 1ªconection de origen Agregamos la segunda conection de destino visualizamos las conecciones
  • 18.
    Creamos las Dimensiones Serealizaran 3 Dimensiones de la base de destino especificada en la tabla siguiente: Tabla a relacionarse con la de destino
  • 19.
    DTL Iniciamos con latabla Proveedor – Dimension Proveedor por estar en ese orden Con la herramienta – SQL Task Insertamos en la opción arrastrando la herramienta SQL Task
  • 20.
    Conectamos con labase de destino hacia donde nos dirigimos Para realizar la limpieza de datos La tabla de Productos no se elimina datos por lo que actualiza
  • 21.
    Las tablas siguientestablas de destino se borraran datos Copiamos las consultas realizadas
  • 22.
    Trabajamos con dataflow task para las 3 dimensiones Observamos las Dimensiones a tratar
  • 23.
    Realizamos dobleclic endataflowProveedor Ingresamos un OLB Source
  • 24.
     La basede origen  Seleccionamos table por que ambas bases se relacionan con tablas sus datos Se origina la activación
  • 25.
    Ingresamos un dataconvertion lo cual homogeniza los datos () Doble clic mostrando este cuadro
  • 26.
    Seleccionamos lo requeridopor no ser de igual tipo dato, en este caso todos Especificamos con un nombre para ubicarlo en el mapping con mayor facilidad
  • 27.
    Ingresamos una herramientade destino Dobleclic en sourcedestino verificamos y ubicamos en el destino
  • 28.
    Nos ubicamos enmapping Seleccionamos lo requerido(a relacionar)
  • 29.
    Comprobamos la conexióncomo alerta origina de color verde Datos Origen
  • 30.
    Dimensión tiempo enorigen no tiene fecha, año, mes luego se completaran creando su consulta : SELECT * FROM Compra Agrupamos con GROUP BY Fecha
  • 31.
  • 32.
  • 33.
    Seleccionamos Comand porlo que ingresamos las consultas: Ingresamos la herramienta destino aquí no insertamos la herramienta data conection por ingresar consultas
  • 34.
  • 35.
  • 36.
     Ubicamos elProducto desde valor cero  Insertamos 2 OLE DB  Un origen  Un destino Configuramos Origen
  • 37.
    Destino  Destino Producto Los elementos son iguales
  • 38.
    Modificamos para quetengan los mismos caracteres sor Soordestino
  • 39.
    Para unir alos sor con el main ubicamos derecha o izquierda Clic en Mage Join
  • 40.
  • 41.
  • 42.
  • 43.
    Verificamos en lasColumnas Ubicamos a KEY
  • 44.
  • 45.
  • 46.
  • 47.
    Conclusiones  Indicar yseñalar la importancia del proceso ETL y la necesidad de que ésta sea planificada y modelada correctamente.  Facilitar esfuerzos de definición y redefinición de actividades.  ETL es la etapa más crítica para la calidad de la información de los almacenes de datos.  Se pretende desarrollar un modelo conceptual para procesos ETL con su propia notación gráfica, tomando en cuenta los aspectos de seguridad.  ETL es el proceso que organiza el flujo de los datos entre diferentes sistemas en una organización y aporta los métodos y herramientas necesarias para mover datos desde múltiples fuentes como la compra.  ETL forma parte de la Inteligencia de Negocios (Business Intelligence), también llamado “Gestión de los Datos” (Data Management).