ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
Pentaho PDI
1. Pentaho Data Integration
(Kettle)
Ing. Marcos Pierri
Ing. Marcos Pierri
SIU-Datawarehouse
SIU-Datawarehouse
dw@siu.edu.ar
dw@siu.edu.ar
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
2.
Proyecto open source adquirido
Proyecto open source adquirido
por Pentaho en 2006
por Pentaho en 2006
Desarrollado por Matt Casters
Desarrollado por Matt Casters
Anteriormente conocido como Kettle
Anteriormente conocido como Kettle
KDE Extraction,
KDE Extraction,
Transportation,
Transportation,
Transformation and
Transformation and
Loading Environment
Loading Environment
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
3. Usos comunes
Usos comunes
Carga de datawarehouses y datamarts
Carga de datawarehouses y datamarts
Integración de datos
Integración de datos
Limpieza de datos (Data cleansing)
Limpieza de datos (Data cleansing)
Migración y depuración de datos
Migración y depuración de datos
Exportación de datos
Exportación de datos
...
...
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
4. Cargando datos en un DW o datamart
Cargando datos en un DW o datamart
Extracción
Extracción
Proceso de
Proceso de
Transformación
Transformación
ETL
ETL
Carga
Carga
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
5. validación y descarte
validación y descarte
de datos de diferentes
de datos de diferentes
Extracción
Extracción de datos de acuerdo
de datos de acuerdo
fuentes y formatos
fuentes y formatos a reglas y patrones
a reglas y patrones
de datos de acuerdo
de datos de acuerdo Conversión de tipos de
Conversión de tipos de
Transformación
Transformación con requisitos
con requisitos datos, filtrado de datos,
datos, filtrado de datos,
técnicos y del negocio
técnicos y del negocio sumarizaciones
sumarizaciones
de datos
de datos Reescritura de datos
Reescritura de datos
Carga
Carga transformados en
transformados en y adición de
y adición de
una base de datos
una base de datos nueva información
nueva información
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
6. Carga
Carga
Extracción
Extracción
Transformación
Transformación
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
7. Actividades de Extracción
Actividades de Extracción
Captura de datos
Captura de datos
* Lectura a partir de diversas fuentes.
* Lectura a partir de diversas fuentes.
* Identificación de cambios desde la última extracción.
* Identificación de cambios desde la última extracción.
Staging
Staging
* Almacenamiento temporario de datos.
* Almacenamiento temporario de datos.
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
8. Fuentes de entrada de datos
Fuentes de entrada de datos
Acces
Acces Excel
Excel Tabla BD
Tabla BD
Xml
Xml Txt
Txt RSS
RSS
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
9. Actividades de Transformación
Actividades de Transformación
Validación de datos
Validación de datos
* Verificar que los datos sean correctos y precisos.
* Verificar que los datos sean correctos y precisos.
* Filtrado de datos inválidos.
* Filtrado de datos inválidos.
Limpieza de datos
Limpieza de datos
* Corrección de datos inválidos.
* Corrección de datos inválidos.
Agregación
Agregación
Generación y gestión de claves
Generación y gestión de claves
* SK – Claves subrogadas.
* SK – Claves subrogadas.
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
10. Actividades de Carga
Actividades de Carga
-- Carga de tablas de hechos
Carga de tablas de hechos
* Adicionar registros a la tabla de hechos.
* Adicionar registros a la tabla de hechos.
-- Carga y mantenimiento de las tablas de dimensiones
Carga y mantenimiento de las tablas de dimensiones
* Adicionar y actualizar los registros de las tablas de
* Adicionar y actualizar los registros de las tablas de
Dimensiones.
Dimensiones.
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
11. Instalando PDI
Instalando PDI
Pre-requisitos
Pre-requisitos
* JRE (ou JDK) 5.x o superior.
* JRE (ou JDK) 5.x o superior.
Descarga
Descarga
* http://sourceforge.net/projects/pentaho/files/
* http://sourceforge.net/projects/pentaho/files/
* Carpeta “Data Integration”
* Carpeta “Data Integration”
* 4.1.0 – 106.5 MB
* 4.1.0 – 106.5 MB
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
12. Después de descomprimir el archivo
Después de descomprimir el archivo
* Ejecutar spoon.sh (Linux) o spoon.bat (Windows)
* Ejecutar spoon.sh (Linux) o spoon.bat (Windows)
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
13. Pantalla de Bienvenida
Pantalla de Bienvenida
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
14. - Opciones de configuración del área de
- Opciones de configuración del área de
trabajo de Spoon
trabajo de Spoon
Solapa “General”
Solapa “General”
* Show tips at startup?
* Show tips at startup?
* Show welcome page at startup?
* Show welcome page at startup?
* ...
* ...
Solapa “Look & Feel”
Solapa “Look & Feel”
* Preferred Language
* Preferred Language
* ...
* ...
- Los cambios serán aplicados al reiniciar Spoon
- Los cambios serán aplicados al reiniciar Spoon
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
15. Principales Componentes de PDI
Principales Componentes de PDI
PDI trabaja con dos tipos básicos de componentes:
PDI trabaja con dos tipos básicos de componentes:
* Transformaciones
* Transformaciones
* Trabajos (Jobs)
* Trabajos (Jobs)
Características de las transformaciones y trabajos
Características de las transformaciones y trabajos
* Define el flujo del proceso de ETL
* Define el flujo del proceso de ETL
* Contiene los metadatos del proceso de ETL
* Contiene los metadatos del proceso de ETL
-- Descripción de los datos.
Descripción de los datos.
-- Fuentes de entrada y salida.
Fuentes de entrada y salida.
-- Scheduling.
Scheduling.
-- Scripting.
Scripting.
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
16. ¿Cómo se ejecutan las transformaciones y trabajos?
¿Cómo se ejecutan las transformaciones y trabajos?
* Una transformación o trabajo consiste en una colección de pasos
* Una transformación o trabajo consiste en una colección de pasos
(steps) interconectados
(steps) interconectados
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
17. Conexiones entre los pasos de las transformaciones
Conexiones entre los pasos de las transformaciones
y trabajos
y trabajos
* Saltos (Hop's): Representa un flujo de registros entre dos pasos.
* Saltos (Hop's): Representa un flujo de registros entre dos pasos.
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
18. - Steps, Hops y flujo de registros
- Steps, Hops y flujo de registros
(Bouman and Dongen – Pentaho Solutions, 2009)
(Bouman and Dongen – Pentaho Solutions, 2009)
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
19. Transformaciones
Transformaciones Trabajos (Jobs)
Trabajos (Jobs)
* Consiste en una colección de Steps
* Consiste en una colección de Steps * Consiste en una colección de
* Consiste en una colección de
de transformación.
de transformación. transformaciones o de Steps de
transformaciones o de Steps de
trabajos.
trabajos.
* Cada Step denota una operación
* Cada Step denota una operación
del proceso de ETL.
del proceso de ETL. * Cada Step del trabajo denota una
* Cada Step del trabajo denota una
tarea del proceso de ETL.
tarea del proceso de ETL.
* La salida de un Step produce un
* La salida de un Step produce un
conjunto de registros.
conjunto de registros. * La salida de cada Step del trabajo
* La salida de cada Step del trabajo
produce un Status de ejecución.
produce un Status de ejecución.
* Los Steps de la transformación se
* Los Steps de la transformación se
ejecutan de forma simultánea y
ejecutan de forma simultánea y * Los Steps del trabajo se ejecutan
* Los Steps del trabajo se ejecutan
asincrónica.
asincrónica. de forma secuencial.
de forma secuencial.
* Archivos .ktr
* Archivos .ktr * Archivos .kjb
* Archivos .kjb
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
20. Otros componentes de PDI
Otros componentes de PDI
Repositorio
Repositorio
* Los metadatos de las transformaciones y trabajos pueden ser
* Los metadatos de las transformaciones y trabajos pueden ser
almacenados en una base de datos.
almacenados en una base de datos.
Aplicaciones
Aplicaciones
Spoon: IDE para desarrollo.
Spoon: IDE para desarrollo.
Pan: Ejecución de transformaciones por línea de comando.
Pan: Ejecución de transformaciones por línea de comando.
Kitchen: Ejecución de trabajos por línea de comando.
Kitchen: Ejecución de trabajos por línea de comando.
Carte: Servidor para ejecutar de forma remota transformaciones y
Carte: Servidor para ejecutar de forma remota transformaciones y
trabajos.
trabajos.
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
21. Arquitectura de PDI
Arquitectura de PDI
(Bouman and Dongen ––Pentaho Solutions, 2009)
(Bouman and Dongen Pentaho Solutions, 2009)
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
22. Bibliografía
Bibliografía
Sitio de PDI: http://kettle.pentaho.com/
Sitio de PDI: http://kettle.pentaho.com/
Foros Pentaho: http://forums.pentaho.com/
Foros Pentaho: http://forums.pentaho.com/
http://www.slideshare.net/jarleynobrega/aula-01tutorialpdi
http://www.slideshare.net/jarleynobrega/aula-01tutorialpdi
http://www.slideshare.net/jarleynobrega/aula-02tutorial-etl-com-pdi
http://www.slideshare.net/jarleynobrega/aula-02tutorial-etl-com-pdi
http://www.slideshare.net/jarleynobrega/aula-03tutorial-etl-com-pdi
http://www.slideshare.net/jarleynobrega/aula-03tutorial-etl-com-pdi
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
23. ¿Preguntas?
¿Preguntas?
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA