SlideShare una empresa de Scribd logo
1 de 23
Descargar para leer sin conexión
Pentaho Data Integration
            (Kettle)

                             Ing. Marcos Pierri
                              Ing. Marcos Pierri
                            SIU-Datawarehouse
                            SIU-Datawarehouse
                               dw@siu.edu.ar
                                dw@siu.edu.ar




Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

        Proyecto open source adquirido
         Proyecto open source adquirido
          por Pentaho en 2006
          por Pentaho en 2006

     
        Desarrollado por Matt Casters
         Desarrollado por Matt Casters

     
        Anteriormente conocido como Kettle
         Anteriormente conocido como Kettle
               KDE Extraction,
               KDE Extraction,
               Transportation,
               Transportation,
               Transformation and
               Transformation and
               Loading Environment
               Loading Environment




Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Usos comunes
Usos comunes

  
     Carga de datawarehouses y datamarts
      Carga de datawarehouses y datamarts

  
     Integración de datos
      Integración de datos

  
     Limpieza de datos (Data cleansing)
      Limpieza de datos (Data cleansing)

  
     Migración y depuración de datos
      Migración y depuración de datos

  
     Exportación de datos
      Exportación de datos

  
     ...
      ...


Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Cargando datos en un DW o datamart
       Cargando datos en un DW o datamart



                                                Extracción
                                                Extracción

          Proceso de
          Proceso de
                                            Transformación
                                            Transformación
             ETL
              ETL

                                                   Carga
                                                   Carga




Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
validación y descarte
                                                               validación y descarte
                             de datos de diferentes
                             de datos de diferentes
    Extracción
    Extracción                                                 de datos de acuerdo
                                                                de datos de acuerdo
                               fuentes y formatos
                                fuentes y formatos              a reglas y patrones
                                                                 a reglas y patrones




                               de datos de acuerdo
                                de datos de acuerdo           Conversión de tipos de
                                                              Conversión de tipos de
 Transformación
 Transformación                   con requisitos
                                   con requisitos             datos, filtrado de datos,
                                                              datos, filtrado de datos,
                             técnicos y del negocio
                              técnicos y del negocio              sumarizaciones
                                                                  sumarizaciones




                                     de datos
                                      de datos                 Reescritura de datos
                                                               Reescritura de datos
      Carga
      Carga                     transformados en
                                 transformados en                 y adición de
                                                                   y adición de
                                una base de datos
                                una base de datos               nueva información
                                                                nueva información




Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Carga
                                                                                       Carga


                                  Extracción
                                  Extracción
                                                      Transformación
                                                      Transformación




Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Actividades de Extracción
      Actividades de Extracción
      
         Captura de datos
          Captura de datos

            * Lectura a partir de diversas fuentes.
            * Lectura a partir de diversas fuentes.

            * Identificación de cambios desde la última extracción.
            * Identificación de cambios desde la última extracción.

      
         Staging
          Staging

            * Almacenamiento temporario de datos.
            * Almacenamiento temporario de datos.




Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Fuentes de entrada de datos
      Fuentes de entrada de datos




          Acces
          Acces            Excel
                           Excel               Tabla BD
                                               Tabla BD




          Xml
          Xml                Txt
                             Txt                  RSS
                                                  RSS




Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Actividades de Transformación
      Actividades de Transformación
      
         Validación de datos
          Validación de datos

            * Verificar que los datos sean correctos y precisos.
            * Verificar que los datos sean correctos y precisos.

            * Filtrado de datos inválidos.
            * Filtrado de datos inválidos.

      
         Limpieza de datos
          Limpieza de datos

            * Corrección de datos inválidos.
            * Corrección de datos inválidos.

      
         Agregación
          Agregación

      
         Generación y gestión de claves
          Generación y gestión de claves

            * SK – Claves subrogadas.
            * SK – Claves subrogadas.

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Actividades de Carga
      Actividades de Carga

         -- Carga de tablas de hechos
            Carga de tablas de hechos

            * Adicionar registros a la tabla de hechos.
            * Adicionar registros a la tabla de hechos.

         -- Carga y mantenimiento de las tablas de dimensiones
            Carga y mantenimiento de las tablas de dimensiones

            * Adicionar y actualizar los registros de las tablas de
            * Adicionar y actualizar los registros de las tablas de
              Dimensiones.
              Dimensiones.




Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Instalando PDI
      Instalando PDI
      
         Pre-requisitos
          Pre-requisitos

            * JRE (ou JDK) 5.x o superior.
            * JRE (ou JDK) 5.x o superior.

      
         Descarga
          Descarga

            * http://sourceforge.net/projects/pentaho/files/
            * http://sourceforge.net/projects/pentaho/files/
            * Carpeta “Data Integration”
            * Carpeta “Data Integration”
            * 4.1.0 – 106.5 MB
            * 4.1.0 – 106.5 MB




Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Después de descomprimir el archivo
      Después de descomprimir el archivo
          * Ejecutar spoon.sh (Linux) o spoon.bat (Windows)
          * Ejecutar spoon.sh (Linux) o spoon.bat (Windows)




Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Pantalla de Bienvenida
       Pantalla de Bienvenida




Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
- Opciones de configuración del área de
- Opciones de configuración del área de
trabajo de Spoon
trabajo de Spoon

   Solapa “General”
    Solapa “General”
* Show tips at startup?
* Show tips at startup?
* Show welcome page at startup?
* Show welcome page at startup?
* ...
* ...


   Solapa “Look & Feel”
    Solapa “Look & Feel”
* Preferred Language
* Preferred Language
* ...
* ...




    - Los cambios serán aplicados al reiniciar Spoon
    - Los cambios serán aplicados al reiniciar Spoon
     Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
     Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Principales Componentes de PDI
Principales Componentes de PDI

   PDI trabaja con dos tipos básicos de componentes:
    PDI trabaja con dos tipos básicos de componentes:

    * Transformaciones
    * Transformaciones
    * Trabajos (Jobs)
    * Trabajos (Jobs)


   Características de las transformaciones y trabajos
    Características de las transformaciones y trabajos

    * Define el flujo del proceso de ETL
    * Define el flujo del proceso de ETL
    * Contiene los metadatos del proceso de ETL
    * Contiene los metadatos del proceso de ETL
        -- Descripción de los datos.
           Descripción de los datos.
        -- Fuentes de entrada y salida.
           Fuentes de entrada y salida.
        -- Scheduling.
           Scheduling.
        -- Scripting.
           Scripting.




Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
¿Cómo se ejecutan las transformaciones y trabajos?
¿Cómo se ejecutan las transformaciones y trabajos?
* Una transformación o trabajo consiste en una colección de pasos
* Una transformación o trabajo consiste en una colección de pasos
(steps) interconectados
(steps) interconectados




 Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
 Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Conexiones entre los pasos de las transformaciones
Conexiones entre los pasos de las transformaciones
y trabajos
y trabajos
* Saltos (Hop's): Representa un flujo de registros entre dos pasos.
* Saltos (Hop's): Representa un flujo de registros entre dos pasos.




 Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
 Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
- Steps, Hops y flujo de registros
- Steps, Hops y flujo de registros




          (Bouman and Dongen – Pentaho Solutions, 2009)
           (Bouman and Dongen – Pentaho Solutions, 2009)

Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Transformaciones
Transformaciones                                Trabajos (Jobs)
                                                Trabajos (Jobs)

* Consiste en una colección de Steps
* Consiste en una colección de Steps            * Consiste en una colección de
                                                 * Consiste en una colección de
de transformación.
de transformación.                              transformaciones o de Steps de
                                                 transformaciones o de Steps de
                                                trabajos.
                                                 trabajos.
* Cada Step denota una operación
* Cada Step denota una operación
del proceso de ETL.
del proceso de ETL.                             * Cada Step del trabajo denota una
                                                 * Cada Step del trabajo denota una
                                                tarea del proceso de ETL.
                                                 tarea del proceso de ETL.
* La salida de un Step produce un
* La salida de un Step produce un
conjunto de registros.
conjunto de registros.                          * La salida de cada Step del trabajo
                                                * La salida de cada Step del trabajo
                                                produce un Status de ejecución.
                                                produce un Status de ejecución.
* Los Steps de la transformación se
* Los Steps de la transformación se
ejecutan de forma simultánea y
ejecutan de forma simultánea y                  * Los Steps del trabajo se ejecutan
                                                * Los Steps del trabajo se ejecutan
asincrónica.
asincrónica.                                    de forma secuencial.
                                                de forma secuencial.

* Archivos .ktr
* Archivos .ktr                                 * Archivos .kjb
                                                * Archivos .kjb




 Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
 Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Otros componentes de PDI
Otros componentes de PDI


   Repositorio
    Repositorio
* Los metadatos de las transformaciones y trabajos pueden ser
* Los metadatos de las transformaciones y trabajos pueden ser
almacenados en una base de datos.
almacenados en una base de datos.


   Aplicaciones
    Aplicaciones

      Spoon: IDE para desarrollo.
      Spoon: IDE para desarrollo.
      Pan: Ejecución de transformaciones por línea de comando.
      Pan: Ejecución de transformaciones por línea de comando.
      Kitchen: Ejecución de trabajos por línea de comando.
      Kitchen: Ejecución de trabajos por línea de comando.
      Carte: Servidor para ejecutar de forma remota transformaciones y
      Carte: Servidor para ejecutar de forma remota transformaciones y
                  trabajos.
                   trabajos.



    Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
    Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Arquitectura de PDI
Arquitectura de PDI




                      (Bouman and Dongen ––Pentaho Solutions, 2009)
                       (Bouman and Dongen Pentaho Solutions, 2009)
 Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
 Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Bibliografía
Bibliografía




                    Sitio de PDI: http://kettle.pentaho.com/
                    Sitio de PDI: http://kettle.pentaho.com/
                  Foros Pentaho: http://forums.pentaho.com/
                  Foros Pentaho: http://forums.pentaho.com/

http://www.slideshare.net/jarleynobrega/aula-01tutorialpdi
http://www.slideshare.net/jarleynobrega/aula-01tutorialpdi
http://www.slideshare.net/jarleynobrega/aula-02tutorial-etl-com-pdi
http://www.slideshare.net/jarleynobrega/aula-02tutorial-etl-com-pdi
http://www.slideshare.net/jarleynobrega/aula-03tutorial-etl-com-pdi
http://www.slideshare.net/jarleynobrega/aula-03tutorial-etl-com-pdi

 Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
 Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
¿Preguntas?
                        ¿Preguntas?




Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA

Más contenido relacionado

La actualidad más candente

Data modeling star schema
Data modeling star schemaData modeling star schema
Data modeling star schemaSayed Ahmed
 
Pentaho Data Integration Introduction
Pentaho Data Integration IntroductionPentaho Data Integration Introduction
Pentaho Data Integration Introductionmattcasters
 
Etl overview training
Etl overview trainingEtl overview training
Etl overview trainingMondy Holten
 
Privacy-preserving Data Mining in Industry: Practical Challenges and Lessons ...
Privacy-preserving Data Mining in Industry: Practical Challenges and Lessons ...Privacy-preserving Data Mining in Industry: Practical Challenges and Lessons ...
Privacy-preserving Data Mining in Industry: Practical Challenges and Lessons ...Krishnaram Kenthapadi
 
Building Data Quality pipelines with Apache Spark and Delta Lake
Building Data Quality pipelines with Apache Spark and Delta LakeBuilding Data Quality pipelines with Apache Spark and Delta Lake
Building Data Quality pipelines with Apache Spark and Delta LakeDatabricks
 
You Need a Data Catalog. Do You Know Why?
You Need a Data Catalog. Do You Know Why?You Need a Data Catalog. Do You Know Why?
You Need a Data Catalog. Do You Know Why?Precisely
 
Azure Data Factory Data Flows Training (Sept 2020 Update)
Azure Data Factory Data Flows Training (Sept 2020 Update)Azure Data Factory Data Flows Training (Sept 2020 Update)
Azure Data Factory Data Flows Training (Sept 2020 Update)Mark Kromer
 
Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...
Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...
Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...Hortonworks
 
SSIS Tutorial For Beginners | SQL Server Integration Services (SSIS) | MSBI T...
SSIS Tutorial For Beginners | SQL Server Integration Services (SSIS) | MSBI T...SSIS Tutorial For Beginners | SQL Server Integration Services (SSIS) | MSBI T...
SSIS Tutorial For Beginners | SQL Server Integration Services (SSIS) | MSBI T...Edureka!
 
ADF Mapping Data Flows Level 300
ADF Mapping Data Flows Level 300ADF Mapping Data Flows Level 300
ADF Mapping Data Flows Level 300Mark Kromer
 
ETL Testing Training Presentation
ETL Testing Training PresentationETL Testing Training Presentation
ETL Testing Training PresentationApurba Biswas
 
Data Quality and the FAIR principles
Data Quality and the FAIR principlesData Quality and the FAIR principles
Data Quality and the FAIR principlesAmrapali Zaveri, PhD
 
The Data Driven University - Automating Data Governance and Stewardship in Au...
The Data Driven University - Automating Data Governance and Stewardship in Au...The Data Driven University - Automating Data Governance and Stewardship in Au...
The Data Driven University - Automating Data Governance and Stewardship in Au...Pieter De Leenheer
 
Future of Data Engineering
Future of Data EngineeringFuture of Data Engineering
Future of Data EngineeringC4Media
 
Web Intelligence - Tutorial1
Web Intelligence - Tutorial1Web Intelligence - Tutorial1
Web Intelligence - Tutorial1Obily W
 
Microsoft Data Integration Pipelines: Azure Data Factory and SSIS
Microsoft Data Integration Pipelines: Azure Data Factory and SSISMicrosoft Data Integration Pipelines: Azure Data Factory and SSIS
Microsoft Data Integration Pipelines: Azure Data Factory and SSISMark Kromer
 
Azure Data Factory for Azure Data Week
Azure Data Factory for Azure Data WeekAzure Data Factory for Azure Data Week
Azure Data Factory for Azure Data WeekMark Kromer
 

La actualidad más candente (20)

Data modeling star schema
Data modeling star schemaData modeling star schema
Data modeling star schema
 
Oracle Data Warehouse
Oracle Data WarehouseOracle Data Warehouse
Oracle Data Warehouse
 
Pentaho Data Integration Introduction
Pentaho Data Integration IntroductionPentaho Data Integration Introduction
Pentaho Data Integration Introduction
 
Etl overview training
Etl overview trainingEtl overview training
Etl overview training
 
Data Vault Overview
Data Vault OverviewData Vault Overview
Data Vault Overview
 
Privacy-preserving Data Mining in Industry: Practical Challenges and Lessons ...
Privacy-preserving Data Mining in Industry: Practical Challenges and Lessons ...Privacy-preserving Data Mining in Industry: Practical Challenges and Lessons ...
Privacy-preserving Data Mining in Industry: Practical Challenges and Lessons ...
 
Building Data Quality pipelines with Apache Spark and Delta Lake
Building Data Quality pipelines with Apache Spark and Delta LakeBuilding Data Quality pipelines with Apache Spark and Delta Lake
Building Data Quality pipelines with Apache Spark and Delta Lake
 
You Need a Data Catalog. Do You Know Why?
You Need a Data Catalog. Do You Know Why?You Need a Data Catalog. Do You Know Why?
You Need a Data Catalog. Do You Know Why?
 
Azure Data Factory Data Flows Training (Sept 2020 Update)
Azure Data Factory Data Flows Training (Sept 2020 Update)Azure Data Factory Data Flows Training (Sept 2020 Update)
Azure Data Factory Data Flows Training (Sept 2020 Update)
 
Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...
Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...
Modern Data Architecture for a Data Lake with Informatica and Hortonworks Dat...
 
SSIS Tutorial For Beginners | SQL Server Integration Services (SSIS) | MSBI T...
SSIS Tutorial For Beginners | SQL Server Integration Services (SSIS) | MSBI T...SSIS Tutorial For Beginners | SQL Server Integration Services (SSIS) | MSBI T...
SSIS Tutorial For Beginners | SQL Server Integration Services (SSIS) | MSBI T...
 
Teradata a z
Teradata a zTeradata a z
Teradata a z
 
ADF Mapping Data Flows Level 300
ADF Mapping Data Flows Level 300ADF Mapping Data Flows Level 300
ADF Mapping Data Flows Level 300
 
ETL Testing Training Presentation
ETL Testing Training PresentationETL Testing Training Presentation
ETL Testing Training Presentation
 
Data Quality and the FAIR principles
Data Quality and the FAIR principlesData Quality and the FAIR principles
Data Quality and the FAIR principles
 
The Data Driven University - Automating Data Governance and Stewardship in Au...
The Data Driven University - Automating Data Governance and Stewardship in Au...The Data Driven University - Automating Data Governance and Stewardship in Au...
The Data Driven University - Automating Data Governance and Stewardship in Au...
 
Future of Data Engineering
Future of Data EngineeringFuture of Data Engineering
Future of Data Engineering
 
Web Intelligence - Tutorial1
Web Intelligence - Tutorial1Web Intelligence - Tutorial1
Web Intelligence - Tutorial1
 
Microsoft Data Integration Pipelines: Azure Data Factory and SSIS
Microsoft Data Integration Pipelines: Azure Data Factory and SSISMicrosoft Data Integration Pipelines: Azure Data Factory and SSIS
Microsoft Data Integration Pipelines: Azure Data Factory and SSIS
 
Azure Data Factory for Azure Data Week
Azure Data Factory for Azure Data WeekAzure Data Factory for Azure Data Week
Azure Data Factory for Azure Data Week
 

Destacado

Elementos ETL - Kettle Pentaho
Elementos ETL - Kettle Pentaho Elementos ETL - Kettle Pentaho
Elementos ETL - Kettle Pentaho valex_haro
 
Aula 01-Tutorial ETL com PDI
Aula 01-Tutorial ETL com PDIAula 01-Tutorial ETL com PDI
Aula 01-Tutorial ETL com PDIJarley Nóbrega
 
Exercícios - Tutorial ETL com Pentaho Data Integration
Exercícios - Tutorial ETL com Pentaho Data IntegrationExercícios - Tutorial ETL com Pentaho Data Integration
Exercícios - Tutorial ETL com Pentaho Data IntegrationJarley Nóbrega
 
Aula 02-Tutorial ETL com PDI
Aula 02-Tutorial ETL com PDIAula 02-Tutorial ETL com PDI
Aula 02-Tutorial ETL com PDIJarley Nóbrega
 
14.03.23 livro sobre pentaho
14.03.23   livro sobre pentaho14.03.23   livro sobre pentaho
14.03.23 livro sobre pentahoTalita Lima
 
Manipulacion de datos con Kettle
Manipulacion de datos con KettleManipulacion de datos con Kettle
Manipulacion de datos con KettleMarcos Pierri
 
Data integraction spoon
Data integraction spoonData integraction spoon
Data integraction spoonGerman Pinchao
 
Data integration spoon1
Data integration spoon1Data integration spoon1
Data integration spoon1German Pinchao
 
Migración de datos con OpenERP-Kettle
Migración de datos con OpenERP-KettleMigración de datos con OpenERP-Kettle
Migración de datos con OpenERP-Kettleraimonesteve
 
Encontro da Comunidade Pentaho. Aprenda mais sobre a mais poderosa e conheci...
Encontro da Comunidade Pentaho.  Aprenda mais sobre a mais poderosa e conheci...Encontro da Comunidade Pentaho.  Aprenda mais sobre a mais poderosa e conheci...
Encontro da Comunidade Pentaho. Aprenda mais sobre a mais poderosa e conheci...Caio Moreno
 
Instalación y Configuración de Pentaho BI y MySQL
Instalación y Configuración de Pentaho BI y MySQLInstalación y Configuración de Pentaho BI y MySQL
Instalación y Configuración de Pentaho BI y MySQLT.I.C
 
#PCM15: - How to monitor the use and performance of BI Server using the Plug-...
#PCM15: - How to monitor the use and performance of BI Server using the Plug-...#PCM15: - How to monitor the use and performance of BI Server using the Plug-...
#PCM15: - How to monitor the use and performance of BI Server using the Plug-...Caio Moreno
 
Palestra sobre BI Open Source @ USP (Out/2011)
Palestra sobre BI Open Source @ USP (Out/2011)Palestra sobre BI Open Source @ USP (Out/2011)
Palestra sobre BI Open Source @ USP (Out/2011)Caio Moreno
 
Aula 03-Tutorial ETL com PDI
Aula 03-Tutorial ETL com PDIAula 03-Tutorial ETL com PDI
Aula 03-Tutorial ETL com PDIJarley Nóbrega
 
Pentaho bi suite overview presentation
Pentaho bi suite overview   presentationPentaho bi suite overview   presentation
Pentaho bi suite overview presentationnvvrajesh
 
Pentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIUPentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIUMarcos Pierri
 
Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonRoberto Espinosa
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Caio Moreno
 

Destacado (20)

Elementos ETL - Kettle Pentaho
Elementos ETL - Kettle Pentaho Elementos ETL - Kettle Pentaho
Elementos ETL - Kettle Pentaho
 
Aula 01-Tutorial ETL com PDI
Aula 01-Tutorial ETL com PDIAula 01-Tutorial ETL com PDI
Aula 01-Tutorial ETL com PDI
 
Exercícios - Tutorial ETL com Pentaho Data Integration
Exercícios - Tutorial ETL com Pentaho Data IntegrationExercícios - Tutorial ETL com Pentaho Data Integration
Exercícios - Tutorial ETL com Pentaho Data Integration
 
Aula 02-Tutorial ETL com PDI
Aula 02-Tutorial ETL com PDIAula 02-Tutorial ETL com PDI
Aula 02-Tutorial ETL com PDI
 
14.03.23 livro sobre pentaho
14.03.23   livro sobre pentaho14.03.23   livro sobre pentaho
14.03.23 livro sobre pentaho
 
Manipulacion de datos con Kettle
Manipulacion de datos con KettleManipulacion de datos con Kettle
Manipulacion de datos con Kettle
 
Data integraction spoon
Data integraction spoonData integraction spoon
Data integraction spoon
 
Data integration spoon1
Data integration spoon1Data integration spoon1
Data integration spoon1
 
Migración de datos con OpenERP-Kettle
Migración de datos con OpenERP-KettleMigración de datos con OpenERP-Kettle
Migración de datos con OpenERP-Kettle
 
Instalar PENTAHO 5 en CentOS 6
Instalar PENTAHO 5 en CentOS 6Instalar PENTAHO 5 en CentOS 6
Instalar PENTAHO 5 en CentOS 6
 
Encontro da Comunidade Pentaho. Aprenda mais sobre a mais poderosa e conheci...
Encontro da Comunidade Pentaho.  Aprenda mais sobre a mais poderosa e conheci...Encontro da Comunidade Pentaho.  Aprenda mais sobre a mais poderosa e conheci...
Encontro da Comunidade Pentaho. Aprenda mais sobre a mais poderosa e conheci...
 
Instalación y Configuración de Pentaho BI y MySQL
Instalación y Configuración de Pentaho BI y MySQLInstalación y Configuración de Pentaho BI y MySQL
Instalación y Configuración de Pentaho BI y MySQL
 
#PCM15: - How to monitor the use and performance of BI Server using the Plug-...
#PCM15: - How to monitor the use and performance of BI Server using the Plug-...#PCM15: - How to monitor the use and performance of BI Server using the Plug-...
#PCM15: - How to monitor the use and performance of BI Server using the Plug-...
 
Palestra sobre BI Open Source @ USP (Out/2011)
Palestra sobre BI Open Source @ USP (Out/2011)Palestra sobre BI Open Source @ USP (Out/2011)
Palestra sobre BI Open Source @ USP (Out/2011)
 
Aula 03-Tutorial ETL com PDI
Aula 03-Tutorial ETL com PDIAula 03-Tutorial ETL com PDI
Aula 03-Tutorial ETL com PDI
 
Pentaho bi suite overview presentation
Pentaho bi suite overview   presentationPentaho bi suite overview   presentation
Pentaho bi suite overview presentation
 
Pentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIUPentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIU
 
Competidores y productos de mercado de ETL
Competidores y productos de mercado de ETLCompetidores y productos de mercado de ETL
Competidores y productos de mercado de ETL
 
Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools Comparison
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
 

Similar a Pentaho PDI

AP10_OA-TecMigDat.pdf
AP10_OA-TecMigDat.pdfAP10_OA-TecMigDat.pdf
AP10_OA-TecMigDat.pdfjohngarzon12
 
Periodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open SourcePeriodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open SourceStratebi
 
ETL Aplicado a Empresas.ppt
ETL Aplicado a Empresas.pptETL Aplicado a Empresas.ppt
ETL Aplicado a Empresas.pptVAOC1984
 
Presentacion erp kickoff v.1.1
Presentacion erp kickoff v.1.1Presentacion erp kickoff v.1.1
Presentacion erp kickoff v.1.1★ Joan Sales
 
AP10_LAB_ReaProMigDat.pdf
AP10_LAB_ReaProMigDat.pdfAP10_LAB_ReaProMigDat.pdf
AP10_LAB_ReaProMigDat.pdfjohngarzon12
 
El Europeana Data Model y el Library Linked Data Incubator Group, de Francisc...
El Europeana Data Model y el Library Linked Data Incubator Group, de Francisc...El Europeana Data Model y el Library Linked Data Incubator Group, de Francisc...
El Europeana Data Model y el Library Linked Data Incubator Group, de Francisc...DIGIBIS
 
Data WareHouse. Introduccion
Data WareHouse. IntroduccionData WareHouse. Introduccion
Data WareHouse. IntroduccionRicardo Mendoza
 
Presentation de Petroleo
Presentation de PetroleoPresentation de Petroleo
Presentation de Petroleossuser0d8c681
 
Diaspositivas de sistemas de informacion
Diaspositivas de sistemas de informacionDiaspositivas de sistemas de informacion
Diaspositivas de sistemas de informacionMILER3
 

Similar a Pentaho PDI (10)

AP10_OA-TecMigDat.pdf
AP10_OA-TecMigDat.pdfAP10_OA-TecMigDat.pdf
AP10_OA-TecMigDat.pdf
 
Periodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open SourcePeriodismo de Datos y Visualización con herramientas Open Source
Periodismo de Datos y Visualización con herramientas Open Source
 
ETL Aplicado a Empresas.ppt
ETL Aplicado a Empresas.pptETL Aplicado a Empresas.ppt
ETL Aplicado a Empresas.ppt
 
Presentacion erp kickoff v.1.1
Presentacion erp kickoff v.1.1Presentacion erp kickoff v.1.1
Presentacion erp kickoff v.1.1
 
AP10_LAB_ReaProMigDat.pdf
AP10_LAB_ReaProMigDat.pdfAP10_LAB_ReaProMigDat.pdf
AP10_LAB_ReaProMigDat.pdf
 
Aspectos técnicos de SeDiCI
Aspectos técnicos de SeDiCIAspectos técnicos de SeDiCI
Aspectos técnicos de SeDiCI
 
El Europeana Data Model y el Library Linked Data Incubator Group, de Francisc...
El Europeana Data Model y el Library Linked Data Incubator Group, de Francisc...El Europeana Data Model y el Library Linked Data Incubator Group, de Francisc...
El Europeana Data Model y el Library Linked Data Incubator Group, de Francisc...
 
Data WareHouse. Introduccion
Data WareHouse. IntroduccionData WareHouse. Introduccion
Data WareHouse. Introduccion
 
Presentation de Petroleo
Presentation de PetroleoPresentation de Petroleo
Presentation de Petroleo
 
Diaspositivas de sistemas de informacion
Diaspositivas de sistemas de informacionDiaspositivas de sistemas de informacion
Diaspositivas de sistemas de informacion
 

Último

EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 

Último (19)

EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 

Pentaho PDI

  • 1. Pentaho Data Integration (Kettle) Ing. Marcos Pierri Ing. Marcos Pierri SIU-Datawarehouse SIU-Datawarehouse dw@siu.edu.ar dw@siu.edu.ar Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 2.  Proyecto open source adquirido Proyecto open source adquirido por Pentaho en 2006 por Pentaho en 2006   Desarrollado por Matt Casters Desarrollado por Matt Casters   Anteriormente conocido como Kettle Anteriormente conocido como Kettle KDE Extraction, KDE Extraction, Transportation, Transportation, Transformation and Transformation and Loading Environment Loading Environment Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 3. Usos comunes Usos comunes   Carga de datawarehouses y datamarts Carga de datawarehouses y datamarts   Integración de datos Integración de datos   Limpieza de datos (Data cleansing) Limpieza de datos (Data cleansing)   Migración y depuración de datos Migración y depuración de datos   Exportación de datos Exportación de datos   ... ... Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 4. Cargando datos en un DW o datamart Cargando datos en un DW o datamart Extracción Extracción Proceso de Proceso de Transformación Transformación ETL ETL Carga Carga Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 5. validación y descarte validación y descarte de datos de diferentes de datos de diferentes Extracción Extracción de datos de acuerdo de datos de acuerdo fuentes y formatos fuentes y formatos a reglas y patrones a reglas y patrones de datos de acuerdo de datos de acuerdo Conversión de tipos de Conversión de tipos de Transformación Transformación con requisitos con requisitos datos, filtrado de datos, datos, filtrado de datos, técnicos y del negocio técnicos y del negocio sumarizaciones sumarizaciones de datos de datos Reescritura de datos Reescritura de datos Carga Carga transformados en transformados en y adición de y adición de una base de datos una base de datos nueva información nueva información Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 6. Carga Carga Extracción Extracción Transformación Transformación Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 7. Actividades de Extracción Actividades de Extracción   Captura de datos Captura de datos * Lectura a partir de diversas fuentes. * Lectura a partir de diversas fuentes. * Identificación de cambios desde la última extracción. * Identificación de cambios desde la última extracción.   Staging Staging * Almacenamiento temporario de datos. * Almacenamiento temporario de datos. Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 8. Fuentes de entrada de datos Fuentes de entrada de datos Acces Acces Excel Excel Tabla BD Tabla BD Xml Xml Txt Txt RSS RSS Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 9. Actividades de Transformación Actividades de Transformación   Validación de datos Validación de datos * Verificar que los datos sean correctos y precisos. * Verificar que los datos sean correctos y precisos. * Filtrado de datos inválidos. * Filtrado de datos inválidos.   Limpieza de datos Limpieza de datos * Corrección de datos inválidos. * Corrección de datos inválidos.   Agregación Agregación   Generación y gestión de claves Generación y gestión de claves * SK – Claves subrogadas. * SK – Claves subrogadas. Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 10. Actividades de Carga Actividades de Carga -- Carga de tablas de hechos Carga de tablas de hechos * Adicionar registros a la tabla de hechos. * Adicionar registros a la tabla de hechos. -- Carga y mantenimiento de las tablas de dimensiones Carga y mantenimiento de las tablas de dimensiones * Adicionar y actualizar los registros de las tablas de * Adicionar y actualizar los registros de las tablas de Dimensiones. Dimensiones. Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 11. Instalando PDI Instalando PDI   Pre-requisitos Pre-requisitos * JRE (ou JDK) 5.x o superior. * JRE (ou JDK) 5.x o superior.   Descarga Descarga * http://sourceforge.net/projects/pentaho/files/ * http://sourceforge.net/projects/pentaho/files/ * Carpeta “Data Integration” * Carpeta “Data Integration” * 4.1.0 – 106.5 MB * 4.1.0 – 106.5 MB Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 12. Después de descomprimir el archivo Después de descomprimir el archivo * Ejecutar spoon.sh (Linux) o spoon.bat (Windows) * Ejecutar spoon.sh (Linux) o spoon.bat (Windows) Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 13. Pantalla de Bienvenida Pantalla de Bienvenida Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 14. - Opciones de configuración del área de - Opciones de configuración del área de trabajo de Spoon trabajo de Spoon   Solapa “General” Solapa “General” * Show tips at startup? * Show tips at startup? * Show welcome page at startup? * Show welcome page at startup? * ... * ...   Solapa “Look & Feel” Solapa “Look & Feel” * Preferred Language * Preferred Language * ... * ... - Los cambios serán aplicados al reiniciar Spoon - Los cambios serán aplicados al reiniciar Spoon Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 15. Principales Componentes de PDI Principales Componentes de PDI   PDI trabaja con dos tipos básicos de componentes: PDI trabaja con dos tipos básicos de componentes: * Transformaciones * Transformaciones * Trabajos (Jobs) * Trabajos (Jobs)   Características de las transformaciones y trabajos Características de las transformaciones y trabajos * Define el flujo del proceso de ETL * Define el flujo del proceso de ETL * Contiene los metadatos del proceso de ETL * Contiene los metadatos del proceso de ETL -- Descripción de los datos. Descripción de los datos. -- Fuentes de entrada y salida. Fuentes de entrada y salida. -- Scheduling. Scheduling. -- Scripting. Scripting. Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 16. ¿Cómo se ejecutan las transformaciones y trabajos? ¿Cómo se ejecutan las transformaciones y trabajos? * Una transformación o trabajo consiste en una colección de pasos * Una transformación o trabajo consiste en una colección de pasos (steps) interconectados (steps) interconectados Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 17. Conexiones entre los pasos de las transformaciones Conexiones entre los pasos de las transformaciones y trabajos y trabajos * Saltos (Hop's): Representa un flujo de registros entre dos pasos. * Saltos (Hop's): Representa un flujo de registros entre dos pasos. Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 18. - Steps, Hops y flujo de registros - Steps, Hops y flujo de registros (Bouman and Dongen – Pentaho Solutions, 2009) (Bouman and Dongen – Pentaho Solutions, 2009) Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 19. Transformaciones Transformaciones Trabajos (Jobs) Trabajos (Jobs) * Consiste en una colección de Steps * Consiste en una colección de Steps * Consiste en una colección de * Consiste en una colección de de transformación. de transformación. transformaciones o de Steps de transformaciones o de Steps de trabajos. trabajos. * Cada Step denota una operación * Cada Step denota una operación del proceso de ETL. del proceso de ETL. * Cada Step del trabajo denota una * Cada Step del trabajo denota una tarea del proceso de ETL. tarea del proceso de ETL. * La salida de un Step produce un * La salida de un Step produce un conjunto de registros. conjunto de registros. * La salida de cada Step del trabajo * La salida de cada Step del trabajo produce un Status de ejecución. produce un Status de ejecución. * Los Steps de la transformación se * Los Steps de la transformación se ejecutan de forma simultánea y ejecutan de forma simultánea y * Los Steps del trabajo se ejecutan * Los Steps del trabajo se ejecutan asincrónica. asincrónica. de forma secuencial. de forma secuencial. * Archivos .ktr * Archivos .ktr * Archivos .kjb * Archivos .kjb Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 20. Otros componentes de PDI Otros componentes de PDI   Repositorio Repositorio * Los metadatos de las transformaciones y trabajos pueden ser * Los metadatos de las transformaciones y trabajos pueden ser almacenados en una base de datos. almacenados en una base de datos.   Aplicaciones Aplicaciones Spoon: IDE para desarrollo. Spoon: IDE para desarrollo. Pan: Ejecución de transformaciones por línea de comando. Pan: Ejecución de transformaciones por línea de comando. Kitchen: Ejecución de trabajos por línea de comando. Kitchen: Ejecución de trabajos por línea de comando. Carte: Servidor para ejecutar de forma remota transformaciones y Carte: Servidor para ejecutar de forma remota transformaciones y trabajos. trabajos. Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 21. Arquitectura de PDI Arquitectura de PDI (Bouman and Dongen ––Pentaho Solutions, 2009) (Bouman and Dongen Pentaho Solutions, 2009) Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 22. Bibliografía Bibliografía Sitio de PDI: http://kettle.pentaho.com/ Sitio de PDI: http://kettle.pentaho.com/ Foros Pentaho: http://forums.pentaho.com/ Foros Pentaho: http://forums.pentaho.com/ http://www.slideshare.net/jarleynobrega/aula-01tutorialpdi http://www.slideshare.net/jarleynobrega/aula-01tutorialpdi http://www.slideshare.net/jarleynobrega/aula-02tutorial-etl-com-pdi http://www.slideshare.net/jarleynobrega/aula-02tutorial-etl-com-pdi http://www.slideshare.net/jarleynobrega/aula-03tutorial-etl-com-pdi http://www.slideshare.net/jarleynobrega/aula-03tutorial-etl-com-pdi Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 23. ¿Preguntas? ¿Preguntas? Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA