Apresentação realizada por Leandro Guimarães da empresa Know Solutions no FTSL - 2013 (Fórum Tecnológico de Software Livre) sobre a utilização da Ferramenta PDI (Pentaho Data Integration).
Acesse nosso Blog e saiba muito mais: www.knowsolution.com.br
O PDI, também conhecido como Kettle, é uma ferramenta de ETL muito utilizada para popular dados de um Data Warehouse que faz parte da suíte de ferramentas Pentaho, uma ferramenta Open Source de Business Intelligence.
O Objetivo da apresentação foi demonstrar que essa ferramenta não é uma exclusividade apenas para quem trabalha com Business Intelligence, mas pode ser utilizada por qualquer um que deseje transferir dados de uma fonte para outra.
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
PDI - Muito além de Business Intelligence
1. PDI – Muito além de Business Intelligence
www.knowsolution.com.br
PDI - KETTLE
Muito Além de Business Intelligence
Leandro Guimarães
2. PDI – Muito além de Business Intelligence
www.knowsolution.com.br
O Que é o PDI?
• Pentaho Data Integration - Conhecido como Kettle;
• Faz parte da suite de ferramentas Pentaho;
• Ferramenta de ETL (Extract, Transform, Load);
• Interface gráfica (Drag and Drop);
3. www.knowsolution.com.br
PDI – Muito além de Business Intelligence
Processo ETL
Extract
Transform
Load
Dimensional
Bancos de Dados,
Excel, etc..
Relacional
4. PDI – Muito além de Business Intelligence
Fontes de Dados (Extract)
• Mais de 35 Tipos de
Fontes de Dados
• Conexão com Bancos de
dados via JDBC
• Arquivos Excel, csv,
tamanho fixo
• Leitura de E-mails
• Json
• Serviços REST
• Serviços SOAP
• …
www.knowsolution.com.br
5. PDI – Muito além de Business Intelligence
Ferramentas (Transform)
• Cálculos;
• Joins;
• Group by;
• Sort;
• WebServices;
• SSH;
• JavaScript;
• …
www.knowsolution.com.br
6. PDI – Muito além de Business Intelligence
Saídas (Load)
• Loading em Bancos de Dados
via JDBC
• Arquivos Excel
• RSS
• XML
• HTTP
• Json
• Arquivos Texto
• E-mail
www.knowsolution.com.br
7. PDI – Muito além de Business Intelligence
www.knowsolution.com.br
Exemplo Prático 1
• Importação de uma Planilha Excel com clientes para uma
tabela PostgreSQL;
• Inserir ordenado por ID;
• Primeiro nome deve estar em coluna separada;
• Tempo Aproximado: 8 minutos (Buscar_Clientes)
8. PDI – Muito além de Business Intelligence
www.knowsolution.com.br
Exemplo Prático 2
• Ler vendas de uma tabela PostgreSQL;
• Analisar cotação da moeda via WS;
• Exportar para planilha Excel com o valor da cotação.
• Tempo Aproximado: 10 minutos (Exportar Vendas)
9. PDI – Muito além de Business Intelligence
www.knowsolution.com.br
Exemplo Prático 3
• Enviar como arquivo anexo a planilha gerada pelo
Exemplo 2 para um e-mail específico;
• Tempo Aproximado: 7 minutos
10. PDI – Muito além de Business Intelligence
www.knowsolution.com.br
Kitchen
• Ferramenta para execução de Jobs via linha de comando;
• Possibilidade de agendar via crontab, Agendador de
Tarefas, etc…
• sh kitchen.sh /rep:1 /job:PostSale_Job /user:***
/pass:*** /logfile:/home/pentaho/logs/etl/kettle.log
/level:Debug
11. PDI – Muito além de Business Intelligence
O Lado Negro da Força
www.knowsolution.com.br
12. PDI – Muito além de Business Intelligence
O Lado Negro da Força 2
www.knowsolution.com.br
13. PDI – Muito além de Business Intelligence
www.knowsolution.com.br
Onde se aprofundar?
• Lista de discussão: pentahobr@yahoo.com.br
• Wiki: www.wiki.pentaho.com
• Blog Know Solutions: www.knowsolution.com.br
• Contato direto: leandro@knowsolution.com.br