Talend ETL
Talend Open Studio
www.chileforma.cl
Introducción
Que podemos hacer?
Manejo de Big Data
Procesos BPM
Data Integration
Data Quality
ESB
Algunos Usos Data Integration
Extracto, Transformación, Carga (ETL)
Desde un Excel/CSV/txt a una BD
Desde un MySQL/MsSQL a un Oracle y viceversa
Volcados/Transformaciones Programados
Cientos de opciones y tecnologías
Conexiones con multiples DBMS
Manejos de archivos y data automatizados
Tecnologia en que esta desarrollado
JAVA
Con esto podremos correrlo en la JVM ganando
toda la potencia de esta maquina virtual
Lo podemos ejecutar en un Linux/Mac/Window
Genera un .JAR con lo desarrollado
Este jar lo podemos poner dentro de una tarea
programada, para ser ejecutado
Puede estar parametrizado para distintas
conexiones
Entorno (IDE) Basado en Eclipse
Ejemplo de un Flujo con Talend
xls
csv
Mysqljoin
1. Tenemos un archivo
excel.
2. Tenemos un archivo cdv
con información
complementaria.
3. Unimos la información y
obtenemos un resultado.
4. Ese resultado temporal
lo llevamos a un motor
de BD MySQL.
5. Podríamos como opción
llevarlo a otro motor, a
un excel, en un txt, etc.
Arquitectura de un ETL
Input se refiere la fuente
de datos, de donde
estamos extrayendo
información, puede ser
desde una BD, un
Excel, un CSV, un txt
con nuestro propio
patrón, es decir
cualquier fuente de
información válida.
input OutputTransformación
Este item es el más
importante, ya que solo volcar
información no es algo muy
complejo, lo que lo hace algo
complejo es la capacidad de
transformar esta información,
agregarle nueva, borrar otra,
etc. Con esto podremos
manipular a gusto nuestros
datos.
Output es la salida
general de nuestros
datos, estos pueden
ser a alguna BD, un
excel, CSV, un archivo
creado en el mismo
proceso, incluso
pasado via FTP.
Razones para elegir Talend?
Optimiza Tiempo, Costo, Funcionalidades y Performance
Cantidad enorme de conectores
WS
DBMS
FILES
CRMS
Una gran comunidad
Ayuda, Wiki, Foros, Blogs, BugTracker
Rápida Curva de Aprendizaje
Levantamiento de ambiente sencillo
Versiones
Plataformas
Windows
Versión portable o instalable
Requisitos JDK (Variable de entorno JAVA_HOME)
Linux/Mac
Version Portable
JDK Instalado (Variable de entorno JAVA_HOME)
http://www.talend.com/download
Hola Mundo!
Ejecutamos
Creamos
Componentes
Nos sirve para obtener un
archivo que este delimitado
por algún tipo de patrón, en
este caso usaremos un csv
Nos sirve para ir depurando,
o mostrando la información
obtenida, o transformada
Cada job se maneja de
forma separada y cumple un
objetivo, la clave es ir
abstrayendo y no tener todo
en 1 solo job, se pueden
comunicar y orquestar entre
sí.
Esta row nos sirve para
conectar los componentes,
es la parte vital que sostiene
la forma de trabajo de talen
Configurando
Creamos un Job
Creamos un csv
De la paleta de
componentes
arrastramos
tFileInputDelimeted y
tLogRow
Ingresamos el archivo
csv al componente
Schemas!
Editamos el
Schema
Settings del
componente
Agregamos las
columnas del CSV
por orden
Conectando
Click derecho
en el
componente
Arrastramos hasta
tLog
En tLog damos click en
Sync Columns
Seleccionamos mode
table, para que lo
muestre en orden
Ejecutando
Vemos la consola
con el resultado
RUN!
Ya tenemos los datos
Para volcarlos a una BD
otra fuente de datos!

TALEND ETL Introducción

  • 1.
    Talend ETL Talend OpenStudio www.chileforma.cl Introducción
  • 2.
    Que podemos hacer? Manejode Big Data Procesos BPM Data Integration Data Quality ESB
  • 3.
    Algunos Usos DataIntegration Extracto, Transformación, Carga (ETL) Desde un Excel/CSV/txt a una BD Desde un MySQL/MsSQL a un Oracle y viceversa Volcados/Transformaciones Programados Cientos de opciones y tecnologías Conexiones con multiples DBMS Manejos de archivos y data automatizados
  • 4.
    Tecnologia en queesta desarrollado JAVA Con esto podremos correrlo en la JVM ganando toda la potencia de esta maquina virtual Lo podemos ejecutar en un Linux/Mac/Window Genera un .JAR con lo desarrollado Este jar lo podemos poner dentro de una tarea programada, para ser ejecutado Puede estar parametrizado para distintas conexiones Entorno (IDE) Basado en Eclipse
  • 5.
    Ejemplo de unFlujo con Talend xls csv Mysqljoin 1. Tenemos un archivo excel. 2. Tenemos un archivo cdv con información complementaria. 3. Unimos la información y obtenemos un resultado. 4. Ese resultado temporal lo llevamos a un motor de BD MySQL. 5. Podríamos como opción llevarlo a otro motor, a un excel, en un txt, etc.
  • 6.
    Arquitectura de unETL Input se refiere la fuente de datos, de donde estamos extrayendo información, puede ser desde una BD, un Excel, un CSV, un txt con nuestro propio patrón, es decir cualquier fuente de información válida. input OutputTransformación Este item es el más importante, ya que solo volcar información no es algo muy complejo, lo que lo hace algo complejo es la capacidad de transformar esta información, agregarle nueva, borrar otra, etc. Con esto podremos manipular a gusto nuestros datos. Output es la salida general de nuestros datos, estos pueden ser a alguna BD, un excel, CSV, un archivo creado en el mismo proceso, incluso pasado via FTP.
  • 7.
    Razones para elegirTalend? Optimiza Tiempo, Costo, Funcionalidades y Performance Cantidad enorme de conectores WS DBMS FILES CRMS Una gran comunidad Ayuda, Wiki, Foros, Blogs, BugTracker Rápida Curva de Aprendizaje Levantamiento de ambiente sencillo
  • 8.
  • 9.
    Plataformas Windows Versión portable oinstalable Requisitos JDK (Variable de entorno JAVA_HOME) Linux/Mac Version Portable JDK Instalado (Variable de entorno JAVA_HOME) http://www.talend.com/download
  • 10.
  • 11.
    Componentes Nos sirve paraobtener un archivo que este delimitado por algún tipo de patrón, en este caso usaremos un csv Nos sirve para ir depurando, o mostrando la información obtenida, o transformada Cada job se maneja de forma separada y cumple un objetivo, la clave es ir abstrayendo y no tener todo en 1 solo job, se pueden comunicar y orquestar entre sí. Esta row nos sirve para conectar los componentes, es la parte vital que sostiene la forma de trabajo de talen
  • 12.
    Configurando Creamos un Job Creamosun csv De la paleta de componentes arrastramos tFileInputDelimeted y tLogRow Ingresamos el archivo csv al componente
  • 13.
  • 14.
    Conectando Click derecho en el componente Arrastramoshasta tLog En tLog damos click en Sync Columns Seleccionamos mode table, para que lo muestre en orden
  • 15.
    Ejecutando Vemos la consola conel resultado RUN! Ya tenemos los datos Para volcarlos a una BD otra fuente de datos!