Este documento presenta una comparativa de herramientas ETL (Extract, Transform, Load). Describe brevemente las funciones de Pentaho Kettle, Talend, Informatica PowerCenter, IBM Cognos Data Manager, Oracle Warehouse Builder y Microsoft Integration Services. Luego incluye una tabla comparativa de estas herramientas en términos de costo, riesgos, facilidad de uso, soporte, implementación, velocidad, calidad de datos, monitoreo y conectividad. El objetivo es ayudar a los lectores a evaluar estas opciones de software ETL.
CONSTRUCCIONES II - SEMANA 01 - REGLAMENTO NACIONAL DE EDIFICACIONES.pdf
Comparativa herramientas ETL para extracción, transformación y carga de datos
1. Comparativa herramientas ETL
1. 1. Comparativa Herramientas ETL JORGE BUSTILLOS 2014
2. 2. Tabla contenidos Introducción ¿Para que se utilizan herramientas ETL?
¿Por qué utilizar herramientas ETL? Herramientas ETL Pentaho Kettle
Talend Informatica PowerCenter Inabplex Inaport IBM Cognos Data
Manager Oracle Warehouse Builder Microsoft Integration Services
Comparación Tabla comparativa Costo total de dominio Riesgos
Facilidad de Uso Soporte Implementación Velocidad Calidad de la data
Monitoreo Conectividad
3. 3. Introducción ¿Para que se utilizan herramientas ETL? ¿Por qué utilizar
herramientas ETL?
4. 4. ¿Para que se utilizan herramientas ETL? Extraer data de varias fuentes de
información (Legacy DB). Enviar data a: Un sistema optimizado de manejo
de transacciones (nuevo gestor BD). Un sistema optimizado de reporte. Un
sistema de análisis. Sincronizar información de distintas bases de datos.
Depurado de información para remover errores Cargar información a un Data
Warehouse
5. 5. ¿Por qué utilizar herramientas ETL? Las herramientas ETL ahorran tiempo
y dinero cuando se tiene que desarrollar un Data Warehouse al reducir la
cantidad de Sistemas de Conversión personalizados a desarrollar para migrar o
concentrar al información. Ahorra la dificultad para el DBA de conectar entre
distintas marcas y tecnologías de Bases de Datos entre si. “Permite a las
organizaciones mover datos desde múltiples fuentes, reformatearlos y
limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para
analizar, o en otro sistema operacional para apoyar un proceso de negocio.”
6. 6. Herramientas ETL • Pentaho Kettle • Talend • Informatica PowerCenter •
Inabplex Inaport • IBM Cognos Data Manager • Oracle Warehouse Builder •
Microsoft Integration Services
7. 7. Pentaho Kettle Se utiliza a través de un acercamiento basado en meta datos,
y tiene posee una GUI para acelerar los procesos. La compañía Pentaho
empezó operaciones en el año 2001. Tiene una comunidad activa de usuarios
grande, alrededor de 13,500 usuarios. Funciona utilizando Java, presentando
como ventaja el ser una solución multiplataforma.
8. 8. Talend Talend es una herramienta OpenSource para la integración de
información. Usa un enfoque hacia la generación de código para la
manipulación de información y posee una GUI implementada en Eclipse RC.
Lanzó su primera versión en el año 2006. Genera código en Java o Scripts en
Pearl que pueden ser implementados en servidores que lo soporten. Cuenta
con una gran variedad de testimonios por parte de compañías importantes.
9. 9. Informatica PowerCenter Informatica tiene una muy buena suite
empresarial de integración de datos. Fue fundada en el año de 1993. Líder
actual del sector Data Integration (Gartner Dataquest). Tiene alrededor de
2600 clientes, entre los cuales figuran Bancos como Grupo BBVA,
organizaciones Gubernamentales, etc. La compañía se enfoca meramente en
soluciones para la integración de datos.
10. 10. Inaplex Inaport Fundado en Reino Unido desde el año 2004 para satisfacer
la migración de información hacia distintas soluciones CRM y software contable
2. como Sage y Goldmine. Microsoft Dynamics CRM Sage CRM Solutions
Family SalesLogix SageCRM ACT! by Sage GoldMine from
FrontRange GoldMine Corporate and Premium
11. 11. IBM Cognos Data Manager IBM® Cognos Data Manager proporciona
funciones dimensionales de extracción, transformación y carga (ETL) para
conseguir una inteligencia empresarial de alto rendimiento. Se puede integrar
con la GUI de IBM Data Manager Designer para diseñar y crear prototipos Se
pueden ejecutar compilaciones y secuencias de trabajos en sistemas remotos
desde un sistema de entorno de diseño de Data Manager. Data Manager
Engine se tiene que instalar en un sistema UNIX o Linux.
12. 12. ORACLE DATABASE 11G ORACLE WAREHOUSE BUILDER
ENTERPRISE ETL OPTION La opción empresarial ETL (Enterprise ETL
Option) para Warehouse Builder es una opción que puede ser adquirida con
Oracle Warehouse Builder como parte de la edición empresarial del motor de
base de datos. Permite ejecutar cargas de datos usando métodos rápidos y
eficientes tales como el Oracle Data Pump y transportable tablespaces.
Permite prever el efecto que puedan tener los cambios que se hagan en cualquier
lugar de los metadatos del sistema ETL Es posible generar un modelo para
configurar los ambientes de desarrollo, pruebas y producción a niveles separados
13. 13. Microsoft SQL Server Integration Services Puede extraer y transformar
datos de diversos orígenes como archivos de datos XML, archivos planos y
orígenes de datos relacionales y, después, cargar los datos en uno o varios
destinos. Se pueden realizar tareas de migración fácilmente usando tareas
visuales. Si se desea crear nueva funcionalidad, se pueden crear scripts en c# o
VB Puede conseguir conectividad mediante CLI vía DLLs tipo ensamblador.
14. 14. Comparación • Tabla comparativa • Costo total de dominio • Riesgos •
Facilidad de Uso • Soporte • Implementación • Velocidad • Calidad de la data •
Monitoreo • Conectividad
15. 15. Tabla comparativa TALEND KETTLE POWERCENTER INAPORT
DATA MANAGER ORACLE WAREHOUSE SERVER INTEGRATION
COSTO RIESGO FACILIDAD SOPORTE IMPLEMENTACIÓN
VELOCIDAD CALIDAD DATA MONITOREO CONECTIVIDAD
16. 16. Costo total de dominio Significa el costo promedio de cierto producto.
Desde costo de orden, licencia, servicio, soporte, entrenamiento, consultoría y
cualquier otro pago adicional, que se tenga que realizar para el uso total. Las
herramientas OpenSource son naturalmente gratis de utilizar, pero el soporte,
entrenamiento y consultoría son los costos a considerar. OpenSource Propietario
Código Propio
17. 17. Riesgos Siempre hay un riesgo cuando se habla de la manipulación de
información almacenada. Sin embargo también se tienen que considerar los
siguientes riesgos: Exceder presupuestos. Comprar licencias que no reditúen
su valor. Exceder tiempos. Falta capacitación para uso de herramientas.
No cumplir con requerimientos o expectativas.
18. 18. Facilidad de uso Talend: Tiene una GUI pero se basa en un add-on para
Eclipse RC. Kettle: Tiene la GUI más fácil de utilizar dentro de las
alternativas OpenSource. PowerCenter: Tiene una GUI fácil de utilizar, pero
requeriere entrenamiento para aprovecharla. Inaport: Se conecta directamente
al CRM de importación. IBM: Se puede integrar con la GUI de IBM Data
3. Manager Designer pero este es un módulo aparte. Oracle: Fácil cuando se trata
de información almacenada en bases de datos Oracle, debido a las herramientas
Data Pump y transportable tablespaces, pero no ofrece mucha compatibilidad a
otras BD. Microsoft: Se pueden realizar tareas de migración fácilmente usando
tareas visuales.
19. 19. Soporte Talend: Soporte de paga en estados unidos. Kettle: Soporte en
EEUU, Reino Unido y consultorías asociadas. PowerCenter: Soporte mundial
vía web y consultoría. Inaport: Soporte mundial vía web y consultoría. IBM:
Soporte mundial contratando en paquete. Oracle: Vía soporte local Oracle
Latinoamérica. Microsoft: Soporte vía plataforma TechNet.
20. 20. Implementación TALEND KETTLE POWERCENTER INAPORT DATA
MANAGER ORACLE WAREHOUSE SERVER INTEGRATION
PLATAFORMA Cualquier compatible con Java o Perl Cualquiera compatible
con Java. SERVIDOR WINDOWS, HP-UX, IBM- UX, REDHAT, SOLARIS
WINDOWS WINDOWS SERVER, SOLARIS, HP-UX, IBM- UX, REDHAT
ORACLE LINUX, REDHAT, SUSE ENTERPRISE WINDOWS SERVER
RAM 512 MB 512 MB 1GB 50MB 1GB 2GB 2GB CPU 1 GHZ 1 GHZ 4 +
CORES 2GHZ 1GHZ 2GHZ x 2 cores Varía 2.2GHZ 2 CORES EXTRA Se
puede conectar a Schedulers para automatizar cargas Puede utilizar Slave
Servers REQUIERE .NET Parte de Cognos Business Intelligence Más
información
21. 21. Velocidad Talend: Más lento que Pentaho Kettle y requiere configuración
específica y manual, con conocimiento previo de la data a utilizar. Kettle: Más
rápido que Talend, sin embargo al requerir de Java Database Connector
disminuye la velocidad de transacciones. PowerCenter: Herramienta más
rápida gracias a PushDown, sin embargo los cambios son en momento y no
permite hacer Rollback a un estado anterior. Inaport: Utiliza una conexión
directamente proporcional a la velocidad del CRM. IBM: Muy rápido cuando
se trabaja con DB2 sin embargo la capa de compatibilidad disminuye la
velocidad de conexión con distintos manejadores de base de datos. Oracle: La
velocidad es proporcional al servicio Oracle en el cual este trabajando.
Microsoft: La velocidad es proporcional al servicio MSSQL en el cual este
trabajando.
22. 22. Calidad de Data Talend: Ofrece herramientas para DQ dentro de la GUI,
sentencias SQL personalizables utilizando Java. Kettle: Ofrece herramientas
para SQ dentro de su GUI, sentencias SQL personalizadas así como
herramientas JavaScript y REGEX para la depuración de información.
PowerCenter: Ofrece DQ a través de otro producto llamado Informatica Data
Quality. Inaport: Debido a la restricción del origen de información se pude
realizar tareas de DQ dentro de la misma. IBM: Mediante Cognos Data
Manager Packages se pueden incorporar herramientas para DQ. Oracle:
Permite DQ mediante el uso de Oracle Warehouse Builder Data Profiling
Features. Microsoft: Requiere del software SQL Server Data Quality Services
para ofrecer herramientas DQ.
23. 23. Monitoreo Talend: Tiene herramientas practicas de monitoreo y registro
histórico. Kettle: Tiene herramientas practicas de monitoreo y registro
histórico. PowerCenter: Tiene herramientas practicas y extensivas de
monitoreo y registro histórico. Inaport: Tiene herramientas practicas de
monitoreo y registro histórico. IBM: Maneja registro de históricos. Oracle:
4. Tiene herramientas practicas y extensivas de monitoreo y registro histórico.
Microsoft: Tiene herramientas practicas y extensivas de monitoreo y registro
histórico.
24. 24. Conectividad Talend: Varias bases de datos, archivos planos, xml, Excel,
servicios web, necesita JDBC para conexión. Kettle: Varias bases de datos,
archivos planos, xml, Excel, servicios web. PowerCenter: Varias bases de
datos, archivos planos, xml, Excel, servicios web puede exportar como servicio
web. Inaport: Cualquier conexión ODBC, MSSQL, OUTLOOK, ACT,
EXCEL. IBM: Cualquier conexión ODBC, DB2, para importación a DB2,
cubos de información T1MAP. Oracle: Solamente compatible con bases de
datos Oracle mismas que la instalada en el DataWarehouse Microsoft: Bases
de datos SQL SERVER, ACCESS, ADO.NET
http://es.slideshare.net/JorgeCarlos3/comparativa-herramientas-etl