Comparación de herramientas tanto Open Source como Comerciales para una mejor toma de decisiones de acuerdo a la necesidad del proyecto.
Estudio realizado por Jorge Bustillos en el año 2014
4. ¿Para que se utilizan
herramientas ETL?
Extraer data de varias fuentes de información (Legacy
DB).
Enviar data a:
Un sistema optimizado de manejo de transacciones (nuevo
gestor BD).
Un sistema optimizado de reporte.
Un sistema de análisis.
Sincronizar información de distintas bases de datos.
Depurado de información para remover errores
Cargar información a un Data Warehouse
5. ¿Por qué utilizar herramientas
ETL?
Las herramientas ETL ahorran tiempo y dinero cuando
se tiene que desarrollar un Data Warehouse al reducir la
cantidad de Sistemas de Conversión personalizados a
desarrollar para migrar o concentrar al información.
Ahorra la dificultad para el DBA de conectar entre
distintas marcas y tecnologías de Bases de Datos entre
si.
“Permite a las organizaciones mover datos desde múltiples
fuentes, reformatearlos y limpiarlos, y cargarlos en otra
base de datos, data mart, o data warehouse para analizar,
o en otro sistema operacional para apoyar un proceso de
negocio.”
6. Herramientas ETL
• Pentaho Kettle
• Talend
• Informatica PowerCenter
• Inabplex Inaport
• IBM Cognos Data Manager
• Oracle Warehouse Builder
• Microsoft Integration
Services
7. Pentaho Kettle
Se utiliza a través de un acercamiento basado en meta
datos, y tiene posee una GUI para acelerar los procesos.
La compañía Pentaho empezó operaciones en el año
2001.
Tiene una comunidad activa de usuarios grande,
alrededor de 13,500 usuarios.
Funciona utilizando Java, presentando como ventaja el
ser una solución multiplataforma.
8. Talend
Talend es una herramienta OpenSource para la
integración de información.
Usa un enfoque hacia la generación de código para la
manipulación de información y posee una GUI
implementada en Eclipse RC.
Lanzó su primera versión en el año 2006.
Genera código en Java o Scripts en Pearl que pueden ser
implementados en servidores que lo soporten.
Cuenta con una gran variedad de testimonios por parte
de compañías importantes.
9. Informatica PowerCenter
Informatica tiene una muy buena suite empresarial de
integración de datos.
Fue fundada en el año de 1993.
Líder actual del sector Data Integration (Gartner
Dataquest).
Tiene alrededor de 2600 clientes, entre los cuales
figuran Bancos como Grupo BBVA, organizaciones
Gubernamentales, etc.
La compañía se enfoca meramente en soluciones para la
integración de datos.
10. Inaplex Inaport
Fundado en Reino Unido desde el año 2004 para
satisfacer la migración de información hacia distintas
soluciones CRM y software contable como Sage y
Goldmine.
Microsoft Dynamics CRM
Sage CRM Solutions Family
SalesLogix
SageCRM
ACT! by Sage
GoldMine from FrontRange
GoldMine Corporate and Premium
11. IBM Cognos Data Manager
IBM® Cognos Data Manager proporciona funciones
dimensionales de extracción, transformación y carga
(ETL) para conseguir una inteligencia empresarial de
alto rendimiento.
Se puede integrar con la GUI de IBM Data Manager
Designer para diseñar y crear prototipos
Se pueden ejecutar compilaciones y secuencias de
trabajos en sistemas remotos desde un sistema de
entorno de diseño de Data Manager.
Data Manager Engine se tiene que instalar en un sistema
UNIX o Linux.
12. ORACLE DATABASE 11G
ORACLE WAREHOUSE BUILDER
ENTERPRISE ETL OPTION
La opción empresarial ETL (Enterprise ETL Option) para
Warehouse Builder es una opción que puede ser
adquirida con Oracle Warehouse Builder como parte de
la edición empresarial del motor de base de datos.
Permite ejecutar cargas de datos usando métodos
rápidos y eficientes tales como el Oracle Data Pump y
transportable tablespaces.
Permite prever el efecto que puedan tener los cambios
que se hagan en cualquier lugar de los metadatos del
sistema ETL
Es posible generar un modelo para configurar los
ambientes de desarrollo, pruebas y producción a niveles
separados
13. Microsoft SQL Server Integration
Services
Puede extraer y transformar datos de diversos orígenes
como archivos de datos XML, archivos planos y orígenes
de datos relacionales y, después, cargar los datos en
uno o varios destinos.
Se pueden realizar tareas de migración fácilmente
usando tareas visuales.
Si se desea crear nueva funcionalidad, se pueden crear
scripts en c# o VB
Puede conseguir conectividad mediante CLI vía DLLs
tipo ensamblador.
14. Comparación
• Tabla comparativa
• Costo total de dominio
• Riesgos
• Facilidad de Uso
• Soporte
• Implementación
• Velocidad
• Calidad de la data
• Monitoreo
• Conectividad
15. Tabla comparativa
TALEND KETTLE POWERCENTER INAPORT DATA
MANAGER
ORACLE
WAREHOUSE
SERVER
INTEGRATION
COSTO
RIESGO
FACILIDAD
SOPORTE
IMPLEMENTACIÓN
VELOCIDAD
CALIDAD DATA
MONITOREO
CONECTIVIDAD
16. Costo total de dominio
Significa el costo promedio de cierto producto. Desde
costo de orden, licencia, servicio, soporte,
entrenamiento, consultoría y cualquier otro pago
adicional, que se tenga que realizar para el uso total.
Las herramientas OpenSource son naturalmente gratis
de utilizar, pero el soporte, entrenamiento y consultoría
son los costos a considerar.
OpenSource Propietario Código Propio
17. Riesgos
Siempre hay un riesgo cuando se habla de la
manipulación de información almacenada.
Sin embargo también se tienen que considerar los
siguientes riesgos:
Exceder presupuestos.
Comprar licencias que no reditúen su valor.
Exceder tiempos.
Falta capacitación para uso de herramientas.
No cumplir con requerimientos o expectativas.
18. Facilidad de uso
Talend: Tiene una GUI pero se basa en un add-on para Eclipse RC.
Kettle: Tiene la GUI más fácil de utilizar dentro de las alternativas
OpenSource.
PowerCenter: Tiene una GUI fácil de utilizar, pero requeriere
entrenamiento para aprovecharla.
Inaport: Se conecta directamente al CRM de importación.
IBM: Se puede integrar con la GUI de IBM Data Manager Designer
pero este es un módulo aparte.
Oracle: Fácil cuando se trata de información almacenada en bases
de datos Oracle, debido a las herramientas Data Pump y
transportable tablespaces, pero no ofrece mucha compatibilidad a
otras BD.
Microsoft: Se pueden realizar tareas de migración fácilmente
usando tareas visuales.
19. Soporte
Talend: Soporte de paga en estados unidos.
Kettle: Soporte en EEUU, Reino Unido y consultorías
asociadas.
PowerCenter: Soporte mundial vía web y consultoría.
Inaport: Soporte mundial vía web y consultoría.
IBM: Soporte mundial contratando en paquete.
Oracle: Vía soporte local Oracle Latinoamérica.
Microsoft: Soporte vía plataforma TechNet.
20. Implementación
TALEND KETTLE POWERCENTER INAPORT DATA
MANAGER
ORACLE
WAREHOUSE
SERVER
INTEGRATION
PLATAFORMA Cualquier
compatible
con Java o
Perl
Cualquiera
compatible
con Java.
SERVIDOR
WINDOWS,
HP-UX, IBM-
UX, REDHAT,
SOLARIS
WINDOWS WINDOWS
SERVER,
SOLARIS,
HP-UX, IBM-
UX, REDHAT
ORACLE
LINUX,
REDHAT,
SUSE
ENTERPRISE
WINDOWS
SERVER
RAM 512 MB 512 MB 1GB 50MB 1GB 2GB 2GB
CPU 1 GHZ 1 GHZ 4 + CORES
2GHZ
1GHZ 2GHZ x 2
cores
Varía 2.2GHZ 2
CORES
EXTRA Se puede
conectar a
Schedulers
para
automatizar
cargas
Puede
utilizar
Slave
Servers
REQUIERE
.NET
Parte de
Cognos
Business
Intelligence
Más
información
21. Velocidad
Talend: Más lento que Pentaho Kettle y requiere configuración
específica y manual, con conocimiento previo de la data a utilizar.
Kettle: Más rápido que Talend, sin embargo al requerir de Java
Database Connector disminuye la velocidad de transacciones.
PowerCenter: Herramienta más rápida gracias a PushDown, sin
embargo los cambios son en momento y no permite hacer Rollback
a un estado anterior.
Inaport: Utiliza una conexión directamente proporcional a la
velocidad del CRM.
IBM: Muy rápido cuando se trabaja con DB2 sin embargo la capa de
compatibilidad disminuye la velocidad de conexión con distintos
manejadores de base de datos.
Oracle: La velocidad es proporcional al servicio Oracle en el cual
este trabajando.
Microsoft: La velocidad es proporcional al servicio MSSQL en el cual
este trabajando.
22. Calidad de Data
Talend: Ofrece herramientas para DQ dentro de la GUI, sentencias
SQL personalizables utilizando Java.
Kettle: Ofrece herramientas para SQ dentro de su GUI, sentencias
SQL personalizadas así como herramientas JavaScript y REGEX para
la depuración de información.
PowerCenter: Ofrece DQ a través de otro producto llamado
Informatica Data Quality.
Inaport: Debido a la restricción del origen de información se pude
realizar tareas de DQ dentro de la misma.
IBM: Mediante Cognos Data Manager Packages se pueden incorporar
herramientas para DQ.
Oracle: Permite DQ mediante el uso de Oracle Warehouse Builder
Data Profiling Features.
Microsoft: Requiere del software SQL Server Data Quality Services
para ofrecer herramientas DQ.
23. Monitoreo
Talend: Tiene herramientas practicas de monitoreo y
registro histórico.
Kettle: Tiene herramientas practicas de monitoreo y
registro histórico.
PowerCenter: Tiene herramientas practicas y extensivas de
monitoreo y registro histórico.
Inaport: Tiene herramientas practicas de monitoreo y
registro histórico.
IBM: Maneja registro de históricos.
Oracle: Tiene herramientas practicas y extensivas de
monitoreo y registro histórico.
Microsoft: Tiene herramientas practicas y extensivas de
monitoreo y registro histórico.
24. Conectividad
Talend: Varias bases de datos, archivos planos, xml, Excel,
servicios web, necesita JDBC para conexión.
Kettle: Varias bases de datos, archivos planos, xml, Excel,
servicios web.
PowerCenter: Varias bases de datos, archivos planos, xml,
Excel, servicios web puede exportar como servicio web.
Inaport: Cualquier conexión ODBC, MSSQL, OUTLOOK, ACT,
EXCEL.
IBM: Cualquier conexión ODBC, DB2, para importación a
DB2, cubos de información T1MAP.
Oracle: Solamente compatible con bases de datos Oracle
mismas que la instalada en el DataWarehouse
Microsoft: Bases de datos SQL SERVER, ACCESS, ADO.NET