Integración de Datos sin límites con Pentaho

Ing. Rubén Obando
www.datalytics.com Integración de Datos sin límites con Pentaho

Un día en la oficina…

Qué nuevas geografías
deberíamos incluir en
Cuán efectivo son nuestro objetivo de venta?
Cuántos de nuestros
nuestras campañas clientes migrarían a
de MKT? Cuál la competencia en
debería continuar? caso subamos el
precio un X%?

Cuál es la
rentabilidad del Dónde están
producto X? nuestros clientes
más rentables?
Nuestras ventas presentan
estacionalidad?

El problema de la falta de integración
 Islas de información: datos dispersos en diferentes áreas, sistemas, arquitecturas.
Imposibilidad de cruzar datos de diferentes sistemas. Visión incompleta.
 Pareto invertido: los analistas pasan mucho tiempo recolectando y procesando
información, en lugar de analizarla.
 Variedad y diversidad: aumentan las fuentes de información: no sólo bases de datos y
hojas de cálculo. Se sumaron redes sociales, sistemas en la nube, etc.
 BIG DATA: la información se está duplicando cada 2 años, y el 80% son datos no
estructurados.
 Pobre calidad de datos: en general los datos de los sistemas transaccionales presentan
vicios e inconsistencias, producto de errores de carga, malfuncionamiento, etc.
 Falta de una única versión de la verdad: multiplicidad de criterios y terminología. Por
ejemplo: dos áreas distintas informan diferentes valores para un mismo KPI.

En resumen…
Datos Analistas

VSAM
MQSeries
AS/400

DB2 UDB
Informix
Oracle
Microsoft
...
Siebel
PeopleSoft
SAP R/3
XML

Archivos Planos
FTP

Web Logs

Data Integration (ETL)
 La integración de datos es la práctica que consiste en recolectar los datos de diversas
fuentes, cruzarlos, enriquecerlos, consolidarlos y cargarlos en un Data Warehouse.
 El nombre ETL viene del acrónimo en Inglés Extract, Transform & Load.
 Extract: de los diversos sistemas transaccionales y fuentes.
 Transform: transformar los datos, cruzarlos, enriquecerlos, etc.
 Load: cargar la información en un repositorio centralizado.
 Las herramientas de ETL son herramientas visuales orientadas a Drag & Drop y zero-
coding, lo que se traduce en mayor productividad del equipo de desarrollo, menor time-
to-value y un mantenimiento más sencillo.
 La herramienta de ETL debe poder conectarse a diversas fuentes y diversas arquitecturas.
 Los datos en los sistemas fuente suelen tener errores e inconsistencias, por lo cual se suele
aplicar en esta etapa procesos de validación y limpieza (Data Quality).
 Los procesos ETL generalmente se ejecutan por la noche, para no sobrecargar los sistemas
transaccionales con pesadas consultas.

La evolución de SQL a ETL

Por que hacer esto?

La evolución de SQL a ETL

… cuando podríamos hacer
esto???

Donde encaja el ETL?

ETL
VSAM
MQSeries
AS/400
Pentaho,
Oracle/Hyperion,
Microstrategy,
DB2 UDB
SAS, Etc.
Informix
Oracle Extract
Microsoft Transform
... Clean
Siebel Load
PeopleSoft
DW
Datastage ODS Data Mart
SAP R/3
Informatica
XML Oracle
Oracle DI
Pentaho DI IBM DB2
SAS DIS SQL Server
Archivos Planos
Etc. Teradata
FTP
Sybase IQ
Etc.
SAS, SPSS,
Web Logs Rapid Miner

Pentaho Data Integration
 Permite tomar información de
diferentes fuentes, consolidarla y
cargarla en un repositorio analítico.
 Su entorno de trabajo visual y drag &
drop se traduce en un menor tiempo de
desarrollo y un mantenimiento más
sencillo y agilidad para incorporar
nuevas fuentes de información e
indicadores.
 Plug-in de Agile BI:
 Data Discovery:
Análisis y visualización de información en
tiempo real
 Data Modeling:
Modelado y publicación de cubos OLAP
para prototipado y validación de
requerimientos

Pentaho Data Integration
 + de 150 steps para manipulación, enriquecimiento de datos y generación de reportes.
 Repositorio integrado: control de versiones para trabajo colaborativo y scheduling de
procesos.
 Conectividad nativa contra:
 Típicas: SQL Server, Oracle, DB2, Teradata, Sybase IQ, SAP, MySQL, PostgreSQL, etc.
 No tan típicas: AS/400, Hadoop, LDAP/Active Directory, SalesForce, Google Analytics, etc.
 Nuevos Features:
 Soporte para MongoDB, Cassandra, Hbase.
 Capacidad de ejecución de jobs Map/Reduce (Hadoop) y acceso a archivos en Hadoop.
 ElasticSearch.
 Archivos HL7.
 Capacidad de documentación automática.
 Cliente REST.
 Etc…

Usos comunes de PDI
 Carga de Data warehouse y Data Marts:
 Soporte para slowly changing dimensions, cargas bulk,
merge, sincronización y otros conceptos de Data
Warehousing
 Exports de bases de datos a archivos planos, XML u otras
bases de datos.
 Import de datos a bases de datos, desde diversas fuentes
como archivos planos, hojas de Excel, datos alojados en
la nube, etc.
 Migración de datos de sistemas Legacy.
 Exploración de datos de diversas fuentes.
 Enriquecimiento de datos mediante la integración de
diversas fuentes.
 Procesos de Data Quality y Data Cleansing mediante
transformación de datos.

Usos comunes de PDI (continuación)
 Generación de reportes batch.
 Envío de alertas vía e-mail.
 Integración de aplicaciones (middleware).
 Implementación de procesos a nivel SO (transferencia de
archivos, limpieza de file system, etc.).

Pentaho Data Integration Server
 Repositorio Enterprise:
 Versionador
 Seguridad y control de acceso
 Almacenamiento
 Scheduling
 Data Integration Web Console:
 Ejecución y monitoreo
 Gestión de procesos
 Análisis de performance, trends, históricos.
 Configuración de umbrales de alerta
 Steps exclusivos:
 Google Docs
 Google Analytics
 Full Agile BI Plug-in

Soporte para BIG DATA
 Hadoop
 MPP storage & processing
 High-availability
 Any data type

 NoSQL (no relacionales)
 Non-relational, flexible
 Low-cost
 High-performance

 Bases de datos analíticas
 Relational
 High-performance load & query
 Tecnologías:
• Columnar, MPP, in-memory, DW appliances,
OLAP databases

Reconocimiento de analistas
 Pentaho Data Integration esta siendo reconocido por los analistas como uno de los
jugadores de peso en materia de BIG DATA con su herramienta de integración.

Fuente: Forrester Wave™, Soluciones Hadoop empresariales, 1.er trimestre de 2012

Agile BI para prototipos de BI
 Facilidades para prototipos OLAP, Data Profiling y visualización de datos desde la propia
herramienta de ETL.

Data Discovery / Visualization

Por qué Pentaho Data Integration?
 Facilidad de uso:
 Orientada a metadatos (definir que queremos hacer, y no como hacerlo).
 Menos código implica menos complejidad y menor tiempo de desarrollo.
 Seteo sencillo, interfaz gráfica intuitiva y fácil de mantener.
 Basada en arquitectura moderna:
 100% Java y multi-plataforma (Windows, Linux, Unix, Mac OS).
 Soporte para múltiples sistemas de datos de manera nativa.
 Procesamiento en paralelo, performance y escalabilidad.
 +150 steps predefinidos para diversas operaciones.
 Bajo costo de ownership:
 Try & Buy (versión Enterprise Edition).
 Ciclos de implementación cortos.
 Costos de mantenimiento reducido.
 Modelo de suscripción anual (versión Enterprise Edition).

Prueba de Concepto
Clientes Proveedores Tiempo Geografía Productos

Punto de Venta

Presupuesto Ventas Compras

Integración de Datos sin límites con Pentaho

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Integración de Datos sin límites con Pentaho

Similar a Integración de Datos sin límites con Pentaho (20)

Último

Último (20)

Integración de Datos sin límites con Pentaho