6. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Proyecto Open Source (GNU GPL) cuyo
objetivo es crear soluciones para
Inteligencia de Negocios.
Las funcionalidades principales son:
Reporting empresarial y Análisis.
Tableros de mando.
Minería de datos.
Integración de datos.
Workflow, alertas, suscripciones,
etc.
¿Qué es Pentaho? (1/2)
SIU – Datawarehouse / Agosto 2010
7. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Plataforma “orientada a la solución” y
“centrada en procesos”.
Compuesto por múltiples programas que
trabajan juntos para crear y distribuir
soluciones BI. (diferentes funcionalidades).
Puede ser accedido desde un simple web
browser, embebido en portales (LifeRay),
embebido en sistemas de gestión (Alfresco).
Su diseño modular le permite utilizar otros
programas ajenos a la suite (BIRT, Jasper).
¿Qué es Pentaho? (2/2)
SIU – Datawarehouse / Agosto 2010
8. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Principales proyectos
Pentaho Reporting (antes JFreeReport):
http://reporting.pentaho.org
Pentaho Data Integration (Kettle):
http:// kettle.pentaho.org
Pentaho Analysis (Mondrian OLAP server):
http:// mondrian.pentaho.org
Pentaho Data Mining (Weka):
http:// weka.pentaho.org
Pentaho Dashboards (CDF):
http://www.pentaho.com/products/dashboards/
Pentaho BI Platform:
http:// community.pentaho.com/projects/bi_platform/
SIU – Datawarehouse / Agosto 2010
13. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Componentes (1/3)
Plataforma 100% J2EE, asegurando la escalabilidad, integración y
portabilidad.
Servidor: puede correr en servidores compatibles con J2EE como
JBOSS AS, WebSphere, Tomcat, WebLogic y Oracle AS.
Base de datos: vía JDBC, IBM DB2, Microsft SQL Server, MySQL,
Oracle, PostgreSQL, NCR Teradata, Firebird, etc.
SIU – Datawarehouse / Agosto 2010
14. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Componentes (2/3)
Sistema operativo: no hay dependencia. Lenguaje interpretado.
Lenguaje de programación: Java, Javascript, JSP, XSL
(XSLT/XPath/XSL-FO).
Interfaz de desarrollo: Java SWT, Eclipse, Web-based.
Repositorio de datos basado en XML.
Todos los componentes están expuestos vía Web Services para
facilitar la integración con Arquitecturas Orientadas a Servicios (SOA).
SIU – Datawarehouse / Agosto 2010
16. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Existen dos versiones disponibles de Pentaho
Pentaho Community Edition
Pentaho Enterprise Edition (*)
(*) (Costo de soporte 10.000 US$/año hasta 25 usuarios – 1º semestre 2010)
http://repositorio.siu.edu.ar/trac/datawarehouse/attachment/wiki/Información%20de%20interés/lower%20costs%20with%20OSBI.pdf
SIU – Datawarehouse / Agosto 2010
17. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Versión Comunitaria
Sin costos de licencia
Sin servicios de soporte asociados
Suite completa con todas las funcionalidades para el desarrollo de
proyectos de Business Intelligence.
Aunque Pentaho soló la recomienda para:
Aficionados al BI
Académicos
Programadores de Software Abierto
Pentaho Community Edition
SIU – Datawarehouse / Agosto 2010
18. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Versión Empresarial.
Sin costos de licencia.
Costo de soporte y mantención con suscripción anual.
Versión certificada con funcionalidades mejoradas para la consola
de administración, y la construcción de tableros de control.
Pentaho Enterprise Edition
SIU – Datawarehouse / Agosto 2010
22. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
¿Dónde conseguir ayuda ?
Web principal: http://www.pentaho.com
Descarga de: http://sourceforge.net/projects/pentaho
Material comunitario: http://community.pentaho.com
Wiki Comunidad: http://wiki.pentaho.com/display/COM/Community+Wiki+Home
Foros Comunidad: http://forums.pentaho.org/
Wiki - SIU-Datawarehouse: http://repositorio.siu.edu.ar/trac/datawarehouse
SIU – Datawarehouse / Agosto 2010
23. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Suites BI
Pentaho Community Edition (CE):
Aplicación web desarrollada en J2EE. Modular.
Multiplataforma.
Incluye: ETL, Reporting, OLAP, Data mining, Dashboards.
GNU GPL.
OpenI:
Aplicación de tipo SaaS. Desarrolada en J2EE. Multiplataforma.
Incluye: OLAP.
Licencia Open Source.
SIU – Datawarehouse / Agosto 2010
24. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
SpagoBI:
Aplicación web desarrollada en J2EE. Modular.
Multiplataforma.
Incluye: ETL, Reporting, OLAP, Data mining, Dashboards.
Licencia GNU LGPL.
JasperSoft Community Edition:
Aplicación de tipo SaaS. Modular. Multiplataforma.
Incuye: ETL, Reporting, OLAP, Dashboards.
Licencia GNU GPL.
Suites BI
SIU – Datawarehouse / Agosto 2010
28. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Usos comunes
Carga de datawarehouses y datamarts.
Integración de datos.
Limpieza de datos (Data cleansing).
Migración y depuración de datos.
Exportación de datos.
Integración de PDI usando Pentaho BI.
...
Introducción (1/2)
SIU – Datawarehouse / Agosto 2010
29. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Pentaho Data Integration (PDI) - Kettle → Kettle Extracción,
Transformación, y Carga.
Licencia GNU LGPL.
Las soluciones de PDI se basan en dos tipos de objetos diferentes:
Transformaciones
Trabajos
PDI cuenta con un Motor propio que le permite interpretar, planificar y
ejecutar Transformaciones y Trabajos (T&T).
Introducción (2/2)
SIU – Datawarehouse / Agosto 2010
30. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Transformación (transformation)
Orientación a los Datos. Representa una tarea ETL.
Es una colección de “pasos”. Cada paso es una operación particular
sobre datos.
Los “pasos” se conectan entre sí a través de “saltos”, que indica cual
será el flujo de los datos.
Los “pasos” trabajan de manera simultánea y asincrónica.
SIU – Datawarehouse / Agosto 2010
31. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Trabajo (job)
Orientación a la Tarea y a los Datos.
Usualmente un Trabajo se compone de una o más Transformaciones, que
serán ejecutadas secuencialmente.
La ejecución de cada “Entrada de Trabajo” presenta una salida de status,
que puede ser analizada para la realización de diferentes acciones.
SIU – Datawarehouse / Agosto 2010
32. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
PDI cuenta con herramientas y utilidades para crear, administrar y
ejecutar T&T:
Spoon: IDE gráfico para crear T&T.
Kitchen: herramienta de línea de comandos para ejecutar
Trabajos.
Pan: herramienta de línea de comandos para ejecutar
Transformaciones.
Carte: servidor liviano para ejecutar T&T en host remotos.
Las T&T utilizan un lenguaje descriptivo (XML), el cual será
interpretado por el Data Integration Engine para su ejecución.
PDI - Aplicaciones
SIU – Datawarehouse / Agosto 2010
35. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Data Integration Engine
Responsable de interpretar y ejecutar los T&T de PDI.
Data Integration Engine utiliza:
Para Transformaciones → Motor de Transformaciones
Para Trabajos → Motor de Trabajos
Implementado como una librería Java.
Cuenta con una GUI muy avanzada.
Incluido en Pentaho BI server, para permitir ejecutar Trabajos como parte de
una xaction.
SIU – Datawarehouse / Agosto 2010
40. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Web: http://kettle.pentaho.org
Foro: http://forums.pentaho.org/forumdisplay.php?f=69
Wiki: http://wiki.pentaho.org/display/EAI
Lista de mails: http://groups.google.com/group/kettle-developers
Manual de Spoon en español:
http://wiki.pentaho.com/display/EAIes/Manual+del+Usuario+de+Spoon
Documentación en español: http://wiki.pentaho.com/display/EAIes/Inicio
Libros:
Pentaho 3.2 Data Integration - Beginner's Guide.
Pentaho Solutions: Business Intelligence and Data Warehousing with
Pentaho and MySQL.
Pentaho Kettle Solutions - Building Open Source ETL Solutions with
Pentaho Data Integration.
Donde obtener información
SIU – Datawarehouse / Agosto 2010
41. UNIVERSIDAD
TECNOLÓGICA
ECOTEC.
ISO
9001:2008
Bibliografía
Roland Bouman, Jos van Dongen, 2009. “Pentaho Solutions: Business
Intelligence and Data Warehousing with Pentaho and MySQL”. Wiley
Publishing, Inc.
María Carina Roldan, 2010. “Pentaho 3.2 Data Integration - Beginner's
Guide”. Packt Publishing.
Ing. Bernabeu Ricardo Dario, 2010. “DATA WAREHOUSING:Investigación y
Sistematización de Conceptos – HEFESTO: Metodología propia para la
Construcción de un Data Warehouse”. http://tgx-hefesto.blogspot.com/2010/07/hefesto-v20.html
Matt Casters. Pentaho Data Integration 4 and MySQL.. MySQL User
Conference, Tuesday April 13th , 2010.
http://community.pentaho.com
http://kettle.pentaho.org
http://todobi.blogspot.com
SIU – Datawarehouse / Agosto 2010