1. Data Warehouse
“Un DWH es un sistema que recupera y
consolida datos periódicamente de los
sistemas fuente a un almacén de datos
dimensional o normalizado (DWH).
Usualmente guarda años de historia y es
consultado para inteligencia de negocios u
otras actividades analíticas.”
3. Ventajas de Data Warehouse
• Toda la información está un solo lugar. (UFV)
• Información actualizada.
• Acceso rápido
• No hay límites de espacio (Ej. Archivos XLS)
• Contiene toda la historia de la compañía
• Fácil de comprender (Modelada en términos del negocio)
• Contiene definiciones claras y uniformes
• Datos estandarizados
4. Desafíos de un Data Warehouse
• Requieren una revisión del modelo de datos, objetos,
transacciones y además del almacenamiento
• Problemas de calidad de datos
• Volumen de datos y rendimiento
• Requieren una revisión del modelo de datos, objetos,
transacciones y además del almacenamiento.
5. Arquitectura de Data Warehouse
Una arquitectura de Data Warehouse es una forma de
representar la estructura global de los datos, la comunicación,
los procesos y la presentación al usuario final. La arquitectura
está constituida por las siguientes partes interconectadas
6. Elementos de una arquitectura de
Data Warehouse
• Base de datos operacional / Nivel de base de
datos externo.
• Nivel de acceso a la información
• Nivel de acceso a los datos
• Nivel de gestión de proceso
• Nivel de data warehouse (físico).
• Nivel de organización de datos
7. Estructura de un Data Warehouse
• Los data warehouses tienen una estructura distinta. Hay
niveles diferentes de esquematización y detalle que
delimitan el data warehouse. La estructura de un data
warehouse se muestra en la Figura N° 5.
• En la figura, se muestran los diferentes componentes del
data warehouse y son:
• Detalle de datos actuales
• Detalle de datos antiguos
• Datos ligeramente resumidos
• Datos completamente resumidos
• Meta data
9. Pentaho BI
• Pentaho es un proyecto iniciado por una comunidad
OpenSource, provee una alternativa de soluciones de BI en
distintas áreas como en la Arquitectura, Soporte,
Funcionalidad e Implantación.
• Pentaho se define a sí mismo como una plataforma de
BI “orientada a la solución” y “centrada en procesos”
que incluye todos los principales componentes
requeridos para implementar soluciones basados en
procesos y ha sido concebido desde el principio para
estar basada en procesos.
10. Caracteristicas - Pentaho BI
• Plataforma 100% J2EE, asegurando la escalabilidad,
integración y portabilidad.
• Servidor: puede correr en servidores compatibles con J2EE
como JBOSS AS, WebSphere, Tomcat, WebLogic y Oracle AS.
• Base de datos: vía JDBC, IBM DB2, Microsft SQL Server,
MySQL, Oracle, PostgreSQL, NCR Teradata, Firebird.
• Sistema operativo: no hay dependencia. Lenguaje
interpretado.
•Lenguaje de programación: Java, Javascript, JSP, XSL
(XSLT/XPath/XSL-FO).
•Interfaz de desarrollo: Java SWT, Eclipse, Web-based.
•Repositorio de datos basado en XML.
•Iintegración con Arquitecturas Orientadas a Servicios (SOA).
11. Herramientas - JasperSoft
JasperSoft Business Intelligence perteneciente a JasperSoft
Corporation, es un conjunto de herramientas open source que
permiten a las organizaciones generar información basada en
sus datos para la evaluación y toma diaria de decisiones, en
forma dinámica y on-line.
La moderna plataforma de BI de Jaspersoft está pensada para
el nuevo mundo informático, específicamente para las
implementaciones en la: Nube, Big Data, Moviles.
12. Herramientas - JasperSoft
Conjunto de Productos
El conjunto de productos por los que está compuesto son:
•JasperReports Library: Es el motor de informes Java más
utilizado del mundo. Permite combinar fuentes de datos y
producir documentos “pixel perfect” para su visualización
•Jasper Server: : Jasper Server contiene los reportes de forma
segura, pudiendo integrarlos y personalizarlos por usuarios y
grupos
•Jaspersoft iReport Designer: permite crear informes
interactivos a partir de cualquier fuente de datos, personalizar
13. Transformación
Integración de Datos: conjunto de actividades
para llenar el DWH
•La integración de datos se descompone en 3
actividades
◦ Extracción: Adquirir datos de 1 o más fuentes
◦ Transformación: Cambiar la forma y contenido de
los datos
◦ Loading (Carga): cargar los datos en los
repositorios y el DWH
14. Transformacion
Es el elemento básico de diseño de los procesos ETL en PDI.
Se compone de pasos o steps, que están enlazados entre si a
través de los saltos o hops.
Una transformación no es ningún programa ni un ejecutable
Kettle es un proyecto que incluye un conjunto de herramientas
para realizar las tareas ETL: Spoon, Pan, Chef, Kitchen
15. Conclusiones
• Los negocios están cambiando constantemente debido a
cambios económicos, evoluciones tecnológicas, alteraciones
en el mercado, impactados por diversos cambios culturales y
sociales e incluso por fenómenos meteorológicos.
• Todo ello obliga a replantearse las estrategias actuales y
debería provocar una transformación en nuestro propio
negocio. Así, un factor clave de éxito, e incluso de
supervivencia, viene derivado de la capacidad de las
organizaciones de gestionar de forma eficiente sus datos.