Data Warehouse
“Un DWH es un sistema que recupera y
consolida datos periódicamente de los
sistemas fuente a un almacén de datos
dimensional o normalizado (DWH).
Usualmente guarda años de historia y es
consultado para inteligencia de negocios u
otras actividades analíticas.”
Esquema Data Warehouse
Ventajas de Data Warehouse
• Toda la información está un solo lugar. (UFV)
• Información actualizada.
• Acceso rápido
• No hay límites de espacio (Ej. Archivos XLS)
• Contiene toda la historia de la compañía
• Fácil de comprender (Modelada en términos del negocio)
• Contiene definiciones claras y uniformes
• Datos estandarizados
Desafíos de un Data Warehouse
• Requieren una revisión del modelo de datos, objetos,
transacciones y además del almacenamiento
• Problemas de calidad de datos
• Volumen de datos y rendimiento
• Requieren una revisión del modelo de datos, objetos,
transacciones y además del almacenamiento.
Arquitectura de Data Warehouse
Una arquitectura de Data Warehouse es una forma de
representar la estructura global de los datos, la comunicación,
los procesos y la presentación al usuario final. La arquitectura
está constituida por las siguientes partes interconectadas
Elementos de una arquitectura de
Data Warehouse
• Base de datos operacional / Nivel de base de
datos externo.
• Nivel de acceso a la información
• Nivel de acceso a los datos
• Nivel de gestión de proceso
• Nivel de data warehouse (físico).
• Nivel de organización de datos
Estructura de un Data Warehouse
• Los data warehouses tienen una estructura distinta. Hay
niveles diferentes de esquematización y detalle que
delimitan el data warehouse. La estructura de un data
warehouse se muestra en la Figura N° 5.
• En la figura, se muestran los diferentes componentes del
data warehouse y son:
• Detalle de datos actuales
• Detalle de datos antiguos
• Datos ligeramente resumidos
• Datos completamente resumidos
• Meta data
Estructura de un Data Warehouse
Pentaho BI
• Pentaho es un proyecto iniciado por una comunidad
OpenSource, provee una alternativa de soluciones de BI en
distintas áreas como en la Arquitectura, Soporte,
Funcionalidad e Implantación.
• Pentaho se define a sí mismo como una plataforma de
BI “orientada a la solución” y “centrada en procesos”
que incluye todos los principales componentes
requeridos para implementar soluciones basados en
procesos y ha sido concebido desde el principio para
estar basada en procesos.
Caracteristicas - Pentaho BI
• Plataforma 100% J2EE, asegurando la escalabilidad,
integración y portabilidad.
• Servidor: puede correr en servidores compatibles con J2EE
como JBOSS AS, WebSphere, Tomcat, WebLogic y Oracle AS.
• Base de datos: vía JDBC, IBM DB2, Microsft SQL Server,
MySQL, Oracle, PostgreSQL, NCR Teradata, Firebird.
• Sistema operativo: no hay dependencia. Lenguaje
interpretado.
•Lenguaje de programación: Java, Javascript, JSP, XSL
(XSLT/XPath/XSL-FO).
•Interfaz de desarrollo: Java SWT, Eclipse, Web-based.
•Repositorio de datos basado en XML.
•Iintegración con Arquitecturas Orientadas a Servicios (SOA).
Herramientas - JasperSoft
JasperSoft Business Intelligence perteneciente a JasperSoft
Corporation, es un conjunto de herramientas open source que
permiten a las organizaciones generar información basada en
sus datos para la evaluación y toma diaria de decisiones, en
forma dinámica y on-line.
La moderna plataforma de BI de Jaspersoft está pensada para
el nuevo mundo informático, específicamente para las
implementaciones en la: Nube, Big Data, Moviles.
Herramientas - JasperSoft
Conjunto de Productos
El conjunto de productos por los que está compuesto son:
•JasperReports Library: Es el motor de informes Java más
utilizado del mundo. Permite combinar fuentes de datos y
producir documentos “pixel perfect” para su visualización
•Jasper Server: : Jasper Server contiene los reportes de forma
segura, pudiendo integrarlos y personalizarlos por usuarios y
grupos
•Jaspersoft iReport Designer: permite crear informes
interactivos a partir de cualquier fuente de datos, personalizar
Transformación
Integración de Datos: conjunto de actividades
para llenar el DWH
•La integración de datos se descompone en 3
actividades
◦ Extracción: Adquirir datos de 1 o más fuentes
◦ Transformación: Cambiar la forma y contenido de
los datos
◦ Loading (Carga): cargar los datos en los
repositorios y el DWH
Transformacion
Es el elemento básico de diseño de los procesos ETL en PDI.
Se compone de pasos o steps, que están enlazados entre si a
través de los saltos o hops.
Una transformación no es ningún programa ni un ejecutable
Kettle es un proyecto que incluye un conjunto de herramientas
para realizar las tareas ETL: Spoon, Pan, Chef, Kitchen
Conclusiones
• Los negocios están cambiando constantemente debido a
cambios económicos, evoluciones tecnológicas, alteraciones
en el mercado, impactados por diversos cambios culturales y
sociales e incluso por fenómenos meteorológicos.
• Todo ello obliga a replantearse las estrategias actuales y
debería provocar una transformación en nuestro propio
negocio. Así, un factor clave de éxito, e incluso de
supervivencia, viene derivado de la capacidad de las
organizaciones de gestionar de forma eficiente sus datos.

Data Warehouse

  • 1.
    Data Warehouse “Un DWHes un sistema que recupera y consolida datos periódicamente de los sistemas fuente a un almacén de datos dimensional o normalizado (DWH). Usualmente guarda años de historia y es consultado para inteligencia de negocios u otras actividades analíticas.”
  • 2.
  • 3.
    Ventajas de DataWarehouse • Toda la información está un solo lugar. (UFV) • Información actualizada. • Acceso rápido • No hay límites de espacio (Ej. Archivos XLS) • Contiene toda la historia de la compañía • Fácil de comprender (Modelada en términos del negocio) • Contiene definiciones claras y uniformes • Datos estandarizados
  • 4.
    Desafíos de unData Warehouse • Requieren una revisión del modelo de datos, objetos, transacciones y además del almacenamiento • Problemas de calidad de datos • Volumen de datos y rendimiento • Requieren una revisión del modelo de datos, objetos, transacciones y además del almacenamiento.
  • 5.
    Arquitectura de DataWarehouse Una arquitectura de Data Warehouse es una forma de representar la estructura global de los datos, la comunicación, los procesos y la presentación al usuario final. La arquitectura está constituida por las siguientes partes interconectadas
  • 6.
    Elementos de unaarquitectura de Data Warehouse • Base de datos operacional / Nivel de base de datos externo. • Nivel de acceso a la información • Nivel de acceso a los datos • Nivel de gestión de proceso • Nivel de data warehouse (físico). • Nivel de organización de datos
  • 7.
    Estructura de unData Warehouse • Los data warehouses tienen una estructura distinta. Hay niveles diferentes de esquematización y detalle que delimitan el data warehouse. La estructura de un data warehouse se muestra en la Figura N° 5. • En la figura, se muestran los diferentes componentes del data warehouse y son: • Detalle de datos actuales • Detalle de datos antiguos • Datos ligeramente resumidos • Datos completamente resumidos • Meta data
  • 8.
    Estructura de unData Warehouse
  • 9.
    Pentaho BI • Pentahoes un proyecto iniciado por una comunidad OpenSource, provee una alternativa de soluciones de BI en distintas áreas como en la Arquitectura, Soporte, Funcionalidad e Implantación. • Pentaho se define a sí mismo como una plataforma de BI “orientada a la solución” y “centrada en procesos” que incluye todos los principales componentes requeridos para implementar soluciones basados en procesos y ha sido concebido desde el principio para estar basada en procesos.
  • 10.
    Caracteristicas - PentahoBI • Plataforma 100% J2EE, asegurando la escalabilidad, integración y portabilidad. • Servidor: puede correr en servidores compatibles con J2EE como JBOSS AS, WebSphere, Tomcat, WebLogic y Oracle AS. • Base de datos: vía JDBC, IBM DB2, Microsft SQL Server, MySQL, Oracle, PostgreSQL, NCR Teradata, Firebird. • Sistema operativo: no hay dependencia. Lenguaje interpretado. •Lenguaje de programación: Java, Javascript, JSP, XSL (XSLT/XPath/XSL-FO). •Interfaz de desarrollo: Java SWT, Eclipse, Web-based. •Repositorio de datos basado en XML. •Iintegración con Arquitecturas Orientadas a Servicios (SOA).
  • 11.
    Herramientas - JasperSoft JasperSoftBusiness Intelligence perteneciente a JasperSoft Corporation, es un conjunto de herramientas open source que permiten a las organizaciones generar información basada en sus datos para la evaluación y toma diaria de decisiones, en forma dinámica y on-line. La moderna plataforma de BI de Jaspersoft está pensada para el nuevo mundo informático, específicamente para las implementaciones en la: Nube, Big Data, Moviles.
  • 12.
    Herramientas - JasperSoft Conjuntode Productos El conjunto de productos por los que está compuesto son: •JasperReports Library: Es el motor de informes Java más utilizado del mundo. Permite combinar fuentes de datos y producir documentos “pixel perfect” para su visualización •Jasper Server: : Jasper Server contiene los reportes de forma segura, pudiendo integrarlos y personalizarlos por usuarios y grupos •Jaspersoft iReport Designer: permite crear informes interactivos a partir de cualquier fuente de datos, personalizar
  • 13.
    Transformación Integración de Datos:conjunto de actividades para llenar el DWH •La integración de datos se descompone en 3 actividades ◦ Extracción: Adquirir datos de 1 o más fuentes ◦ Transformación: Cambiar la forma y contenido de los datos ◦ Loading (Carga): cargar los datos en los repositorios y el DWH
  • 14.
    Transformacion Es el elementobásico de diseño de los procesos ETL en PDI. Se compone de pasos o steps, que están enlazados entre si a través de los saltos o hops. Una transformación no es ningún programa ni un ejecutable Kettle es un proyecto que incluye un conjunto de herramientas para realizar las tareas ETL: Spoon, Pan, Chef, Kitchen
  • 15.
    Conclusiones • Los negociosestán cambiando constantemente debido a cambios económicos, evoluciones tecnológicas, alteraciones en el mercado, impactados por diversos cambios culturales y sociales e incluso por fenómenos meteorológicos. • Todo ello obliga a replantearse las estrategias actuales y debería provocar una transformación en nuestro propio negocio. Así, un factor clave de éxito, e incluso de supervivencia, viene derivado de la capacidad de las organizaciones de gestionar de forma eficiente sus datos.