Presentación de Pentaho Data Integration dada durante el foro "Las Dimensiones del BI" en Medellín (COL), donde se presentó la problemática de la integración de datos en la actualidad (cada vez más información, fuentes más diversas, datos no estructurados, etc.), como muchas empresas aún hoy intentan resolver este problema con programación SQL o similar y como Pentaho Data Integration puede no solo resolver este problema de una manera muy ágil, si no también como puede utilizarse para comenzar a analizar la información y realizar tareas de Data Discovery y Data Visualization antes de la generación de cubos, reportes, etc.
Observability for Data Pipelines With OpenLineageDatabricks
Data is increasingly becoming core to many products. Whether to provide recommendations for users, getting insights on how they use the product, or using machine learning to improve the experience. This creates a critical need for reliable data operations and understanding how data is flowing through our systems. Data pipelines must be auditable, reliable, and run on time. This proves particularly difficult in a constantly changing, fast-paced environment.
Collecting this lineage metadata as data pipelines are running provides an understanding of dependencies between many teams consuming and producing data and how constant changes impact them. It is the underlying foundation that enables the many use cases related to data operations. The OpenLineage project is an API standardizing this metadata across the ecosystem, reducing complexity and duplicate work in collecting lineage information. It enables many projects, consumers of lineage in the ecosystem whether they focus on operations, governance or security.
Marquez is an open source project part of the LF AI & Data foundation which instruments data pipelines to collect lineage and metadata and enable those use cases. It implements the OpenLineage API and provides context by making visible dependencies across organizations and technologies as they change over time.
Making Apache Spark Better with Delta LakeDatabricks
Delta Lake is an open-source storage layer that brings reliability to data lakes. Delta Lake offers ACID transactions, scalable metadata handling, and unifies the streaming and batch data processing. It runs on top of your existing data lake and is fully compatible with Apache Spark APIs.
In this talk, we will cover:
* What data quality problems Delta helps address
* How to convert your existing application to Delta Lake
* How the Delta Lake transaction protocol works internally
* The Delta Lake roadmap for the next few releases
* How to get involved!
Observability for Data Pipelines With OpenLineageDatabricks
Data is increasingly becoming core to many products. Whether to provide recommendations for users, getting insights on how they use the product, or using machine learning to improve the experience. This creates a critical need for reliable data operations and understanding how data is flowing through our systems. Data pipelines must be auditable, reliable, and run on time. This proves particularly difficult in a constantly changing, fast-paced environment.
Collecting this lineage metadata as data pipelines are running provides an understanding of dependencies between many teams consuming and producing data and how constant changes impact them. It is the underlying foundation that enables the many use cases related to data operations. The OpenLineage project is an API standardizing this metadata across the ecosystem, reducing complexity and duplicate work in collecting lineage information. It enables many projects, consumers of lineage in the ecosystem whether they focus on operations, governance or security.
Marquez is an open source project part of the LF AI & Data foundation which instruments data pipelines to collect lineage and metadata and enable those use cases. It implements the OpenLineage API and provides context by making visible dependencies across organizations and technologies as they change over time.
Making Apache Spark Better with Delta LakeDatabricks
Delta Lake is an open-source storage layer that brings reliability to data lakes. Delta Lake offers ACID transactions, scalable metadata handling, and unifies the streaming and batch data processing. It runs on top of your existing data lake and is fully compatible with Apache Spark APIs.
In this talk, we will cover:
* What data quality problems Delta helps address
* How to convert your existing application to Delta Lake
* How the Delta Lake transaction protocol works internally
* The Delta Lake roadmap for the next few releases
* How to get involved!
Apache Pig is a high-level platform for creating programs that runs on Apache Hadoop. The language for this platform is called Pig Latin. Pig can execute its Hadoop jobs in MapReduce, Apache Tez, or Apache Spark.
Vectorized UDF: Scalable Analysis with Python and PySpark with Li JinDatabricks
Over the past few years, Python has become the default language for data scientists. Packages such as pandas, numpy, statsmodel, and scikit-learn have gained great adoption and become the mainstream toolkits. At the same time, Apache Spark has become the de facto standard in processing big data. Spark ships with a Python interface, aka PySpark, however, because Spark’s runtime is implemented on top of JVM, using PySpark with native Python library sometimes results in poor performance and usability.
In this talk, we introduce a new type of PySpark UDF designed to solve this problem – Vectorized UDF. Vectorized UDF is built on top of Apache Arrow and bring you the best of both worlds – the ability to define easy to use, high performance UDFs and scale up your analysis with Spark.
Enfoque estrategico para la prueba de softwareJorge Bustillos
Pruebas de software.
Características de estrategias de prueba.
Verificación y Validación.
Organización para la prueba de software.
Estrategias de prueba de software
Estrategias.
Criterios para completar la prueba.
Prueba de Unidad.
Prueba de Integración.
Prueba de Validación.
Learn to Use Databricks for the Full ML LifecycleDatabricks
Machine learning development brings many new complexities beyond the traditional software development lifecycle. Unlike traditional software development, ML developers want to try multiple algorithms, tools and parameters to get the best results, and they need to track this information to reproduce work. In addition, developers need to use many distinct systems to productionize models. In this talk, learn how to operationalize ML across the full lifecycle with Databricks Machine Learning.
Introduction: This workshop will provide a hands-on introduction to Apache Spark using the HDP Sandbox on students’ personal machines.
Format: A short introductory lecture about Apache Spark components used in the lab followed by a demo, lab exercises and a Q&A session. The lecture will be followed by lab time to work through the lab exercises and ask questions.
Objective: To provide a quick and short hands-on introduction to Apache Spark. This lab will use the following Spark and Apache Hadoop components: Spark, Spark SQL, Apache Hadoop HDFS, Apache Hadoop YARN, Apache ORC, and Apache Ambari User Views. You will learn how to move data into HDFS using Spark APIs, create Apache Hive tables, explore the data with Spark and Spark SQL, transform the data and then issue some SQL queries.
Pre-requisites: Registrants must bring a laptop that can run the Hortonworks Data Cloud.
Speaker:
Robert Hryniewicz, Developer Advocate, Hortonworks
Independent of the source of data, the integration of event streams into an Enterprise Architecture gets more and more important in the world of sensors, social media streams and Internet of Things. Events have to be accepted quickly and reliably, they have to be distributed and analysed, often with many consumers or systems interested in all or part of the events. Storing such huge event streams into HDFS or a NoSQL datastore is feasible and not such a challenge anymore. But if you want to be able to react fast, with minimal latency, you can not afford to first store the data and doing the analysis/analytics later. You have to be able to include part of your analytics right after you consume the data streams. Products for doing event processing, such as Oracle Event Processing or Esper, are avaialble for quite a long time and used to be called Complex Event Processing (CEP). In the past few years, another family of products appeared, mostly out of the Big Data Technology space, called Stream Processing or Streaming Analytics. These are mostly open source products/frameworks such as Apache Storm, Spark Streaming, Flink, Kafka Streams as well as supporting infrastructures such as Apache Kafka. In this talk I will present the theoretical foundations for Stream Processing, discuss the core properties a Stream Processing platform should provide and highlight what differences you might find between the more traditional CEP and the more modern Stream Processing solutions.
www.modelado.pnfi.org
Los Casos de Uso (Ivar Jacobson) describen, bajo la forma de acciones y reacciones, el comportamiento de un sistema desde el punto de vista del usuario.
Permiten definir los límites del sistema y las relaciones entre el sistema y el entorno.
Los Casos de Uso son descripciones de la funcionalidad del negocio/sistema independientes de la implementación.
Comparación de herramientas tanto Open Source como Comerciales para una mejor toma de decisiones de acuerdo a la necesidad del proyecto.
Estudio realizado por Jorge Bustillos en el año 2014
Las herramientas de reportería y análisis de datos no son nuevas pero vemos cada día empresas que no han podido aprovechar el potencial de sus herramientas de BI. Es frecuente encontrar varias plataforma de BI en una empresa. Porque Pentaho tiende a perdurar y difundirse más que otras herramientas de BI dentro de la empresa ?
Apache Pig is a high-level platform for creating programs that runs on Apache Hadoop. The language for this platform is called Pig Latin. Pig can execute its Hadoop jobs in MapReduce, Apache Tez, or Apache Spark.
Vectorized UDF: Scalable Analysis with Python and PySpark with Li JinDatabricks
Over the past few years, Python has become the default language for data scientists. Packages such as pandas, numpy, statsmodel, and scikit-learn have gained great adoption and become the mainstream toolkits. At the same time, Apache Spark has become the de facto standard in processing big data. Spark ships with a Python interface, aka PySpark, however, because Spark’s runtime is implemented on top of JVM, using PySpark with native Python library sometimes results in poor performance and usability.
In this talk, we introduce a new type of PySpark UDF designed to solve this problem – Vectorized UDF. Vectorized UDF is built on top of Apache Arrow and bring you the best of both worlds – the ability to define easy to use, high performance UDFs and scale up your analysis with Spark.
Enfoque estrategico para la prueba de softwareJorge Bustillos
Pruebas de software.
Características de estrategias de prueba.
Verificación y Validación.
Organización para la prueba de software.
Estrategias de prueba de software
Estrategias.
Criterios para completar la prueba.
Prueba de Unidad.
Prueba de Integración.
Prueba de Validación.
Learn to Use Databricks for the Full ML LifecycleDatabricks
Machine learning development brings many new complexities beyond the traditional software development lifecycle. Unlike traditional software development, ML developers want to try multiple algorithms, tools and parameters to get the best results, and they need to track this information to reproduce work. In addition, developers need to use many distinct systems to productionize models. In this talk, learn how to operationalize ML across the full lifecycle with Databricks Machine Learning.
Introduction: This workshop will provide a hands-on introduction to Apache Spark using the HDP Sandbox on students’ personal machines.
Format: A short introductory lecture about Apache Spark components used in the lab followed by a demo, lab exercises and a Q&A session. The lecture will be followed by lab time to work through the lab exercises and ask questions.
Objective: To provide a quick and short hands-on introduction to Apache Spark. This lab will use the following Spark and Apache Hadoop components: Spark, Spark SQL, Apache Hadoop HDFS, Apache Hadoop YARN, Apache ORC, and Apache Ambari User Views. You will learn how to move data into HDFS using Spark APIs, create Apache Hive tables, explore the data with Spark and Spark SQL, transform the data and then issue some SQL queries.
Pre-requisites: Registrants must bring a laptop that can run the Hortonworks Data Cloud.
Speaker:
Robert Hryniewicz, Developer Advocate, Hortonworks
Independent of the source of data, the integration of event streams into an Enterprise Architecture gets more and more important in the world of sensors, social media streams and Internet of Things. Events have to be accepted quickly and reliably, they have to be distributed and analysed, often with many consumers or systems interested in all or part of the events. Storing such huge event streams into HDFS or a NoSQL datastore is feasible and not such a challenge anymore. But if you want to be able to react fast, with minimal latency, you can not afford to first store the data and doing the analysis/analytics later. You have to be able to include part of your analytics right after you consume the data streams. Products for doing event processing, such as Oracle Event Processing or Esper, are avaialble for quite a long time and used to be called Complex Event Processing (CEP). In the past few years, another family of products appeared, mostly out of the Big Data Technology space, called Stream Processing or Streaming Analytics. These are mostly open source products/frameworks such as Apache Storm, Spark Streaming, Flink, Kafka Streams as well as supporting infrastructures such as Apache Kafka. In this talk I will present the theoretical foundations for Stream Processing, discuss the core properties a Stream Processing platform should provide and highlight what differences you might find between the more traditional CEP and the more modern Stream Processing solutions.
www.modelado.pnfi.org
Los Casos de Uso (Ivar Jacobson) describen, bajo la forma de acciones y reacciones, el comportamiento de un sistema desde el punto de vista del usuario.
Permiten definir los límites del sistema y las relaciones entre el sistema y el entorno.
Los Casos de Uso son descripciones de la funcionalidad del negocio/sistema independientes de la implementación.
Comparación de herramientas tanto Open Source como Comerciales para una mejor toma de decisiones de acuerdo a la necesidad del proyecto.
Estudio realizado por Jorge Bustillos en el año 2014
Las herramientas de reportería y análisis de datos no son nuevas pero vemos cada día empresas que no han podido aprovechar el potencial de sus herramientas de BI. Es frecuente encontrar varias plataforma de BI en una empresa. Porque Pentaho tiende a perdurar y difundirse más que otras herramientas de BI dentro de la empresa ?
Presentación "Aplicaciones de BI con Pentaho", dada por Datalytics en la segunda edición de las Jornadas de Minería de Datos organizadas por la cátedra de Sistemas de Gestión 2 de la UTN Regional Rosario
Integración de datos de multiples origenes con data explorerJohn Bulla
¿Alguna vez has tenido problemas para encontrar los datos que necesitaba? O la combinación de datos procedentes de fuentes diferentes e incompatibles? ¿Qué te parece compartir los resultados con los demás de un modo Web-amigable? Si es así, Data Explorer" proporciona una revolucionaria forma de trabajar con tus datos!
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...Alex Rayón Jerez
Sesión de Pentaho Data Integration impartida en Noviembre de 2015 en el marco del Programa de Big Data y Business Intelligence de la Universidad de Deusto (detalle aquí http://bit.ly/1PhIVgJ).
Apresentação feita no III SBTI que ocorreu em out/14 em Maceió. Com o tema: "Governos Abertos: Os desafios da tecnologia da informação em tempos de participação social"
Presentación usada por Joseba Díaz, de HP, en la Jornada "Aplicación del Big Data en sectores económicos estratégicos" celebrada el 27 de octubre de 2015. Más información: http://bit.ly/1MkKmnF
Pentaho Data Integration. Preparing and blending data from any source for analytics. Thus, enabling data-driven decision making. Application for education, specially, academic and learning analytics.
En esta presentación encontrarás información importante sobre algunas características, beneficios y ventajas que ofrece Jaspersoft para tu empresa. Cómo:
- Generar documentos tipo facturas, cuentas de cobro, órdenes de entrega, estados de cuenta, entre otros de forma masiva mediante el uso de tecnología de contenedores y/o virtualización en la nube de forma rápida y a bajo costo.
- Entregar sus documentos impresos y/o en PDF o como contenido web totalmente interactivo. Los informes de TIBCO Jaspersoft se pueden publicar en formato PDF, XLS, XLSX, XML, HTML, PPT, CSV, DOC, RTF, ODT y JSON. Entre otras.
Para más información visita nuestra página web:
www.it-nova.co
Big Data - Desarrollando soluciones efectivasJoseph Lopez
Como continuación a la presentación titulada "Introducción al mundo de las Bodegas de datos", esta presentación le explicará qué es Big Data y sus beneficios, incluyendo casos de uso. Así mismo, discutiremos cómo Hadoop, la nube y procesamiento masivamente paralelo (MPP) está cambiando la forma en los almacenes de datos se están construyendo. Hablaremos de arquitecturas híbridas que combinan datos in situ con datos en la nube, así como datos relacionales y no relacionales de datos (no estructurados). Veremos también los beneficios del MPP en SMP y cómo integrar datos desde dispositivos en la Internet (IoT). Aprenderemos también lo que debería verse como un almacén de datos moderno y cómo cuadra su papel de un mar de datos y Hadoop. Al finalizar esta exposición, tendremos una orientación sobre la mejor solución para el almacén de datos en el futuro.
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Denodo
Watch full webinar here: https://bit.ly/36j4ATO
Las técnicas avanzadas de ciencia de datos, como el aprendizaje automático (machine learning), son herramientas extremadamente útiles para obtener información valiosa de los datos. Sin embargo, suponen más presión para los data scientists, que tienen que buscar los datos correctos y limpiarlos para que sean utilizables. Este proceso, al final, consume la mayor parte de su tiempo.
En este webinar, explicaremos cómo la virtualización de datos ayuda a obtener la información necesaria de una manera más eficiente y ágil. Asista para descubrir:
- Cómo la virtualización de datos acelera la adquisición y el procesamiento de datos
- Cómo la solución de virtualización de datos de Denodo se integra con herramientas como Spark, Python, Zeppelin, etc.
- Cómo la virtualización de datos permite una gestión más eficiente de grandes volúmenes de datos
- Dos casos de éxito de clientes y una demo de analítica predictiva
Big Data - Infraestrucutra de BI para soluciones de BIDatalytics
Presentación de Infobright dada durante el foro "Las Dimensiones del BI" en Medellín (COL), donde se presentó la problemática actual de Big Data Analytics y las limitaciones que tienen las bases de datos transaccionales (IBM DB2, Oracle, Sybase, MySQL, PostgreSQL, etc.) para afrontar esta situación.
uerona es un almacén de datos virtual de autoservicio que permite una transición instantánea a un motor de SQL alojado en nube como SQL Server Data Warehouse.
3 formas disponibilizar y acceder rápidamente a tus datosIT-NOVA
¿Te cuesta acceder a tus datos?
¿Tienes muchas fuentes de datos y te cuesta mucho acceder a ella de forma fácil y centralizada?
¿Tienes la información duplicada?
¿Te cuesta obtener la información para construir reportes transversales y tienes que hacerlo de forma manual?
¿Tienes conectividad estándar de fuentes de datos a aplicativos?
Seguramente esto te está generando pérdidas financieras y te está afectando la agilidad del negocio.
En esta presentación conocerás tres maneras para empezar a dar solución a estos retos de negocio y empezar a considerar los datos dentro de tu empresa como un servicio.
Para conocer más al respecto, visita nuestra página web https://it-nova.co/
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...SolidQ
Presentación de Eladio Rincón y Javier Torrenteras durante el SolidQ Business Analytics Day el pasado 13 de Marzo 2013 en Valencia (Alicante)
- Nueva ola de SQL Server
- Grupos de Disponibilidad
-SQL Server y CLoud
- SQL Server y gestión de grandes volúmenes
www.bisql.com
¿Eres desarrollador y emprendedor? En este ebook se recopilan tres análisis en profundidad con las mejores herramientas y las más populares entre los científicos de datos. Más información en http://bbva.info/2t1NEv7
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nubeRodrigo Corral
Presentación del evento Industria 4.0 que Plain Concepts organiza anualmente en Bilbao. Este año hablé de almacenamiento y procesamiento de grandes volumenes de datos, como los que generan las soluciones de monitoriazción e IoT industriales, en la nube. Hablamos de Azure Data Lake, Cosmos DB, SQL Azure y bases de datos de series temporales como InfluxDb y OpenTSDB.
3Redu: Responsabilidad, Resiliencia y Respetocdraco
¡Hola! Somos 3Redu, conformados por Juan Camilo y Cristian. Entendemos las dificultades que enfrentan muchos estudiantes al tratar de comprender conceptos matemáticos. Nuestro objetivo es brindar una solución inclusiva y accesible para todos.
Inteligencia Artificial y Ciberseguridad.pdfEmilio Casbas
Recopilación de los puntos más interesantes de diversas presentaciones, desde los visionarios conceptos de Alan Turing, pasando por la paradoja de Hans Moravec y la descripcion de Singularidad de Max Tegmark, hasta los innovadores avances de ChatGPT, y de cómo la IA está transformando la seguridad digital y protegiendo nuestras vidas.
En este documento analizamos ciertos conceptos relacionados con la ficha 1 y 2. Y concluimos, dando el porque es importante desarrollar nuestras habilidades de pensamiento.
Sara Sofia Bedoya Montezuma.
9-1.
Es un diagrama para La asistencia técnica o apoyo técnico es brindada por las compañías para que sus clientes puedan hacer uso de sus productos o servicios de la manera en que fueron puestos a la venta.
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Telefónica
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0xWord escrito por Ibón Reinoso ( https://mypublicinbox.com/IBhone ) con Prólogo de Chema Alonso ( https://mypublicinbox.com/ChemaAlonso ). Puedes comprarlo aquí: https://0xword.com/es/libros/233-big-data-tecnologias-para-arquitecturas-data-centric.html
2. Un día en la oficina…
Qué nuevas geografías
deberíamos incluir en
Cuán efectivo son nuestro objetivo de venta?
Cuántos de nuestros
nuestras campañas clientes migrarían a
de MKT? Cuál la competencia en
debería continuar? caso subamos el
precio un X%?
Cuál es la
rentabilidad del Dónde están
producto X? nuestros clientes
más rentables?
Nuestras ventas presentan
estacionalidad?
3. El problema de la falta de integración
Islas de información: datos dispersos en diferentes áreas, sistemas, arquitecturas.
Imposibilidad de cruzar datos de diferentes sistemas. Visión incompleta.
Pareto invertido: los analistas pasan mucho tiempo recolectando y procesando
información, en lugar de analizarla.
Variedad y diversidad: aumentan las fuentes de información: no sólo bases de datos y
hojas de cálculo. Se sumaron redes sociales, sistemas en la nube, etc.
BIG DATA: la información se está duplicando cada 2 años, y el 80% son datos no
estructurados.
Pobre calidad de datos: en general los datos de los sistemas transaccionales presentan
vicios e inconsistencias, producto de errores de carga, malfuncionamiento, etc.
Falta de una única versión de la verdad: multiplicidad de criterios y terminología. Por
ejemplo: dos áreas distintas informan diferentes valores para un mismo KPI.
4. En resumen…
Datos Analistas
VSAM
MQSeries
AS/400
DB2 UDB
Informix
Oracle
Microsoft
...
Siebel
PeopleSoft
SAP R/3
XML
Archivos Planos
FTP
Web Logs
5. Data Integration (ETL)
La integración de datos es la práctica que consiste en recolectar los datos de diversas
fuentes, cruzarlos, enriquecerlos, consolidarlos y cargarlos en un Data Warehouse.
El nombre ETL viene del acrónimo en Inglés Extract, Transform & Load.
Extract: de los diversos sistemas transaccionales y fuentes.
Transform: transformar los datos, cruzarlos, enriquecerlos, etc.
Load: cargar la información en un repositorio centralizado.
Las herramientas de ETL son herramientas visuales orientadas a Drag & Drop y zero-
coding, lo que se traduce en mayor productividad del equipo de desarrollo, menor time-
to-value y un mantenimiento más sencillo.
La herramienta de ETL debe poder conectarse a diversas fuentes y diversas arquitecturas.
Los datos en los sistemas fuente suelen tener errores e inconsistencias, por lo cual se suele
aplicar en esta etapa procesos de validación y limpieza (Data Quality).
Los procesos ETL generalmente se ejecutan por la noche, para no sobrecargar los sistemas
transaccionales con pesadas consultas.
8. Donde encaja el ETL?
ETL
VSAM
MQSeries
AS/400
Pentaho,
Oracle/Hyperion,
Microstrategy,
DB2 UDB
SAS, Etc.
Informix
Oracle Extract
Microsoft Transform
... Clean
Siebel Load
PeopleSoft
DW
Datastage ODS Data Mart
SAP R/3
Informatica
XML Oracle
Oracle DI
Pentaho DI IBM DB2
SAS DIS SQL Server
Archivos Planos
Etc. Teradata
FTP
Sybase IQ
Etc.
SAS, SPSS,
Web Logs Rapid Miner
9. Pentaho Data Integration
Permite tomar información de
diferentes fuentes, consolidarla y
cargarla en un repositorio analítico.
Su entorno de trabajo visual y drag &
drop se traduce en un menor tiempo de
desarrollo y un mantenimiento más
sencillo y agilidad para incorporar
nuevas fuentes de información e
indicadores.
Plug-in de Agile BI:
Data Discovery:
Análisis y visualización de información en
tiempo real
Data Modeling:
Modelado y publicación de cubos OLAP
para prototipado y validación de
requerimientos
10. Pentaho Data Integration
+ de 150 steps para manipulación, enriquecimiento de datos y generación de reportes.
Repositorio integrado: control de versiones para trabajo colaborativo y scheduling de
procesos.
Conectividad nativa contra:
Típicas: SQL Server, Oracle, DB2, Teradata, Sybase IQ, SAP, MySQL, PostgreSQL, etc.
No tan típicas: AS/400, Hadoop, LDAP/Active Directory, SalesForce, Google Analytics, etc.
Nuevos Features:
Soporte para MongoDB, Cassandra, Hbase.
Capacidad de ejecución de jobs Map/Reduce (Hadoop) y acceso a archivos en Hadoop.
ElasticSearch.
Archivos HL7.
Capacidad de documentación automática.
Cliente REST.
Etc…
11. Usos comunes de PDI
Carga de Data warehouse y Data Marts:
Soporte para slowly changing dimensions, cargas bulk,
merge, sincronización y otros conceptos de Data
Warehousing
Exports de bases de datos a archivos planos, XML u otras
bases de datos.
Import de datos a bases de datos, desde diversas fuentes
como archivos planos, hojas de Excel, datos alojados en
la nube, etc.
Migración de datos de sistemas Legacy.
Exploración de datos de diversas fuentes.
Enriquecimiento de datos mediante la integración de
diversas fuentes.
Procesos de Data Quality y Data Cleansing mediante
transformación de datos.
12. Usos comunes de PDI (continuación)
Generación de reportes batch.
Envío de alertas vía e-mail.
Integración de aplicaciones (middleware).
Implementación de procesos a nivel SO (transferencia de
archivos, limpieza de file system, etc.).
13. Pentaho Data Integration Server
Repositorio Enterprise:
Versionador
Seguridad y control de acceso
Almacenamiento
Scheduling
Data Integration Web Console:
Ejecución y monitoreo
Gestión de procesos
Análisis de performance, trends, históricos.
Configuración de umbrales de alerta
Steps exclusivos:
Google Docs
Google Analytics
Full Agile BI Plug-in
14. Soporte para BIG DATA
Hadoop
MPP storage & processing
High-availability
Any data type
NoSQL (no relacionales)
Non-relational, flexible
Low-cost
High-performance
Bases de datos analíticas
Relational
High-performance load & query
Tecnologías:
• Columnar, MPP, in-memory, DW appliances,
OLAP databases
15. Reconocimiento de analistas
Pentaho Data Integration esta siendo reconocido por los analistas como uno de los
jugadores de peso en materia de BIG DATA con su herramienta de integración.
Fuente: Forrester Wave™, Soluciones Hadoop empresariales, 1.er trimestre de 2012
16. Agile BI para prototipos de BI
Facilidades para prototipos OLAP, Data Profiling y visualización de datos desde la propia
herramienta de ETL.
19. Por qué Pentaho Data Integration?
Facilidad de uso:
Orientada a metadatos (definir que queremos hacer, y no como hacerlo).
Menos código implica menos complejidad y menor tiempo de desarrollo.
Seteo sencillo, interfaz gráfica intuitiva y fácil de mantener.
Basada en arquitectura moderna:
100% Java y multi-plataforma (Windows, Linux, Unix, Mac OS).
Soporte para múltiples sistemas de datos de manera nativa.
Procesamiento en paralelo, performance y escalabilidad.
+150 steps predefinidos para diversas operaciones.
Bajo costo de ownership:
Try & Buy (versión Enterprise Edition).
Ciclos de implementación cortos.
Costos de mantenimiento reducido.
Modelo de suscripción anual (versión Enterprise Edition).
20. Prueba de Concepto
Clientes Proveedores Tiempo Geografía Productos
Punto de Venta
Presupuesto Ventas Compras