SlideShare una empresa de Scribd logo
Business Intelligence con Pentaho
y Big Data con Hadoop
Presentado por: Carlos Carreño
ccarrenovi@gmail.com
Mayo, 2017
2
Acerca del Presentador
Carlos Augusto Carreño Villarreyes
Es Ingeniero de Sistemas y Computo de profesión, es físico matemático y tiene estudios de Maestría en Gestión de Tecnologías de la
Información en UNMSM. Esta certificado como ScrumMaster por ScrumAlliance, Red Hat JBoss Administrator, JBoss Fuse Expert, JBoss BPM
Expert y en Oracle Certified Profesional es especialista en Big Data y en Business Intelligence. Es instructor acreditado por Red Hat Inc. Para
Latinoamerica (Argentina, Bolivia, Colombina, Venezuela, Chile,Ecuador, Perú y Centro América ) y España. Instructor Oracle WDP y Software
Libre en Cognos – Bolivia en Perú en la Universidad Nacional de Ingeniería y New Horizons.
Experiencia Profesional:
✔ Jefe de Informática, Instituto Nacional de Defensa de la Competencia y Protección al Consumidor, Indecopi, entidad del Gobierno del Perú.
✔ Consultor del Programa de las Naciones Unidas para el Desarrollo, Sistema Nacional de Prevención y Atención de Desastres.
✔ Director y Socio de Bamtech, empresa integradora de soluciones tecnológicas con software de código abierto.
✔ Gerente de Proyectos de Business Intelligence, Cloud y Big Data en Tecnología y Gerencia del Perú
Email de Contacto: ccarrenovi@gmail.com
3
Agenda
● Introducción a Big Data con Hadoop
● Arquitectura de Hadoop
● Herramientas para Hadoop
● Ecosistemas Disponibles
● Introducción a Pentaho BI Suite
● "Stack" de tecnologías de Pentaho BI Suite
● Pentaho y Big Data
● Casos de Aplicación
4
Introducción a
Big Data
con Hadoop
5
¿Que es Big Data?
?
6
Desde cuando hablamos
de Big Data?
7
8
¿Cuánto es demasiada
información?
1 Gigabyte = 10 = 1,000,000,000⁹
1 Terabyte = 10¹² = 1,000,000,000,000
1 Petabyte = 10¹ = 1,000,000,000,000,000⁵
1 Exabyte = 10¹ = 1,000,000,000,000,000,000⁸
…
1 Quintillón
10³ = 1,000,000,000,000,000,000,000,000,000,000⁰
9
Seguimos creciendo
● Al 2016 la población
creció a 7,400 millones
de personas.
● Se prevee:
➢ 18.9 billones de
dispositivos.
➢ Que el tráfico global de
datos móviles alcance
10.8 Exabytes
mensuales
Fuente: ONU
http://exitosanoticias.pe/onu-poblacion-mundial-llego-a-7400-millones/
10
No, Solo los humanos
producimos información.
11
Aterrizando el concepto de Big Data
Big Data se refiere al procesamiento de volúmenes de
datos tan grandes que no se pueden realizar con tecnologías
tradicionales a una velocidad adecuada y a los
procedimientos para encontrar patrones repetitivos en
estos datos.
Referencia:https://es.wikipedia.org/wiki/Big_data
12
Las 3V del Big Data
● Volumen
● Velocidad
● Variedad
+
3V
13
¿Que es Hadoop?
?
14
Hadoop
● Apache™ Hadoop® es un proyecto de software
libre que permite el procesamiento distribuido de
grandes volúmenes de datos en clusters de
servidores básicos.
● Hadoop está diseñado para extender un sistema de
archivos de servidor único a miles de máquinas y a
petabytes de datos con un muy alto grado de
tolerancia a las fallas.
15
Porque interesa tanto Hadoop?
● Hadoop cambia la economía y la dinámica de
la computación a gran escala.
16
Hadoop hace posible el Big Data
● Redimensionable, pueden agregarse tantos nuevos
nodos como sea necesario.
● Rentable, Hadoop hace posible la computación
paralela con servidores básicos.
● Flexible, Hadoop funciona sin esquema y puede
absorber cualquier tipo de datos.
● Tolerante a fallas, si se pierde un nodo, el sistema
redirige el trabajo a otra localización de los datos y
continúa procesando sin perder el ritmo.
17
Arquitectura
de Hadoop
18
Componentes de Hadoop
● Hadoop está inspirado en el proyecto de Google
File System(GFS) y en el paradigma de
programación MapReduce (mapper reducer).
● Hadoop está compuesto de cuatro
componentes:
➢ Hadoop Distributed File System (HDFS)
➢ Hadoop MapReduce
➢ Yarn (Yet Another Resource Negotiator )
➢ Hadoop Common Utilities.
19
Arquitectura de Hadoop
20
Hadoop Distributed File System
● Hadoop Distributed File System (HDFS) es un sistema de
archivos que abarca todos los nodos de un cluster Hadoop
para el almacenamiento de datos. HDFS convierte todos los
sistemas de archivos locales de los nodos en un único gran
sistema de archivos
21
MapReduce
● MapReduce es el motor que Hadoop usa para procesar
las enormes cantidades de datos, se basa en el modelo
de programación Mapear – Reducir (MapReduce) .
22
Yarn
● YARN (Yet Another Resource Negotiator) es el
componente que asigna CPU, memoria y
almacenamiento a las aplicaciones que se
ejecutan en un cluster Hadoop.
23
Common Utilities
● Hadoop Common Utilities, son librerías java
que soportan otros módulos de Hadoop como:
➢ RPC
➢ File System
➢ Serializacion
24
Cluster Hadoop
25
Elementos del Cluster Hadoop
● NameNode: Sólo hay uno en el cluster. Regula el acceso
a los archivos por parte de los clientes. Mantiene en
memoria la metadata del sistema de archivos y control de
los bloques de los archivos que tiene cada DataNode.
● DataNode: Son los responsables de leer y escribir las
peticiones de los clientes. Los archivos en HDFS están
formados por bloques, estos se encuentran replicados en
los diferentes nodos.
26
Herramientas
Para
Hadoop
27
Herramientas para Hadoop
● En la implementación de una solución de Big
Data se requieren herramientas (proyectos)
adicionales que interactúen con Hadoop.
● Hadoop + el conjunto de proyectos para
Hadoop forman un ecosistema de Big Data.
28
Lista de Herramientas para
Hadoop
● Avro
● Cassandra
● Chukwa
● Flume
● HBase
● Hive
● Jaql
● Lucene
● Oozie
● Pig
● ZooKeeper
● Ambari
● Zeppelin
29
30
Ecosistemas
Disponibles
31
Plataformas de Big Data
● Hadoop ofrece una base para la creación de
plataformas o ecosistemas comerciales para el
análisis de Big Data.
● Detrás del uso de una plataforma comercial de
Big Data esta el propósito de facilitar su
adopción, esto es "Hadoop como servicio".
32
Plataformas de Big Data en
Hadoop
● Cloudera
● Amazon Web Services
● Hortonworks
● MapR
● IBM
● Microsoft HDInsight
● Intel Distribution for Apache Hadoop
● Datastax Enterprise Analytics
● Teradata Enterprise Access for Hadoop
● Pivotal HD
33
Cloudera
● Cloudera una de las primeras ofertas comerciales de Hadoop una de
las mas populares.
● Cloudera aporta Impala, que ofrece en tiempo real el procesamiento masivo
paralelo de Big Data a Hadoop.
34
Hortonworks
● Hortonworks es una de las pocas plataformas 100% de tecnología Hadoop de
código abierto sin ninguna modificación propietaria. También fueron los primeros en
integrar el soporte para Apache HCatalog, que crea "metadatos", datos dentro de los datos,
simplificando el proceso de compartir sus datos a través de otras capas de servicio como
Apache Hive o Pig.
35
Introducción
a
Pentaho BI
36
¿Que es Business Intelligence?
?
37
Concepto de Business
Intelligence - BI
● Business Intelligence (Inteligencia de Negocio), es el conjunto
de tecnologías y procedimientos que permiten el cruce de
información para soportar el análisis de los indicadores de
desempeño de un negocio.
38
Cubo OLAP
● Permite a los analistas de negocios, gerentes, tomadores de
decisiones sintetizar la información a través de diferentes
vistas.
39
Modelo Dimensional
● Técnicas y conceptos para crear modelos de
datos basados en hechos y dimensiones. Se
orienta el modelado hacia la búsqueda de
rendimiento de las consultas.
40
Modelo Estrella
● Desnormalizado
● Habilidad para análisis dimensional
41
Modelo Copo de Nieve
● Forma normalizada de las dimensiones (solo las
dimensiones primarias están enlazadas con la tabla de
hechos)
● Rompe el análisis dimensional
42
Data Warehouse
43
¿Que es Pentaho BI Platform?
?
44
Pentaho BI Platform
● Pentaho BI Platform es una suite de herramientas
“open source” basadas en Java, que permite soportar los
procesos de Inteligencia de Negocio de una empresa.
45
Alguna Empresas que usan
Pentaho BI Suite
46
"Stack" de
tecnologías en
Pentaho BI
Suite
47
Arquitectura de Pentaho BI Suite
48
Stack de Tecnologías
● Business Analysis
➢ Pentaho Web Console
➢ MDX Engine basado en Modrian/JPivot
➢ Pentaho Report Designer
➢ Pentaho Schema Workbench
➢ XMLA Data Sources
49
Stack de Tecnologías
● Data Integration
➢ Design Tool - ETL
➢ CLI
50
Pentaho
y Big Data
51
Pentaho & Hadoop
● Pentaho permite manejar complejas
transformaciones de datos y permite
operacionalizar Hadoop y Spark como parte de
una línea de datos de extremo a extremo.
52
Integración Pentaho y Hadoop
● Interfaz visual intuitiva para integrar y combinar datos de
Hadoop con prácticamente cualquier otra fuente.
● Capacidad para diseñar lógica de integración de datos 15
veces más rápido que los métodos de codificación manual
● Integración con el ecosistema de Hadoop incluyendo Spark
y compatibilidad con Kafka, YARN, Oozie, Sqoop y más
53
Arquitectura de Pentaho y
Hadoop
54
Beneficios de la Integración de
Pentaho y Hadoop
● Capacidad para procesar grandes volúmenes de datos en
sistemas de producción empresarial y dotar de capacidad de
autoservicio al usuario final
● Reportes y Analisis de datos soportando Impala, Hive y otras
base de datos analiticas
● Soporte a modelos predictivos basados en R, Weka, Python
y Mllib
● Soporte de seguridad empresarial basada en Kerberos en
plataformas Cloudera y Hortonworks.
55
Casos de
Aplicación
56
Big Data en el Campo de la
Investigacion
● De entre los proyectos que se pueden mencionar donde
se ha llevado a cabo el uso de una solución de Big Data
se encuentran:
➢ El Language, Interaction and Computation Laboratory - CLIC en
conjunto con la Universidad de Trento en Italia, son un grupo de
investigadores cuyo interés es el estudio de la comunicación
verbal y no verbal tanto con métodos computacionales como
cognitivos.
➢ Lineberger Comprehensive Cancer Center - Bioinformatics
Group utiliza Hadoop y HBase para analizar datos producidos
por los investigadores de The Cancer Genome Atlas(TCGA)
para soportar las investigaciones relacionadas con el cáncer.
57
Big Data en el Campo de la
Investigacion
● El PSG College of Technology, India, analiza múltiples secuencias
de proteínas para determinar los enlaces evolutivos y predecir
estructuras moleculares.
● La Universidad Distrital Francisco Jose de Caldas utiliza Hadoop
para apoyar su proyecto de investigación relacionado con el
sistema de inteligencia territorial de la ciudad de Bogotá.
●
La Universidad de Maryland es una de las seis universidades que
colaboran en la iniciativa académica de cómputo en la nube de
IBM/Google. Sus investigaciones incluyen proyectos en la
lingüistica computacional (machine translation), modelado del
lenguaje, bioinformática, análisis de correo electrónico y
procesamiento de imágenes.
58
Pentaho en la Industria
Financiera
● Las siguientes industrias de servicios
financieros han elegido Pentaho para su área
de inteligencia de negocios.
59
Sección de Preguntas
60
61
Referencias
● Que es Big Data
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
● Las 3V del Big Data
http://www.dataprix.com/blog-it/data-science/big-data-volumen-velocidad-
variedadHadoop
● MapReduce Tutorial
http://bigdatahadooptrainings.com/hadoop-mapreduce-tutorial/
● Que es Hadoop
https://www-01.ibm.com/software/cl/data/infosphere/hadoop/que-es.html
● Big Data: The Top 10 Commercial Hadoop Platforms
https://www.linkedin.com/pulse/big-data-top-10-commercial-hadoop-platforms-
bernard-marr
This work!, is dedicated to the supreme consciousness, God.

Más contenido relacionado

La actualidad más candente

Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Urko Zurutuza
 
Hadoop
HadoopHadoop
Hadoop
camposer
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop Meetup
Arkhotech
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
Joseph Lopez
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
Stratebi
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
Abel Alejandro Coronado Iruegas
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
SolidQ
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
Tomás Fernández Pena
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar Hadoop
Arsys
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
Stratebi
 
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
KEEDIO
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negocios
Celestino Güemes Seoane
 
Obtención de Datos en #BigData
Obtención de Datos en #BigDataObtención de Datos en #BigData
Obtención de Datos en #BigData
Francisco Javier Pulido Piñero
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a Spark
Jose Manuel Ortega Candel
 
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Fernando Alfonso Casas De la Torre
 
Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017
Fernando Alfonso Casas De la Torre
 
Aplicaciones Difusas Map Reduce
Aplicaciones Difusas Map ReduceAplicaciones Difusas Map Reduce
Aplicaciones Difusas Map Reduce
Luis Fernando Aguas Bucheli
 
Curso de Ajax
Curso de AjaxCurso de Ajax
Curso de Ajax
camposer
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datosAntonio Rodriguez
 
Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big Results
Mundo Contact
 

La actualidad más candente (20)

Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 
Hadoop
HadoopHadoop
Hadoop
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop Meetup
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar Hadoop
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
 
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negocios
 
Obtención de Datos en #BigData
Obtención de Datos en #BigDataObtención de Datos en #BigData
Obtención de Datos en #BigData
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a Spark
 
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?Spark: una chispa con la velocidad del rayo  ¿el sustituto de Hadoop?
Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?
 
Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017Congreso Academy Journal Celaya 2017
Congreso Academy Journal Celaya 2017
 
Aplicaciones Difusas Map Reduce
Aplicaciones Difusas Map ReduceAplicaciones Difusas Map Reduce
Aplicaciones Difusas Map Reduce
 
Curso de Ajax
Curso de AjaxCurso de Ajax
Curso de Ajax
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
 
Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big Results
 

Similar a Big Data y Business Intelligence con Software Open Source

Big data y hadoop
Big data y hadoopBig data y hadoop
Big data y hadoop
Milner Dante Cortavitarte
 
BigData
BigDataBigData
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementación
Diego Krauthamer
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datos
BBVA API Market
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
Leyda Maria Alzate Gomez
 
Big data una cuantificación importante..
Big data una cuantificación importante..Big data una cuantificación importante..
Big data una cuantificación importante..
wmichaelw
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
SpanishPASSVC
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
Juan José Domenech
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlBd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlKARY
 
Bd eq. #3 actividad 2 unidad 2 oracle y mysql
Bd eq. #3 actividad 2 unidad 2 oracle y mysqlBd eq. #3 actividad 2 unidad 2 oracle y mysql
Bd eq. #3 actividad 2 unidad 2 oracle y mysqlKARY
 
11-Unidad 3: Diseños de Vista-3.2 Usos Web Services
11-Unidad 3: Diseños de Vista-3.2 Usos Web Services11-Unidad 3: Diseños de Vista-3.2 Usos Web Services
11-Unidad 3: Diseños de Vista-3.2 Usos Web Services
Luis Fernando Aguas Bucheli
 
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlBd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlKARY
 
Bd eq. #3 actividad extra comparacion oracle y mysql
Bd eq. #3 actividad extra comparacion oracle y mysqlBd eq. #3 actividad extra comparacion oracle y mysql
Bd eq. #3 actividad extra comparacion oracle y mysqlKARY
 
Big data
Big dataBig data
Big data
Manuel Fritz
 
Ensayo 2 (1).pptx
Ensayo 2 (1).pptxEnsayo 2 (1).pptx
Ensayo 2 (1).pptx
ClikC
 
Academy Journal Morelia 2018
Academy Journal Morelia 2018Academy Journal Morelia 2018
Academy Journal Morelia 2018
Fernando Alfonso Casas De la Torre
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
Gustavo Alzate Sandoval
 

Similar a Big Data y Business Intelligence con Software Open Source (20)

Big data y hadoop
Big data y hadoopBig data y hadoop
Big data y hadoop
 
BigData
BigDataBigData
BigData
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementación
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datos
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
Big data una cuantificación importante..
Big data una cuantificación importante..Big data una cuantificación importante..
Big data una cuantificación importante..
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlBd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
 
Bd eq. #3 actividad 2 unidad 2 oracle y mysql
Bd eq. #3 actividad 2 unidad 2 oracle y mysqlBd eq. #3 actividad 2 unidad 2 oracle y mysql
Bd eq. #3 actividad 2 unidad 2 oracle y mysql
 
11-Unidad 3: Diseños de Vista-3.2 Usos Web Services
11-Unidad 3: Diseños de Vista-3.2 Usos Web Services11-Unidad 3: Diseños de Vista-3.2 Usos Web Services
11-Unidad 3: Diseños de Vista-3.2 Usos Web Services
 
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysqlBd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
Bd eq. #3 actividad 2 unidad 2 comparacion oracle y mysql
 
Bd eq. #3 actividad extra comparacion oracle y mysql
Bd eq. #3 actividad extra comparacion oracle y mysqlBd eq. #3 actividad extra comparacion oracle y mysql
Bd eq. #3 actividad extra comparacion oracle y mysql
 
Big data
Big dataBig data
Big data
 
Ensayo 2 (1).pptx
Ensayo 2 (1).pptxEnsayo 2 (1).pptx
Ensayo 2 (1).pptx
 
Academy Journal Morelia 2018
Academy Journal Morelia 2018Academy Journal Morelia 2018
Academy Journal Morelia 2018
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 

Último

Informe del banco centra de Honduras trabajo de estudiantes
Informe del banco centra de Honduras trabajo de estudiantesInforme del banco centra de Honduras trabajo de estudiantes
Informe del banco centra de Honduras trabajo de estudiantes
LibreriaOrellana1
 
Presentación Óxido Cuproso Nordox 75 WG.pptx
Presentación Óxido Cuproso Nordox 75 WG.pptxPresentación Óxido Cuproso Nordox 75 WG.pptx
Presentación Óxido Cuproso Nordox 75 WG.pptx
endophytsanidad
 
Guía para hacer un Plan de Negocio para tu emprendimiento.pdf
Guía para hacer un Plan de Negocio para tu emprendimiento.pdfGuía para hacer un Plan de Negocio para tu emprendimiento.pdf
Guía para hacer un Plan de Negocio para tu emprendimiento.pdf
pppilarparedespampin
 
VISIÓN MISIÓN VALORES EMPRESARIALES EN EL
VISIÓN MISIÓN VALORES EMPRESARIALES EN ELVISIÓN MISIÓN VALORES EMPRESARIALES EN EL
VISIÓN MISIÓN VALORES EMPRESARIALES EN EL
LilianBaosMedina
 
MODELO CONS1 NOTA1.pptx.....................................................
MODELO CONS1 NOTA1.pptx.....................................................MODELO CONS1 NOTA1.pptx.....................................................
MODELO CONS1 NOTA1.pptx.....................................................
75254036
 
RESPUESTA DERECHO DE PETICION EN PROPIEDAD HORIZONTAL
RESPUESTA DERECHO DE PETICION EN PROPIEDAD HORIZONTALRESPUESTA DERECHO DE PETICION EN PROPIEDAD HORIZONTAL
RESPUESTA DERECHO DE PETICION EN PROPIEDAD HORIZONTAL
dorislilianagarb
 
PREVENCION DELITOS RELACIONADOS COM INT.pptx
PREVENCION DELITOS RELACIONADOS COM INT.pptxPREVENCION DELITOS RELACIONADOS COM INT.pptx
PREVENCION DELITOS RELACIONADOS COM INT.pptx
johnsegura13
 
capitulo-5-libro-contabilidad-costo-volumen-utilidad.pdf
capitulo-5-libro-contabilidad-costo-volumen-utilidad.pdfcapitulo-5-libro-contabilidad-costo-volumen-utilidad.pdf
capitulo-5-libro-contabilidad-costo-volumen-utilidad.pdf
cessarvargass23
 
Enfoque Estructuralista de la Administración.docx
Enfoque Estructuralista de la Administración.docxEnfoque Estructuralista de la Administración.docx
Enfoque Estructuralista de la Administración.docx
mariferbonilla2
 
Karla_Meza_Catedra_Morazanica_TEC18NOV_CAP_3.pptx
Karla_Meza_Catedra_Morazanica_TEC18NOV_CAP_3.pptxKarla_Meza_Catedra_Morazanica_TEC18NOV_CAP_3.pptx
Karla_Meza_Catedra_Morazanica_TEC18NOV_CAP_3.pptx
LibreriaOrellana1
 
Trigonometria Plan-el mejor.pptxssssssss
Trigonometria Plan-el mejor.pptxssssssssTrigonometria Plan-el mejor.pptxssssssss
Trigonometria Plan-el mejor.pptxssssssss
QuerubinOlayamedina
 
SESION N° 01.pptx GESTION PROYECTOS UCV 2024
SESION N° 01.pptx GESTION PROYECTOS UCV 2024SESION N° 01.pptx GESTION PROYECTOS UCV 2024
SESION N° 01.pptx GESTION PROYECTOS UCV 2024
auyawilly
 
9° TEMA 5 - EVOLUCIÓN BIOLÓGICA Y GEOLÓGICA DE LA TIERRA (1).pdf
9° TEMA 5 - EVOLUCIÓN BIOLÓGICA Y GEOLÓGICA DE LA TIERRA (1).pdf9° TEMA 5 - EVOLUCIÓN BIOLÓGICA Y GEOLÓGICA DE LA TIERRA (1).pdf
9° TEMA 5 - EVOLUCIÓN BIOLÓGICA Y GEOLÓGICA DE LA TIERRA (1).pdf
erikamontano663
 
plan contable empresarial para empresass
plan contable empresarial para empresassplan contable empresarial para empresass
plan contable empresarial para empresass
SUSANJHEMAMBROSIOSEV1
 
Solicitud de cambio de un producto, a nivel empresarial.
Solicitud de cambio de un producto, a nivel empresarial.Solicitud de cambio de un producto, a nivel empresarial.
Solicitud de cambio de un producto, a nivel empresarial.
femayormisleidys
 
BANRURAL S.A Case Study, Guatemala. INCAE Business Review, 2010.
BANRURAL S.A Case Study, Guatemala. INCAE Business Review, 2010.BANRURAL S.A Case Study, Guatemala. INCAE Business Review, 2010.
BANRURAL S.A Case Study, Guatemala. INCAE Business Review, 2010.
Anna Lucia Alfaro Dardón - Ana Lucía Alfaro
 
Valor que revierte al vendedor de la mercadería exportada
Valor que revierte al vendedor de la mercadería exportadaValor que revierte al vendedor de la mercadería exportada
Valor que revierte al vendedor de la mercadería exportada
Instituto de Capacitacion Aduanera
 
SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024
SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024
SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024
auyawilly
 
Supply Chain Management Universidad César Vallejo
Supply Chain Management Universidad César VallejoSupply Chain Management Universidad César Vallejo
Supply Chain Management Universidad César Vallejo
jeuzouu
 
Mario Mendoza Marichal Perspectivas Empresariales para México 2024 .pdf
Mario Mendoza Marichal  Perspectivas Empresariales para México 2024 .pdfMario Mendoza Marichal  Perspectivas Empresariales para México 2024 .pdf
Mario Mendoza Marichal Perspectivas Empresariales para México 2024 .pdf
Mario Mendoza Marichal
 

Último (20)

Informe del banco centra de Honduras trabajo de estudiantes
Informe del banco centra de Honduras trabajo de estudiantesInforme del banco centra de Honduras trabajo de estudiantes
Informe del banco centra de Honduras trabajo de estudiantes
 
Presentación Óxido Cuproso Nordox 75 WG.pptx
Presentación Óxido Cuproso Nordox 75 WG.pptxPresentación Óxido Cuproso Nordox 75 WG.pptx
Presentación Óxido Cuproso Nordox 75 WG.pptx
 
Guía para hacer un Plan de Negocio para tu emprendimiento.pdf
Guía para hacer un Plan de Negocio para tu emprendimiento.pdfGuía para hacer un Plan de Negocio para tu emprendimiento.pdf
Guía para hacer un Plan de Negocio para tu emprendimiento.pdf
 
VISIÓN MISIÓN VALORES EMPRESARIALES EN EL
VISIÓN MISIÓN VALORES EMPRESARIALES EN ELVISIÓN MISIÓN VALORES EMPRESARIALES EN EL
VISIÓN MISIÓN VALORES EMPRESARIALES EN EL
 
MODELO CONS1 NOTA1.pptx.....................................................
MODELO CONS1 NOTA1.pptx.....................................................MODELO CONS1 NOTA1.pptx.....................................................
MODELO CONS1 NOTA1.pptx.....................................................
 
RESPUESTA DERECHO DE PETICION EN PROPIEDAD HORIZONTAL
RESPUESTA DERECHO DE PETICION EN PROPIEDAD HORIZONTALRESPUESTA DERECHO DE PETICION EN PROPIEDAD HORIZONTAL
RESPUESTA DERECHO DE PETICION EN PROPIEDAD HORIZONTAL
 
PREVENCION DELITOS RELACIONADOS COM INT.pptx
PREVENCION DELITOS RELACIONADOS COM INT.pptxPREVENCION DELITOS RELACIONADOS COM INT.pptx
PREVENCION DELITOS RELACIONADOS COM INT.pptx
 
capitulo-5-libro-contabilidad-costo-volumen-utilidad.pdf
capitulo-5-libro-contabilidad-costo-volumen-utilidad.pdfcapitulo-5-libro-contabilidad-costo-volumen-utilidad.pdf
capitulo-5-libro-contabilidad-costo-volumen-utilidad.pdf
 
Enfoque Estructuralista de la Administración.docx
Enfoque Estructuralista de la Administración.docxEnfoque Estructuralista de la Administración.docx
Enfoque Estructuralista de la Administración.docx
 
Karla_Meza_Catedra_Morazanica_TEC18NOV_CAP_3.pptx
Karla_Meza_Catedra_Morazanica_TEC18NOV_CAP_3.pptxKarla_Meza_Catedra_Morazanica_TEC18NOV_CAP_3.pptx
Karla_Meza_Catedra_Morazanica_TEC18NOV_CAP_3.pptx
 
Trigonometria Plan-el mejor.pptxssssssss
Trigonometria Plan-el mejor.pptxssssssssTrigonometria Plan-el mejor.pptxssssssss
Trigonometria Plan-el mejor.pptxssssssss
 
SESION N° 01.pptx GESTION PROYECTOS UCV 2024
SESION N° 01.pptx GESTION PROYECTOS UCV 2024SESION N° 01.pptx GESTION PROYECTOS UCV 2024
SESION N° 01.pptx GESTION PROYECTOS UCV 2024
 
9° TEMA 5 - EVOLUCIÓN BIOLÓGICA Y GEOLÓGICA DE LA TIERRA (1).pdf
9° TEMA 5 - EVOLUCIÓN BIOLÓGICA Y GEOLÓGICA DE LA TIERRA (1).pdf9° TEMA 5 - EVOLUCIÓN BIOLÓGICA Y GEOLÓGICA DE LA TIERRA (1).pdf
9° TEMA 5 - EVOLUCIÓN BIOLÓGICA Y GEOLÓGICA DE LA TIERRA (1).pdf
 
plan contable empresarial para empresass
plan contable empresarial para empresassplan contable empresarial para empresass
plan contable empresarial para empresass
 
Solicitud de cambio de un producto, a nivel empresarial.
Solicitud de cambio de un producto, a nivel empresarial.Solicitud de cambio de un producto, a nivel empresarial.
Solicitud de cambio de un producto, a nivel empresarial.
 
BANRURAL S.A Case Study, Guatemala. INCAE Business Review, 2010.
BANRURAL S.A Case Study, Guatemala. INCAE Business Review, 2010.BANRURAL S.A Case Study, Guatemala. INCAE Business Review, 2010.
BANRURAL S.A Case Study, Guatemala. INCAE Business Review, 2010.
 
Valor que revierte al vendedor de la mercadería exportada
Valor que revierte al vendedor de la mercadería exportadaValor que revierte al vendedor de la mercadería exportada
Valor que revierte al vendedor de la mercadería exportada
 
SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024
SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024
SESIaN N° 03.pptx GESTION PROYECTOS UCV 2024
 
Supply Chain Management Universidad César Vallejo
Supply Chain Management Universidad César VallejoSupply Chain Management Universidad César Vallejo
Supply Chain Management Universidad César Vallejo
 
Mario Mendoza Marichal Perspectivas Empresariales para México 2024 .pdf
Mario Mendoza Marichal  Perspectivas Empresariales para México 2024 .pdfMario Mendoza Marichal  Perspectivas Empresariales para México 2024 .pdf
Mario Mendoza Marichal Perspectivas Empresariales para México 2024 .pdf
 

Big Data y Business Intelligence con Software Open Source

  • 1. Business Intelligence con Pentaho y Big Data con Hadoop Presentado por: Carlos Carreño ccarrenovi@gmail.com Mayo, 2017
  • 2. 2 Acerca del Presentador Carlos Augusto Carreño Villarreyes Es Ingeniero de Sistemas y Computo de profesión, es físico matemático y tiene estudios de Maestría en Gestión de Tecnologías de la Información en UNMSM. Esta certificado como ScrumMaster por ScrumAlliance, Red Hat JBoss Administrator, JBoss Fuse Expert, JBoss BPM Expert y en Oracle Certified Profesional es especialista en Big Data y en Business Intelligence. Es instructor acreditado por Red Hat Inc. Para Latinoamerica (Argentina, Bolivia, Colombina, Venezuela, Chile,Ecuador, Perú y Centro América ) y España. Instructor Oracle WDP y Software Libre en Cognos – Bolivia en Perú en la Universidad Nacional de Ingeniería y New Horizons. Experiencia Profesional: ✔ Jefe de Informática, Instituto Nacional de Defensa de la Competencia y Protección al Consumidor, Indecopi, entidad del Gobierno del Perú. ✔ Consultor del Programa de las Naciones Unidas para el Desarrollo, Sistema Nacional de Prevención y Atención de Desastres. ✔ Director y Socio de Bamtech, empresa integradora de soluciones tecnológicas con software de código abierto. ✔ Gerente de Proyectos de Business Intelligence, Cloud y Big Data en Tecnología y Gerencia del Perú Email de Contacto: ccarrenovi@gmail.com
  • 3. 3 Agenda ● Introducción a Big Data con Hadoop ● Arquitectura de Hadoop ● Herramientas para Hadoop ● Ecosistemas Disponibles ● Introducción a Pentaho BI Suite ● "Stack" de tecnologías de Pentaho BI Suite ● Pentaho y Big Data ● Casos de Aplicación
  • 5. 5 ¿Que es Big Data? ?
  • 7. 7
  • 8. 8 ¿Cuánto es demasiada información? 1 Gigabyte = 10 = 1,000,000,000⁹ 1 Terabyte = 10¹² = 1,000,000,000,000 1 Petabyte = 10¹ = 1,000,000,000,000,000⁵ 1 Exabyte = 10¹ = 1,000,000,000,000,000,000⁸ … 1 Quintillón 10³ = 1,000,000,000,000,000,000,000,000,000,000⁰
  • 9. 9 Seguimos creciendo ● Al 2016 la población creció a 7,400 millones de personas. ● Se prevee: ➢ 18.9 billones de dispositivos. ➢ Que el tráfico global de datos móviles alcance 10.8 Exabytes mensuales Fuente: ONU http://exitosanoticias.pe/onu-poblacion-mundial-llego-a-7400-millones/
  • 10. 10 No, Solo los humanos producimos información.
  • 11. 11 Aterrizando el concepto de Big Data Big Data se refiere al procesamiento de volúmenes de datos tan grandes que no se pueden realizar con tecnologías tradicionales a una velocidad adecuada y a los procedimientos para encontrar patrones repetitivos en estos datos. Referencia:https://es.wikipedia.org/wiki/Big_data
  • 12. 12 Las 3V del Big Data ● Volumen ● Velocidad ● Variedad + 3V
  • 14. 14 Hadoop ● Apache™ Hadoop® es un proyecto de software libre que permite el procesamiento distribuido de grandes volúmenes de datos en clusters de servidores básicos. ● Hadoop está diseñado para extender un sistema de archivos de servidor único a miles de máquinas y a petabytes de datos con un muy alto grado de tolerancia a las fallas.
  • 15. 15 Porque interesa tanto Hadoop? ● Hadoop cambia la economía y la dinámica de la computación a gran escala.
  • 16. 16 Hadoop hace posible el Big Data ● Redimensionable, pueden agregarse tantos nuevos nodos como sea necesario. ● Rentable, Hadoop hace posible la computación paralela con servidores básicos. ● Flexible, Hadoop funciona sin esquema y puede absorber cualquier tipo de datos. ● Tolerante a fallas, si se pierde un nodo, el sistema redirige el trabajo a otra localización de los datos y continúa procesando sin perder el ritmo.
  • 18. 18 Componentes de Hadoop ● Hadoop está inspirado en el proyecto de Google File System(GFS) y en el paradigma de programación MapReduce (mapper reducer). ● Hadoop está compuesto de cuatro componentes: ➢ Hadoop Distributed File System (HDFS) ➢ Hadoop MapReduce ➢ Yarn (Yet Another Resource Negotiator ) ➢ Hadoop Common Utilities.
  • 20. 20 Hadoop Distributed File System ● Hadoop Distributed File System (HDFS) es un sistema de archivos que abarca todos los nodos de un cluster Hadoop para el almacenamiento de datos. HDFS convierte todos los sistemas de archivos locales de los nodos en un único gran sistema de archivos
  • 21. 21 MapReduce ● MapReduce es el motor que Hadoop usa para procesar las enormes cantidades de datos, se basa en el modelo de programación Mapear – Reducir (MapReduce) .
  • 22. 22 Yarn ● YARN (Yet Another Resource Negotiator) es el componente que asigna CPU, memoria y almacenamiento a las aplicaciones que se ejecutan en un cluster Hadoop.
  • 23. 23 Common Utilities ● Hadoop Common Utilities, son librerías java que soportan otros módulos de Hadoop como: ➢ RPC ➢ File System ➢ Serializacion
  • 25. 25 Elementos del Cluster Hadoop ● NameNode: Sólo hay uno en el cluster. Regula el acceso a los archivos por parte de los clientes. Mantiene en memoria la metadata del sistema de archivos y control de los bloques de los archivos que tiene cada DataNode. ● DataNode: Son los responsables de leer y escribir las peticiones de los clientes. Los archivos en HDFS están formados por bloques, estos se encuentran replicados en los diferentes nodos.
  • 27. 27 Herramientas para Hadoop ● En la implementación de una solución de Big Data se requieren herramientas (proyectos) adicionales que interactúen con Hadoop. ● Hadoop + el conjunto de proyectos para Hadoop forman un ecosistema de Big Data.
  • 28. 28 Lista de Herramientas para Hadoop ● Avro ● Cassandra ● Chukwa ● Flume ● HBase ● Hive ● Jaql ● Lucene ● Oozie ● Pig ● ZooKeeper ● Ambari ● Zeppelin
  • 29. 29
  • 31. 31 Plataformas de Big Data ● Hadoop ofrece una base para la creación de plataformas o ecosistemas comerciales para el análisis de Big Data. ● Detrás del uso de una plataforma comercial de Big Data esta el propósito de facilitar su adopción, esto es "Hadoop como servicio".
  • 32. 32 Plataformas de Big Data en Hadoop ● Cloudera ● Amazon Web Services ● Hortonworks ● MapR ● IBM ● Microsoft HDInsight ● Intel Distribution for Apache Hadoop ● Datastax Enterprise Analytics ● Teradata Enterprise Access for Hadoop ● Pivotal HD
  • 33. 33 Cloudera ● Cloudera una de las primeras ofertas comerciales de Hadoop una de las mas populares. ● Cloudera aporta Impala, que ofrece en tiempo real el procesamiento masivo paralelo de Big Data a Hadoop.
  • 34. 34 Hortonworks ● Hortonworks es una de las pocas plataformas 100% de tecnología Hadoop de código abierto sin ninguna modificación propietaria. También fueron los primeros en integrar el soporte para Apache HCatalog, que crea "metadatos", datos dentro de los datos, simplificando el proceso de compartir sus datos a través de otras capas de servicio como Apache Hive o Pig.
  • 36. 36 ¿Que es Business Intelligence? ?
  • 37. 37 Concepto de Business Intelligence - BI ● Business Intelligence (Inteligencia de Negocio), es el conjunto de tecnologías y procedimientos que permiten el cruce de información para soportar el análisis de los indicadores de desempeño de un negocio.
  • 38. 38 Cubo OLAP ● Permite a los analistas de negocios, gerentes, tomadores de decisiones sintetizar la información a través de diferentes vistas.
  • 39. 39 Modelo Dimensional ● Técnicas y conceptos para crear modelos de datos basados en hechos y dimensiones. Se orienta el modelado hacia la búsqueda de rendimiento de las consultas.
  • 40. 40 Modelo Estrella ● Desnormalizado ● Habilidad para análisis dimensional
  • 41. 41 Modelo Copo de Nieve ● Forma normalizada de las dimensiones (solo las dimensiones primarias están enlazadas con la tabla de hechos) ● Rompe el análisis dimensional
  • 43. 43 ¿Que es Pentaho BI Platform? ?
  • 44. 44 Pentaho BI Platform ● Pentaho BI Platform es una suite de herramientas “open source” basadas en Java, que permite soportar los procesos de Inteligencia de Negocio de una empresa.
  • 45. 45 Alguna Empresas que usan Pentaho BI Suite
  • 48. 48 Stack de Tecnologías ● Business Analysis ➢ Pentaho Web Console ➢ MDX Engine basado en Modrian/JPivot ➢ Pentaho Report Designer ➢ Pentaho Schema Workbench ➢ XMLA Data Sources
  • 49. 49 Stack de Tecnologías ● Data Integration ➢ Design Tool - ETL ➢ CLI
  • 51. 51 Pentaho & Hadoop ● Pentaho permite manejar complejas transformaciones de datos y permite operacionalizar Hadoop y Spark como parte de una línea de datos de extremo a extremo.
  • 52. 52 Integración Pentaho y Hadoop ● Interfaz visual intuitiva para integrar y combinar datos de Hadoop con prácticamente cualquier otra fuente. ● Capacidad para diseñar lógica de integración de datos 15 veces más rápido que los métodos de codificación manual ● Integración con el ecosistema de Hadoop incluyendo Spark y compatibilidad con Kafka, YARN, Oozie, Sqoop y más
  • 54. 54 Beneficios de la Integración de Pentaho y Hadoop ● Capacidad para procesar grandes volúmenes de datos en sistemas de producción empresarial y dotar de capacidad de autoservicio al usuario final ● Reportes y Analisis de datos soportando Impala, Hive y otras base de datos analiticas ● Soporte a modelos predictivos basados en R, Weka, Python y Mllib ● Soporte de seguridad empresarial basada en Kerberos en plataformas Cloudera y Hortonworks.
  • 56. 56 Big Data en el Campo de la Investigacion ● De entre los proyectos que se pueden mencionar donde se ha llevado a cabo el uso de una solución de Big Data se encuentran: ➢ El Language, Interaction and Computation Laboratory - CLIC en conjunto con la Universidad de Trento en Italia, son un grupo de investigadores cuyo interés es el estudio de la comunicación verbal y no verbal tanto con métodos computacionales como cognitivos. ➢ Lineberger Comprehensive Cancer Center - Bioinformatics Group utiliza Hadoop y HBase para analizar datos producidos por los investigadores de The Cancer Genome Atlas(TCGA) para soportar las investigaciones relacionadas con el cáncer.
  • 57. 57 Big Data en el Campo de la Investigacion ● El PSG College of Technology, India, analiza múltiples secuencias de proteínas para determinar los enlaces evolutivos y predecir estructuras moleculares. ● La Universidad Distrital Francisco Jose de Caldas utiliza Hadoop para apoyar su proyecto de investigación relacionado con el sistema de inteligencia territorial de la ciudad de Bogotá. ● La Universidad de Maryland es una de las seis universidades que colaboran en la iniciativa académica de cómputo en la nube de IBM/Google. Sus investigaciones incluyen proyectos en la lingüistica computacional (machine translation), modelado del lenguaje, bioinformática, análisis de correo electrónico y procesamiento de imágenes.
  • 58. 58 Pentaho en la Industria Financiera ● Las siguientes industrias de servicios financieros han elegido Pentaho para su área de inteligencia de negocios.
  • 60. 60
  • 61. 61 Referencias ● Que es Big Data https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/ ● Las 3V del Big Data http://www.dataprix.com/blog-it/data-science/big-data-volumen-velocidad- variedadHadoop ● MapReduce Tutorial http://bigdatahadooptrainings.com/hadoop-mapreduce-tutorial/ ● Que es Hadoop https://www-01.ibm.com/software/cl/data/infosphere/hadoop/que-es.html ● Big Data: The Top 10 Commercial Hadoop Platforms https://www.linkedin.com/pulse/big-data-top-10-commercial-hadoop-platforms- bernard-marr This work!, is dedicated to the supreme consciousness, God.