Big Data y Business Intelligence con Software Open Source

Business Intelligence con Pentaho
y Big Data con Hadoop
Presentado por: Carlos Carreño
ccarrenovi@gmail.com
Mayo, 2017

2
Acerca del Presentador
Carlos Augusto Carreño Villarreyes
Es Ingeniero de Sistemas y Computo de profesión, es físico matemático y tiene estudios de Maestría en Gestión de Tecnologías de la
Información en UNMSM. Esta certificado como ScrumMaster por ScrumAlliance, Red Hat JBoss Administrator, JBoss Fuse Expert, JBoss BPM
Expert y en Oracle Certified Profesional es especialista en Big Data y en Business Intelligence. Es instructor acreditado por Red Hat Inc. Para
Latinoamerica (Argentina, Bolivia, Colombina, Venezuela, Chile,Ecuador, Perú y Centro América ) y España. Instructor Oracle WDP y Software
Libre en Cognos – Bolivia en Perú en la Universidad Nacional de Ingeniería y New Horizons.
Experiencia Profesional:
✔ Jefe de Informática, Instituto Nacional de Defensa de la Competencia y Protección al Consumidor, Indecopi, entidad del Gobierno del Perú.
✔ Consultor del Programa de las Naciones Unidas para el Desarrollo, Sistema Nacional de Prevención y Atención de Desastres.
✔ Director y Socio de Bamtech, empresa integradora de soluciones tecnológicas con software de código abierto.
✔ Gerente de Proyectos de Business Intelligence, Cloud y Big Data en Tecnología y Gerencia del Perú
Email de Contacto: ccarrenovi@gmail.com

3
Agenda
● Introducción a Big Data con Hadoop
● Arquitectura de Hadoop
● Herramientas para Hadoop
● Ecosistemas Disponibles
● Introducción a Pentaho BI Suite
● "Stack" de tecnologías de Pentaho BI Suite
● Pentaho y Big Data
● Casos de Aplicación

4
Introducción a
Big Data
con Hadoop

6
Desde cuando hablamos
de Big Data?

8
¿Cuánto es demasiada
información?
1 Gigabyte = 10 = 1,000,000,000⁹
1 Terabyte = 10¹² = 1,000,000,000,000
1 Petabyte = 10¹ = 1,000,000,000,000,000⁵
1 Exabyte = 10¹ = 1,000,000,000,000,000,000⁸
…
1 Quintillón
10³ = 1,000,000,000,000,000,000,000,000,000,000⁰

9
Seguimos creciendo
● Al 2016 la población
creció a 7,400 millones
de personas.
● Se prevee:
➢ 18.9 billones de
dispositivos.
➢ Que el tráfico global de
datos móviles alcance
10.8 Exabytes
mensuales
Fuente: ONU
http://exitosanoticias.pe/onu-poblacion-mundial-llego-a-7400-millones/

10
No, Solo los humanos
producimos información.

11
Aterrizando el concepto de Big Data
Big Data se refiere al procesamiento de volúmenes de
datos tan grandes que no se pueden realizar con tecnologías
tradicionales a una velocidad adecuada y a los
procedimientos para encontrar patrones repetitivos en
estos datos.
Referencia:https://es.wikipedia.org/wiki/Big_data

12
Las 3V del Big Data
● Volumen
● Velocidad
● Variedad
+
3V

14
Hadoop
● Apache™ Hadoop® es un proyecto de software
libre que permite el procesamiento distribuido de
grandes volúmenes de datos en clusters de
servidores básicos.
● Hadoop está diseñado para extender un sistema de
archivos de servidor único a miles de máquinas y a
petabytes de datos con un muy alto grado de
tolerancia a las fallas.

15
Porque interesa tanto Hadoop?
● Hadoop cambia la economía y la dinámica de
la computación a gran escala.

16
Hadoop hace posible el Big Data
● Redimensionable, pueden agregarse tantos nuevos
nodos como sea necesario.
● Rentable, Hadoop hace posible la computación
paralela con servidores básicos.
● Flexible, Hadoop funciona sin esquema y puede
absorber cualquier tipo de datos.
● Tolerante a fallas, si se pierde un nodo, el sistema
redirige el trabajo a otra localización de los datos y
continúa procesando sin perder el ritmo.

18
Componentes de Hadoop
● Hadoop está inspirado en el proyecto de Google
File System(GFS) y en el paradigma de
programación MapReduce (mapper reducer).
● Hadoop está compuesto de cuatro
componentes:
➢ Hadoop Distributed File System (HDFS)
➢ Hadoop MapReduce
➢ Yarn (Yet Another Resource Negotiator )
➢ Hadoop Common Utilities.

20
Hadoop Distributed File System
● Hadoop Distributed File System (HDFS) es un sistema de
archivos que abarca todos los nodos de un cluster Hadoop
para el almacenamiento de datos. HDFS convierte todos los
sistemas de archivos locales de los nodos en un único gran
sistema de archivos

21
MapReduce
● MapReduce es el motor que Hadoop usa para procesar
las enormes cantidades de datos, se basa en el modelo
de programación Mapear – Reducir (MapReduce) .

22
Yarn
● YARN (Yet Another Resource Negotiator) es el
componente que asigna CPU, memoria y
almacenamiento a las aplicaciones que se
ejecutan en un cluster Hadoop.

23
Common Utilities
● Hadoop Common Utilities, son librerías java
que soportan otros módulos de Hadoop como:
➢ RPC
➢ File System
➢ Serializacion

25
Elementos del Cluster Hadoop
● NameNode: Sólo hay uno en el cluster. Regula el acceso
a los archivos por parte de los clientes. Mantiene en
memoria la metadata del sistema de archivos y control de
los bloques de los archivos que tiene cada DataNode.
● DataNode: Son los responsables de leer y escribir las
peticiones de los clientes. Los archivos en HDFS están
formados por bloques, estos se encuentran replicados en
los diferentes nodos.

27
Herramientas para Hadoop
● En la implementación de una solución de Big
Data se requieren herramientas (proyectos)
adicionales que interactúen con Hadoop.
● Hadoop + el conjunto de proyectos para
Hadoop forman un ecosistema de Big Data.

28
Lista de Herramientas para
Hadoop
● Avro
● Cassandra
● Chukwa
● Flume
● HBase
● Hive
● Jaql
● Lucene
● Oozie
● Pig
● ZooKeeper
● Ambari
● Zeppelin

31
Plataformas de Big Data
● Hadoop ofrece una base para la creación de
plataformas o ecosistemas comerciales para el
análisis de Big Data.
● Detrás del uso de una plataforma comercial de
Big Data esta el propósito de facilitar su
adopción, esto es "Hadoop como servicio".

32
Plataformas de Big Data en
Hadoop
● Cloudera
● Amazon Web Services
● Hortonworks
● MapR
● IBM
● Microsoft HDInsight
● Intel Distribution for Apache Hadoop
● Datastax Enterprise Analytics
● Teradata Enterprise Access for Hadoop
● Pivotal HD

33
Cloudera
● Cloudera una de las primeras ofertas comerciales de Hadoop una de
las mas populares.
● Cloudera aporta Impala, que ofrece en tiempo real el procesamiento masivo
paralelo de Big Data a Hadoop.

34
Hortonworks
● Hortonworks es una de las pocas plataformas 100% de tecnología Hadoop de
código abierto sin ninguna modificación propietaria. También fueron los primeros en
integrar el soporte para Apache HCatalog, que crea "metadatos", datos dentro de los datos,
simplificando el proceso de compartir sus datos a través de otras capas de servicio como
Apache Hive o Pig.

36
¿Que es Business Intelligence?
?

37
Concepto de Business
Intelligence - BI
● Business Intelligence (Inteligencia de Negocio), es el conjunto
de tecnologías y procedimientos que permiten el cruce de
información para soportar el análisis de los indicadores de
desempeño de un negocio.

38
Cubo OLAP
● Permite a los analistas de negocios, gerentes, tomadores de
decisiones sintetizar la información a través de diferentes
vistas.

39
Modelo Dimensional
● Técnicas y conceptos para crear modelos de
datos basados en hechos y dimensiones. Se
orienta el modelado hacia la búsqueda de
rendimiento de las consultas.

40
Modelo Estrella
● Desnormalizado
● Habilidad para análisis dimensional

41
Modelo Copo de Nieve
● Forma normalizada de las dimensiones (solo las
dimensiones primarias están enlazadas con la tabla de
hechos)
● Rompe el análisis dimensional

43
¿Que es Pentaho BI Platform?
?

44
Pentaho BI Platform
● Pentaho BI Platform es una suite de herramientas
“open source” basadas en Java, que permite soportar los
procesos de Inteligencia de Negocio de una empresa.

45
Alguna Empresas que usan
Pentaho BI Suite

46
"Stack" de
tecnologías en
Pentaho BI
Suite

47
Arquitectura de Pentaho BI Suite

48
Stack de Tecnologías
● Business Analysis
➢ Pentaho Web Console
➢ MDX Engine basado en Modrian/JPivot
➢ Pentaho Report Designer
➢ Pentaho Schema Workbench
➢ XMLA Data Sources

49
Stack de Tecnologías
● Data Integration
➢ Design Tool - ETL
➢ CLI

51
Pentaho & Hadoop
● Pentaho permite manejar complejas
transformaciones de datos y permite
operacionalizar Hadoop y Spark como parte de
una línea de datos de extremo a extremo.

52
Integración Pentaho y Hadoop
● Interfaz visual intuitiva para integrar y combinar datos de
Hadoop con prácticamente cualquier otra fuente.
● Capacidad para diseñar lógica de integración de datos 15
veces más rápido que los métodos de codificación manual
● Integración con el ecosistema de Hadoop incluyendo Spark
y compatibilidad con Kafka, YARN, Oozie, Sqoop y más

53
Arquitectura de Pentaho y
Hadoop

54
Beneficios de la Integración de
Pentaho y Hadoop
● Capacidad para procesar grandes volúmenes de datos en
sistemas de producción empresarial y dotar de capacidad de
autoservicio al usuario final
● Reportes y Analisis de datos soportando Impala, Hive y otras
base de datos analiticas
● Soporte a modelos predictivos basados en R, Weka, Python
y Mllib
● Soporte de seguridad empresarial basada en Kerberos en
plataformas Cloudera y Hortonworks.

56
Big Data en el Campo de la
Investigacion
● De entre los proyectos que se pueden mencionar donde
se ha llevado a cabo el uso de una solución de Big Data
se encuentran:
➢ El Language, Interaction and Computation Laboratory - CLIC en
conjunto con la Universidad de Trento en Italia, son un grupo de
investigadores cuyo interés es el estudio de la comunicación
verbal y no verbal tanto con métodos computacionales como
cognitivos.
➢ Lineberger Comprehensive Cancer Center - Bioinformatics
Group utiliza Hadoop y HBase para analizar datos producidos
por los investigadores de The Cancer Genome Atlas(TCGA)
para soportar las investigaciones relacionadas con el cáncer.

57
Big Data en el Campo de la
Investigacion
● El PSG College of Technology, India, analiza múltiples secuencias
de proteínas para determinar los enlaces evolutivos y predecir
estructuras moleculares.
● La Universidad Distrital Francisco Jose de Caldas utiliza Hadoop
para apoyar su proyecto de investigación relacionado con el
sistema de inteligencia territorial de la ciudad de Bogotá.
●
La Universidad de Maryland es una de las seis universidades que
colaboran en la iniciativa académica de cómputo en la nube de
IBM/Google. Sus investigaciones incluyen proyectos en la
lingüistica computacional (machine translation), modelado del
lenguaje, bioinformática, análisis de correo electrónico y
procesamiento de imágenes.

58
Pentaho en la Industria
Financiera
● Las siguientes industrias de servicios
financieros han elegido Pentaho para su área
de inteligencia de negocios.

61
Referencias
● Que es Big Data
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
● Las 3V del Big Data
http://www.dataprix.com/blog-it/data-science/big-data-volumen-velocidad-
variedadHadoop
● MapReduce Tutorial
http://bigdatahadooptrainings.com/hadoop-mapreduce-tutorial/
● Que es Hadoop
https://www-01.ibm.com/software/cl/data/infosphere/hadoop/que-es.html
● Big Data: The Top 10 Commercial Hadoop Platforms
https://www.linkedin.com/pulse/big-data-top-10-commercial-hadoop-platforms-
bernard-marr
This work!, is dedicated to the supreme consciousness, God.

Big Data y Business Intelligence con Software Open Source

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Big Data y Business Intelligence con Software Open Source

Similar a Big Data y Business Intelligence con Software Open Source (20)

Último

Último (20)

Big Data y Business Intelligence con Software Open Source