SlideShare una empresa de Scribd logo
1 de 4
Descargar para leer sin conexión
Internet
Desktop
Cliente
BigData & Responsive Web Architecture
Intranet
Hadoop Cluster
HDFS
<Big Data Storage>
Ambari
<Web Admin
Console>
Logs
Usuario
ODBC
BD transaccional
<BD Relacional>
Web
Application
<Responsive>
AngularJS
<MVC client Fwork>
Web
Services
<Spring REST>
YARN
<Resource Mng>
MapReduce
<Batch
Process>
TEZ
<RealTime Process>
PIG
<Script 4ETL>
Hive
<SQL-
DWarehouse>
HCatalog
<Hive
TableMng>
HBase
<NoSql DB>
Tableau
<BI>
Análisis
App
<Java>
JDBC
SQOOP
<Bulk Load>
Excel
<Office App>
Flume
<Java Agent
Stream Data>
Twitter
<Social Network>
Load Load
SOLR
<Search & BI>
Zepellin
<Notebook
Data Analisys>
Load
WebHDFS
<REST>
Load
Custom
App
Análisis
App
<App>
HBase
API
Slider
<LongRun
Process>
Spark
<inMemory Process>
HDF-Nifi
<DataFlow Mng>
Custom
App
<App>
JDBC
Load
Drill
<SQL HBase>
BigData & Responsive Architecture cheat sheet by
Luis Alberto Espinoza Bustamante
(SCRUM Master Certified)
https://cl.linkedin.com/in/soaagenda
www.soaAgenda.com
Componentes Hadoop
 HDFS: (Hadoop Distributed FileSystem) DataStorage distribuido, repositorio de información (original
raw unstructured data) de gran escala(Big DataStorage).
 YARN: administrador de recursos en cluster, coordinación ejecución distribuida (scheduling), es el
Data Operating System de Hadoop.
 MapReduce: framework java para procesamiento (batch) distribuido de bigdata, es como lenguaje de
mas bajo nivel, se programa en Java, se esta reemplazando por TEZ (new hadoop2).
 Ambari: consola web de administración Hadoop.
 TEZ: framework optimizado para procesamiento bigdata, con TEZ se definen diagramas de dataflow a
ejecutar (DAG directed acyclic graph), orquestación tareas map o reduce, permite paralelizar tareas
map y reduce por separado. TEZ también define Java API (extiende API original MapReduce para
compatibilidad). En Ambari se pueden ver los flujos DAG gráficamente. Logra performance que
permite interactive-realtime processing de bigdata.
 PIG: Script Language (PIG Latin) para realizar procesos ETL y programas de Data Analisys. PIG se
compila en MapReduce Jobs (ahora hechos en TEZ)
 Hive: Datawarehouse (BD Relacional para Query-Analisis) da una vista Relacional al BigData,
permitiendo crear tablas y querys SQL, conservando la data original en HDFS, son como vistas SQL de
data en Hadoop (emula tablas-SQL). Ofrece interfaces JDBC y ODBC. Hive encapsula TEZ; traduce SQL
(statements) en TEZ (processing graphs)
 HCatalog Administrador de Tablas (SQL)expone metadata Hive a otras Hadoop App. Hive y HCatalog
se unieron luego Hive Querys usa HCatalog para implementar un “CREATE TABLE”.
 HBase: Base de Datos NoSQL, que implementa tablas columnares, para análisis de gran cantidad de
datos en tiempo real. Ofrece API Java (org.apache.hadoop.hbase) y REST para integrarse.
 SQOOP: bulkcopy, es una aplicación de comandos que permite carga datos desde hacia bases de
datos relacionales, posee conectores para las principales bases de datos. Es una aplicación batch que
esta fuera de Ambari, (como todo bulkcopy). Aunque se podría usar Flume u otro componente, SQOOP
esta optimizado para alta carga datos batch.
Componentes Hadoop
 Flume: agentes para transferencia de datos (stream data) en Hadoop, stream data pueden
ser logs o social data (Twitter). Pequeñas servicios Linux en Java (agente) que mediante
manejo de eventos obtienen y cargan datos de stream en el HDFS de Hadoop. Un agente
Flume se programa con un archivo de configuración (.conf) , y se ejecuta en consola Linux
 WebHDFS: interfaz REST para HDFS, normalmente se usa para realizar carga datos a HDFS
mediante aplicaciones (custom load)
 SOLR (on Hadoop): búsqueda e indexación, tiene su propia base datos, pero para Hadoop
guarda documentos e indexación en HDFS (vía PIG Jobs y conectores). (Search like Google)
 Banana for SOLR: Dashboard para Análisis Datos JSON indexados con SOLR
 Slider: framework para ejecutar aplicación de largo aliento (longterm) soporta HBase, es
motor equivalente a TEZ pero optimizado para longterm.
 Hortonworks Dataflow (HDF) y NiFi: Aplicación de diseño e implementación de Dataflow, es
equivalente a un ETL, para Hadoop tiene plugins (processors) para HDFS, que permiten
extraer y cargar en Hadoop. Tiene una API REST que permite controlar Nifi por una app. HDF
es un paquete de NiFi.
 Zepellin: es una consola web que permite análisis colaborativo de datos, implementa el
concepto “notebook” (en contexto de data analisys), que son plantillas de análisis de datos,
que permiten visualizar la data. Zepellin permite ejecutar Spark, y provee varios interpretes
(sh, Python).Zepellin junto SPARK permite realizar predictive models, basados en data
obtenida de sensores (Twitter se puede tomar como sensor) entre otras fuentes.
 SPARK: motor de data processing en memoria, se pueden crear aplicaciones sobre dataset
compartidos. SPARK tiene interpretes para programar en Scala, Java, Python, y R. Es la base
de los notebooks (aplicaciones de análisis) de Zepellin.
Otros Conceptos Relacionados
 Bigdata tomar un montón de data no estructurada, volverla algo valioso y en tiempo real.
 data warehouse base de datos diseñada para consultas y análisis mas que para transaccionalidad.
 Web notebook estructura de datos compartida y que es plataforma de análisis de datos, un espacio de colaboración
(usan los data scientist)
 IOT: Internet de las Cosas, tiene relación con Bigdata (Hadoop) ya que suelen implementar sensores que entregan
mucha información (big data)que solo se puede recopilar-analizar con una plataforma como Hadoop.
 Phoenix: permite acceder HBase mediante SQL-JDBC, compila SQL en una serie de HBase scans.
 Drill: SQL query engine para Hbase (noSQL) y Hadoop.
 WebHCat: (ex Templeton) REST API para HCatalog y Hive, permite crear tablas y querys (SQL) entre otros. En
HortonWorks hay que instalarlo.

Más contenido relacionado

La actualidad más candente

Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseJoseph Lopez
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopEduardo Castro
 
TALEND ETL Introducción
TALEND ETL IntroducciónTALEND ETL Introducción
TALEND ETL IntroducciónSoftware
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
 
Microsoft Azure SQL Database
Microsoft Azure SQL DatabaseMicrosoft Azure SQL Database
Microsoft Azure SQL DatabaseJoseph Lopez
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Power BI. Integración de datos | SolidQ Summit 2014
Power BI. Integración de datos | SolidQ Summit 2014Power BI. Integración de datos | SolidQ Summit 2014
Power BI. Integración de datos | SolidQ Summit 2014SolidQ
 
Power BI UG Lima webcast enero 22 - Seguridad
Power BI UG Lima   webcast enero 22 - SeguridadPower BI UG Lima   webcast enero 22 - Seguridad
Power BI UG Lima webcast enero 22 - SeguridaddbLearner
 
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...Perspectiva de Microsoft Business Intelligence a partir de la integracion con...
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...Joseph Lopez
 
Inteligencia de Negocios con Microsoft
Inteligencia de Negocios con MicrosoftInteligencia de Negocios con Microsoft
Inteligencia de Negocios con MicrosoftJohn Bulla
 
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...MongoDB
 
Introducción a Análisis de Datos SqlServer Power BI
Introducción a Análisis de Datos SqlServer Power BIIntroducción a Análisis de Datos SqlServer Power BI
Introducción a Análisis de Datos SqlServer Power BIFreddy Angarita
 
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...SolidQ
 
Introduccion a Power BI
Introduccion a Power BIIntroduccion a Power BI
Introduccion a Power BIJoseph Lopez
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 

La actualidad más candente (19)

Full-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScript
Full-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScriptFull-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScript
Full-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScript
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data Warehouse
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre Hadoop
 
TALEND ETL Introducción
TALEND ETL IntroducciónTALEND ETL Introducción
TALEND ETL Introducción
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Microsoft Azure SQL Database
Microsoft Azure SQL DatabaseMicrosoft Azure SQL Database
Microsoft Azure SQL Database
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Power BI. Integración de datos | SolidQ Summit 2014
Power BI. Integración de datos | SolidQ Summit 2014Power BI. Integración de datos | SolidQ Summit 2014
Power BI. Integración de datos | SolidQ Summit 2014
 
Guía power bi
Guía   power biGuía   power bi
Guía power bi
 
Power BI UG Lima webcast enero 22 - Seguridad
Power BI UG Lima   webcast enero 22 - SeguridadPower BI UG Lima   webcast enero 22 - Seguridad
Power BI UG Lima webcast enero 22 - Seguridad
 
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...Perspectiva de Microsoft Business Intelligence a partir de la integracion con...
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...
 
Inteligencia de Negocios con Microsoft
Inteligencia de Negocios con MicrosoftInteligencia de Negocios con Microsoft
Inteligencia de Negocios con Microsoft
 
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...
 
Introducción a Análisis de Datos SqlServer Power BI
Introducción a Análisis de Datos SqlServer Power BIIntroducción a Análisis de Datos SqlServer Power BI
Introducción a Análisis de Datos SqlServer Power BI
 
Presentación taller aplicaciones
Presentación  taller aplicacionesPresentación  taller aplicaciones
Presentación taller aplicaciones
 
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
 
Introduccion a Power BI
Introduccion a Power BIIntroduccion a Power BI
Introduccion a Power BI
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 

Similar a Best hadoop bigdata architecture resume

Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataSpanishPASSVC
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0Jeremi Sixto Perales
 
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
 Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics con Apache-Flume Elasticsearch HDFS KibanaFelix Rodriguez
 
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume  Elasticsearch HDFS KibanaLog -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume Elasticsearch HDFS KibanaFelix Rodriguez
 
Sfd 2013 pentaho
Sfd 2013 pentahoSfd 2013 pentaho
Sfd 2013 pentahoFinger Cash
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementaciónDiego Krauthamer
 
Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL ServerEduardo Castro
 
SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0Sthefani Villanueva Cigaran
 
base de datos con codigos abiertos.pptx
base de datos con codigos abiertos.pptxbase de datos con codigos abiertos.pptx
base de datos con codigos abiertos.pptxJuniorMiraval
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ
 
Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.
Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.
Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.Brad Villavicencio Rojas
 
Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Miguel Pastor
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkJose Manuel Ortega Candel
 
Motores de bases de datos open source
Motores de bases de datos open sourceMotores de bases de datos open source
Motores de bases de datos open sourceeduardojose55
 
Google Cloud Platform y Python
Google Cloud Platform y PythonGoogle Cloud Platform y Python
Google Cloud Platform y PythonCarlos Toxtli
 

Similar a Best hadoop bigdata architecture resume (20)

Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
 
Couch db
Couch dbCouch db
Couch db
 
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
 Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
 
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume  Elasticsearch HDFS KibanaLog -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
 
Sfd 2013 pentaho
Sfd 2013 pentahoSfd 2013 pentaho
Sfd 2013 pentaho
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementación
 
Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL Server
 
SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0
 
base de datos con codigos abiertos.pptx
base de datos con codigos abiertos.pptxbase de datos con codigos abiertos.pptx
base de datos con codigos abiertos.pptx
 
Documento Web2Py
Documento Web2PyDocumento Web2Py
Documento Web2Py
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datos
 
Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.
Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.
Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.
 
BigData
BigDataBigData
BigData
 
Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Hadoop, Cloud y Spring
Hadoop, Cloud y Spring
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a Spark
 
Wamp server
Wamp serverWamp server
Wamp server
 
Motores de bases de datos open source
Motores de bases de datos open sourceMotores de bases de datos open source
Motores de bases de datos open source
 
Google Cloud Platform y Python
Google Cloud Platform y PythonGoogle Cloud Platform y Python
Google Cloud Platform y Python
 

Más de Luis Alberto Espinoza Bustamante (8)

Big Data University BD0101EN Certificate _ Big Data University
Big Data University BD0101EN Certificate _ Big Data UniversityBig Data University BD0101EN Certificate _ Big Data University
Big Data University BD0101EN Certificate _ Big Data University
 
Big Data University DS0105EN Certificate _ Big Data University
Big Data University DS0105EN Certificate _ Big Data UniversityBig Data University DS0105EN Certificate _ Big Data University
Big Data University DS0105EN Certificate _ Big Data University
 
Taller Agil Scrum Master
Taller Agil Scrum MasterTaller Agil Scrum Master
Taller Agil Scrum Master
 
Berkeley_CS105x_Passing_Grade_Luis_Espinoza
Berkeley_CS105x_Passing_Grade_Luis_EspinozaBerkeley_CS105x_Passing_Grade_Luis_Espinoza
Berkeley_CS105x_Passing_Grade_Luis_Espinoza
 
certificadosPostitulos
certificadosPostituloscertificadosPostitulos
certificadosPostitulos
 
SOA Governance, Enfoque Practico
SOA Governance, Enfoque PracticoSOA Governance, Enfoque Practico
SOA Governance, Enfoque Practico
 
Portal de Colaboracion SOA con Redmine
Portal de Colaboracion SOA con RedminePortal de Colaboracion SOA con Redmine
Portal de Colaboracion SOA con Redmine
 
Servicios SOA
Servicios SOAServicios SOA
Servicios SOA
 

Último

El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptxSergiothaine2
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptxccordovato
 
CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...jhoecabanillas12
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 

Último (17)

El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptx
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx
 
CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 

Best hadoop bigdata architecture resume

  • 1. Internet Desktop Cliente BigData & Responsive Web Architecture Intranet Hadoop Cluster HDFS <Big Data Storage> Ambari <Web Admin Console> Logs Usuario ODBC BD transaccional <BD Relacional> Web Application <Responsive> AngularJS <MVC client Fwork> Web Services <Spring REST> YARN <Resource Mng> MapReduce <Batch Process> TEZ <RealTime Process> PIG <Script 4ETL> Hive <SQL- DWarehouse> HCatalog <Hive TableMng> HBase <NoSql DB> Tableau <BI> Análisis App <Java> JDBC SQOOP <Bulk Load> Excel <Office App> Flume <Java Agent Stream Data> Twitter <Social Network> Load Load SOLR <Search & BI> Zepellin <Notebook Data Analisys> Load WebHDFS <REST> Load Custom App Análisis App <App> HBase API Slider <LongRun Process> Spark <inMemory Process> HDF-Nifi <DataFlow Mng> Custom App <App> JDBC Load Drill <SQL HBase> BigData & Responsive Architecture cheat sheet by Luis Alberto Espinoza Bustamante (SCRUM Master Certified) https://cl.linkedin.com/in/soaagenda www.soaAgenda.com
  • 2. Componentes Hadoop  HDFS: (Hadoop Distributed FileSystem) DataStorage distribuido, repositorio de información (original raw unstructured data) de gran escala(Big DataStorage).  YARN: administrador de recursos en cluster, coordinación ejecución distribuida (scheduling), es el Data Operating System de Hadoop.  MapReduce: framework java para procesamiento (batch) distribuido de bigdata, es como lenguaje de mas bajo nivel, se programa en Java, se esta reemplazando por TEZ (new hadoop2).  Ambari: consola web de administración Hadoop.  TEZ: framework optimizado para procesamiento bigdata, con TEZ se definen diagramas de dataflow a ejecutar (DAG directed acyclic graph), orquestación tareas map o reduce, permite paralelizar tareas map y reduce por separado. TEZ también define Java API (extiende API original MapReduce para compatibilidad). En Ambari se pueden ver los flujos DAG gráficamente. Logra performance que permite interactive-realtime processing de bigdata.  PIG: Script Language (PIG Latin) para realizar procesos ETL y programas de Data Analisys. PIG se compila en MapReduce Jobs (ahora hechos en TEZ)  Hive: Datawarehouse (BD Relacional para Query-Analisis) da una vista Relacional al BigData, permitiendo crear tablas y querys SQL, conservando la data original en HDFS, son como vistas SQL de data en Hadoop (emula tablas-SQL). Ofrece interfaces JDBC y ODBC. Hive encapsula TEZ; traduce SQL (statements) en TEZ (processing graphs)  HCatalog Administrador de Tablas (SQL)expone metadata Hive a otras Hadoop App. Hive y HCatalog se unieron luego Hive Querys usa HCatalog para implementar un “CREATE TABLE”.  HBase: Base de Datos NoSQL, que implementa tablas columnares, para análisis de gran cantidad de datos en tiempo real. Ofrece API Java (org.apache.hadoop.hbase) y REST para integrarse.  SQOOP: bulkcopy, es una aplicación de comandos que permite carga datos desde hacia bases de datos relacionales, posee conectores para las principales bases de datos. Es una aplicación batch que esta fuera de Ambari, (como todo bulkcopy). Aunque se podría usar Flume u otro componente, SQOOP esta optimizado para alta carga datos batch.
  • 3. Componentes Hadoop  Flume: agentes para transferencia de datos (stream data) en Hadoop, stream data pueden ser logs o social data (Twitter). Pequeñas servicios Linux en Java (agente) que mediante manejo de eventos obtienen y cargan datos de stream en el HDFS de Hadoop. Un agente Flume se programa con un archivo de configuración (.conf) , y se ejecuta en consola Linux  WebHDFS: interfaz REST para HDFS, normalmente se usa para realizar carga datos a HDFS mediante aplicaciones (custom load)  SOLR (on Hadoop): búsqueda e indexación, tiene su propia base datos, pero para Hadoop guarda documentos e indexación en HDFS (vía PIG Jobs y conectores). (Search like Google)  Banana for SOLR: Dashboard para Análisis Datos JSON indexados con SOLR  Slider: framework para ejecutar aplicación de largo aliento (longterm) soporta HBase, es motor equivalente a TEZ pero optimizado para longterm.  Hortonworks Dataflow (HDF) y NiFi: Aplicación de diseño e implementación de Dataflow, es equivalente a un ETL, para Hadoop tiene plugins (processors) para HDFS, que permiten extraer y cargar en Hadoop. Tiene una API REST que permite controlar Nifi por una app. HDF es un paquete de NiFi.  Zepellin: es una consola web que permite análisis colaborativo de datos, implementa el concepto “notebook” (en contexto de data analisys), que son plantillas de análisis de datos, que permiten visualizar la data. Zepellin permite ejecutar Spark, y provee varios interpretes (sh, Python).Zepellin junto SPARK permite realizar predictive models, basados en data obtenida de sensores (Twitter se puede tomar como sensor) entre otras fuentes.  SPARK: motor de data processing en memoria, se pueden crear aplicaciones sobre dataset compartidos. SPARK tiene interpretes para programar en Scala, Java, Python, y R. Es la base de los notebooks (aplicaciones de análisis) de Zepellin.
  • 4. Otros Conceptos Relacionados  Bigdata tomar un montón de data no estructurada, volverla algo valioso y en tiempo real.  data warehouse base de datos diseñada para consultas y análisis mas que para transaccionalidad.  Web notebook estructura de datos compartida y que es plataforma de análisis de datos, un espacio de colaboración (usan los data scientist)  IOT: Internet de las Cosas, tiene relación con Bigdata (Hadoop) ya que suelen implementar sensores que entregan mucha información (big data)que solo se puede recopilar-analizar con una plataforma como Hadoop.  Phoenix: permite acceder HBase mediante SQL-JDBC, compila SQL en una serie de HBase scans.  Drill: SQL query engine para Hbase (noSQL) y Hadoop.  WebHCat: (ex Templeton) REST API para HCatalog y Hive, permite crear tablas y querys (SQL) entre otros. En HortonWorks hay que instalarlo.