SlideShare una empresa de Scribd logo
1 de 23
Descargar para leer sin conexión
Hadoop
Rodolfo Campos
@camposer
Madrid, Noviembre de 2015
Agenda
1. Introducción a Big Data.
2. NoSQL
3. Hadoop
- HDFS
- MapReduce
- Pig
- Hive
- HBase
Justificación
Tendencia: Usuarios de Facebook
Justificación
Tendencia: Twitter. Tweets por día
Justificación
●Walmart maneja más de 1 millón de transacciones por hora
●Google procesa aprox. 24 PB de data al día
●AT&T transfiere aprox. 30 PB de data al día
●Todos los días son enviados aprox. 90 mil millones de correos
electrónicos
●World of Warcraft utiliza 1.3 PB de almacenamiento
www.internetlivestats.com
Justificación
Tendencia: Crecimiento de la data en el mundo
Definición
Según Wikipedia en Español, Big Data es:
●Big Data es en el sector de tecnologías de la información y la
comunicación una referencia a los sistemas que manipulan
grandes conjuntos de datos (o data sets).
●Las dificultades más habituales en estos casos se centran en la
captura, el almacenado, búsqueda, compartición, análisis, y
visualización.
●La tendencia a manipular ingentes cantidades de datos se debe
a la necesidad en muchos casos de incluir los datos
relacionados del análisis en un gran conjunto de datos
relacionado, tal es el ejemplo de los análisis de negocio, los
datos de enfermedades infecciosas, o la lucha contra el crimen
organizado.
La búsqueda
●La búsqueda de datos se realiza a través de diferentes
herramientas, generalmente: lenguajes SQL, pseudo SQL y
específicos.
●Debido a la naturaleza, generalmente distribuida del
almacenamiento, algunos motores se valen de entornos de
trabajo específicos como MapReduce que buscan operar sobre
los diferentes nodos del sistema de forma independiente y
generar resultados independientes a partir de estos.
El almacenado
●El almacenamiento se lleva a cabo generalmente apoyándose
en motores de bases de datos NoSQL
●El volumen de datos es un reto, por lo que las escalabilidad y la
tolerancia a fallos son de los principales retos a manejar.
●Generalmente el almacenamiento se realiza en Sistemas
Distribuidos en lugar de Centralizados
El análisis
●El análisis de los datos se realiza de forma inline y offline,
dependiendo del problema a resolver y del motor de base de
datos utilizado.
●La mayoría de motores de bases de datos (en la mayoría
NoSQL) proveen conectores para trabajar con los lenguajes de
programación más populares.
●Si el problema a resolver no requiere de un mayor
procesamiento, el análisis de los datos se puede elaborar de
forma inline, en caso contrario, se suelen utilizar técnicas offline
(Ej. trabajos por lote)
NoSQL
Según la Wikipedia en Español, NoSQL se refiere a:
●Una amplia clase de sistemas de gestión de bases de datos que
difieren del modelo clásico del sistema de gestión de bases de
datos relacionales (RDBMS) en aspectos importantes, el más
destacado que no usan SQL como el principal lenguaje de
consultas.
●Los datos almacenados no requieren estructuras fijas como
tablas, normalmente no soportan operaciones JOIN, ni
garantizan completamente ACID (atomicidad, coherencia,
aislamiento y durabilidad), y habitualmente escalan bien
horizontalmente
Tipos de motores NoSQL
Los tipos de motores NoSQL más importantes son:
●Tabulares u Orientados a Columnas (Ej. HBase, Cassandra)
●Orientados a documentos (Ej. MongoDB)
●De clave-valor (Ej. Redis)
●Orientados a grafos (Ej. Neo4J)
Teorema de CAP
Hadoop
●Apache Hadoop es un marco de trabajo que facilita la computación
distribuida para grandes conjuntos de datos sobre clusters de
máquinas utilizando modelos de programación sencillos.
●Fue diseñado para escalar rápidamente y está compuesto por los
siguientes módulos:
● Hadoop Common. Utilidades comunes usadas por todos los
módulos.
● Hadoop Distributed File System (HDFS). Un sistema de archivos
distribuido que provee un alto rendimiento en el acceso a datos.
● Hadoop YARN (Yet Another Resource Negotiator). Un marco de
trabajo para planificación de trabajos (jobs) y gestión de los
recursos de cluster.
● Hadoop MapReduce. Un systema basado en YARN para el
procesamiento de grandes volúmenes de datos.
Hadoop
Aparte de los módulos mencionados anteriormente, hay un conjunto
de tecnologías relacionadas al proyecto. Algunas de las más
importantes:
● Pig. Lenguaje de flujo de datos para consultar HDFS o HBase. Las
sentencias son traducidas a MapReduce.
● Hive. Interfaz SQL para consultar HDFS o HBase. Las sentencias
son traducidas a MapReduce.
● HBase. Manejador de Bases de Datos NoSQL tabular que provee
acceso aleatorio rápido, sobre HDFS y soporta MapReduce.
● Sqoop. Permite transferir datos entre RDBMS y Hadoop.
● Oozie. Automatiza la gestión de trabajos (jobs).
● Flume. Herramientas de agregación distribuida.
● Avro. Sistema de serialización de datos flexible basado en JSON.
● Mahout. Librería scalable de Aprendizaje Automático (Machine
Learning).
Hadoop - HDFS
Hadoop - MapReduce
Hadoop - MapReduce
Hadoop - MapReduce
Pig
●Pig provee una herramienta para el procesamiento de datasets a
través de transformaciones. Las diferentes transformaciones son
traducidas a operaciones MapReduce.
●Pig tiene dos componentes: el lenguaje (PigLatin) y el entorno de
ejecución (sobre Hadoop).
●Pig posee un intérprete de comandos llamado Grunt, aunque también
permite scripts y modo embebido (nativo Java)
●El lenguaje permite utilizar estructuras, sentencias, expresiones,
tipos, esquemas, funciones predefinidas, macros (procedimientos) y
funciones definidas por el usuario.
Hive
●Apache Hive permite realizar búsquedas y gestionar grandes
conjuntos de datos almacenados de forma distribuida.
●Provee un mecanismo que permite proyectar la data de forma
estructurada y consultarla a través de sentencias pseudo SQL
(HiveQL).
●El lenguaje también permite a los programadores de MapReduce
incluir mappers y reducers personalizados cuando es inconveniente o
ineficiente expresar la lógica a través de HiveQL.
HBase
●Motor NoSQL Orientado a Columnas, específicamente a familia de
columnas. Cada fila contiene un conjunto de columnas pertenecientes
a una familia.
●Funciona sobre HDFS y ZooKeeper.
●Ofrece acceso aleatorio garantizando alta disponibilidad
●Se pueden agregar dinámicamente nuevas columnas siempre y
cuando pertenezcan a familias previamente definidas.
●Las tablas son particionadas horizontalmente automáticamente en
regiones.
●Las actualizaciones de filas son atómicas.
HBase

Más contenido relacionado

La actualidad más candente

Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
 
Creación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con ClouderaCreación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con ClouderaDavid Albela Pérez
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Hadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datosHadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datosRaul Ochoa
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveWellness Telecom
 
Curso de Ajax
Curso de AjaxCurso de Ajax
Curso de Ajaxcamposer
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIUrko Zurutuza
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopArsys
 
Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache SparkGustavo Arjones
 

La actualidad más candente (20)

Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Open analytics. data analytics con hadoop
Open analytics. data analytics con hadoopOpen analytics. data analytics con hadoop
Open analytics. data analytics con hadoop
 
Creación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con ClouderaCreación de un clúster de Hadoop con Cloudera
Creación de un clúster de Hadoop con Cloudera
 
Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Hadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datosHadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datos
 
OpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: SparkOpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: Spark
 
Introducción a Apache HBase
Introducción a Apache HBaseIntroducción a Apache HBase
Introducción a Apache HBase
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
 
Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y Hive
 
Curso de Ajax
Curso de AjaxCurso de Ajax
Curso de Ajax
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión II
 
Hadoop
HadoopHadoop
Hadoop
 
BigData y MapReduce
BigData y MapReduceBigData y MapReduce
BigData y MapReduce
 
Hadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadasHadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadas
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar Hadoop
 
Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache Spark
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 

Similar a Hadoop

Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 
Base de datos no sql
Base de datos no sqlBase de datos no sql
Base de datos no sqlhnacostan
 
Motores de bases de datos open source
Motores de bases de datos open sourceMotores de bases de datos open source
Motores de bases de datos open sourceeduardojose55
 
Act4 base datos_reyes_rosalba
Act4 base datos_reyes_rosalbaAct4 base datos_reyes_rosalba
Act4 base datos_reyes_rosalbaRozzi Reyes
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop MeetupArkhotech
 
Que es una base de datos
Que es una base de datosQue es una base de datos
Que es una base de datosHectorJuarez49
 
Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"Javier Peña
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
 
Actividad de aprendizaje 4. screencast y bases de datos.
Actividad de aprendizaje 4. screencast y bases de datos.Actividad de aprendizaje 4. screencast y bases de datos.
Actividad de aprendizaje 4. screencast y bases de datos.uggi2003
 

Similar a Hadoop (20)

MongoDB
MongoDBMongoDB
MongoDB
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Base de datos no sql
Base de datos no sqlBase de datos no sql
Base de datos no sql
 
Motores de bases de datos open source
Motores de bases de datos open sourceMotores de bases de datos open source
Motores de bases de datos open source
 
Act4 base datos_reyes_rosalba
Act4 base datos_reyes_rosalbaAct4 base datos_reyes_rosalba
Act4 base datos_reyes_rosalba
 
Sgbd y tecnologias usadas por aplicaciones web 2
Sgbd y tecnologias usadas por aplicaciones web 2Sgbd y tecnologias usadas por aplicaciones web 2
Sgbd y tecnologias usadas por aplicaciones web 2
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop Meetup
 
Big Data
Big DataBig Data
Big Data
 
Big data y hadoop
Big data y hadoopBig data y hadoop
Big data y hadoop
 
Big data
Big dataBig data
Big data
 
Base de datos
Base de datos Base de datos
Base de datos
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Que es una base de datos
Que es una base de datosQue es una base de datos
Que es una base de datos
 
Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"Laboratorio 3 formato ieee "Tecnologias de Big Data"
Laboratorio 3 formato ieee "Tecnologias de Big Data"
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Actividad de aprendizaje 4. screencast y bases de datos.
Actividad de aprendizaje 4. screencast y bases de datos.Actividad de aprendizaje 4. screencast y bases de datos.
Actividad de aprendizaje 4. screencast y bases de datos.
 

Más de camposer

Fundamentos de Administración PostgreSQL
Fundamentos de Administración PostgreSQLFundamentos de Administración PostgreSQL
Fundamentos de Administración PostgreSQLcamposer
 
Fundamentos de SQL
Fundamentos de SQLFundamentos de SQL
Fundamentos de SQLcamposer
 
Javascript Básico
Javascript BásicoJavascript Básico
Javascript Básicocamposer
 
Seguridad web
Seguridad webSeguridad web
Seguridad webcamposer
 
Linear Regression Parameters
Linear Regression ParametersLinear Regression Parameters
Linear Regression Parameterscamposer
 
Entonamiento de aplicaciones Web (Enfasis en PHP)
Entonamiento de aplicaciones Web (Enfasis en PHP)Entonamiento de aplicaciones Web (Enfasis en PHP)
Entonamiento de aplicaciones Web (Enfasis en PHP)camposer
 
Entonamiento y perfilado de Drupal
Entonamiento y perfilado de DrupalEntonamiento y perfilado de Drupal
Entonamiento y perfilado de Drupalcamposer
 
Extracción de Requerimientos
Extracción de RequerimientosExtracción de Requerimientos
Extracción de Requerimientoscamposer
 

Más de camposer (8)

Fundamentos de Administración PostgreSQL
Fundamentos de Administración PostgreSQLFundamentos de Administración PostgreSQL
Fundamentos de Administración PostgreSQL
 
Fundamentos de SQL
Fundamentos de SQLFundamentos de SQL
Fundamentos de SQL
 
Javascript Básico
Javascript BásicoJavascript Básico
Javascript Básico
 
Seguridad web
Seguridad webSeguridad web
Seguridad web
 
Linear Regression Parameters
Linear Regression ParametersLinear Regression Parameters
Linear Regression Parameters
 
Entonamiento de aplicaciones Web (Enfasis en PHP)
Entonamiento de aplicaciones Web (Enfasis en PHP)Entonamiento de aplicaciones Web (Enfasis en PHP)
Entonamiento de aplicaciones Web (Enfasis en PHP)
 
Entonamiento y perfilado de Drupal
Entonamiento y perfilado de DrupalEntonamiento y perfilado de Drupal
Entonamiento y perfilado de Drupal
 
Extracción de Requerimientos
Extracción de RequerimientosExtracción de Requerimientos
Extracción de Requerimientos
 

Último

PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Ivie
 
Niveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologiaNiveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologiatongailustraconcienc
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería yocelynsanchezerasmo
 
FORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOFORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOsecundariatecnica891
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfhernestosoto82
 
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptxESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptxKatherineFabianLoza1
 
stellaire vinos de mora SAS proyecto de vino mora
stellaire vinos de mora SAS proyecto de vino morastellaire vinos de mora SAS proyecto de vino mora
stellaire vinos de mora SAS proyecto de vino moraYessicaBrigithArdila
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdfCamilaArzate2
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfPREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfeluniversocom
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405rodrimarxim
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptxccordovato
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024eluniversocom
 
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdfINTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdfmaryisabelpantojavar
 
Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfhees071224mmcrpna1
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotessald071205mmcnrna9
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxYoladsCabarcasTous
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 

Último (20)

PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...
 
Niveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologiaNiveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologia
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería
 
FORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOFORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASO
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdf
 
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptxESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
 
stellaire vinos de mora SAS proyecto de vino mora
stellaire vinos de mora SAS proyecto de vino morastellaire vinos de mora SAS proyecto de vino mora
stellaire vinos de mora SAS proyecto de vino mora
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfPREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
 
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdfINTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
 
Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdf
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotes
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptx
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 

Hadoop

  • 2. Agenda 1. Introducción a Big Data. 2. NoSQL 3. Hadoop - HDFS - MapReduce - Pig - Hive - HBase
  • 5. Justificación ●Walmart maneja más de 1 millón de transacciones por hora ●Google procesa aprox. 24 PB de data al día ●AT&T transfiere aprox. 30 PB de data al día ●Todos los días son enviados aprox. 90 mil millones de correos electrónicos ●World of Warcraft utiliza 1.3 PB de almacenamiento www.internetlivestats.com
  • 7. Definición Según Wikipedia en Español, Big Data es: ●Big Data es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). ●Las dificultades más habituales en estos casos se centran en la captura, el almacenado, búsqueda, compartición, análisis, y visualización. ●La tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos de incluir los datos relacionados del análisis en un gran conjunto de datos relacionado, tal es el ejemplo de los análisis de negocio, los datos de enfermedades infecciosas, o la lucha contra el crimen organizado.
  • 8. La búsqueda ●La búsqueda de datos se realiza a través de diferentes herramientas, generalmente: lenguajes SQL, pseudo SQL y específicos. ●Debido a la naturaleza, generalmente distribuida del almacenamiento, algunos motores se valen de entornos de trabajo específicos como MapReduce que buscan operar sobre los diferentes nodos del sistema de forma independiente y generar resultados independientes a partir de estos.
  • 9. El almacenado ●El almacenamiento se lleva a cabo generalmente apoyándose en motores de bases de datos NoSQL ●El volumen de datos es un reto, por lo que las escalabilidad y la tolerancia a fallos son de los principales retos a manejar. ●Generalmente el almacenamiento se realiza en Sistemas Distribuidos en lugar de Centralizados
  • 10. El análisis ●El análisis de los datos se realiza de forma inline y offline, dependiendo del problema a resolver y del motor de base de datos utilizado. ●La mayoría de motores de bases de datos (en la mayoría NoSQL) proveen conectores para trabajar con los lenguajes de programación más populares. ●Si el problema a resolver no requiere de un mayor procesamiento, el análisis de los datos se puede elaborar de forma inline, en caso contrario, se suelen utilizar técnicas offline (Ej. trabajos por lote)
  • 11. NoSQL Según la Wikipedia en Español, NoSQL se refiere a: ●Una amplia clase de sistemas de gestión de bases de datos que difieren del modelo clásico del sistema de gestión de bases de datos relacionales (RDBMS) en aspectos importantes, el más destacado que no usan SQL como el principal lenguaje de consultas. ●Los datos almacenados no requieren estructuras fijas como tablas, normalmente no soportan operaciones JOIN, ni garantizan completamente ACID (atomicidad, coherencia, aislamiento y durabilidad), y habitualmente escalan bien horizontalmente
  • 12. Tipos de motores NoSQL Los tipos de motores NoSQL más importantes son: ●Tabulares u Orientados a Columnas (Ej. HBase, Cassandra) ●Orientados a documentos (Ej. MongoDB) ●De clave-valor (Ej. Redis) ●Orientados a grafos (Ej. Neo4J)
  • 14. Hadoop ●Apache Hadoop es un marco de trabajo que facilita la computación distribuida para grandes conjuntos de datos sobre clusters de máquinas utilizando modelos de programación sencillos. ●Fue diseñado para escalar rápidamente y está compuesto por los siguientes módulos: ● Hadoop Common. Utilidades comunes usadas por todos los módulos. ● Hadoop Distributed File System (HDFS). Un sistema de archivos distribuido que provee un alto rendimiento en el acceso a datos. ● Hadoop YARN (Yet Another Resource Negotiator). Un marco de trabajo para planificación de trabajos (jobs) y gestión de los recursos de cluster. ● Hadoop MapReduce. Un systema basado en YARN para el procesamiento de grandes volúmenes de datos.
  • 15. Hadoop Aparte de los módulos mencionados anteriormente, hay un conjunto de tecnologías relacionadas al proyecto. Algunas de las más importantes: ● Pig. Lenguaje de flujo de datos para consultar HDFS o HBase. Las sentencias son traducidas a MapReduce. ● Hive. Interfaz SQL para consultar HDFS o HBase. Las sentencias son traducidas a MapReduce. ● HBase. Manejador de Bases de Datos NoSQL tabular que provee acceso aleatorio rápido, sobre HDFS y soporta MapReduce. ● Sqoop. Permite transferir datos entre RDBMS y Hadoop. ● Oozie. Automatiza la gestión de trabajos (jobs). ● Flume. Herramientas de agregación distribuida. ● Avro. Sistema de serialización de datos flexible basado en JSON. ● Mahout. Librería scalable de Aprendizaje Automático (Machine Learning).
  • 20. Pig ●Pig provee una herramienta para el procesamiento de datasets a través de transformaciones. Las diferentes transformaciones son traducidas a operaciones MapReduce. ●Pig tiene dos componentes: el lenguaje (PigLatin) y el entorno de ejecución (sobre Hadoop). ●Pig posee un intérprete de comandos llamado Grunt, aunque también permite scripts y modo embebido (nativo Java) ●El lenguaje permite utilizar estructuras, sentencias, expresiones, tipos, esquemas, funciones predefinidas, macros (procedimientos) y funciones definidas por el usuario.
  • 21. Hive ●Apache Hive permite realizar búsquedas y gestionar grandes conjuntos de datos almacenados de forma distribuida. ●Provee un mecanismo que permite proyectar la data de forma estructurada y consultarla a través de sentencias pseudo SQL (HiveQL). ●El lenguaje también permite a los programadores de MapReduce incluir mappers y reducers personalizados cuando es inconveniente o ineficiente expresar la lógica a través de HiveQL.
  • 22. HBase ●Motor NoSQL Orientado a Columnas, específicamente a familia de columnas. Cada fila contiene un conjunto de columnas pertenecientes a una familia. ●Funciona sobre HDFS y ZooKeeper. ●Ofrece acceso aleatorio garantizando alta disponibilidad ●Se pueden agregar dinámicamente nuevas columnas siempre y cuando pertenezcan a familias previamente definidas. ●Las tablas son particionadas horizontalmente automáticamente en regiones. ●Las actualizaciones de filas son atómicas.
  • 23. HBase