M04 09 20_v05_plataformas_bd

•

0 recomendaciones•50 vistas

russellmrr

Plataformas para Big Data

Datos y análisis

Sistemas de Big Data
Ricardo García Ródenas
Ricardo.Garcia@uclm.es
Plataformas para BD

Plataformas
BD
Arquitectura BD
Aplicación Web
Inges0ón
de datos
Aplicación
Procesamiento
Aplicación
Aprendizaje
Automá0co
Motor
de
Búsqueda

Plataformas
BD ▪ Apache Software Foundation
(Código abierto)
▪ Procesamiento batch
▪ MapReduce. Capacidad de
procesar gran cantidad datos
Características

Plataformas
BD ▪ Escalabilidad
▪ Tolerancia a fallos
▪ Flexibilidad
Características

Plataformas
BD
▪ No recurisvidad ni interactividad
▪ Coste de inicio
▪ Múltiples fases Map/Reduce
▪ Múltiples archivos
Retos

Plataformas
BD
▪ Falta programadores
▪ Conocimientos Java
▪ SQL+ Hadoop
▪ Administración arte y ciencia
Retos

Plataformas
BD
▪ Seguridad de datos
▪ Gestión y gobierno de los datos
Retos

Plataformas
BD
▪ HDFS (Hadoop distributed file
system)
▪ YARN (Yet Another Resource
Negotiator)
Módulos

Plataformas
BD
▪ HDFS (Hadoop distributed file
system)
▪ Sistema archivos distribuido
▪ Replicación bloques
▪ YARN (Yet Another Resource
Negotiator)
▪ ResourceManager
▪ ApplicationMaster (tareas
MapReduce)
Módulos
▪ HDFS (Hadoop distributed file
system)
▪ YARN (Yet Another Resource
Negotiator)

Aplicación Web
Inges0ón
de datos
Aplicación
Procesamiento
Aplicación
Aprendizaje
Automá0co
Motor
de
Búsqueda
HDFS
YARN MapReduce
Motor

Plataformas
BD
▪ Procesamiento batch, streaming
y en linea
▪ Código abierto
▪ Procesamiento iterativo de
algoritmos aprendizaje
automático
Características

Plataformas
BD
▪ Alto rendimiento
▪ Computación en memoria.
Eliminación del uso del disco
de los resultados intermedio
▪ DAG (optimización etapas
Map/Reduce)
Características

Plataformas
BD
▪ Facilidad de programación
▪ Python
▪ R
▪ Scala
▪ Java
▪ SQL
Características

Plataformas
BD
RDD
▪ RDD Resilent Distributed
Datasets
▪ Estructura de datos
distribuida
▪ Partición (unidad atómica
situada en un nodo)
▪ RDD es colección de
particiones
▪ Coloca automáticamente
operaciones en RDDs
▪ Tolerante a fallos

Streaming
the batch system to be processed. Some MapReduce implementations, especially real-time o
Spark and GridGain support this technique. In Spark the streaming support is called discretized
or DStream which is represented as a sequence of RDDs. A schematic of stream processing in S
given in Figure 2. The in-memory computing feature of Spark enables it to compute data
quicker than Hadoop. However, this technique is not adequate for the demands of a true stream
Furthermore, the MapReduce model is not suitable for stream processing.
Figure 2. Schematic of stream processing in Spark.
Currently, there are a few stream processing frameworks that are inherently designed for b
streams. Two notable ones are Storm from Twitter, and S4 from Yahoo [27]. Both frameworks
the Java Virtual Machine (JVM) and both process keyed streams. However, the programming m
the frameworks is different. In S4, a program is defined in terms of a graph of Processing E
(PE) and S4 instantiates a PE per each key. On the other hand, in Storm, a program is defined
Flujo de
Datos
Lotes
datos
Entrada
Lotes
datos
Procesados
Dstream (RDD)

Ecosistema
Spark SQL+
DataFrame Streaming MLlib GraphX
Spark Engine API
R Java
Python Scala SQL

Aplicación Web
Inges0ón
de datos
Aplicación
Procesamiento
Aplicación
Aprendizaje
Automá0co
Motor
de
Búsqueda
RDD
HDFS
Motor

Similitudes/
diferencias
▪ Diferencias
▪ En memoria / en disco
▪ DAG optimizado / manual
▪ Características comunes
▪ Localidad datos
▪ Ejecución en etapas
▪ HDFS para la persistencia en
disco

Más contenido relacionado

La actualidad más candente

Sgbd y tecnologias que usan las principaleslenar

Hadoopcamposer

Introducción a Azure DocumentDBJoseph Lopez

Nuevos escenarios BI con SQL Server 2014Ruben Pertusa Lopez

ARQCONF2015: Creando una Arquitectura Moderna para Big Data AnalyticsGustavo Arjones

Microsoft Azure SQL DatabaseJoseph Lopez

La actualidad más candente (6)

Sgbd y tecnologias que usan las principales

Hadoop

Introducción a Azure DocumentDB

Nuevos escenarios BI con SQL Server 2014

ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics

Microsoft Azure SQL Database

Similar a M04 09 20_v05_plataformas_bd

Herramientas de visualización de datosBBVA API Market

G te c sesion3b- mapreduceVictoria López

Introduccion a Apache SparkGustavo Arjones

Introducción a hadoopCarlos Meseguer Gimenez

Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?Fernando Alfonso Casas De la Torre

Congreso Academy Journal Celaya 2017Fernando Alfonso Casas De la Torre

Introducción a Apache SparkSocialmetrix

Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez

Big data, Hadoop, HDInsightGustavo Alzate Sandoval

Hadoop, Cloud y Spring Miguel Pastor

2016 ULL Cabildo KEEDIO - KEEDIO DATA STACKKEEDIO

Herramientas para computación distribuida. De Hadoop a SparkJose Manuel Ortega Candel

SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ

Arquitectura LambdaIsrael Gaytan

Programación DisribuidaJonathan Narvaez

Integración de Datos sin límites con PentahoDatalytics

Big Data Mining with MahoutSolidQ

¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix

Spark Hands-onGaspar Muñoz Soria

Big data y las apis CloudAppi

Similar a M04 09 20_v05_plataformas_bd (20)

Herramientas de visualización de datos

G te c sesion3b- mapreduce

Introduccion a Apache Spark

Introducción a hadoop

Spark: una chispa con la velocidad del rayo ¿el sustituto de Hadoop?

Congreso Academy Journal Celaya 2017

Introducción a Apache Spark

Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...

Big data, Hadoop, HDInsight

Hadoop, Cloud y Spring

2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK

Herramientas para computación distribuida. De Hadoop a Spark

SolidQ Business Analytics Day | Como de grandes son tus datos

Arquitectura Lambda

Programación Disribuida

Integración de Datos sin límites con Pentaho

Big Data Mining with Mahout

¿Por que cambiar de Apache Hadoop a Apache Spark?

Spark Hands-on

Big data y las apis

Más de russellmrr

M04 09 13_v04_actvidad_complejidad_computacionalrussellmrr

M04 09 13_v03_complejidad computacionalrussellmrr

M04 09 20_v07_proyectos_bdrussellmrr

M4 sbd s01russellmrr

M04 09 13_v08_visualizacionrussellmrr

M04 09 13_v07_extracción_informacion_datos_no_si_estructuradosrussellmrr

M04 09 13_v06_proceso_extracción_informaciónrussellmrr

M04 09 13_v05_actividad_divides y vencerasrussellmrr

M4 sbd s01russellmrr

M04 09 20_v04_procesamiento_streaming_tiempo_realrussellmrr

M04 09 20_v06_aplicaciones_bdrussellmrr

M04 09 20_v01_arquitectura_sbdrussellmrr

Más de russellmrr (12)

M04 09 13_v04_actvidad_complejidad_computacional

M04 09 13_v03_complejidad computacional

M04 09 20_v07_proyectos_bd

M4 sbd s01

M04 09 13_v08_visualizacion

M04 09 13_v07_extracción_informacion_datos_no_si_estructurados

M04 09 13_v06_proceso_extracción_información

M04 09 13_v05_actividad_divides y venceras

M4 sbd s01

M04 09 20_v04_procesamiento_streaming_tiempo_real

M04 09 20_v06_aplicaciones_bd

M04 09 20_v01_arquitectura_sbd

Último

LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1

PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILeluniversocom

CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI

Croquis de riesgo de trabajo gasolinera.pdfhernestosoto82

La importancia de las pruebas de producto para tu empresamerca6

PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILeluniversocom

17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16

HABILESASAMBLEA Para negocios independientes.pdfGEINER22

Análisis de un mapa de riesgos de una tortillería yocelynsanchezerasmo

Módulo mapa de riesgos de tienda de abarrotessald071205mmcnrna9

El sistema solar el gran descubrimiento del sistema solar .pptxYoladsCabarcasTous

ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptxKatherineFabianLoza1

que son los planes de ordenamiento predial POP.pptxSergiothaine2

tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo

Mapa de riesgos de un taller mecánico 405rodrimarxim

DIPLOMA DE CERTIFICADO EQQW_removed.pptxKaterin yanac tello

Presentación informe 'Fondos Next Generation European Union destinados a actu...Ivie

REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos

Niveles de organización biologica clase de biologiatongailustraconcienc

REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos

M04 09 20_v05_plataformas_bd

1. Sistemas de Big Data Ricardo García Ródenas Ricardo.Garcia@uclm.es Plataformas para BD

2. Plataformas BD Arquitectura BD Aplicación Web Inges0ón de datos Aplicación Procesamiento Aplicación Aprendizaje Automá0co Motor de Búsqueda

3. Plataformas BD ▪ Apache Software Foundation (Código abierto) ▪ Procesamiento batch ▪ MapReduce. Capacidad de procesar gran cantidad datos Características

4. Plataformas BD ▪ Escalabilidad ▪ Tolerancia a fallos ▪ Flexibilidad Características

5. Plataformas BD ▪ No recurisvidad ni interactividad ▪ Coste de inicio ▪ Múltiples fases Map/Reduce ▪ Múltiples archivos Retos

6. Plataformas BD ▪ Falta programadores ▪ Conocimientos Java ▪ SQL+ Hadoop ▪ Administración arte y ciencia Retos

7. Plataformas BD ▪ Seguridad de datos ▪ Gestión y gobierno de los datos Retos

8. Plataformas BD ▪ HDFS (Hadoop distributed file system) ▪ YARN (Yet Another Resource Negotiator) Módulos

9. Plataformas BD ▪ HDFS (Hadoop distributed file system) ▪ Sistema archivos distribuido ▪ Replicación bloques ▪ YARN (Yet Another Resource Negotiator) ▪ ResourceManager ▪ ApplicationMaster (tareas MapReduce) Módulos ▪ HDFS (Hadoop distributed file system) ▪ YARN (Yet Another Resource Negotiator)

10. Aplicación Web Inges0ón de datos Aplicación Procesamiento Aplicación Aprendizaje Automá0co Motor de Búsqueda HDFS YARN MapReduce Motor

11. Plataformas BD ▪ Procesamiento batch, streaming y en linea ▪ Código abierto ▪ Procesamiento iterativo de algoritmos aprendizaje automático Características

12. Plataformas BD ▪ Alto rendimiento ▪ Computación en memoria. Eliminación del uso del disco de los resultados intermedio ▪ DAG (optimización etapas Map/Reduce) Características

13. Plataformas BD ▪ Facilidad de programación ▪ Python ▪ R ▪ Scala ▪ Java ▪ SQL Características

14. Plataformas BD RDD ▪ RDD Resilent Distributed Datasets ▪ Estructura de datos distribuida ▪ Partición (unidad atómica situada en un nodo) ▪ RDD es colección de particiones ▪ Coloca automáticamente operaciones en RDDs ▪ Tolerante a fallos

15. Streaming the batch system to be processed. Some MapReduce implementations, especially real-time o Spark and GridGain support this technique. In Spark the streaming support is called discretized or DStream which is represented as a sequence of RDDs. A schematic of stream processing in S given in Figure 2. The in-memory computing feature of Spark enables it to compute data quicker than Hadoop. However, this technique is not adequate for the demands of a true stream Furthermore, the MapReduce model is not suitable for stream processing. Figure 2. Schematic of stream processing in Spark. Currently, there are a few stream processing frameworks that are inherently designed for b streams. Two notable ones are Storm from Twitter, and S4 from Yahoo [27]. Both frameworks the Java Virtual Machine (JVM) and both process keyed streams. However, the programming m the frameworks is different. In S4, a program is defined in terms of a graph of Processing E (PE) and S4 instantiates a PE per each key. On the other hand, in Storm, a program is defined Flujo de Datos Lotes datos Entrada Lotes datos Procesados Dstream (RDD)

16. Ecosistema Spark SQL+ DataFrame Streaming MLlib GraphX Spark Engine API R Java Python Scala SQL

17. Aplicación Web Inges0ón de datos Aplicación Procesamiento Aplicación Aprendizaje Automá0co Motor de Búsqueda RDD HDFS Motor

18. Similitudes/ diferencias ▪ Diferencias ▪ En memoria / en disco ▪ DAG optimizado / manual ▪ Características comunes ▪ Localidad datos ▪ Ejecución en etapas ▪ HDFS para la persistencia en disco

19. Sistemas de Big Data Ricardo García Ródenas Ricardo.Garcia@uclm.es Plataformas para BD

M04 09 20_v05_plataformas_bd

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (6)

Similar a M04 09 20_v05_plataformas_bd

Similar a M04 09 20_v05_plataformas_bd (20)

Más de russellmrr

Más de russellmrr (12)

Último

Último (20)

M04 09 20_v05_plataformas_bd