SlideShare una empresa de Scribd logo
¿Es posible la convergencia HPC y Big Data?
Lecciones aprendidas de los sistemas de E/S
María S. Pérez
mperez@fi.upm.es
DIAPOSITIVA 0
Seminarios UCM, 11/04/2019 DIAPOSITIVA 1
• Introducción
• Contexto
• Problema general de convergencia HPC-
Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
Seminarios UCM, 11/04/2019 DIAPOSITIVA 2
Divergencia DA-CS
Source: Big Data and Extreme-Scale Computing, BDEC
Seminarios UCM, 11/04/2019 DIAPOSITIVA 3
Divergencia a nivel de hardware y arquitectura
Source: “Creating synergies across HPC & Big Data platforms”, BDVA-ETP4HPC White Paper
Seminarios UCM, 11/04/2019 DIAPOSITIVA 4
Diferencias históricas entre BD y HPC
Carga de trabajo típica Principios de diseño
Big Data Aplicaciones intensivas en
datos
La mayoría del tiempo de
ejecución es dedicado a E/S y
manipulación de datos
Optimizado para coste
Menor prioridad al
rendimiento
(IOPS)
HPC Aplicaciones intensivas en
cómputo
La mayoría del tiempo de
ejecución es dedicado a
computación
Optimizado para rendimiento
Menor prioridad al coste
(FLOPS)
Seminarios UCM, 11/04/2019 DIAPOSITIVA 5
Interés en la convergencia
Seminarios UCM, 11/04/2019 DIAPOSITIVA 6
• Introducción
• Contexto
• Problema general de convergencia HPC-
Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
Seminarios UCM, 11/04/2019 DIAPOSITIVA 7
BDVA (~200) members include large
industries, SMEs, research
organisations and data users and
providers to support the development
and deployment of the EU Big Data
Value Public-Private Partnership with
the European Commission
BDVA focuses its activities on updating the multi-annual
roadmap and on providing regular advice to enable the European
Commission to prepare, draft and adopt the periodic Work
Programmes, as well as on delivering Data Innovation
Recommendations, developing Big Data Value
Ecosystem, guiding Standards, and, facilitating Know-how
exchange.
Seminarios UCM, 11/04/2019
TF4:Communication
TF3:Ecosystem
TF2: Impact
DIAPOSITIVA 8
TF1: Programme
TF5:
Policy &
Societal
Policy &
Societal
TF6:
Technical
Data Science/AI
(Analytics
visualization)
Data Technology
Architectures
HPC-Big Data
Data Protection and
Pseudonymisation
Mechanisms
Standardisation
Data Benchmarking
TF7:
Application
Telecom
Healthcare
Media
Earth observation &
geospatial
Smart Manufacturing
Industry
Mobility and Logistics
Smart Governance and
Smart Cities
Agri
TF8:
Business
Data
entrepreneurs
(SMEs and
startups)
Transforming
traditional
business
(Large
Enterprise)
Observatory
on Data
Business
Models
TF9:
Skills and
Education
Skill
requirements
from European
industries
Liaison with
existing
educational
projects
Analysis of
current
curricula
related to data
science
BDVA Task Forces
Seminarios UCM, 11/04/2019 DIAPOSITIVA 9
EuroHPC Joint Undertaking
https://eurohpc-ju.europa.eu
Seminarios UCM, 11/04/2019 DIAPOSITIVA 10
CABAHLA-CM: Convergencia BD-HPC: de
los sensores a las aplicaciones
• Proyecto financiado por la Comunidad de Madrid, ayudas para la
realización de programas de actividades de I+D entre grupos de
investigación de la Comunidad de Madrid en tecnologías y en biomedicina
(2019-2022)
• 4 grupos:
– ArTeCS, Universidad Complutense de Madrid
– ARCOS, Universidad Carlos III de Madrid
– SciTrack, Centro de Investigaciones Energéticas, Medioambientales y Tecnológicas
– OEG, Universidad Politécnica de Madrid
• Objetivo: Mejorar la integración de los paradigmas de HPC y Big Data
– Plataforma intensiva en computación y datos
– Dos casos de uso: captación y modelado de datos de sensores para la predicción de
radiación solar con alta resolución espacio-temporal y procesamiento de datos masivos en
imagen médica del cerebro
Seminarios UCM, 11/04/2019 DIAPOSITIVA 11
• Introducción
• Contexto
• Problema general de convergencia
HPC-Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
Seminarios UCM, 11/04/2019 DIAPOSITIVA 12
Traditional Big Data Extreme Data Analytics
Enterprise IT HPC
Data-intensive	workloads
[Example]	Inferring	new	
insights	from	big	data-sets	
e.g.	pattern	recognition	
across	suppliers,	consumers,	
etc	for	data-driven	insights	
and	innovation
‘Regular’	workloads
[Example]	Running	the	
enterprise	– HR,	Legal,	
Payroll,	finance,	etc.
Compute-intensive	
workloads
[Example]	Modelling	and	
simulating	focusing	on	
interaction	amongst	parts	of	
a	system	and	the	system	as	a	
whole	e.g.	product	design
Compute- and	Data	
intensive	workloads:
[Example]	Reshaping	
healthcare	through	advanced	
analytics	and	artificial	
intelligence	– leading	to	
predictive	and	personalized	
medicine
Source: Subgroup HPC-BD BDVA
Seminarios UCM, 11/04/2019 DIAPOSITIVA 13
Estudio de aplicaciones/casos de uso
13
Source: Subgroup HPC-BD BDVA
Seminarios UCM, 11/04/2019 DIAPOSITIVA 14
14
HPC, Big Data y Deep Learning
Source: “Creating synergies across HPC & Big Data platforms”, BDVA-ETP4HPC White Paper
Seminarios UCM, 11/04/2019 DIAPOSITIVA 15
• Introducción
• Contexto
• Problema general de convergencia HPC-
Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
Seminarios UCM, 11/04/2019 DIAPOSITIVA 16
HPC a nivel de almacenamiento
Aplicación HPC
Sistema de ficheros POSIX• Lecturas y escrituras
aleatorias en fichero
• Jerarquía (directorios)
• Permisos
• Renombrado atómico
• Protección multiusuario
Seminarios UCM, 11/04/2019 DIAPOSITIVA 17
POSIX
Lecturas y escrituras aleatorias en fichero
Jerarquía (directorios)
Permisos
Renombrado atómico
Protección multiusuario
Seminarios UCM, 11/04/2019 DIAPOSITIVA 18
POSIX
Lecturas y escrituras aleatorias en fichero
Seminarios UCM, 11/04/2019 DIAPOSITIVA 19
POSIX
Lecturas y escrituras aleatorias en fichero Objetos
Seminarios UCM, 11/04/2019 DIAPOSITIVA 20
HPC a nivel de almacenamiento
Aplicación HPC
Sistema de almacenamiento
basado en objetos
Seminarios UCM, 11/04/2019 DIAPOSITIVA 21
HPC y Big Data
Aplicación HPC
Sistema de almacenamiento
basado en objetos
Aplicación Big Data
Seminarios UCM, 11/04/2019 DIAPOSITIVA 22
HPC y Big Data
Aplicación HPC
Sistema de almacenamiento
basado en objetos
Aplicación Big Data
Sistema
K/V BBDD
Sist. de
ficheros
Seminarios UCM, 11/04/2019 DIAPOSITIVA 23
HPC y Big Data
Aplicación HPC
Sistema de almacenamiento
basado en objetos
Sistema
K/V BBDD
Sistema de ficheros
Aplicación Big Data
Seminarios UCM, 11/04/2019 DIAPOSITIVA 24
HPC y Big Data
Aplicación HPC
Sistema de almacenamiento
basado en objetos
Sistema
K/V BBDD
Sistema de almacenamiento
basado en objetos
Aplicación Big Data
Seminarios UCM, 11/04/2019 DIAPOSITIVA 25
HPC y Big Data
Aplicación HPC
Sistema de almacenamiento basado en objetos convergente
Sistema
K/V BBDD
Aplicación Big Data
Seminarios UCM, 11/04/2019 DIAPOSITIVA 26
Pila de almacenamiento actual
Biblioteca de E/S
App
HPC
App
HPC
App
HPC
SFP HPC
App
BD
App
BD
App
BD
Framework Big Data
SFD Big Data
Llamadas bib E/S-
Framework BD
Llamadas tipo
POSIX
Seminarios UCM, 11/04/2019 DIAPOSITIVA 27
Pila de almacenamiento actual
Biblioteca de E/S
App
HPC
App
HPC
App
HPC
Adaptador HPC
App
BD
App
BD
App
BD
Framework Big Data
Adaptador Big Data
Llamadas bib E/S-
Framework BD
Llamadas tipo
POSIX
Sistema de almacenamiento basado en objetos convergente
Seminarios UCM, 11/04/2019 DIAPOSITIVA 28
• Introducción
• Contexto
• Problema general de convergencia HPC-
Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
Seminarios UCM, 11/04/2019 DIAPOSITIVA 29
Primitivas orientadas a objetos
• Acceso al objeto: lectura (read) aleatoria del objeto, tamaño (size) del
objeto
• Manipulación del objeto: escritura (write) aleatoria del objeto,
truncado (truncate)
• Gestión del objeto: crear objetos (create), borrar objetos (delete)
• Estas operaciones son similares a las operaciones POSIX básicas
sobre un fichero
• Las operaciones a nivel de directorio no tienen contrapartida a nivel
de objeto:
– Bajo número de este tipo de operaciones
– Se pueden emular mediante la operación “scan” (operación poco
eficiente, pero compensado por el hecho de utilizar un espacio de
nombres plano y una semántica más sencilla)
Seminarios UCM, 11/04/2019 DIAPOSITIVA 30
Estudio sobre aplicaciones HPC/BD
Plataforma Aplicación Uso Lecturas Escrituras Ratio R/W Perfil
HPC/MPI
mpiBLAST Protein
docking
27.7 GB 12.8 MB 2.2*10^3 Read-intensive
MOM Oceanic
model
19.5 GB 3.2 GB 6.09 Read-intensive
ECOHAM Sediment
propagation
67.4 GB 71.2 GB 0.94 Balanced
Ray Tracing Video
processing
0.4 GB 9.7 GB 4.1*10^-2 Write-intensive
Cloud/Spark
Sort Text
processing
5.8 GB 5.8 GB 1.00 Balanced
Connected
Component
Graph
processing
13.1 GB 71.2 MB 1.8*10^2 Read-intensive
Grep Text
processing
55.8 GB 863.8 MB 66.14 Read-intensive
Decision
Tree
Machine
Learning
59.1 GB 4.7 GB 12.57 Read-intensive
Tokenizer Text
processing
55.8 GB 235.7 GB 0.23 Write-intensive
Pierre Matri, Yevhen Alforov, Álvaro Brandón, María S. Pérez et al. Mission possible: Unify HPC and Big Data stacks
towards application-defined blobs at the storage layer. Future Generation Computer Systems, In press.
Seminarios UCM, 11/04/2019 DIAPOSITIVA 31
Distribución de operaciones
Seminarios UCM, 11/04/2019 DIAPOSITIVA 32
Operaciones sobre directorios (App BD)
Operación Acción Núm.
Oper.
mkdir Crear directorio 43
rmdir Borrar directorio 43
opendir
(directorio
datos)
Abrir directorio 5
Opendir
(otros
directorios)
Abrir directorio 0
Operación original Operación reescrita
create(/foo/bar) create(/foo__bar)
open(/foo/bar) open(/foo__bar)
read(fd) read(bd)
write(fd) write(bd)
mkdir(/foo) -----
opendir(/foo)
scan(/), devolver
todos los ficheros que
encajan con foo__*
rmdir(/foo) scan(/), borrar todos
los ficheros que
encajan con foo__*
Seminarios UCM, 11/04/2019 DIAPOSITIVA 33
Influencia de las operaciones sobre directorios
Seminarios UCM, 11/04/2019 DIAPOSITIVA 34
BlobSeer/RADOS vs Lustre (HPC) and HDFS/Ceph (BD)
• Grid’5000 testbed distribuido en 11 sitios en Francia y Luxemburgo
(parapluie cluster, Rennes)
• Cada nodo: 2 x 12-core 1.7 Ghz 6164 HE, 48 GB of RAM y 250 GB
HDD.
• Apps HPC: Lustre 2.9.0 y MPICH 3.2 [67], en un cluster de 32 nodos
(InfiniBand)
• Apps BD: Spark 2.1.0, Hadoop / HDFS 2.7.3 and Ceph Kraken, en un
cluster de 32 nodos (Gigabit Ethernet)
Seminarios UCM, 11/04/2019 DIAPOSITIVA 35
BlobSeer
Bogdan Nicolae; Gabriel Antoniu; Luc Bougé; Diana Moise; Alexandra Carpen-Amarie. 2011. BlobSeer: Next-generation
data management for large scale infrastructures. J. Parallel Distrib. Comput. 71, 2 (February 2011), 169-184.
Seminarios UCM, 11/04/2019 DIAPOSITIVA 36
RADOS/Ceph
ceph.com
Seminarios UCM, 11/04/2019 DIAPOSITIVA 37
Lustre
Source: lustre.org
Seminarios UCM, 11/04/2019 DIAPOSITIVA 38
HDFS
Source: hadoop.apache.org
Seminarios UCM, 11/04/2019 DIAPOSITIVA 39
Aplicaciones HPC
Seminarios UCM, 11/04/2019 DIAPOSITIVA 40
Aplicaciones BD
Seminarios UCM, 11/04/2019 DIAPOSITIVA 41
Análisis del estudio
• La convergencia a nivel de almacenamiento es posible mediante
el uso de almacenamiento basado en objetos, llevando a una
mejora en el rendimiento para ambos tipos de plataformas (HPC y
Cloud)
• Utilizando objetos, se consigue una mejora de hasta el 32%
– Principalmente por el espacio de nombres plano
– Rados: capacidad de lectura directa y esquema sencillo y
descentralizado de gestión de metadatos (gran rendimiento para
lecturas)
– BlobSeer: control de concurrencia multi-versión da soporte a gran
velocidad de escritura para cargas de trabajo altamente concurrentes
(gran rendimiento para escrituras)
• Problemas de ambos sistemas:
– Aunque el rendimiento de Rados es excelente cuando hay baja
contención de escritura, su control de concurrencia basado en
cerrojos limita el rendimiento de casos de uso altamente concurrentes.
– El control de concurrencia multi-versión de BlobSeer da buen soporte de
escritura, pero el árbol de metadatos distribuidos de BlobSeer supone
una latencia de lectura significativa
Seminarios UCM, 11/04/2019 DIAPOSITIVA 42
Týr
• ¿Se pueden lograr los beneficios de ambos sistemas?
• Además de combinar las ventajas de Rados y BlobSeer, hay un
conjunto significativo de casos de uso que requieren semánticas de
consistencia más estrictas
– Indexación y agregación de datos (Ejemplo: ALICE CERN LHC
experiment)
– Distributed shared logs (Ejemplo: Computational steering + in-situ
visualization)
Seminarios UCM, 11/04/2019 DIAPOSITIVA 43
Týr
Pierre Matri; Alexandru Costan; Gabriel Antoniu; Jesús Montes; María S. Pérez. "Týr: Blob StorageSystems Meet Built-
In Transactions". SC '16 Proceedings of the International Conference for High Performance Computing, Networking,
Storage and Analysis. Article n. 49, Best student paper award finalist
Seminarios UCM, 11/04/2019 DIAPOSITIVA 44
Týr
Pierre Matri; Philip Carns; Robert Ross; Alexandru Costan; María S. Pérez; Gabriel Antoniu;. ”SLoG: A large-scale
Logging Middleware for HPC and Big Data convergence”. ICDCS’2018. pp. 1507-1512, 2018.
Seminarios UCM, 11/04/2019 DIAPOSITIVA 45
Diseño de Týr
• Distribución de datos predecible
– Combinación de técnicas de data striping y consistent hashing
– Elimina la necesidad de un servidor de metadatos centralizado
• Control de concurrencia multi-versión transparente
– Se utiliza versioning a nivel de chunk y números no secuenciales para el
versionado
• Semántica transaccional ACID
– Utilizando el protocolo transaccional Warp*
– Utilizan cadenas de los servidores afectados por las transacciones y grafos de
dependencias
• Operaciones de transformación atómicas
– Eficientes operaciones read-modify-write
– Particularmente interesante cuando las operaciones de transformación son
sencillas (aritméticas, a nivel de bit)
– El cliente no comunica el nuevo dato a escribir, sino la modificación a aplicar,
evitando two-round trips
• Prototipo software con aproximadamente 25,000 líneas de código Rust y
GNU C
* R. Escriva, B. Wong and E. Sirer. Warp: Lightweight multi-key transactions for key-value stores. arXiv preprint
arXiv:1509.07815, 2015.
Seminarios UCM, 11/04/2019 DIAPOSITIVA 46
Aplicaciones HPC
Seminarios UCM, 11/04/2019 DIAPOSITIVA 47
Aplicaciones BD
Seminarios UCM, 11/04/2019 DIAPOSITIVA 48
• Introducción
• Contexto
• Problema general de convergencia HPC-
Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
Seminarios UCM, 11/04/2019 DIAPOSITIVA 49
Conclusiones y líneas de futuro
• El diseño de Týr supera significativamente BlobSeer y sistemas
de ficheros tradicionales, tanto para aplicaciones HPC como BDA
– Escrituras no bloqueantes, mediante el uso de control de concurrencia
multi-versión
– Escrituras directas utilizando técnicas de consistent hashing
• Týr sufre una pequeña penalización respecto a Rados
– Excepto para aplicaciones intensivas en escritura, debido a la
eficiencia del control de concurrencia multi-versión
– Resultado de unas garantías de consistencia más fuerte
(transacciones)
• Este es un primer paso sobre el que se puede trabajar para la
convergencia HPC y BDA a otros niveles, más allá del
almacenamiento
¿Es posible la convergencia HPC y Big Data?
Lecciones aprendidas de los sistemas de E/S
María S. Pérez
mperez@fi.upm.es
DIAPOSITIVA 50

Más contenido relacionado

Similar a ¿Es posible la convergencia HPC y Big Data? Lecciones aprendidas de los sistemas de E/S

Guia2
Guia2Guia2
Base de Datos - Daniela Monsalve
Base de Datos - Daniela MonsalveBase de Datos - Daniela Monsalve
Base de Datos - Daniela Monsalve
DaniiMonsalveMarquez
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
DaniiJulieth
 
CAMPI
CAMPICAMPI
Daniel diapositiva (1)
Daniel diapositiva (1)Daniel diapositiva (1)
Daniel diapositiva (1)
apomel
 
Capitulo 11
Capitulo 11Capitulo 11
Computacion en la nube
Computacion en la nubeComputacion en la nube
Computacion en la nube
alejandro Molina
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los Datos
Oscar Corcho
 
Cisco campus technology_whitpaper (1)
Cisco campus technology_whitpaper (1)Cisco campus technology_whitpaper (1)
Cisco campus technology_whitpaper (1)
Universidad Tecnológica del Perú
 
Cisco campus technology_whitpaper
Cisco campus technology_whitpaperCisco campus technology_whitpaper
Cisco campus technology_whitpaper
Universidad Tecnológica del Perú
 
Cisco campus technology_whitpaper
Cisco campus technology_whitpaperCisco campus technology_whitpaper
Cisco campus technology_whitpaper
eduardohb32
 
Diapositivas de red
Diapositivas de redDiapositivas de red
Diapositivas de red
erlinda mego arteaga
 
FORMATO SYLLABUS TALLER DE REDES-01-2023.doc
FORMATO SYLLABUS TALLER DE REDES-01-2023.docFORMATO SYLLABUS TALLER DE REDES-01-2023.doc
FORMATO SYLLABUS TALLER DE REDES-01-2023.doc
Rodrigo Amaya
 
Taller base de datos paula andrea rojas fonseca 11
Taller base de datos paula andrea rojas fonseca 11Taller base de datos paula andrea rojas fonseca 11
Taller base de datos paula andrea rojas fonseca 11
paulitarojas
 
eanor. orozco alvarado
eanor. orozco alvaradoeanor. orozco alvarado
eanor. orozco alvarado
papushoorozco
 
orozco alvarado
orozco alvaradoorozco alvarado
orozco alvarado
papushoorozco
 
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoRetos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Javier Mijail Espadas Pech
 
Cloud computing
Cloud computingCloud computing
Cloud computing
Andhrsn Naranjo
 
Cloud computing
Cloud computingCloud computing
Cloud computing
Andhrsn Naranjo
 
Cuaderno practico aplicacionesinformaticas
Cuaderno practico aplicacionesinformaticasCuaderno practico aplicacionesinformaticas
Cuaderno practico aplicacionesinformaticas
Newstartlife
 

Similar a ¿Es posible la convergencia HPC y Big Data? Lecciones aprendidas de los sistemas de E/S (20)

Guia2
Guia2Guia2
Guia2
 
Base de Datos - Daniela Monsalve
Base de Datos - Daniela MonsalveBase de Datos - Daniela Monsalve
Base de Datos - Daniela Monsalve
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
CAMPI
CAMPICAMPI
CAMPI
 
Daniel diapositiva (1)
Daniel diapositiva (1)Daniel diapositiva (1)
Daniel diapositiva (1)
 
Capitulo 11
Capitulo 11Capitulo 11
Capitulo 11
 
Computacion en la nube
Computacion en la nubeComputacion en la nube
Computacion en la nube
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los Datos
 
Cisco campus technology_whitpaper (1)
Cisco campus technology_whitpaper (1)Cisco campus technology_whitpaper (1)
Cisco campus technology_whitpaper (1)
 
Cisco campus technology_whitpaper
Cisco campus technology_whitpaperCisco campus technology_whitpaper
Cisco campus technology_whitpaper
 
Cisco campus technology_whitpaper
Cisco campus technology_whitpaperCisco campus technology_whitpaper
Cisco campus technology_whitpaper
 
Diapositivas de red
Diapositivas de redDiapositivas de red
Diapositivas de red
 
FORMATO SYLLABUS TALLER DE REDES-01-2023.doc
FORMATO SYLLABUS TALLER DE REDES-01-2023.docFORMATO SYLLABUS TALLER DE REDES-01-2023.doc
FORMATO SYLLABUS TALLER DE REDES-01-2023.doc
 
Taller base de datos paula andrea rojas fonseca 11
Taller base de datos paula andrea rojas fonseca 11Taller base de datos paula andrea rojas fonseca 11
Taller base de datos paula andrea rojas fonseca 11
 
eanor. orozco alvarado
eanor. orozco alvaradoeanor. orozco alvarado
eanor. orozco alvarado
 
orozco alvarado
orozco alvaradoorozco alvarado
orozco alvarado
 
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoRetos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
Cuaderno practico aplicacionesinformaticas
Cuaderno practico aplicacionesinformaticasCuaderno practico aplicacionesinformaticas
Cuaderno practico aplicacionesinformaticas
 

Más de Facultad de Informática UCM

¿Por qué debemos seguir trabajando en álgebra lineal?
¿Por qué debemos seguir trabajando en álgebra lineal?¿Por qué debemos seguir trabajando en álgebra lineal?
¿Por qué debemos seguir trabajando en álgebra lineal?
Facultad de Informática UCM
 
TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...
TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...
TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...
Facultad de Informática UCM
 
DRAC: Designing RISC-V-based Accelerators for next generation Computers
DRAC: Designing RISC-V-based Accelerators for next generation ComputersDRAC: Designing RISC-V-based Accelerators for next generation Computers
DRAC: Designing RISC-V-based Accelerators for next generation Computers
Facultad de Informática UCM
 
uElectronics ongoing activities at ESA
uElectronics ongoing activities at ESAuElectronics ongoing activities at ESA
uElectronics ongoing activities at ESA
Facultad de Informática UCM
 
Tendencias en el diseño de procesadores con arquitectura Arm
Tendencias en el diseño de procesadores con arquitectura ArmTendencias en el diseño de procesadores con arquitectura Arm
Tendencias en el diseño de procesadores con arquitectura Arm
Facultad de Informática UCM
 
Formalizing Mathematics in Lean
Formalizing Mathematics in LeanFormalizing Mathematics in Lean
Formalizing Mathematics in Lean
Facultad de Informática UCM
 
Introduction to Quantum Computing and Quantum Service Oriented Computing
Introduction to Quantum Computing and Quantum Service Oriented ComputingIntroduction to Quantum Computing and Quantum Service Oriented Computing
Introduction to Quantum Computing and Quantum Service Oriented Computing
Facultad de Informática UCM
 
Computer Design Concepts for Machine Learning
Computer Design Concepts for Machine LearningComputer Design Concepts for Machine Learning
Computer Design Concepts for Machine Learning
Facultad de Informática UCM
 
Inteligencia Artificial en la atención sanitaria del futuro
Inteligencia Artificial en la atención sanitaria del futuroInteligencia Artificial en la atención sanitaria del futuro
Inteligencia Artificial en la atención sanitaria del futuro
Facultad de Informática UCM
 
Design Automation Approaches for Real-Time Edge Computing for Science Applic...
 Design Automation Approaches for Real-Time Edge Computing for Science Applic... Design Automation Approaches for Real-Time Edge Computing for Science Applic...
Design Automation Approaches for Real-Time Edge Computing for Science Applic...
Facultad de Informática UCM
 
Estrategias de navegación para robótica móvil de campo: caso de estudio proye...
Estrategias de navegación para robótica móvil de campo: caso de estudio proye...Estrategias de navegación para robótica móvil de campo: caso de estudio proye...
Estrategias de navegación para robótica móvil de campo: caso de estudio proye...
Facultad de Informática UCM
 
Fault-tolerance Quantum computation and Quantum Error Correction
Fault-tolerance Quantum computation and Quantum Error CorrectionFault-tolerance Quantum computation and Quantum Error Correction
Fault-tolerance Quantum computation and Quantum Error Correction
Facultad de Informática UCM
 
Cómo construir un chatbot inteligente sin morir en el intento
Cómo construir un chatbot inteligente sin morir en el intentoCómo construir un chatbot inteligente sin morir en el intento
Cómo construir un chatbot inteligente sin morir en el intento
Facultad de Informática UCM
 
Automatic generation of hardware memory architectures for HPC
Automatic generation of hardware memory architectures for HPCAutomatic generation of hardware memory architectures for HPC
Automatic generation of hardware memory architectures for HPC
Facultad de Informática UCM
 
Type and proof structures for concurrency
Type and proof structures for concurrencyType and proof structures for concurrency
Type and proof structures for concurrency
Facultad de Informática UCM
 
Hardware/software security contracts: Principled foundations for building sec...
Hardware/software security contracts: Principled foundations for building sec...Hardware/software security contracts: Principled foundations for building sec...
Hardware/software security contracts: Principled foundations for building sec...
Facultad de Informática UCM
 
Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...
Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...
Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...
Facultad de Informática UCM
 
Do you trust your artificial intelligence system?
Do you trust your artificial intelligence system?Do you trust your artificial intelligence system?
Do you trust your artificial intelligence system?
Facultad de Informática UCM
 
Redes neuronales y reinforcement learning. Aplicación en energía eólica.
Redes neuronales y reinforcement learning. Aplicación en energía eólica.Redes neuronales y reinforcement learning. Aplicación en energía eólica.
Redes neuronales y reinforcement learning. Aplicación en energía eólica.
Facultad de Informática UCM
 
Challenges and Opportunities for AI and Data analytics in Offshore wind
Challenges and Opportunities for AI and Data analytics in Offshore windChallenges and Opportunities for AI and Data analytics in Offshore wind
Challenges and Opportunities for AI and Data analytics in Offshore wind
Facultad de Informática UCM
 

Más de Facultad de Informática UCM (20)

¿Por qué debemos seguir trabajando en álgebra lineal?
¿Por qué debemos seguir trabajando en álgebra lineal?¿Por qué debemos seguir trabajando en álgebra lineal?
¿Por qué debemos seguir trabajando en álgebra lineal?
 
TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...
TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...
TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...
 
DRAC: Designing RISC-V-based Accelerators for next generation Computers
DRAC: Designing RISC-V-based Accelerators for next generation ComputersDRAC: Designing RISC-V-based Accelerators for next generation Computers
DRAC: Designing RISC-V-based Accelerators for next generation Computers
 
uElectronics ongoing activities at ESA
uElectronics ongoing activities at ESAuElectronics ongoing activities at ESA
uElectronics ongoing activities at ESA
 
Tendencias en el diseño de procesadores con arquitectura Arm
Tendencias en el diseño de procesadores con arquitectura ArmTendencias en el diseño de procesadores con arquitectura Arm
Tendencias en el diseño de procesadores con arquitectura Arm
 
Formalizing Mathematics in Lean
Formalizing Mathematics in LeanFormalizing Mathematics in Lean
Formalizing Mathematics in Lean
 
Introduction to Quantum Computing and Quantum Service Oriented Computing
Introduction to Quantum Computing and Quantum Service Oriented ComputingIntroduction to Quantum Computing and Quantum Service Oriented Computing
Introduction to Quantum Computing and Quantum Service Oriented Computing
 
Computer Design Concepts for Machine Learning
Computer Design Concepts for Machine LearningComputer Design Concepts for Machine Learning
Computer Design Concepts for Machine Learning
 
Inteligencia Artificial en la atención sanitaria del futuro
Inteligencia Artificial en la atención sanitaria del futuroInteligencia Artificial en la atención sanitaria del futuro
Inteligencia Artificial en la atención sanitaria del futuro
 
Design Automation Approaches for Real-Time Edge Computing for Science Applic...
 Design Automation Approaches for Real-Time Edge Computing for Science Applic... Design Automation Approaches for Real-Time Edge Computing for Science Applic...
Design Automation Approaches for Real-Time Edge Computing for Science Applic...
 
Estrategias de navegación para robótica móvil de campo: caso de estudio proye...
Estrategias de navegación para robótica móvil de campo: caso de estudio proye...Estrategias de navegación para robótica móvil de campo: caso de estudio proye...
Estrategias de navegación para robótica móvil de campo: caso de estudio proye...
 
Fault-tolerance Quantum computation and Quantum Error Correction
Fault-tolerance Quantum computation and Quantum Error CorrectionFault-tolerance Quantum computation and Quantum Error Correction
Fault-tolerance Quantum computation and Quantum Error Correction
 
Cómo construir un chatbot inteligente sin morir en el intento
Cómo construir un chatbot inteligente sin morir en el intentoCómo construir un chatbot inteligente sin morir en el intento
Cómo construir un chatbot inteligente sin morir en el intento
 
Automatic generation of hardware memory architectures for HPC
Automatic generation of hardware memory architectures for HPCAutomatic generation of hardware memory architectures for HPC
Automatic generation of hardware memory architectures for HPC
 
Type and proof structures for concurrency
Type and proof structures for concurrencyType and proof structures for concurrency
Type and proof structures for concurrency
 
Hardware/software security contracts: Principled foundations for building sec...
Hardware/software security contracts: Principled foundations for building sec...Hardware/software security contracts: Principled foundations for building sec...
Hardware/software security contracts: Principled foundations for building sec...
 
Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...
Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...
Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...
 
Do you trust your artificial intelligence system?
Do you trust your artificial intelligence system?Do you trust your artificial intelligence system?
Do you trust your artificial intelligence system?
 
Redes neuronales y reinforcement learning. Aplicación en energía eólica.
Redes neuronales y reinforcement learning. Aplicación en energía eólica.Redes neuronales y reinforcement learning. Aplicación en energía eólica.
Redes neuronales y reinforcement learning. Aplicación en energía eólica.
 
Challenges and Opportunities for AI and Data analytics in Offshore wind
Challenges and Opportunities for AI and Data analytics in Offshore windChallenges and Opportunities for AI and Data analytics in Offshore wind
Challenges and Opportunities for AI and Data analytics in Offshore wind
 

Último

SISTEMA AUTOMATIZADO DE LIMPIEZA PARA ACUARIOS
SISTEMA AUTOMATIZADO DE LIMPIEZA PARA ACUARIOSSISTEMA AUTOMATIZADO DE LIMPIEZA PARA ACUARIOS
SISTEMA AUTOMATIZADO DE LIMPIEZA PARA ACUARIOS
micoltadaniel2024
 
Infografía de operaciones básicas....pdf
Infografía de operaciones básicas....pdfInfografía de operaciones básicas....pdf
Infografía de operaciones básicas....pdf
jahirrtorresa
 
Rinitis alérgica-1.pdfuhycrbibxgvyvyjimomom
Rinitis alérgica-1.pdfuhycrbibxgvyvyjimomomRinitis alérgica-1.pdfuhycrbibxgvyvyjimomom
Rinitis alérgica-1.pdfuhycrbibxgvyvyjimomom
DanielaLoaeza5
 
DISEÑO DE PLANTA TIPO CELULAR - Diseño de Plantas
DISEÑO DE PLANTA TIPO CELULAR - Diseño de PlantasDISEÑO DE PLANTA TIPO CELULAR - Diseño de Plantas
DISEÑO DE PLANTA TIPO CELULAR - Diseño de Plantas
HalmarMiranda
 
1-AAP-RENAV-PyM Capacitación del Reglamento Nacional de Vehiculos.pdf
1-AAP-RENAV-PyM Capacitación del Reglamento Nacional de Vehiculos.pdf1-AAP-RENAV-PyM Capacitación del Reglamento Nacional de Vehiculos.pdf
1-AAP-RENAV-PyM Capacitación del Reglamento Nacional de Vehiculos.pdf
jlupo2024
 
Sistema de sobrealimentacion de un motor
Sistema de sobrealimentacion de un motorSistema de sobrealimentacion de un motor
Sistema de sobrealimentacion de un motor
mauriciok961
 
Libro Epanet, guía explicativa de los pasos a seguir para analizar redes hidr...
Libro Epanet, guía explicativa de los pasos a seguir para analizar redes hidr...Libro Epanet, guía explicativa de los pasos a seguir para analizar redes hidr...
Libro Epanet, guía explicativa de los pasos a seguir para analizar redes hidr...
andressalas92
 
Control de Diaphania hyalinata en campo.pptx
Control de Diaphania hyalinata en campo.pptxControl de Diaphania hyalinata en campo.pptx
Control de Diaphania hyalinata en campo.pptx
alexanderlara1198
 
Presentación- de motor a combustión -diesel.pptx
Presentación- de motor a combustión -diesel.pptxPresentación- de motor a combustión -diesel.pptx
Presentación- de motor a combustión -diesel.pptx
ronnyrocha223
 
PRESENTACION TRANSFERENCIA FABIAN ALVAREZ.pdf
PRESENTACION TRANSFERENCIA FABIAN ALVAREZ.pdfPRESENTACION TRANSFERENCIA FABIAN ALVAREZ.pdf
PRESENTACION TRANSFERENCIA FABIAN ALVAREZ.pdf
fabian28735081
 
Sesión 03 universidad cesar vallejo 2024
Sesión 03 universidad cesar vallejo 2024Sesión 03 universidad cesar vallejo 2024
Sesión 03 universidad cesar vallejo 2024
FantasticVideo1
 
Estructura de un buque, tema de estudios generales de navegación
Estructura de un buque, tema de estudios generales de navegaciónEstructura de un buque, tema de estudios generales de navegación
Estructura de un buque, tema de estudios generales de navegación
AlvaroEduardoConsola1
 
CURSO FINAL CONMINUCION-CHANCADO Y MOLIENDA
CURSO FINAL CONMINUCION-CHANCADO Y MOLIENDACURSO FINAL CONMINUCION-CHANCADO Y MOLIENDA
CURSO FINAL CONMINUCION-CHANCADO Y MOLIENDA
KruggerCossio1
 
chancadoras.............................
chancadoras.............................chancadoras.............................
chancadoras.............................
ssuser8827cb1
 
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptxS09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
yamilbailonw
 
Proceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
Proceso de obtenciòn de nitrogeno por el metodo Haber-BoshProceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
Proceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
shirllyleytonm
 
Ducto Barras para instalaciones electricas
Ducto Barras para instalaciones electricasDucto Barras para instalaciones electricas
Ducto Barras para instalaciones electricas
Edgar Najera
 
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdfEXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
hugodennis88
 
diagrama de flujo. en el área de ingeniería
diagrama de flujo. en el área de ingenieríadiagrama de flujo. en el área de ingeniería
diagrama de flujo. en el área de ingeniería
karenperalta62
 
tema alcanos cicloalcanos de quimica.pdf
tema alcanos cicloalcanos de quimica.pdftema alcanos cicloalcanos de quimica.pdf
tema alcanos cicloalcanos de quimica.pdf
veronicaluna80
 

Último (20)

SISTEMA AUTOMATIZADO DE LIMPIEZA PARA ACUARIOS
SISTEMA AUTOMATIZADO DE LIMPIEZA PARA ACUARIOSSISTEMA AUTOMATIZADO DE LIMPIEZA PARA ACUARIOS
SISTEMA AUTOMATIZADO DE LIMPIEZA PARA ACUARIOS
 
Infografía de operaciones básicas....pdf
Infografía de operaciones básicas....pdfInfografía de operaciones básicas....pdf
Infografía de operaciones básicas....pdf
 
Rinitis alérgica-1.pdfuhycrbibxgvyvyjimomom
Rinitis alérgica-1.pdfuhycrbibxgvyvyjimomomRinitis alérgica-1.pdfuhycrbibxgvyvyjimomom
Rinitis alérgica-1.pdfuhycrbibxgvyvyjimomom
 
DISEÑO DE PLANTA TIPO CELULAR - Diseño de Plantas
DISEÑO DE PLANTA TIPO CELULAR - Diseño de PlantasDISEÑO DE PLANTA TIPO CELULAR - Diseño de Plantas
DISEÑO DE PLANTA TIPO CELULAR - Diseño de Plantas
 
1-AAP-RENAV-PyM Capacitación del Reglamento Nacional de Vehiculos.pdf
1-AAP-RENAV-PyM Capacitación del Reglamento Nacional de Vehiculos.pdf1-AAP-RENAV-PyM Capacitación del Reglamento Nacional de Vehiculos.pdf
1-AAP-RENAV-PyM Capacitación del Reglamento Nacional de Vehiculos.pdf
 
Sistema de sobrealimentacion de un motor
Sistema de sobrealimentacion de un motorSistema de sobrealimentacion de un motor
Sistema de sobrealimentacion de un motor
 
Libro Epanet, guía explicativa de los pasos a seguir para analizar redes hidr...
Libro Epanet, guía explicativa de los pasos a seguir para analizar redes hidr...Libro Epanet, guía explicativa de los pasos a seguir para analizar redes hidr...
Libro Epanet, guía explicativa de los pasos a seguir para analizar redes hidr...
 
Control de Diaphania hyalinata en campo.pptx
Control de Diaphania hyalinata en campo.pptxControl de Diaphania hyalinata en campo.pptx
Control de Diaphania hyalinata en campo.pptx
 
Presentación- de motor a combustión -diesel.pptx
Presentación- de motor a combustión -diesel.pptxPresentación- de motor a combustión -diesel.pptx
Presentación- de motor a combustión -diesel.pptx
 
PRESENTACION TRANSFERENCIA FABIAN ALVAREZ.pdf
PRESENTACION TRANSFERENCIA FABIAN ALVAREZ.pdfPRESENTACION TRANSFERENCIA FABIAN ALVAREZ.pdf
PRESENTACION TRANSFERENCIA FABIAN ALVAREZ.pdf
 
Sesión 03 universidad cesar vallejo 2024
Sesión 03 universidad cesar vallejo 2024Sesión 03 universidad cesar vallejo 2024
Sesión 03 universidad cesar vallejo 2024
 
Estructura de un buque, tema de estudios generales de navegación
Estructura de un buque, tema de estudios generales de navegaciónEstructura de un buque, tema de estudios generales de navegación
Estructura de un buque, tema de estudios generales de navegación
 
CURSO FINAL CONMINUCION-CHANCADO Y MOLIENDA
CURSO FINAL CONMINUCION-CHANCADO Y MOLIENDACURSO FINAL CONMINUCION-CHANCADO Y MOLIENDA
CURSO FINAL CONMINUCION-CHANCADO Y MOLIENDA
 
chancadoras.............................
chancadoras.............................chancadoras.............................
chancadoras.............................
 
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptxS09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
S09 PBM-HEMORRAGIAS 2021-I Grabada 1.pptx
 
Proceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
Proceso de obtenciòn de nitrogeno por el metodo Haber-BoshProceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
Proceso de obtenciòn de nitrogeno por el metodo Haber-Bosh
 
Ducto Barras para instalaciones electricas
Ducto Barras para instalaciones electricasDucto Barras para instalaciones electricas
Ducto Barras para instalaciones electricas
 
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdfEXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
EXPOSICIÓN NTP IEC 60364-1 - Orlando Chávez Chacaltana.pdf
 
diagrama de flujo. en el área de ingeniería
diagrama de flujo. en el área de ingenieríadiagrama de flujo. en el área de ingeniería
diagrama de flujo. en el área de ingeniería
 
tema alcanos cicloalcanos de quimica.pdf
tema alcanos cicloalcanos de quimica.pdftema alcanos cicloalcanos de quimica.pdf
tema alcanos cicloalcanos de quimica.pdf
 

¿Es posible la convergencia HPC y Big Data? Lecciones aprendidas de los sistemas de E/S

  • 1. ¿Es posible la convergencia HPC y Big Data? Lecciones aprendidas de los sistemas de E/S María S. Pérez mperez@fi.upm.es DIAPOSITIVA 0
  • 2. Seminarios UCM, 11/04/2019 DIAPOSITIVA 1 • Introducción • Contexto • Problema general de convergencia HPC- Big Data • Convergencia HPC-Big Data a nivel de almacenamiento • Estudio y evaluación • Conclusiones y líneas de trabajo futuro
  • 3. Seminarios UCM, 11/04/2019 DIAPOSITIVA 2 Divergencia DA-CS Source: Big Data and Extreme-Scale Computing, BDEC
  • 4. Seminarios UCM, 11/04/2019 DIAPOSITIVA 3 Divergencia a nivel de hardware y arquitectura Source: “Creating synergies across HPC & Big Data platforms”, BDVA-ETP4HPC White Paper
  • 5. Seminarios UCM, 11/04/2019 DIAPOSITIVA 4 Diferencias históricas entre BD y HPC Carga de trabajo típica Principios de diseño Big Data Aplicaciones intensivas en datos La mayoría del tiempo de ejecución es dedicado a E/S y manipulación de datos Optimizado para coste Menor prioridad al rendimiento (IOPS) HPC Aplicaciones intensivas en cómputo La mayoría del tiempo de ejecución es dedicado a computación Optimizado para rendimiento Menor prioridad al coste (FLOPS)
  • 6. Seminarios UCM, 11/04/2019 DIAPOSITIVA 5 Interés en la convergencia
  • 7. Seminarios UCM, 11/04/2019 DIAPOSITIVA 6 • Introducción • Contexto • Problema general de convergencia HPC- Big Data • Convergencia HPC-Big Data a nivel de almacenamiento • Estudio y evaluación • Conclusiones y líneas de trabajo futuro
  • 8. Seminarios UCM, 11/04/2019 DIAPOSITIVA 7 BDVA (~200) members include large industries, SMEs, research organisations and data users and providers to support the development and deployment of the EU Big Data Value Public-Private Partnership with the European Commission BDVA focuses its activities on updating the multi-annual roadmap and on providing regular advice to enable the European Commission to prepare, draft and adopt the periodic Work Programmes, as well as on delivering Data Innovation Recommendations, developing Big Data Value Ecosystem, guiding Standards, and, facilitating Know-how exchange.
  • 9. Seminarios UCM, 11/04/2019 TF4:Communication TF3:Ecosystem TF2: Impact DIAPOSITIVA 8 TF1: Programme TF5: Policy & Societal Policy & Societal TF6: Technical Data Science/AI (Analytics visualization) Data Technology Architectures HPC-Big Data Data Protection and Pseudonymisation Mechanisms Standardisation Data Benchmarking TF7: Application Telecom Healthcare Media Earth observation & geospatial Smart Manufacturing Industry Mobility and Logistics Smart Governance and Smart Cities Agri TF8: Business Data entrepreneurs (SMEs and startups) Transforming traditional business (Large Enterprise) Observatory on Data Business Models TF9: Skills and Education Skill requirements from European industries Liaison with existing educational projects Analysis of current curricula related to data science BDVA Task Forces
  • 10. Seminarios UCM, 11/04/2019 DIAPOSITIVA 9 EuroHPC Joint Undertaking https://eurohpc-ju.europa.eu
  • 11. Seminarios UCM, 11/04/2019 DIAPOSITIVA 10 CABAHLA-CM: Convergencia BD-HPC: de los sensores a las aplicaciones • Proyecto financiado por la Comunidad de Madrid, ayudas para la realización de programas de actividades de I+D entre grupos de investigación de la Comunidad de Madrid en tecnologías y en biomedicina (2019-2022) • 4 grupos: – ArTeCS, Universidad Complutense de Madrid – ARCOS, Universidad Carlos III de Madrid – SciTrack, Centro de Investigaciones Energéticas, Medioambientales y Tecnológicas – OEG, Universidad Politécnica de Madrid • Objetivo: Mejorar la integración de los paradigmas de HPC y Big Data – Plataforma intensiva en computación y datos – Dos casos de uso: captación y modelado de datos de sensores para la predicción de radiación solar con alta resolución espacio-temporal y procesamiento de datos masivos en imagen médica del cerebro
  • 12. Seminarios UCM, 11/04/2019 DIAPOSITIVA 11 • Introducción • Contexto • Problema general de convergencia HPC-Big Data • Convergencia HPC-Big Data a nivel de almacenamiento • Estudio y evaluación • Conclusiones y líneas de trabajo futuro
  • 13. Seminarios UCM, 11/04/2019 DIAPOSITIVA 12 Traditional Big Data Extreme Data Analytics Enterprise IT HPC Data-intensive workloads [Example] Inferring new insights from big data-sets e.g. pattern recognition across suppliers, consumers, etc for data-driven insights and innovation ‘Regular’ workloads [Example] Running the enterprise – HR, Legal, Payroll, finance, etc. Compute-intensive workloads [Example] Modelling and simulating focusing on interaction amongst parts of a system and the system as a whole e.g. product design Compute- and Data intensive workloads: [Example] Reshaping healthcare through advanced analytics and artificial intelligence – leading to predictive and personalized medicine Source: Subgroup HPC-BD BDVA
  • 14. Seminarios UCM, 11/04/2019 DIAPOSITIVA 13 Estudio de aplicaciones/casos de uso 13 Source: Subgroup HPC-BD BDVA
  • 15. Seminarios UCM, 11/04/2019 DIAPOSITIVA 14 14 HPC, Big Data y Deep Learning Source: “Creating synergies across HPC & Big Data platforms”, BDVA-ETP4HPC White Paper
  • 16. Seminarios UCM, 11/04/2019 DIAPOSITIVA 15 • Introducción • Contexto • Problema general de convergencia HPC- Big Data • Convergencia HPC-Big Data a nivel de almacenamiento • Estudio y evaluación • Conclusiones y líneas de trabajo futuro
  • 17. Seminarios UCM, 11/04/2019 DIAPOSITIVA 16 HPC a nivel de almacenamiento Aplicación HPC Sistema de ficheros POSIX• Lecturas y escrituras aleatorias en fichero • Jerarquía (directorios) • Permisos • Renombrado atómico • Protección multiusuario
  • 18. Seminarios UCM, 11/04/2019 DIAPOSITIVA 17 POSIX Lecturas y escrituras aleatorias en fichero Jerarquía (directorios) Permisos Renombrado atómico Protección multiusuario
  • 19. Seminarios UCM, 11/04/2019 DIAPOSITIVA 18 POSIX Lecturas y escrituras aleatorias en fichero
  • 20. Seminarios UCM, 11/04/2019 DIAPOSITIVA 19 POSIX Lecturas y escrituras aleatorias en fichero Objetos
  • 21. Seminarios UCM, 11/04/2019 DIAPOSITIVA 20 HPC a nivel de almacenamiento Aplicación HPC Sistema de almacenamiento basado en objetos
  • 22. Seminarios UCM, 11/04/2019 DIAPOSITIVA 21 HPC y Big Data Aplicación HPC Sistema de almacenamiento basado en objetos Aplicación Big Data
  • 23. Seminarios UCM, 11/04/2019 DIAPOSITIVA 22 HPC y Big Data Aplicación HPC Sistema de almacenamiento basado en objetos Aplicación Big Data Sistema K/V BBDD Sist. de ficheros
  • 24. Seminarios UCM, 11/04/2019 DIAPOSITIVA 23 HPC y Big Data Aplicación HPC Sistema de almacenamiento basado en objetos Sistema K/V BBDD Sistema de ficheros Aplicación Big Data
  • 25. Seminarios UCM, 11/04/2019 DIAPOSITIVA 24 HPC y Big Data Aplicación HPC Sistema de almacenamiento basado en objetos Sistema K/V BBDD Sistema de almacenamiento basado en objetos Aplicación Big Data
  • 26. Seminarios UCM, 11/04/2019 DIAPOSITIVA 25 HPC y Big Data Aplicación HPC Sistema de almacenamiento basado en objetos convergente Sistema K/V BBDD Aplicación Big Data
  • 27. Seminarios UCM, 11/04/2019 DIAPOSITIVA 26 Pila de almacenamiento actual Biblioteca de E/S App HPC App HPC App HPC SFP HPC App BD App BD App BD Framework Big Data SFD Big Data Llamadas bib E/S- Framework BD Llamadas tipo POSIX
  • 28. Seminarios UCM, 11/04/2019 DIAPOSITIVA 27 Pila de almacenamiento actual Biblioteca de E/S App HPC App HPC App HPC Adaptador HPC App BD App BD App BD Framework Big Data Adaptador Big Data Llamadas bib E/S- Framework BD Llamadas tipo POSIX Sistema de almacenamiento basado en objetos convergente
  • 29. Seminarios UCM, 11/04/2019 DIAPOSITIVA 28 • Introducción • Contexto • Problema general de convergencia HPC- Big Data • Convergencia HPC-Big Data a nivel de almacenamiento • Estudio y evaluación • Conclusiones y líneas de trabajo futuro
  • 30. Seminarios UCM, 11/04/2019 DIAPOSITIVA 29 Primitivas orientadas a objetos • Acceso al objeto: lectura (read) aleatoria del objeto, tamaño (size) del objeto • Manipulación del objeto: escritura (write) aleatoria del objeto, truncado (truncate) • Gestión del objeto: crear objetos (create), borrar objetos (delete) • Estas operaciones son similares a las operaciones POSIX básicas sobre un fichero • Las operaciones a nivel de directorio no tienen contrapartida a nivel de objeto: – Bajo número de este tipo de operaciones – Se pueden emular mediante la operación “scan” (operación poco eficiente, pero compensado por el hecho de utilizar un espacio de nombres plano y una semántica más sencilla)
  • 31. Seminarios UCM, 11/04/2019 DIAPOSITIVA 30 Estudio sobre aplicaciones HPC/BD Plataforma Aplicación Uso Lecturas Escrituras Ratio R/W Perfil HPC/MPI mpiBLAST Protein docking 27.7 GB 12.8 MB 2.2*10^3 Read-intensive MOM Oceanic model 19.5 GB 3.2 GB 6.09 Read-intensive ECOHAM Sediment propagation 67.4 GB 71.2 GB 0.94 Balanced Ray Tracing Video processing 0.4 GB 9.7 GB 4.1*10^-2 Write-intensive Cloud/Spark Sort Text processing 5.8 GB 5.8 GB 1.00 Balanced Connected Component Graph processing 13.1 GB 71.2 MB 1.8*10^2 Read-intensive Grep Text processing 55.8 GB 863.8 MB 66.14 Read-intensive Decision Tree Machine Learning 59.1 GB 4.7 GB 12.57 Read-intensive Tokenizer Text processing 55.8 GB 235.7 GB 0.23 Write-intensive Pierre Matri, Yevhen Alforov, Álvaro Brandón, María S. Pérez et al. Mission possible: Unify HPC and Big Data stacks towards application-defined blobs at the storage layer. Future Generation Computer Systems, In press.
  • 32. Seminarios UCM, 11/04/2019 DIAPOSITIVA 31 Distribución de operaciones
  • 33. Seminarios UCM, 11/04/2019 DIAPOSITIVA 32 Operaciones sobre directorios (App BD) Operación Acción Núm. Oper. mkdir Crear directorio 43 rmdir Borrar directorio 43 opendir (directorio datos) Abrir directorio 5 Opendir (otros directorios) Abrir directorio 0 Operación original Operación reescrita create(/foo/bar) create(/foo__bar) open(/foo/bar) open(/foo__bar) read(fd) read(bd) write(fd) write(bd) mkdir(/foo) ----- opendir(/foo) scan(/), devolver todos los ficheros que encajan con foo__* rmdir(/foo) scan(/), borrar todos los ficheros que encajan con foo__*
  • 34. Seminarios UCM, 11/04/2019 DIAPOSITIVA 33 Influencia de las operaciones sobre directorios
  • 35. Seminarios UCM, 11/04/2019 DIAPOSITIVA 34 BlobSeer/RADOS vs Lustre (HPC) and HDFS/Ceph (BD) • Grid’5000 testbed distribuido en 11 sitios en Francia y Luxemburgo (parapluie cluster, Rennes) • Cada nodo: 2 x 12-core 1.7 Ghz 6164 HE, 48 GB of RAM y 250 GB HDD. • Apps HPC: Lustre 2.9.0 y MPICH 3.2 [67], en un cluster de 32 nodos (InfiniBand) • Apps BD: Spark 2.1.0, Hadoop / HDFS 2.7.3 and Ceph Kraken, en un cluster de 32 nodos (Gigabit Ethernet)
  • 36. Seminarios UCM, 11/04/2019 DIAPOSITIVA 35 BlobSeer Bogdan Nicolae; Gabriel Antoniu; Luc Bougé; Diana Moise; Alexandra Carpen-Amarie. 2011. BlobSeer: Next-generation data management for large scale infrastructures. J. Parallel Distrib. Comput. 71, 2 (February 2011), 169-184.
  • 37. Seminarios UCM, 11/04/2019 DIAPOSITIVA 36 RADOS/Ceph ceph.com
  • 38. Seminarios UCM, 11/04/2019 DIAPOSITIVA 37 Lustre Source: lustre.org
  • 39. Seminarios UCM, 11/04/2019 DIAPOSITIVA 38 HDFS Source: hadoop.apache.org
  • 40. Seminarios UCM, 11/04/2019 DIAPOSITIVA 39 Aplicaciones HPC
  • 41. Seminarios UCM, 11/04/2019 DIAPOSITIVA 40 Aplicaciones BD
  • 42. Seminarios UCM, 11/04/2019 DIAPOSITIVA 41 Análisis del estudio • La convergencia a nivel de almacenamiento es posible mediante el uso de almacenamiento basado en objetos, llevando a una mejora en el rendimiento para ambos tipos de plataformas (HPC y Cloud) • Utilizando objetos, se consigue una mejora de hasta el 32% – Principalmente por el espacio de nombres plano – Rados: capacidad de lectura directa y esquema sencillo y descentralizado de gestión de metadatos (gran rendimiento para lecturas) – BlobSeer: control de concurrencia multi-versión da soporte a gran velocidad de escritura para cargas de trabajo altamente concurrentes (gran rendimiento para escrituras) • Problemas de ambos sistemas: – Aunque el rendimiento de Rados es excelente cuando hay baja contención de escritura, su control de concurrencia basado en cerrojos limita el rendimiento de casos de uso altamente concurrentes. – El control de concurrencia multi-versión de BlobSeer da buen soporte de escritura, pero el árbol de metadatos distribuidos de BlobSeer supone una latencia de lectura significativa
  • 43. Seminarios UCM, 11/04/2019 DIAPOSITIVA 42 Týr • ¿Se pueden lograr los beneficios de ambos sistemas? • Además de combinar las ventajas de Rados y BlobSeer, hay un conjunto significativo de casos de uso que requieren semánticas de consistencia más estrictas – Indexación y agregación de datos (Ejemplo: ALICE CERN LHC experiment) – Distributed shared logs (Ejemplo: Computational steering + in-situ visualization)
  • 44. Seminarios UCM, 11/04/2019 DIAPOSITIVA 43 Týr Pierre Matri; Alexandru Costan; Gabriel Antoniu; Jesús Montes; María S. Pérez. "Týr: Blob StorageSystems Meet Built- In Transactions". SC '16 Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. Article n. 49, Best student paper award finalist
  • 45. Seminarios UCM, 11/04/2019 DIAPOSITIVA 44 Týr Pierre Matri; Philip Carns; Robert Ross; Alexandru Costan; María S. Pérez; Gabriel Antoniu;. ”SLoG: A large-scale Logging Middleware for HPC and Big Data convergence”. ICDCS’2018. pp. 1507-1512, 2018.
  • 46. Seminarios UCM, 11/04/2019 DIAPOSITIVA 45 Diseño de Týr • Distribución de datos predecible – Combinación de técnicas de data striping y consistent hashing – Elimina la necesidad de un servidor de metadatos centralizado • Control de concurrencia multi-versión transparente – Se utiliza versioning a nivel de chunk y números no secuenciales para el versionado • Semántica transaccional ACID – Utilizando el protocolo transaccional Warp* – Utilizan cadenas de los servidores afectados por las transacciones y grafos de dependencias • Operaciones de transformación atómicas – Eficientes operaciones read-modify-write – Particularmente interesante cuando las operaciones de transformación son sencillas (aritméticas, a nivel de bit) – El cliente no comunica el nuevo dato a escribir, sino la modificación a aplicar, evitando two-round trips • Prototipo software con aproximadamente 25,000 líneas de código Rust y GNU C * R. Escriva, B. Wong and E. Sirer. Warp: Lightweight multi-key transactions for key-value stores. arXiv preprint arXiv:1509.07815, 2015.
  • 47. Seminarios UCM, 11/04/2019 DIAPOSITIVA 46 Aplicaciones HPC
  • 48. Seminarios UCM, 11/04/2019 DIAPOSITIVA 47 Aplicaciones BD
  • 49. Seminarios UCM, 11/04/2019 DIAPOSITIVA 48 • Introducción • Contexto • Problema general de convergencia HPC- Big Data • Convergencia HPC-Big Data a nivel de almacenamiento • Estudio y evaluación • Conclusiones y líneas de trabajo futuro
  • 50. Seminarios UCM, 11/04/2019 DIAPOSITIVA 49 Conclusiones y líneas de futuro • El diseño de Týr supera significativamente BlobSeer y sistemas de ficheros tradicionales, tanto para aplicaciones HPC como BDA – Escrituras no bloqueantes, mediante el uso de control de concurrencia multi-versión – Escrituras directas utilizando técnicas de consistent hashing • Týr sufre una pequeña penalización respecto a Rados – Excepto para aplicaciones intensivas en escritura, debido a la eficiencia del control de concurrencia multi-versión – Resultado de unas garantías de consistencia más fuerte (transacciones) • Este es un primer paso sobre el que se puede trabajar para la convergencia HPC y BDA a otros niveles, más allá del almacenamiento
  • 51. ¿Es posible la convergencia HPC y Big Data? Lecciones aprendidas de los sistemas de E/S María S. Pérez mperez@fi.upm.es DIAPOSITIVA 50