SlideShare una empresa de Scribd logo
1 de 51
Descargar para leer sin conexión
¿Es posible la convergencia HPC y Big Data?
Lecciones aprendidas de los sistemas de E/S
María S. Pérez
mperez@fi.upm.es
DIAPOSITIVA 0
Seminarios UCM, 11/04/2019 DIAPOSITIVA 1
• Introducción
• Contexto
• Problema general de convergencia HPC-
Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
Seminarios UCM, 11/04/2019 DIAPOSITIVA 2
Divergencia DA-CS
Source: Big Data and Extreme-Scale Computing, BDEC
Seminarios UCM, 11/04/2019 DIAPOSITIVA 3
Divergencia a nivel de hardware y arquitectura
Source: “Creating synergies across HPC & Big Data platforms”, BDVA-ETP4HPC White Paper
Seminarios UCM, 11/04/2019 DIAPOSITIVA 4
Diferencias históricas entre BD y HPC
Carga de trabajo típica Principios de diseño
Big Data Aplicaciones intensivas en
datos
La mayoría del tiempo de
ejecución es dedicado a E/S y
manipulación de datos
Optimizado para coste
Menor prioridad al
rendimiento
(IOPS)
HPC Aplicaciones intensivas en
cómputo
La mayoría del tiempo de
ejecución es dedicado a
computación
Optimizado para rendimiento
Menor prioridad al coste
(FLOPS)
Seminarios UCM, 11/04/2019 DIAPOSITIVA 5
Interés en la convergencia
Seminarios UCM, 11/04/2019 DIAPOSITIVA 6
• Introducción
• Contexto
• Problema general de convergencia HPC-
Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
Seminarios UCM, 11/04/2019 DIAPOSITIVA 7
BDVA (~200) members include large
industries, SMEs, research
organisations and data users and
providers to support the development
and deployment of the EU Big Data
Value Public-Private Partnership with
the European Commission
BDVA focuses its activities on updating the multi-annual
roadmap and on providing regular advice to enable the European
Commission to prepare, draft and adopt the periodic Work
Programmes, as well as on delivering Data Innovation
Recommendations, developing Big Data Value
Ecosystem, guiding Standards, and, facilitating Know-how
exchange.
Seminarios UCM, 11/04/2019
TF4:Communication
TF3:Ecosystem
TF2: Impact
DIAPOSITIVA 8
TF1: Programme
TF5:
Policy &
Societal
Policy &
Societal
TF6:
Technical
Data Science/AI
(Analytics
visualization)
Data Technology
Architectures
HPC-Big Data
Data Protection and
Pseudonymisation
Mechanisms
Standardisation
Data Benchmarking
TF7:
Application
Telecom
Healthcare
Media
Earth observation &
geospatial
Smart Manufacturing
Industry
Mobility and Logistics
Smart Governance and
Smart Cities
Agri
TF8:
Business
Data
entrepreneurs
(SMEs and
startups)
Transforming
traditional
business
(Large
Enterprise)
Observatory
on Data
Business
Models
TF9:
Skills and
Education
Skill
requirements
from European
industries
Liaison with
existing
educational
projects
Analysis of
current
curricula
related to data
science
BDVA Task Forces
Seminarios UCM, 11/04/2019 DIAPOSITIVA 9
EuroHPC Joint Undertaking
https://eurohpc-ju.europa.eu
Seminarios UCM, 11/04/2019 DIAPOSITIVA 10
CABAHLA-CM: Convergencia BD-HPC: de
los sensores a las aplicaciones
• Proyecto financiado por la Comunidad de Madrid, ayudas para la
realización de programas de actividades de I+D entre grupos de
investigación de la Comunidad de Madrid en tecnologías y en biomedicina
(2019-2022)
• 4 grupos:
– ArTeCS, Universidad Complutense de Madrid
– ARCOS, Universidad Carlos III de Madrid
– SciTrack, Centro de Investigaciones Energéticas, Medioambientales y Tecnológicas
– OEG, Universidad Politécnica de Madrid
• Objetivo: Mejorar la integración de los paradigmas de HPC y Big Data
– Plataforma intensiva en computación y datos
– Dos casos de uso: captación y modelado de datos de sensores para la predicción de
radiación solar con alta resolución espacio-temporal y procesamiento de datos masivos en
imagen médica del cerebro
Seminarios UCM, 11/04/2019 DIAPOSITIVA 11
• Introducción
• Contexto
• Problema general de convergencia
HPC-Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
Seminarios UCM, 11/04/2019 DIAPOSITIVA 12
Traditional Big Data Extreme Data Analytics
Enterprise IT HPC
Data-intensive	workloads
[Example]	Inferring	new	
insights	from	big	data-sets	
e.g.	pattern	recognition	
across	suppliers,	consumers,	
etc	for	data-driven	insights	
and	innovation
‘Regular’	workloads
[Example]	Running	the	
enterprise	– HR,	Legal,	
Payroll,	finance,	etc.
Compute-intensive	
workloads
[Example]	Modelling	and	
simulating	focusing	on	
interaction	amongst	parts	of	
a	system	and	the	system	as	a	
whole	e.g.	product	design
Compute- and	Data	
intensive	workloads:
[Example]	Reshaping	
healthcare	through	advanced	
analytics	and	artificial	
intelligence	– leading	to	
predictive	and	personalized	
medicine
Source: Subgroup HPC-BD BDVA
Seminarios UCM, 11/04/2019 DIAPOSITIVA 13
Estudio de aplicaciones/casos de uso
13
Source: Subgroup HPC-BD BDVA
Seminarios UCM, 11/04/2019 DIAPOSITIVA 14
14
HPC, Big Data y Deep Learning
Source: “Creating synergies across HPC & Big Data platforms”, BDVA-ETP4HPC White Paper
Seminarios UCM, 11/04/2019 DIAPOSITIVA 15
• Introducción
• Contexto
• Problema general de convergencia HPC-
Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
Seminarios UCM, 11/04/2019 DIAPOSITIVA 16
HPC a nivel de almacenamiento
Aplicación HPC
Sistema de ficheros POSIX• Lecturas y escrituras
aleatorias en fichero
• Jerarquía (directorios)
• Permisos
• Renombrado atómico
• Protección multiusuario
Seminarios UCM, 11/04/2019 DIAPOSITIVA 17
POSIX
Lecturas y escrituras aleatorias en fichero
Jerarquía (directorios)
Permisos
Renombrado atómico
Protección multiusuario
Seminarios UCM, 11/04/2019 DIAPOSITIVA 18
POSIX
Lecturas y escrituras aleatorias en fichero
Seminarios UCM, 11/04/2019 DIAPOSITIVA 19
POSIX
Lecturas y escrituras aleatorias en fichero Objetos
Seminarios UCM, 11/04/2019 DIAPOSITIVA 20
HPC a nivel de almacenamiento
Aplicación HPC
Sistema de almacenamiento
basado en objetos
Seminarios UCM, 11/04/2019 DIAPOSITIVA 21
HPC y Big Data
Aplicación HPC
Sistema de almacenamiento
basado en objetos
Aplicación Big Data
Seminarios UCM, 11/04/2019 DIAPOSITIVA 22
HPC y Big Data
Aplicación HPC
Sistema de almacenamiento
basado en objetos
Aplicación Big Data
Sistema
K/V BBDD
Sist. de
ficheros
Seminarios UCM, 11/04/2019 DIAPOSITIVA 23
HPC y Big Data
Aplicación HPC
Sistema de almacenamiento
basado en objetos
Sistema
K/V BBDD
Sistema de ficheros
Aplicación Big Data
Seminarios UCM, 11/04/2019 DIAPOSITIVA 24
HPC y Big Data
Aplicación HPC
Sistema de almacenamiento
basado en objetos
Sistema
K/V BBDD
Sistema de almacenamiento
basado en objetos
Aplicación Big Data
Seminarios UCM, 11/04/2019 DIAPOSITIVA 25
HPC y Big Data
Aplicación HPC
Sistema de almacenamiento basado en objetos convergente
Sistema
K/V BBDD
Aplicación Big Data
Seminarios UCM, 11/04/2019 DIAPOSITIVA 26
Pila de almacenamiento actual
Biblioteca de E/S
App
HPC
App
HPC
App
HPC
SFP HPC
App
BD
App
BD
App
BD
Framework Big Data
SFD Big Data
Llamadas bib E/S-
Framework BD
Llamadas tipo
POSIX
Seminarios UCM, 11/04/2019 DIAPOSITIVA 27
Pila de almacenamiento actual
Biblioteca de E/S
App
HPC
App
HPC
App
HPC
Adaptador HPC
App
BD
App
BD
App
BD
Framework Big Data
Adaptador Big Data
Llamadas bib E/S-
Framework BD
Llamadas tipo
POSIX
Sistema de almacenamiento basado en objetos convergente
Seminarios UCM, 11/04/2019 DIAPOSITIVA 28
• Introducción
• Contexto
• Problema general de convergencia HPC-
Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
Seminarios UCM, 11/04/2019 DIAPOSITIVA 29
Primitivas orientadas a objetos
• Acceso al objeto: lectura (read) aleatoria del objeto, tamaño (size) del
objeto
• Manipulación del objeto: escritura (write) aleatoria del objeto,
truncado (truncate)
• Gestión del objeto: crear objetos (create), borrar objetos (delete)
• Estas operaciones son similares a las operaciones POSIX básicas
sobre un fichero
• Las operaciones a nivel de directorio no tienen contrapartida a nivel
de objeto:
– Bajo número de este tipo de operaciones
– Se pueden emular mediante la operación “scan” (operación poco
eficiente, pero compensado por el hecho de utilizar un espacio de
nombres plano y una semántica más sencilla)
Seminarios UCM, 11/04/2019 DIAPOSITIVA 30
Estudio sobre aplicaciones HPC/BD
Plataforma Aplicación Uso Lecturas Escrituras Ratio R/W Perfil
HPC/MPI
mpiBLAST Protein
docking
27.7 GB 12.8 MB 2.2*10^3 Read-intensive
MOM Oceanic
model
19.5 GB 3.2 GB 6.09 Read-intensive
ECOHAM Sediment
propagation
67.4 GB 71.2 GB 0.94 Balanced
Ray Tracing Video
processing
0.4 GB 9.7 GB 4.1*10^-2 Write-intensive
Cloud/Spark
Sort Text
processing
5.8 GB 5.8 GB 1.00 Balanced
Connected
Component
Graph
processing
13.1 GB 71.2 MB 1.8*10^2 Read-intensive
Grep Text
processing
55.8 GB 863.8 MB 66.14 Read-intensive
Decision
Tree
Machine
Learning
59.1 GB 4.7 GB 12.57 Read-intensive
Tokenizer Text
processing
55.8 GB 235.7 GB 0.23 Write-intensive
Pierre Matri, Yevhen Alforov, Álvaro Brandón, María S. Pérez et al. Mission possible: Unify HPC and Big Data stacks
towards application-defined blobs at the storage layer. Future Generation Computer Systems, In press.
Seminarios UCM, 11/04/2019 DIAPOSITIVA 31
Distribución de operaciones
Seminarios UCM, 11/04/2019 DIAPOSITIVA 32
Operaciones sobre directorios (App BD)
Operación Acción Núm.
Oper.
mkdir Crear directorio 43
rmdir Borrar directorio 43
opendir
(directorio
datos)
Abrir directorio 5
Opendir
(otros
directorios)
Abrir directorio 0
Operación original Operación reescrita
create(/foo/bar) create(/foo__bar)
open(/foo/bar) open(/foo__bar)
read(fd) read(bd)
write(fd) write(bd)
mkdir(/foo) -----
opendir(/foo)
scan(/), devolver
todos los ficheros que
encajan con foo__*
rmdir(/foo) scan(/), borrar todos
los ficheros que
encajan con foo__*
Seminarios UCM, 11/04/2019 DIAPOSITIVA 33
Influencia de las operaciones sobre directorios
Seminarios UCM, 11/04/2019 DIAPOSITIVA 34
BlobSeer/RADOS vs Lustre (HPC) and HDFS/Ceph (BD)
• Grid’5000 testbed distribuido en 11 sitios en Francia y Luxemburgo
(parapluie cluster, Rennes)
• Cada nodo: 2 x 12-core 1.7 Ghz 6164 HE, 48 GB of RAM y 250 GB
HDD.
• Apps HPC: Lustre 2.9.0 y MPICH 3.2 [67], en un cluster de 32 nodos
(InfiniBand)
• Apps BD: Spark 2.1.0, Hadoop / HDFS 2.7.3 and Ceph Kraken, en un
cluster de 32 nodos (Gigabit Ethernet)
Seminarios UCM, 11/04/2019 DIAPOSITIVA 35
BlobSeer
Bogdan Nicolae; Gabriel Antoniu; Luc Bougé; Diana Moise; Alexandra Carpen-Amarie. 2011. BlobSeer: Next-generation
data management for large scale infrastructures. J. Parallel Distrib. Comput. 71, 2 (February 2011), 169-184.
Seminarios UCM, 11/04/2019 DIAPOSITIVA 36
RADOS/Ceph
ceph.com
Seminarios UCM, 11/04/2019 DIAPOSITIVA 37
Lustre
Source: lustre.org
Seminarios UCM, 11/04/2019 DIAPOSITIVA 38
HDFS
Source: hadoop.apache.org
Seminarios UCM, 11/04/2019 DIAPOSITIVA 39
Aplicaciones HPC
Seminarios UCM, 11/04/2019 DIAPOSITIVA 40
Aplicaciones BD
Seminarios UCM, 11/04/2019 DIAPOSITIVA 41
Análisis del estudio
• La convergencia a nivel de almacenamiento es posible mediante
el uso de almacenamiento basado en objetos, llevando a una
mejora en el rendimiento para ambos tipos de plataformas (HPC y
Cloud)
• Utilizando objetos, se consigue una mejora de hasta el 32%
– Principalmente por el espacio de nombres plano
– Rados: capacidad de lectura directa y esquema sencillo y
descentralizado de gestión de metadatos (gran rendimiento para
lecturas)
– BlobSeer: control de concurrencia multi-versión da soporte a gran
velocidad de escritura para cargas de trabajo altamente concurrentes
(gran rendimiento para escrituras)
• Problemas de ambos sistemas:
– Aunque el rendimiento de Rados es excelente cuando hay baja
contención de escritura, su control de concurrencia basado en
cerrojos limita el rendimiento de casos de uso altamente concurrentes.
– El control de concurrencia multi-versión de BlobSeer da buen soporte de
escritura, pero el árbol de metadatos distribuidos de BlobSeer supone
una latencia de lectura significativa
Seminarios UCM, 11/04/2019 DIAPOSITIVA 42
Týr
• ¿Se pueden lograr los beneficios de ambos sistemas?
• Además de combinar las ventajas de Rados y BlobSeer, hay un
conjunto significativo de casos de uso que requieren semánticas de
consistencia más estrictas
– Indexación y agregación de datos (Ejemplo: ALICE CERN LHC
experiment)
– Distributed shared logs (Ejemplo: Computational steering + in-situ
visualization)
Seminarios UCM, 11/04/2019 DIAPOSITIVA 43
Týr
Pierre Matri; Alexandru Costan; Gabriel Antoniu; Jesús Montes; María S. Pérez. "Týr: Blob StorageSystems Meet Built-
In Transactions". SC '16 Proceedings of the International Conference for High Performance Computing, Networking,
Storage and Analysis. Article n. 49, Best student paper award finalist
Seminarios UCM, 11/04/2019 DIAPOSITIVA 44
Týr
Pierre Matri; Philip Carns; Robert Ross; Alexandru Costan; María S. Pérez; Gabriel Antoniu;. ”SLoG: A large-scale
Logging Middleware for HPC and Big Data convergence”. ICDCS’2018. pp. 1507-1512, 2018.
Seminarios UCM, 11/04/2019 DIAPOSITIVA 45
Diseño de Týr
• Distribución de datos predecible
– Combinación de técnicas de data striping y consistent hashing
– Elimina la necesidad de un servidor de metadatos centralizado
• Control de concurrencia multi-versión transparente
– Se utiliza versioning a nivel de chunk y números no secuenciales para el
versionado
• Semántica transaccional ACID
– Utilizando el protocolo transaccional Warp*
– Utilizan cadenas de los servidores afectados por las transacciones y grafos de
dependencias
• Operaciones de transformación atómicas
– Eficientes operaciones read-modify-write
– Particularmente interesante cuando las operaciones de transformación son
sencillas (aritméticas, a nivel de bit)
– El cliente no comunica el nuevo dato a escribir, sino la modificación a aplicar,
evitando two-round trips
• Prototipo software con aproximadamente 25,000 líneas de código Rust y
GNU C
* R. Escriva, B. Wong and E. Sirer. Warp: Lightweight multi-key transactions for key-value stores. arXiv preprint
arXiv:1509.07815, 2015.
Seminarios UCM, 11/04/2019 DIAPOSITIVA 46
Aplicaciones HPC
Seminarios UCM, 11/04/2019 DIAPOSITIVA 47
Aplicaciones BD
Seminarios UCM, 11/04/2019 DIAPOSITIVA 48
• Introducción
• Contexto
• Problema general de convergencia HPC-
Big Data
• Convergencia HPC-Big Data a nivel de
almacenamiento
• Estudio y evaluación
• Conclusiones y líneas de trabajo futuro
Seminarios UCM, 11/04/2019 DIAPOSITIVA 49
Conclusiones y líneas de futuro
• El diseño de Týr supera significativamente BlobSeer y sistemas
de ficheros tradicionales, tanto para aplicaciones HPC como BDA
– Escrituras no bloqueantes, mediante el uso de control de concurrencia
multi-versión
– Escrituras directas utilizando técnicas de consistent hashing
• Týr sufre una pequeña penalización respecto a Rados
– Excepto para aplicaciones intensivas en escritura, debido a la
eficiencia del control de concurrencia multi-versión
– Resultado de unas garantías de consistencia más fuerte
(transacciones)
• Este es un primer paso sobre el que se puede trabajar para la
convergencia HPC y BDA a otros niveles, más allá del
almacenamiento
¿Es posible la convergencia HPC y Big Data?
Lecciones aprendidas de los sistemas de E/S
María S. Pérez
mperez@fi.upm.es
DIAPOSITIVA 50

Más contenido relacionado

Similar a ¿Es posible la convergencia HPC y Big Data? Lecciones aprendidas de los sistemas de E/S

Daniel diapositiva (1)
Daniel diapositiva (1)Daniel diapositiva (1)
Daniel diapositiva (1)apomel
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosOscar Corcho
 
Cisco campus technology_whitpaper
Cisco campus technology_whitpaperCisco campus technology_whitpaper
Cisco campus technology_whitpapereduardohb32
 
FORMATO SYLLABUS TALLER DE REDES-01-2023.doc
FORMATO SYLLABUS TALLER DE REDES-01-2023.docFORMATO SYLLABUS TALLER DE REDES-01-2023.doc
FORMATO SYLLABUS TALLER DE REDES-01-2023.docRodrigo Amaya
 
Taller base de datos paula andrea rojas fonseca 11
Taller base de datos paula andrea rojas fonseca 11Taller base de datos paula andrea rojas fonseca 11
Taller base de datos paula andrea rojas fonseca 11paulitarojas
 
eanor. orozco alvarado
eanor. orozco alvaradoeanor. orozco alvarado
eanor. orozco alvaradopapushoorozco
 
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoRetos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoJavier Mijail Espadas Pech
 
CuadernoPractico_AplicacionesInformaticas.pdf
CuadernoPractico_AplicacionesInformaticas.pdfCuadernoPractico_AplicacionesInformaticas.pdf
CuadernoPractico_AplicacionesInformaticas.pdfIngAnyeloValdiviaG
 

Similar a ¿Es posible la convergencia HPC y Big Data? Lecciones aprendidas de los sistemas de E/S (20)

guía de aprendizaje 2
guía de aprendizaje 2guía de aprendizaje 2
guía de aprendizaje 2
 
Base de Datos - Daniela Monsalve
Base de Datos - Daniela MonsalveBase de Datos - Daniela Monsalve
Base de Datos - Daniela Monsalve
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
CAMPI
CAMPICAMPI
CAMPI
 
Daniel diapositiva (1)
Daniel diapositiva (1)Daniel diapositiva (1)
Daniel diapositiva (1)
 
Capitulo 11
Capitulo 11Capitulo 11
Capitulo 11
 
Computacion en la nube
Computacion en la nubeComputacion en la nube
Computacion en la nube
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los Datos
 
Cisco campus technology_whitpaper (1)
Cisco campus technology_whitpaper (1)Cisco campus technology_whitpaper (1)
Cisco campus technology_whitpaper (1)
 
Cisco campus technology_whitpaper
Cisco campus technology_whitpaperCisco campus technology_whitpaper
Cisco campus technology_whitpaper
 
Cisco campus technology_whitpaper
Cisco campus technology_whitpaperCisco campus technology_whitpaper
Cisco campus technology_whitpaper
 
Diapositivas de red
Diapositivas de redDiapositivas de red
Diapositivas de red
 
FORMATO SYLLABUS TALLER DE REDES-01-2023.doc
FORMATO SYLLABUS TALLER DE REDES-01-2023.docFORMATO SYLLABUS TALLER DE REDES-01-2023.doc
FORMATO SYLLABUS TALLER DE REDES-01-2023.doc
 
Taller base de datos paula andrea rojas fonseca 11
Taller base de datos paula andrea rojas fonseca 11Taller base de datos paula andrea rojas fonseca 11
Taller base de datos paula andrea rojas fonseca 11
 
orozco alvarado
orozco alvaradoorozco alvarado
orozco alvarado
 
eanor. orozco alvarado
eanor. orozco alvaradoeanor. orozco alvarado
eanor. orozco alvarado
 
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoRetos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
CuadernoPractico_AplicacionesInformaticas.pdf
CuadernoPractico_AplicacionesInformaticas.pdfCuadernoPractico_AplicacionesInformaticas.pdf
CuadernoPractico_AplicacionesInformaticas.pdf
 

Más de Facultad de Informática UCM

¿Por qué debemos seguir trabajando en álgebra lineal?
¿Por qué debemos seguir trabajando en álgebra lineal?¿Por qué debemos seguir trabajando en álgebra lineal?
¿Por qué debemos seguir trabajando en álgebra lineal?Facultad de Informática UCM
 
TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...
TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...
TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...Facultad de Informática UCM
 
DRAC: Designing RISC-V-based Accelerators for next generation Computers
DRAC: Designing RISC-V-based Accelerators for next generation ComputersDRAC: Designing RISC-V-based Accelerators for next generation Computers
DRAC: Designing RISC-V-based Accelerators for next generation ComputersFacultad de Informática UCM
 
Tendencias en el diseño de procesadores con arquitectura Arm
Tendencias en el diseño de procesadores con arquitectura ArmTendencias en el diseño de procesadores con arquitectura Arm
Tendencias en el diseño de procesadores con arquitectura ArmFacultad de Informática UCM
 
Introduction to Quantum Computing and Quantum Service Oriented Computing
Introduction to Quantum Computing and Quantum Service Oriented ComputingIntroduction to Quantum Computing and Quantum Service Oriented Computing
Introduction to Quantum Computing and Quantum Service Oriented ComputingFacultad de Informática UCM
 
Inteligencia Artificial en la atención sanitaria del futuro
Inteligencia Artificial en la atención sanitaria del futuroInteligencia Artificial en la atención sanitaria del futuro
Inteligencia Artificial en la atención sanitaria del futuroFacultad de Informática UCM
 
Design Automation Approaches for Real-Time Edge Computing for Science Applic...
 Design Automation Approaches for Real-Time Edge Computing for Science Applic... Design Automation Approaches for Real-Time Edge Computing for Science Applic...
Design Automation Approaches for Real-Time Edge Computing for Science Applic...Facultad de Informática UCM
 
Estrategias de navegación para robótica móvil de campo: caso de estudio proye...
Estrategias de navegación para robótica móvil de campo: caso de estudio proye...Estrategias de navegación para robótica móvil de campo: caso de estudio proye...
Estrategias de navegación para robótica móvil de campo: caso de estudio proye...Facultad de Informática UCM
 
Fault-tolerance Quantum computation and Quantum Error Correction
Fault-tolerance Quantum computation and Quantum Error CorrectionFault-tolerance Quantum computation and Quantum Error Correction
Fault-tolerance Quantum computation and Quantum Error CorrectionFacultad de Informática UCM
 
Cómo construir un chatbot inteligente sin morir en el intento
Cómo construir un chatbot inteligente sin morir en el intentoCómo construir un chatbot inteligente sin morir en el intento
Cómo construir un chatbot inteligente sin morir en el intentoFacultad de Informática UCM
 
Automatic generation of hardware memory architectures for HPC
Automatic generation of hardware memory architectures for HPCAutomatic generation of hardware memory architectures for HPC
Automatic generation of hardware memory architectures for HPCFacultad de Informática UCM
 
Hardware/software security contracts: Principled foundations for building sec...
Hardware/software security contracts: Principled foundations for building sec...Hardware/software security contracts: Principled foundations for building sec...
Hardware/software security contracts: Principled foundations for building sec...Facultad de Informática UCM
 
Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...
Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...
Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...Facultad de Informática UCM
 
Redes neuronales y reinforcement learning. Aplicación en energía eólica.
Redes neuronales y reinforcement learning. Aplicación en energía eólica.Redes neuronales y reinforcement learning. Aplicación en energía eólica.
Redes neuronales y reinforcement learning. Aplicación en energía eólica.Facultad de Informática UCM
 
Challenges and Opportunities for AI and Data analytics in Offshore wind
Challenges and Opportunities for AI and Data analytics in Offshore windChallenges and Opportunities for AI and Data analytics in Offshore wind
Challenges and Opportunities for AI and Data analytics in Offshore windFacultad de Informática UCM
 

Más de Facultad de Informática UCM (20)

¿Por qué debemos seguir trabajando en álgebra lineal?
¿Por qué debemos seguir trabajando en álgebra lineal?¿Por qué debemos seguir trabajando en álgebra lineal?
¿Por qué debemos seguir trabajando en álgebra lineal?
 
TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...
TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...
TECNOPOLÍTICA Y ACTIVISMO DE DATOS: EL MAPEO COMO FORMA DE RESILIENCIA ANTE L...
 
DRAC: Designing RISC-V-based Accelerators for next generation Computers
DRAC: Designing RISC-V-based Accelerators for next generation ComputersDRAC: Designing RISC-V-based Accelerators for next generation Computers
DRAC: Designing RISC-V-based Accelerators for next generation Computers
 
uElectronics ongoing activities at ESA
uElectronics ongoing activities at ESAuElectronics ongoing activities at ESA
uElectronics ongoing activities at ESA
 
Tendencias en el diseño de procesadores con arquitectura Arm
Tendencias en el diseño de procesadores con arquitectura ArmTendencias en el diseño de procesadores con arquitectura Arm
Tendencias en el diseño de procesadores con arquitectura Arm
 
Formalizing Mathematics in Lean
Formalizing Mathematics in LeanFormalizing Mathematics in Lean
Formalizing Mathematics in Lean
 
Introduction to Quantum Computing and Quantum Service Oriented Computing
Introduction to Quantum Computing and Quantum Service Oriented ComputingIntroduction to Quantum Computing and Quantum Service Oriented Computing
Introduction to Quantum Computing and Quantum Service Oriented Computing
 
Computer Design Concepts for Machine Learning
Computer Design Concepts for Machine LearningComputer Design Concepts for Machine Learning
Computer Design Concepts for Machine Learning
 
Inteligencia Artificial en la atención sanitaria del futuro
Inteligencia Artificial en la atención sanitaria del futuroInteligencia Artificial en la atención sanitaria del futuro
Inteligencia Artificial en la atención sanitaria del futuro
 
Design Automation Approaches for Real-Time Edge Computing for Science Applic...
 Design Automation Approaches for Real-Time Edge Computing for Science Applic... Design Automation Approaches for Real-Time Edge Computing for Science Applic...
Design Automation Approaches for Real-Time Edge Computing for Science Applic...
 
Estrategias de navegación para robótica móvil de campo: caso de estudio proye...
Estrategias de navegación para robótica móvil de campo: caso de estudio proye...Estrategias de navegación para robótica móvil de campo: caso de estudio proye...
Estrategias de navegación para robótica móvil de campo: caso de estudio proye...
 
Fault-tolerance Quantum computation and Quantum Error Correction
Fault-tolerance Quantum computation and Quantum Error CorrectionFault-tolerance Quantum computation and Quantum Error Correction
Fault-tolerance Quantum computation and Quantum Error Correction
 
Cómo construir un chatbot inteligente sin morir en el intento
Cómo construir un chatbot inteligente sin morir en el intentoCómo construir un chatbot inteligente sin morir en el intento
Cómo construir un chatbot inteligente sin morir en el intento
 
Automatic generation of hardware memory architectures for HPC
Automatic generation of hardware memory architectures for HPCAutomatic generation of hardware memory architectures for HPC
Automatic generation of hardware memory architectures for HPC
 
Type and proof structures for concurrency
Type and proof structures for concurrencyType and proof structures for concurrency
Type and proof structures for concurrency
 
Hardware/software security contracts: Principled foundations for building sec...
Hardware/software security contracts: Principled foundations for building sec...Hardware/software security contracts: Principled foundations for building sec...
Hardware/software security contracts: Principled foundations for building sec...
 
Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...
Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...
Jose carlossancho slidesLa seguridad en el desarrollo de software implementad...
 
Do you trust your artificial intelligence system?
Do you trust your artificial intelligence system?Do you trust your artificial intelligence system?
Do you trust your artificial intelligence system?
 
Redes neuronales y reinforcement learning. Aplicación en energía eólica.
Redes neuronales y reinforcement learning. Aplicación en energía eólica.Redes neuronales y reinforcement learning. Aplicación en energía eólica.
Redes neuronales y reinforcement learning. Aplicación en energía eólica.
 
Challenges and Opportunities for AI and Data analytics in Offshore wind
Challenges and Opportunities for AI and Data analytics in Offshore windChallenges and Opportunities for AI and Data analytics in Offshore wind
Challenges and Opportunities for AI and Data analytics in Offshore wind
 

Último

01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
01 MATERIALES AERONAUTICOS VARIOS clase 1.pptoscarvielma45
 
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfReporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfMikkaelNicolae
 
Una estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTUna estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTFundación YOD YOD
 
Principales aportes de la carrera de William Edwards Deming
Principales aportes de la carrera de William Edwards DemingPrincipales aportes de la carrera de William Edwards Deming
Principales aportes de la carrera de William Edwards DemingKevinCabrera96
 
Curso intensivo de soldadura electrónica en pdf
Curso intensivo de soldadura electrónica  en pdfCurso intensivo de soldadura electrónica  en pdf
Curso intensivo de soldadura electrónica en pdfFernandaGarca788912
 
Condensadores de la rama de electricidad y magnetismo
Condensadores de la rama de electricidad y magnetismoCondensadores de la rama de electricidad y magnetismo
Condensadores de la rama de electricidad y magnetismosaultorressep
 
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023RonaldoPaucarMontes
 
tema05 estabilidad en barras mecanicas.pdf
tema05 estabilidad en barras mecanicas.pdftema05 estabilidad en barras mecanicas.pdf
tema05 estabilidad en barras mecanicas.pdfvictoralejandroayala2
 
Residente de obra y sus funciones que realiza .pdf
Residente de obra y sus funciones que realiza  .pdfResidente de obra y sus funciones que realiza  .pdf
Residente de obra y sus funciones que realiza .pdfevin1703e
 
PPT ELABORARACION DE ADOBES 2023 (1).pdf
PPT ELABORARACION DE ADOBES 2023 (1).pdfPPT ELABORARACION DE ADOBES 2023 (1).pdf
PPT ELABORARACION DE ADOBES 2023 (1).pdfalexquispenieto2
 
INTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICA
INTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICAINTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICA
INTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICAJOSLUISCALLATAENRIQU
 
presentacion medidas de seguridad riesgo eléctrico
presentacion medidas de seguridad riesgo eléctricopresentacion medidas de seguridad riesgo eléctrico
presentacion medidas de seguridad riesgo eléctricoalexcala5
 
NTP- Determinación de Cloruros en suelos y agregados (1) (1).pptx
NTP- Determinación de Cloruros  en suelos y agregados (1) (1).pptxNTP- Determinación de Cloruros  en suelos y agregados (1) (1).pptx
NTP- Determinación de Cloruros en suelos y agregados (1) (1).pptxBRAYANJOSEPTSANJINEZ
 
Controladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y VentajasControladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y Ventajasjuanprv
 
Clase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVIL
Clase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVILClase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVIL
Clase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVILProblemSolved
 
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESA
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESAIPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESA
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESAJAMESDIAZ55
 
aCARGA y FUERZA UNI 19 marzo 2024-22.ppt
aCARGA y FUERZA UNI 19 marzo 2024-22.pptaCARGA y FUERZA UNI 19 marzo 2024-22.ppt
aCARGA y FUERZA UNI 19 marzo 2024-22.pptCRISTOFERSERGIOCANAL
 
Clase 2 Revoluciones Industriales y .pptx
Clase 2 Revoluciones Industriales y .pptxClase 2 Revoluciones Industriales y .pptx
Clase 2 Revoluciones Industriales y .pptxChristopherOlave2
 
07 MECANIZADO DE CONTORNOS para torno cnc universidad catolica
07 MECANIZADO DE CONTORNOS para torno cnc universidad catolica07 MECANIZADO DE CONTORNOS para torno cnc universidad catolica
07 MECANIZADO DE CONTORNOS para torno cnc universidad catolicalf1231
 
Seleccion de Fusibles en media tension fusibles
Seleccion de Fusibles en media tension fusiblesSeleccion de Fusibles en media tension fusibles
Seleccion de Fusibles en media tension fusiblesSaulSantiago25
 

Último (20)

01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
 
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfReporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
 
Una estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTUna estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NIST
 
Principales aportes de la carrera de William Edwards Deming
Principales aportes de la carrera de William Edwards DemingPrincipales aportes de la carrera de William Edwards Deming
Principales aportes de la carrera de William Edwards Deming
 
Curso intensivo de soldadura electrónica en pdf
Curso intensivo de soldadura electrónica  en pdfCurso intensivo de soldadura electrónica  en pdf
Curso intensivo de soldadura electrónica en pdf
 
Condensadores de la rama de electricidad y magnetismo
Condensadores de la rama de electricidad y magnetismoCondensadores de la rama de electricidad y magnetismo
Condensadores de la rama de electricidad y magnetismo
 
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
 
tema05 estabilidad en barras mecanicas.pdf
tema05 estabilidad en barras mecanicas.pdftema05 estabilidad en barras mecanicas.pdf
tema05 estabilidad en barras mecanicas.pdf
 
Residente de obra y sus funciones que realiza .pdf
Residente de obra y sus funciones que realiza  .pdfResidente de obra y sus funciones que realiza  .pdf
Residente de obra y sus funciones que realiza .pdf
 
PPT ELABORARACION DE ADOBES 2023 (1).pdf
PPT ELABORARACION DE ADOBES 2023 (1).pdfPPT ELABORARACION DE ADOBES 2023 (1).pdf
PPT ELABORARACION DE ADOBES 2023 (1).pdf
 
INTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICA
INTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICAINTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICA
INTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICA
 
presentacion medidas de seguridad riesgo eléctrico
presentacion medidas de seguridad riesgo eléctricopresentacion medidas de seguridad riesgo eléctrico
presentacion medidas de seguridad riesgo eléctrico
 
NTP- Determinación de Cloruros en suelos y agregados (1) (1).pptx
NTP- Determinación de Cloruros  en suelos y agregados (1) (1).pptxNTP- Determinación de Cloruros  en suelos y agregados (1) (1).pptx
NTP- Determinación de Cloruros en suelos y agregados (1) (1).pptx
 
Controladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y VentajasControladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y Ventajas
 
Clase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVIL
Clase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVILClase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVIL
Clase 7 MECÁNICA DE FLUIDOS 2 INGENIERIA CIVIL
 
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESA
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESAIPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESA
IPERC Y ATS - SEGURIDAD INDUSTRIAL PARA TODA EMPRESA
 
aCARGA y FUERZA UNI 19 marzo 2024-22.ppt
aCARGA y FUERZA UNI 19 marzo 2024-22.pptaCARGA y FUERZA UNI 19 marzo 2024-22.ppt
aCARGA y FUERZA UNI 19 marzo 2024-22.ppt
 
Clase 2 Revoluciones Industriales y .pptx
Clase 2 Revoluciones Industriales y .pptxClase 2 Revoluciones Industriales y .pptx
Clase 2 Revoluciones Industriales y .pptx
 
07 MECANIZADO DE CONTORNOS para torno cnc universidad catolica
07 MECANIZADO DE CONTORNOS para torno cnc universidad catolica07 MECANIZADO DE CONTORNOS para torno cnc universidad catolica
07 MECANIZADO DE CONTORNOS para torno cnc universidad catolica
 
Seleccion de Fusibles en media tension fusibles
Seleccion de Fusibles en media tension fusiblesSeleccion de Fusibles en media tension fusibles
Seleccion de Fusibles en media tension fusibles
 

¿Es posible la convergencia HPC y Big Data? Lecciones aprendidas de los sistemas de E/S

  • 1. ¿Es posible la convergencia HPC y Big Data? Lecciones aprendidas de los sistemas de E/S María S. Pérez mperez@fi.upm.es DIAPOSITIVA 0
  • 2. Seminarios UCM, 11/04/2019 DIAPOSITIVA 1 • Introducción • Contexto • Problema general de convergencia HPC- Big Data • Convergencia HPC-Big Data a nivel de almacenamiento • Estudio y evaluación • Conclusiones y líneas de trabajo futuro
  • 3. Seminarios UCM, 11/04/2019 DIAPOSITIVA 2 Divergencia DA-CS Source: Big Data and Extreme-Scale Computing, BDEC
  • 4. Seminarios UCM, 11/04/2019 DIAPOSITIVA 3 Divergencia a nivel de hardware y arquitectura Source: “Creating synergies across HPC & Big Data platforms”, BDVA-ETP4HPC White Paper
  • 5. Seminarios UCM, 11/04/2019 DIAPOSITIVA 4 Diferencias históricas entre BD y HPC Carga de trabajo típica Principios de diseño Big Data Aplicaciones intensivas en datos La mayoría del tiempo de ejecución es dedicado a E/S y manipulación de datos Optimizado para coste Menor prioridad al rendimiento (IOPS) HPC Aplicaciones intensivas en cómputo La mayoría del tiempo de ejecución es dedicado a computación Optimizado para rendimiento Menor prioridad al coste (FLOPS)
  • 6. Seminarios UCM, 11/04/2019 DIAPOSITIVA 5 Interés en la convergencia
  • 7. Seminarios UCM, 11/04/2019 DIAPOSITIVA 6 • Introducción • Contexto • Problema general de convergencia HPC- Big Data • Convergencia HPC-Big Data a nivel de almacenamiento • Estudio y evaluación • Conclusiones y líneas de trabajo futuro
  • 8. Seminarios UCM, 11/04/2019 DIAPOSITIVA 7 BDVA (~200) members include large industries, SMEs, research organisations and data users and providers to support the development and deployment of the EU Big Data Value Public-Private Partnership with the European Commission BDVA focuses its activities on updating the multi-annual roadmap and on providing regular advice to enable the European Commission to prepare, draft and adopt the periodic Work Programmes, as well as on delivering Data Innovation Recommendations, developing Big Data Value Ecosystem, guiding Standards, and, facilitating Know-how exchange.
  • 9. Seminarios UCM, 11/04/2019 TF4:Communication TF3:Ecosystem TF2: Impact DIAPOSITIVA 8 TF1: Programme TF5: Policy & Societal Policy & Societal TF6: Technical Data Science/AI (Analytics visualization) Data Technology Architectures HPC-Big Data Data Protection and Pseudonymisation Mechanisms Standardisation Data Benchmarking TF7: Application Telecom Healthcare Media Earth observation & geospatial Smart Manufacturing Industry Mobility and Logistics Smart Governance and Smart Cities Agri TF8: Business Data entrepreneurs (SMEs and startups) Transforming traditional business (Large Enterprise) Observatory on Data Business Models TF9: Skills and Education Skill requirements from European industries Liaison with existing educational projects Analysis of current curricula related to data science BDVA Task Forces
  • 10. Seminarios UCM, 11/04/2019 DIAPOSITIVA 9 EuroHPC Joint Undertaking https://eurohpc-ju.europa.eu
  • 11. Seminarios UCM, 11/04/2019 DIAPOSITIVA 10 CABAHLA-CM: Convergencia BD-HPC: de los sensores a las aplicaciones • Proyecto financiado por la Comunidad de Madrid, ayudas para la realización de programas de actividades de I+D entre grupos de investigación de la Comunidad de Madrid en tecnologías y en biomedicina (2019-2022) • 4 grupos: – ArTeCS, Universidad Complutense de Madrid – ARCOS, Universidad Carlos III de Madrid – SciTrack, Centro de Investigaciones Energéticas, Medioambientales y Tecnológicas – OEG, Universidad Politécnica de Madrid • Objetivo: Mejorar la integración de los paradigmas de HPC y Big Data – Plataforma intensiva en computación y datos – Dos casos de uso: captación y modelado de datos de sensores para la predicción de radiación solar con alta resolución espacio-temporal y procesamiento de datos masivos en imagen médica del cerebro
  • 12. Seminarios UCM, 11/04/2019 DIAPOSITIVA 11 • Introducción • Contexto • Problema general de convergencia HPC-Big Data • Convergencia HPC-Big Data a nivel de almacenamiento • Estudio y evaluación • Conclusiones y líneas de trabajo futuro
  • 13. Seminarios UCM, 11/04/2019 DIAPOSITIVA 12 Traditional Big Data Extreme Data Analytics Enterprise IT HPC Data-intensive workloads [Example] Inferring new insights from big data-sets e.g. pattern recognition across suppliers, consumers, etc for data-driven insights and innovation ‘Regular’ workloads [Example] Running the enterprise – HR, Legal, Payroll, finance, etc. Compute-intensive workloads [Example] Modelling and simulating focusing on interaction amongst parts of a system and the system as a whole e.g. product design Compute- and Data intensive workloads: [Example] Reshaping healthcare through advanced analytics and artificial intelligence – leading to predictive and personalized medicine Source: Subgroup HPC-BD BDVA
  • 14. Seminarios UCM, 11/04/2019 DIAPOSITIVA 13 Estudio de aplicaciones/casos de uso 13 Source: Subgroup HPC-BD BDVA
  • 15. Seminarios UCM, 11/04/2019 DIAPOSITIVA 14 14 HPC, Big Data y Deep Learning Source: “Creating synergies across HPC & Big Data platforms”, BDVA-ETP4HPC White Paper
  • 16. Seminarios UCM, 11/04/2019 DIAPOSITIVA 15 • Introducción • Contexto • Problema general de convergencia HPC- Big Data • Convergencia HPC-Big Data a nivel de almacenamiento • Estudio y evaluación • Conclusiones y líneas de trabajo futuro
  • 17. Seminarios UCM, 11/04/2019 DIAPOSITIVA 16 HPC a nivel de almacenamiento Aplicación HPC Sistema de ficheros POSIX• Lecturas y escrituras aleatorias en fichero • Jerarquía (directorios) • Permisos • Renombrado atómico • Protección multiusuario
  • 18. Seminarios UCM, 11/04/2019 DIAPOSITIVA 17 POSIX Lecturas y escrituras aleatorias en fichero Jerarquía (directorios) Permisos Renombrado atómico Protección multiusuario
  • 19. Seminarios UCM, 11/04/2019 DIAPOSITIVA 18 POSIX Lecturas y escrituras aleatorias en fichero
  • 20. Seminarios UCM, 11/04/2019 DIAPOSITIVA 19 POSIX Lecturas y escrituras aleatorias en fichero Objetos
  • 21. Seminarios UCM, 11/04/2019 DIAPOSITIVA 20 HPC a nivel de almacenamiento Aplicación HPC Sistema de almacenamiento basado en objetos
  • 22. Seminarios UCM, 11/04/2019 DIAPOSITIVA 21 HPC y Big Data Aplicación HPC Sistema de almacenamiento basado en objetos Aplicación Big Data
  • 23. Seminarios UCM, 11/04/2019 DIAPOSITIVA 22 HPC y Big Data Aplicación HPC Sistema de almacenamiento basado en objetos Aplicación Big Data Sistema K/V BBDD Sist. de ficheros
  • 24. Seminarios UCM, 11/04/2019 DIAPOSITIVA 23 HPC y Big Data Aplicación HPC Sistema de almacenamiento basado en objetos Sistema K/V BBDD Sistema de ficheros Aplicación Big Data
  • 25. Seminarios UCM, 11/04/2019 DIAPOSITIVA 24 HPC y Big Data Aplicación HPC Sistema de almacenamiento basado en objetos Sistema K/V BBDD Sistema de almacenamiento basado en objetos Aplicación Big Data
  • 26. Seminarios UCM, 11/04/2019 DIAPOSITIVA 25 HPC y Big Data Aplicación HPC Sistema de almacenamiento basado en objetos convergente Sistema K/V BBDD Aplicación Big Data
  • 27. Seminarios UCM, 11/04/2019 DIAPOSITIVA 26 Pila de almacenamiento actual Biblioteca de E/S App HPC App HPC App HPC SFP HPC App BD App BD App BD Framework Big Data SFD Big Data Llamadas bib E/S- Framework BD Llamadas tipo POSIX
  • 28. Seminarios UCM, 11/04/2019 DIAPOSITIVA 27 Pila de almacenamiento actual Biblioteca de E/S App HPC App HPC App HPC Adaptador HPC App BD App BD App BD Framework Big Data Adaptador Big Data Llamadas bib E/S- Framework BD Llamadas tipo POSIX Sistema de almacenamiento basado en objetos convergente
  • 29. Seminarios UCM, 11/04/2019 DIAPOSITIVA 28 • Introducción • Contexto • Problema general de convergencia HPC- Big Data • Convergencia HPC-Big Data a nivel de almacenamiento • Estudio y evaluación • Conclusiones y líneas de trabajo futuro
  • 30. Seminarios UCM, 11/04/2019 DIAPOSITIVA 29 Primitivas orientadas a objetos • Acceso al objeto: lectura (read) aleatoria del objeto, tamaño (size) del objeto • Manipulación del objeto: escritura (write) aleatoria del objeto, truncado (truncate) • Gestión del objeto: crear objetos (create), borrar objetos (delete) • Estas operaciones son similares a las operaciones POSIX básicas sobre un fichero • Las operaciones a nivel de directorio no tienen contrapartida a nivel de objeto: – Bajo número de este tipo de operaciones – Se pueden emular mediante la operación “scan” (operación poco eficiente, pero compensado por el hecho de utilizar un espacio de nombres plano y una semántica más sencilla)
  • 31. Seminarios UCM, 11/04/2019 DIAPOSITIVA 30 Estudio sobre aplicaciones HPC/BD Plataforma Aplicación Uso Lecturas Escrituras Ratio R/W Perfil HPC/MPI mpiBLAST Protein docking 27.7 GB 12.8 MB 2.2*10^3 Read-intensive MOM Oceanic model 19.5 GB 3.2 GB 6.09 Read-intensive ECOHAM Sediment propagation 67.4 GB 71.2 GB 0.94 Balanced Ray Tracing Video processing 0.4 GB 9.7 GB 4.1*10^-2 Write-intensive Cloud/Spark Sort Text processing 5.8 GB 5.8 GB 1.00 Balanced Connected Component Graph processing 13.1 GB 71.2 MB 1.8*10^2 Read-intensive Grep Text processing 55.8 GB 863.8 MB 66.14 Read-intensive Decision Tree Machine Learning 59.1 GB 4.7 GB 12.57 Read-intensive Tokenizer Text processing 55.8 GB 235.7 GB 0.23 Write-intensive Pierre Matri, Yevhen Alforov, Álvaro Brandón, María S. Pérez et al. Mission possible: Unify HPC and Big Data stacks towards application-defined blobs at the storage layer. Future Generation Computer Systems, In press.
  • 32. Seminarios UCM, 11/04/2019 DIAPOSITIVA 31 Distribución de operaciones
  • 33. Seminarios UCM, 11/04/2019 DIAPOSITIVA 32 Operaciones sobre directorios (App BD) Operación Acción Núm. Oper. mkdir Crear directorio 43 rmdir Borrar directorio 43 opendir (directorio datos) Abrir directorio 5 Opendir (otros directorios) Abrir directorio 0 Operación original Operación reescrita create(/foo/bar) create(/foo__bar) open(/foo/bar) open(/foo__bar) read(fd) read(bd) write(fd) write(bd) mkdir(/foo) ----- opendir(/foo) scan(/), devolver todos los ficheros que encajan con foo__* rmdir(/foo) scan(/), borrar todos los ficheros que encajan con foo__*
  • 34. Seminarios UCM, 11/04/2019 DIAPOSITIVA 33 Influencia de las operaciones sobre directorios
  • 35. Seminarios UCM, 11/04/2019 DIAPOSITIVA 34 BlobSeer/RADOS vs Lustre (HPC) and HDFS/Ceph (BD) • Grid’5000 testbed distribuido en 11 sitios en Francia y Luxemburgo (parapluie cluster, Rennes) • Cada nodo: 2 x 12-core 1.7 Ghz 6164 HE, 48 GB of RAM y 250 GB HDD. • Apps HPC: Lustre 2.9.0 y MPICH 3.2 [67], en un cluster de 32 nodos (InfiniBand) • Apps BD: Spark 2.1.0, Hadoop / HDFS 2.7.3 and Ceph Kraken, en un cluster de 32 nodos (Gigabit Ethernet)
  • 36. Seminarios UCM, 11/04/2019 DIAPOSITIVA 35 BlobSeer Bogdan Nicolae; Gabriel Antoniu; Luc Bougé; Diana Moise; Alexandra Carpen-Amarie. 2011. BlobSeer: Next-generation data management for large scale infrastructures. J. Parallel Distrib. Comput. 71, 2 (February 2011), 169-184.
  • 37. Seminarios UCM, 11/04/2019 DIAPOSITIVA 36 RADOS/Ceph ceph.com
  • 38. Seminarios UCM, 11/04/2019 DIAPOSITIVA 37 Lustre Source: lustre.org
  • 39. Seminarios UCM, 11/04/2019 DIAPOSITIVA 38 HDFS Source: hadoop.apache.org
  • 40. Seminarios UCM, 11/04/2019 DIAPOSITIVA 39 Aplicaciones HPC
  • 41. Seminarios UCM, 11/04/2019 DIAPOSITIVA 40 Aplicaciones BD
  • 42. Seminarios UCM, 11/04/2019 DIAPOSITIVA 41 Análisis del estudio • La convergencia a nivel de almacenamiento es posible mediante el uso de almacenamiento basado en objetos, llevando a una mejora en el rendimiento para ambos tipos de plataformas (HPC y Cloud) • Utilizando objetos, se consigue una mejora de hasta el 32% – Principalmente por el espacio de nombres plano – Rados: capacidad de lectura directa y esquema sencillo y descentralizado de gestión de metadatos (gran rendimiento para lecturas) – BlobSeer: control de concurrencia multi-versión da soporte a gran velocidad de escritura para cargas de trabajo altamente concurrentes (gran rendimiento para escrituras) • Problemas de ambos sistemas: – Aunque el rendimiento de Rados es excelente cuando hay baja contención de escritura, su control de concurrencia basado en cerrojos limita el rendimiento de casos de uso altamente concurrentes. – El control de concurrencia multi-versión de BlobSeer da buen soporte de escritura, pero el árbol de metadatos distribuidos de BlobSeer supone una latencia de lectura significativa
  • 43. Seminarios UCM, 11/04/2019 DIAPOSITIVA 42 Týr • ¿Se pueden lograr los beneficios de ambos sistemas? • Además de combinar las ventajas de Rados y BlobSeer, hay un conjunto significativo de casos de uso que requieren semánticas de consistencia más estrictas – Indexación y agregación de datos (Ejemplo: ALICE CERN LHC experiment) – Distributed shared logs (Ejemplo: Computational steering + in-situ visualization)
  • 44. Seminarios UCM, 11/04/2019 DIAPOSITIVA 43 Týr Pierre Matri; Alexandru Costan; Gabriel Antoniu; Jesús Montes; María S. Pérez. "Týr: Blob StorageSystems Meet Built- In Transactions". SC '16 Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. Article n. 49, Best student paper award finalist
  • 45. Seminarios UCM, 11/04/2019 DIAPOSITIVA 44 Týr Pierre Matri; Philip Carns; Robert Ross; Alexandru Costan; María S. Pérez; Gabriel Antoniu;. ”SLoG: A large-scale Logging Middleware for HPC and Big Data convergence”. ICDCS’2018. pp. 1507-1512, 2018.
  • 46. Seminarios UCM, 11/04/2019 DIAPOSITIVA 45 Diseño de Týr • Distribución de datos predecible – Combinación de técnicas de data striping y consistent hashing – Elimina la necesidad de un servidor de metadatos centralizado • Control de concurrencia multi-versión transparente – Se utiliza versioning a nivel de chunk y números no secuenciales para el versionado • Semántica transaccional ACID – Utilizando el protocolo transaccional Warp* – Utilizan cadenas de los servidores afectados por las transacciones y grafos de dependencias • Operaciones de transformación atómicas – Eficientes operaciones read-modify-write – Particularmente interesante cuando las operaciones de transformación son sencillas (aritméticas, a nivel de bit) – El cliente no comunica el nuevo dato a escribir, sino la modificación a aplicar, evitando two-round trips • Prototipo software con aproximadamente 25,000 líneas de código Rust y GNU C * R. Escriva, B. Wong and E. Sirer. Warp: Lightweight multi-key transactions for key-value stores. arXiv preprint arXiv:1509.07815, 2015.
  • 47. Seminarios UCM, 11/04/2019 DIAPOSITIVA 46 Aplicaciones HPC
  • 48. Seminarios UCM, 11/04/2019 DIAPOSITIVA 47 Aplicaciones BD
  • 49. Seminarios UCM, 11/04/2019 DIAPOSITIVA 48 • Introducción • Contexto • Problema general de convergencia HPC- Big Data • Convergencia HPC-Big Data a nivel de almacenamiento • Estudio y evaluación • Conclusiones y líneas de trabajo futuro
  • 50. Seminarios UCM, 11/04/2019 DIAPOSITIVA 49 Conclusiones y líneas de futuro • El diseño de Týr supera significativamente BlobSeer y sistemas de ficheros tradicionales, tanto para aplicaciones HPC como BDA – Escrituras no bloqueantes, mediante el uso de control de concurrencia multi-versión – Escrituras directas utilizando técnicas de consistent hashing • Týr sufre una pequeña penalización respecto a Rados – Excepto para aplicaciones intensivas en escritura, debido a la eficiencia del control de concurrencia multi-versión – Resultado de unas garantías de consistencia más fuerte (transacciones) • Este es un primer paso sobre el que se puede trabajar para la convergencia HPC y BDA a otros niveles, más allá del almacenamiento
  • 51. ¿Es posible la convergencia HPC y Big Data? Lecciones aprendidas de los sistemas de E/S María S. Pérez mperez@fi.upm.es DIAPOSITIVA 50