Nvidia hpc day 2011 kiev

Вчера. Сегодня. Завтра.

1

Гетерогенные вычисления

CPU GPU

Ускорение

2

Минимальное портирование для
значительного ускорения
Код приложения

Весь остальной
Только критические последовательный
GPU функции CPU код CPU
Параллелизация
в соответствии
с программной
моделью CUDA

3

GPU Tesla в основе 3 из Top 5 СК
#2 : Tianhe-1A #4 : Nebulae #5 : Tsubame 2.0
7168 Tesla GPU’s 2.5 PFLOPS 4650 Tesla GPU’s 1.2 PFLOPS 4224 Tesla GPU’s 1.194 PFLOPS

―внедрили гетерогенную вычислительную архитектуру, использующую
Мы не только создали самый быстрый компьютер, но так же

‖
CPU и GPU, это действительно инновация.
Премьер министр Вен Цзябао
Публичный комментарий Tianhe-1A
4

Топ50 – интересные факты

• 7 кластеров на базе NVIDIA Tesla.

• 7 кластеров на базе GPU обеспечивают суммарную
производительность равную производительности
всех остальных систем в списке:

1616,7 из 3275,86 ТФлопс

5

Самый эффективный петафлопный СК

Tsubame 2.0

1.192 Пф

1.340 МВт

4200 Tesla M2050 GPUs

Токийский технологический институт
6

Будущее сегодня

18,000+ Tesla GPUs

20+ PetaFlops

В 3 раза более энергоэффективный
по сравнению с #1 (K Computer)

7

Самый быстрый вычислитель для задач МД
Эффективная производительность 1.87 Petaflops/s
Institute of Process Engineering (IPE)
Chinese Academy of Sciences (CAS)

Моделирование кристаллического кремния Использованы все 7168 Tesla GPU

8

Решения Tesla для рабочих станций и ЦОД

Tesla M-series GPUs Tesla C-series GPUs
M2090 | M2075 | M2070 | M2050 C2075 | C2070 | C2050
Серверы & блейды Рабочие станции
M2090 M2075 M2070 M2050 C2075 C2070 C2050
Кол-во ядер 512 448 448 448 448 448 448
Объем памяти 6 GB 6 GB 6 GB 3 GB 6 GB 6 GB 3 GB
Пс памяти 148.8 148.8 148.8
177.6 GB/s 150 GB/s 150 GB/s 148.8 GB/s
(ECC откл) GB/s GB/s GB/s
Одинарная
Пиковая 1331 1030 1030 1030 1030 1030 1030
точность
произв
Gflops Двойная
665 515 515 515 515 515 515
точность

9

Решения Tesla для рабочих станций и ЦОД

Tesla M-series GPUs Tesla C-series GPUs
M2090 | M2075 C2075
Серверы & блейды Рабочие станции
M2090 M2075 C2075
Кол-во ядер 512 448 448
Объем памяти 6 GB 6 GB 6 GB
Пс памяти 148.8
177.6 GB/s 150 GB/s
(ECC откл) GB/s
Одинарная
Пиковая 1331 1030 1030
точность
произв
Gflops Двойная
665 515 515
точность

10

Самый быстрый в мире HPC процессор
Tesla M2090: 512 ядерный продукт архитектуры Fermi

512 CUDA ядер 35
M2090 vs M2070: 20-30% ускорение

30

665 GFlops 25

20

178 GB/s 15

10

5

0
Supercomputing Life Science Oil & Gas Material Science Manufacturing
Linpack AMBER Kirchoff Time WL-LSMS Abaqus
Migration
12

Мировой рекорд производительности в
AMBER
4 Tesla M2090 GPUs 192 Quad-Core CPUs
+ 2 CPUs
69 нс/день 46 нс/день

Больший размер
Быстрее = = Больший реализм
молекул
JAC NVE Benchmark 13

Новая версия ANSYS Mechanical – R14
Preview available now, R14 release coming in November

ANSYS Mechanical14.0 Preview 3 DMP vs. 13.0 SP2 SMP for Tesla GPU

750
Xeon 5670 + Tesla C2075 for 13.0 SP2 SMP V13sp-5 Model
Xeon 5670 + Tesla C2075 for 14.0 P3 DMP
ANSYS Mechanical Times in

Lower
is
500 better

414 32% 395
45% 358 33%
314
250 273 270
Seconds

- Turbine geometry
- 2,100 K DOF
13SP 14P 13SP 14P 13SP 14P - Static, nonlinear
0 2 3 2 3 2 3 - Direct sparse
4 Core 6 Core 8 Core

15

Прирост более чем в 4 раза vs стандартной лицензии
NOTE: Based on ANSYS Mechanical 14.0 Preview 3 DMP Solver Aug 2011 and Model V13sp-5

5
Factors Gain Over Base License Results

CPU Speed-up
4 GPU Speed-up 4.4
Extra 40% cost
Solution Cost yields 400%
performance
3

2
2.1

1 1.35 1.38
V13sp-5 Model:
1.0 1.0
- 2,100 K DOF
0 -Static nonlinear
-Direct sparse

Base License ANSYS HPC Pack ANSYS HPC Pack
2 Core 6 Cores 6 Cores + GPU

16

MATLAB

MATLAB R2011b
Критическая масса функционала уже на GPU

Преимущества
177 функций портированны на GPU (из ~250)
• Random number generation • Solvers • SVD
• FFT • Convolutions • Cholesky and LU
• Matrix multiplications • Min/max factorization

Поддержка компилятора MATLAB
GPU функционал в Communications Systems Toolbox
Дальнейшее повышение производительности

Фокусный рынок: наука, исследования и ...
17

Gaussian будет ускорен на CUDA

Aug. 29, 2011 — NVIDIA announced plans with Gaussian,
Inc., and The Portland Group® (PGI) to develop a future
GPU-accelerated release of Gaussian, the world’s leading
software application for quantum chemistry.

18

CUDA 4.0
Портирование приложений становится удобнее

Удобная работа с несколькими GPU
GPU Direct 2.0

Удобство в портировании приложений
Unified Virtual Addressing

Программирование на C++
Thrust

19

До появления GPUDirect v2.0
Требовалась копия в памяти хоста
GPU1 GPU2
Memory Memory

System
Memory

CPU
GPU1 GPU2

PCI-e Chip
set
20

GPUDirect v2.0: взаимодействие Peer-to-Peer
Прямая передача данных между GPU
GPU1 GPU2
Memory Memory

System
Memory

CPU
GPU1 GPU2

PCI-e Chip
set

21

Unified Virtual Addressing
Единое адресное пространство

Без UVA UVA
System GPU0 GPU1 System GPU0 GPU1
Memory Memory Memory Memory Memory Memory
0x0000 0x0000 0x0000 0x0000

0xFFFF 0xFFFF 0xFFFF 0xFFFF

CPU GPU0 GPU1 CPU GPU0 GPU1

PCI-e PCI-e

22

Параллельные алгоритмы в стиле C++ STL (Thrust)
Производительные C++ параллельные алгоритмы & структуры данных
Синтаксис схож с C++ STL (Standard Template Library )

Open Source библиотека: Apache License 2.0 (http://code.google.com/p/thrust/)

Автоматический выбор более производительных алгоритмов
Алгоритмы имеют различные бекэнды (GPU, CPU/OpenMP)

Параллельная сортировка в 5x - 100x быстрее чем в STL и TBB

Структуры данных Алгоритмы

• thrust::device_vector • thrust::sort
• thrust::host_vector • thrust::reduce
• thrust::device_ptr • thrust::exclusive_scan
• И т.п. • И.т.п.
23

Результаты опроса пользователей
Изменение 1-5% кода
В 2 раза быстрее за 3 чел/мес
10

8

6
Speed
Up
4

2

0
0 3 6
Чел-мес

24

Роадмап Tesla CUDA GPU
16
Maxwell

14
DP GFLOPS per Watt

12

10

8

6 Kepler

4
Fermi
2 T10

2008 2010 2012 2014
25

Nvidia hpc day 2011 kiev

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a Nvidia hpc day 2011 kiev

Similar a Nvidia hpc day 2011 kiev (20)

Nvidia hpc day 2011 kiev