3. Минимальное портирование для
значительного ускорения
Код приложения
Весь остальной
Только критические последовательный
GPU функции CPU код CPU
Параллелизация
в соответствии
с программной
моделью CUDA
3
4. GPU Tesla в основе 3 из Top 5 СК
#2 : Tianhe-1A #4 : Nebulae #5 : Tsubame 2.0
7168 Tesla GPU’s 2.5 PFLOPS 4650 Tesla GPU’s 1.2 PFLOPS 4224 Tesla GPU’s 1.194 PFLOPS
―внедрили гетерогенную вычислительную архитектуру, использующую
Мы не только создали самый быстрый компьютер, но так же
‖
CPU и GPU, это действительно инновация.
Премьер министр Вен Цзябао
Публичный комментарий Tianhe-1A
4
5. Топ50 – интересные факты
• 7 кластеров на базе NVIDIA Tesla.
• 7 кластеров на базе GPU обеспечивают суммарную
производительность равную производительности
всех остальных систем в списке:
1616,7 из 3275,86 ТФлопс
5
6. Самый эффективный петафлопный СК
Tsubame 2.0
1.192 Пф
1.340 МВт
4200 Tesla M2050 GPUs
Токийский технологический институт
6
7. Будущее сегодня
18,000+ Tesla GPUs
20+ PetaFlops
В 3 раза более энергоэффективный
по сравнению с #1 (K Computer)
7
8. Самый быстрый вычислитель для задач МД
Эффективная производительность 1.87 Petaflops/s
Institute of Process Engineering (IPE)
Chinese Academy of Sciences (CAS)
Моделирование кристаллического кремния Использованы все 7168 Tesla GPU
8
9. Решения Tesla для рабочих станций и ЦОД
Tesla M-series GPUs Tesla C-series GPUs
M2090 | M2075 | M2070 | M2050 C2075 | C2070 | C2050
Серверы & блейды Рабочие станции
M2090 M2075 M2070 M2050 C2075 C2070 C2050
Кол-во ядер 512 448 448 448 448 448 448
Объем памяти 6 GB 6 GB 6 GB 3 GB 6 GB 6 GB 3 GB
Пс памяти 148.8 148.8 148.8
177.6 GB/s 150 GB/s 150 GB/s 148.8 GB/s
(ECC откл) GB/s GB/s GB/s
Одинарная
Пиковая 1331 1030 1030 1030 1030 1030 1030
точность
произв
Gflops Двойная
665 515 515 515 515 515 515
точность
9
10. Решения Tesla для рабочих станций и ЦОД
Tesla M-series GPUs Tesla C-series GPUs
M2090 | M2075 C2075
Серверы & блейды Рабочие станции
M2090 M2075 C2075
Кол-во ядер 512 448 448
Объем памяти 6 GB 6 GB 6 GB
Пс памяти 148.8
177.6 GB/s 150 GB/s
(ECC откл) GB/s
Одинарная
Пиковая 1331 1030 1030
точность
произв
Gflops Двойная
665 515 515
точность
10
11. Самый быстрый в мире HPC процессор
Tesla M2090: 512 ядерный продукт архитектуры Fermi
512 CUDA ядер 35
M2090 vs M2070: 20-30% ускорение
30
665 GFlops 25
20
178 GB/s 15
10
5
0
Supercomputing Life Science Oil & Gas Material Science Manufacturing
Linpack AMBER Kirchoff Time WL-LSMS Abaqus
Migration
12
12. Мировой рекорд производительности в
AMBER
4 Tesla M2090 GPUs 192 Quad-Core CPUs
+ 2 CPUs
69 нс/день 46 нс/день
Больший размер
Быстрее = = Больший реализм
молекул
JAC NVE Benchmark 13
14. Новая версия ANSYS Mechanical – R14
Preview available now, R14 release coming in November
ANSYS Mechanical14.0 Preview 3 DMP vs. 13.0 SP2 SMP for Tesla GPU
750
Xeon 5670 + Tesla C2075 for 13.0 SP2 SMP V13sp-5 Model
Xeon 5670 + Tesla C2075 for 14.0 P3 DMP
ANSYS Mechanical Times in
Lower
is
500 better
414 32% 395
45% 358 33%
314
250 273 270
Seconds
- Turbine geometry
- 2,100 K DOF
13SP 14P 13SP 14P 13SP 14P - Static, nonlinear
0 2 3 2 3 2 3 - Direct sparse
4 Core 6 Core 8 Core
15
15. Прирост более чем в 4 раза vs стандартной лицензии
NOTE: Based on ANSYS Mechanical 14.0 Preview 3 DMP Solver Aug 2011 and Model V13sp-5
5
Factors Gain Over Base License Results
CPU Speed-up
4 GPU Speed-up 4.4
Extra 40% cost
Solution Cost yields 400%
performance
3
2
2.1
1 1.35 1.38
V13sp-5 Model:
1.0 1.0
- 2,100 K DOF
0 -Static nonlinear
-Direct sparse
Base License ANSYS HPC Pack ANSYS HPC Pack
2 Core 6 Cores 6 Cores + GPU
16
16. MATLAB
MATLAB R2011b
Критическая масса функционала уже на GPU
Преимущества
177 функций портированны на GPU (из ~250)
• Random number generation • Solvers • SVD
• FFT • Convolutions • Cholesky and LU
• Matrix multiplications • Min/max factorization
Поддержка компилятора MATLAB
GPU функционал в Communications Systems Toolbox
Дальнейшее повышение производительности
Фокусный рынок: наука, исследования и ...
17
17. Gaussian будет ускорен на CUDA
Aug. 29, 2011 — NVIDIA announced plans with Gaussian,
Inc., and The Portland Group® (PGI) to develop a future
GPU-accelerated release of Gaussian, the world’s leading
software application for quantum chemistry.
18
18. CUDA 4.0
Портирование приложений становится удобнее
Удобная работа с несколькими GPU
GPU Direct 2.0
Удобство в портировании приложений
Unified Virtual Addressing
Программирование на C++
Thrust
19
19. До появления GPUDirect v2.0
Требовалась копия в памяти хоста
GPU1 GPU2
Memory Memory
System
Memory
CPU
GPU1 GPU2
PCI-e Chip
set
20
20. GPUDirect v2.0: взаимодействие Peer-to-Peer
Прямая передача данных между GPU
GPU1 GPU2
Memory Memory
System
Memory
CPU
GPU1 GPU2
PCI-e Chip
set
21
21. Unified Virtual Addressing
Единое адресное пространство
Без UVA UVA
System GPU0 GPU1 System GPU0 GPU1
Memory Memory Memory Memory Memory Memory
0x0000 0x0000 0x0000 0x0000
0xFFFF 0xFFFF 0xFFFF 0xFFFF
CPU GPU0 GPU1 CPU GPU0 GPU1
PCI-e PCI-e
22
22. Параллельные алгоритмы в стиле C++ STL (Thrust)
Производительные C++ параллельные алгоритмы & структуры данных
Синтаксис схож с C++ STL (Standard Template Library )
Open Source библиотека: Apache License 2.0 (http://code.google.com/p/thrust/)
Автоматический выбор более производительных алгоритмов
Алгоритмы имеют различные бекэнды (GPU, CPU/OpenMP)
Параллельная сортировка в 5x - 100x быстрее чем в STL и TBB
Структуры данных Алгоритмы
• thrust::device_vector • thrust::sort
• thrust::host_vector • thrust::reduce
• thrust::device_ptr • thrust::exclusive_scan
• И т.п. • И.т.п.
23