Nvidia Hpc Day Kiev Rus

Решения для высокопроизводительных
вычислений от NVIDIA

Октябрь 2009

1

Гетерогенные вычисления

4 ядра

Вычисления CPU + GPU
Гибридные вычислительные системы

2

Когда прирост производительности имеет значение?
Shader Model 4 + CUDA
(754Mill / 1.4 Bill / 3.0 Bill
Transistors)
Производительность в GFlops

Sailships Steamships Airplanes
Fermi
1000
Скорость в миль/час

Shader Model 3 + GPGPU
Shader Model 1 & 2 (222 / 302 Mill Transistors)
100 (63Mill / 130 Mill Transistors)
Pixel Transfer
(1Mill / 22 Mill Transistors)

10

1
1700 1725 1750 1775 1800 1825 1850 1875 1900 1925 1950 1970

1995 1999 2002 2003 2004 2005 2006 2008 2010
3

GPU : переломный момент в отрасли
суперкомпьютеров
Десктоп эффективнее кластера

4 Tesla
C1060 GPUs 59,9 сек

256 AMD dual-
core Opterons 67,4 сек

55 60 65 70 Tesla Personal
CalcUA Компьютерная томография, Supercomputer
$5 млн. время обработки
$10,000
Источник: University of Antwerp, Belgium
4

Прирост производительности до 150 раз

146X 36X 18X 50X 100X
Рентгенография, Молекулярная Транскодирование Математические Астрофизика
томография динамика видео вычисления RIKEN
U of Utah U of Illinois, Urbana Elemental Tech AccelerEyes

149X 47X 20X 130X 30X
Финансовые Линейная 3D ультразвук Квантовая химия Генная
задачи алгебра Techniscan U of Illinois, Urbana инженерия
Oxford Universidad Jaime U of Maryland

5

Compute Unified Device Architecture

Программно-аппаратная архитектура для
параллельных вычислений
6

Архитектура параллельных вычислений CUDA

Архитектура для
параллельных вычислений

Включает Си компилятор

Стандартные языки и API

ATI’s Compute “Solution”

7

CUDA. Факты.

900+ научных трудов

115+ университетов преподают
CUDA

60 тыс. разработчиков

200 млн. GPU с CUDA

www.NVIDIA.ru/CUDA
8

Более 250 заказчиков / разработчиков ПО
Life Sciences & Productivit Oil and Manufa CAE / Commun
Medical Equipment y / Misc Gas EDA cturing Finance Numerics ication

Max Planck GE Healthcare CEA Hess Synopsys Renault Symcor The Nokia
FDA Siemens WRF Weather TOTAL Nascentric Boeing Level 3 Mathworks RIM
Robarts Techniscan Modeling CGG/Veritas Gauda SciComp Wolfram Philips
Research Boston Scientific OptiTex Chevron CST Hanweck National Samsung
Medtronic Eli Lilly Tech-X Headwave Agilent Quant Instruments LG
AGC Silicon Elemental Acceleware Catalyst Access Sony
Technologies Analytics
Evolved Informatics Seismic City RogueWave Ericsson
Dimensional Tech-x
machines Stockholm Imaging P-Wave BNP Paribas NTT
Smith-Waterman Research Seismic RIKEN DoCoMo
Manifold
DNA sequencing Harvard Imaging SOFA Mitsubishi
Digisens
AutoDock Delaware Mercury Hitachi
General Mills
NAMD/VMD Pittsburg Computer Radio
Rapidmind
Folding@Home ETH Zurich ffA Research
MS Visual
Howard Huges Institute Atomic Laboratory
Studio
Medical Physics US Air Force
Rhythm & Hues
CRIBI Genomics
xNormal
Elcomsoft
LINZIK
9

Параллельные вычисления на GPU
200+ млн. GPU в мире поддерживают CUDA

GeForce® TeslaTM Quadro®
Развлечения Высокопроизводительные вычисления Дизайн, разработка

10

Выбор CUDA платформы
Tesla Quadro GeForce

Стресс-тест с проверкой точности вычислений X
Произведено NVIDIA из высококачественных комплектующих X X
3-х летняя гарантия, корпоративная поддержка X X
4 Гб оперативной памяти для работы с большими объемами данных X X
Единое профессиональное решение для вычислений и графики X
Пользовательские приложения: PhysX, Video, Imaging X
Короткий жизненный цикл пользовательского продукта X
Производится и сопровождается партнерами NVIDIA X
Поддержка осуществляется через партнеров NVIDIA X

11

Вычислительные решения Tesla

Созданы для профессионалов.

12

GPU NVIDIA Tesla 10-й серии

L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1

L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1

13

Tesla: созданы для вычислений
Системные решения Профессиональный уровень

Высококачественная память
Надежность вычислений
24-часовой стресс-тест

Поддержка NVIDIA Вычислительные ресурсы

3-х летняя гарантия Архитектура вычислений CUDA
Длинный жизненный цикл 4 ГБ ОЗУ
Корпоративная поддержка двойная точность IEEE-754

14

Вычислительные решения Tesla

Tesla Personal
Tesla S1070 1U System
Tesla C1060 Supercomputer
Computing Board (4 Tesla C1060s)

GPUs 4 Tesla GPUs 1 Tesla GPU 4 Tesla GPUs
Single Precision Perf. 4.14 Teraflops 933 Gigaflops 3.7 Teraflops
Double Precision Perf 346 Gigaflops 78 Gigaflops 312 Gigaflops
Memory 4 GB / GPU 4 GB 4 GB / GPU

15

Tesla S1070: эффективное решение

До 20 раз лучше показатель
производительность/Ватт

Hess University of Heidelberg
Chevron University of Illinois
Petrobras University of North Carolina
NCSA Max Planck Institute
CEA Rice University
TiTech University of Maryland
JFCOM GusGus
SAIC Eotvas University
Federal University of Wuppertal
Motorola Chinese Academy of Sciences
Kodak National Taiwan University

16

Пример: ЦОД стоимостью $5 млн.
CPU 1U Server 2 Quad-core Xeon 8 CPU Cores + CPU 1U Server
CPUs: 8 cores 960 GPU Сores
Tesla 1U System
0.17 Teraflop (single) 4.14 Teraflops (single)
0.08 Teraflop (double) 0.346 Teraflop (double)
$ 3,000 $ 11,000
700 W 1500 W

1819 CPU servers 455 CPU servers
455 Tesla systems
310 Teraflops (single) 1961 Teraflops (single) 6x more perf
155 Teraflops (double) 196 Teraflops (double)

Total area 16K sq feet Total area 9K sq feet 60% smaller
Total 1273 KW Total 682 KW
½ the power
17

Персональный суперкомпьютер Tesla
Производительность
Массивно параллельная CUDA архитектура
960 ядер. 4 Терафлоп/с
В 250 раз мощнее ПК

Удобство
Суперкомпьютер на рабочем столе
Включается в обычную розетку

Доступность
Программируется на Си под Windows и Linux
Стоимость порядка $10,000

18

В 100 раз доступнее
В 20 раз экономичнее Tesla
250x Personal

Supercomputer

Supercomputing
Cluster В 250 раз
быстрее

1x Современный
ПК

$100K - $1M < $10 K
Доступность 19

Высокопроизводительные вычисления на базе GPU

Tesla Cluster
5000x

Tesla Personal
Supercomputer
250x
Supercomputing
Cluster

Standard
Workstation
1x

$100K - $1M < $10 K
Доступность 20

Медицинская техника

GE Healthcare : CT
40% increase in CT resolution
2x increase in frame rate

Techniscan: Ultra-sound
Source: Stone et al, UIUC
High resolution ultra-sound
2x increase in acquisition

Digisens : Tomography
Tomography reconstruction

Several others on
X-Ray, Flow Cytometry, MRI, etc

Source: Batenburg, Sijbers, et al 22

Digisens SnapCT: Визуализация результатов CT

23

3D анализ данных сейсморазведки

SVI Pro 2009 is the first
application to accelerate 3D
seismic analysis through
parallel computation on multiple
GPUs.
Leading to performance gains
of up to 37x on workstation
hardware.

24

3D анализ данных сейсморазведки / Mercury

25

Клиенты

GPU vs CPU
преимущества
Oil & Gas ISVs
Performance / Watt 18x - 27x 12x - 17x

Performance / Space 20x - 31x 15x - 20x

Performance / Cost 15x - 20x 10x - 12x

26

Финансы: оценка котировок

1 Одинаковая производительность 1

2 Tesla S1070 16x экономия места 500 CPU Servers

$24 K 10x меньше стоимость $250 K

2.8 kWatts 13x меньше потребление 37.5 kWatts
27

Финансы: прогнозирование рынка в режиме РВ
Volera real-time option valuation engine
Value entire U.S. listed options market in real-time using 3 NVIDIA Tesla S1070’s

GPUs CPUs Savings

Processors 12 736

Rack Space 6U 92U 15x

Hardware Cost $36,000 $370,000 10x

Annual Cost $31,000 $390,000 13x

Figures assume:
Tesla S1070 + one 8-core host server per node
$260 / U / month rack and power charges
3-year hardware amortization
28

MATLAB: ускорение на GPU

Jacket CUDA plugin from
Accelereyes
http://www.accelereyes.com
15-day trail version avaiable

Tesla GPU in a workstation
For MATLAB and research 143x Speedup

86x Speedup

44x Speedup

29

Молекулярная динамика & квантовая химия
Available MD software
NAMD / VMD (alpha release)
GROMACS (alpha release)
HOOMD
OpenMM : Library for molecular
modeling https://simtk.org/home/openmm
Source: Stone, Phillips, Hardy, Schulten

Source: Ufimtsev, Martinez Source: Anderson, Lorenz, Travesset
30

Биоинформатика
62x Speedup

Available applications 102x Speedup

GPU HMMER
MUMmerGPU sequencing
MATLAB acceleration
Protein docking

31

Промышленность / FEA (Finite Element Analysis)

Сочетание визуализации и симуляции
Переход от сервера к рабочей станции(пример: CFD)

33

Новое поколение архитектуры GPU CUDA
“Fermi”

34

Обзор Fermi
Суперкомпьютер в формате GPU
3 млрд транзисторов
DRAM I/F

DRAM I/F
Вдвое больше ядер (512 ядер)

8-кратный прирост DP производительности

DRAM I/F
HOST I/F

ECC

L2 L1 и L2 кэш
Giga Thread

DRAM I/F
Вдвое большая пропускная способность
памяти (GDDR5)

До 1Тб памяти на GPU
DRAM I/F
DRAM I/F

Конкурируещее исполнение кода, C++

35

“Oak Ridge National Lab (ORNL) has already announced it will be
using Fermi technology in an upcoming super that is "expected to
be 10-times more powerful than today's fastest supercomputer."

Since ORNL's Jaguar supercomputer, for all intents and purposes,
holds that title, and is in the process of being upgraded to 2.3
PFlops….

…we can surmise that the upcoming Fermi-equipped super is going
to be in the 20 Petaflops range.”

September 30 2009

36

Цель Fermi

DRAM I/F

DRAM I/F
Расширение круга
задач, решаемых с
помощью GPU

DRAM I/F
HOST I/F
Больше L2

Giga Thread

DRAM I/F
пользователей и
приложений для GPU

DRAM I/F
DRAM I/F

37

Архитектура SM Instruction Cache

Scheduler Scheduler

Dispatch Dispatch

32 CUDA ядра в SM (512 ядер всего) Register File

Core Core Core Core

8-и кратный прирост пиковой
Core Core Core Core

производительности в операциях с Core Core Core Core

плавающей точкой Core Core Core Core

50% от пиковой производительности Core Core Core Core

вычислений с одинарной точностью Core Core Core Core

Core Core Core Core

Два менеджера потоков Core Core Core Core

Load/Store Units x 16
Special Func Units x 4
64 KB RAM общей памяти и L1 кэш Interconnect Network

(конфигурируемый) 64K Configurable
Cache/Shared Mem

Uniform Cache

38

Архитектура ядра CUDA Instruction Cache

Scheduler Scheduler

Dispatch Dispatch

Поддержка стандарта IEEE 754-2008, Register File

недоступного на современных CPU Core Core Core Core

Core Core Core Core

FMA(Fused multiply-add) операции Core Core Core Core

как для операций с одинарной так
Core Core Core Core
CUDA Core
и с двойной точностью Dispatch Port
Core Core Core Core

Operand Collector Core Core Core Core

Core Core Core Core
Новый ALU оптимизированный FP Unit INT Unit Core Core Core Core
для 64-битных операций и Load/Store Units x 16

операций с повышенной точностью Result Queue Special Func Units x 4

Interconnect Network

64K Configurable
Cache/Shared Mem

Uniform Cache

39

Иерархический кэш
Первая архитектура GPU поддерживающая
иерархический кэш в сочетании с разделяемой
памятью на GPU

L1 в каждом SM (32 ядра)
Улучшение пропускной способности и снижение
латентности

DRAM I/F
DRAM I/F
Унифицированный L2 кэш (768 KB)

DRAM I/F
HOST I/F
Позволяет эффективно общаться всем ядрам GPU L2

Giga Thread

DRAM I/F
Parallel DataCache™

DRAM I/F

DRAM I/F
Memory Hierarchy
40

Быстрый интерфейс памяти

GDDR5 интерфейс памяти
2-кратный прирост vs GDDR3

Поддержка до 1Тб памяти на GPU
Для работы с большими наборами данных

DRAM I/F
DRAM I/F

DRAM I/F
HOST I/F
L2

Giga Thread

DRAM I/F
DRAM I/F

DRAM I/F
41

ECC
ECC защита для
DRAM
ECC поддержка для GDDR5 памяти

Все внутренняя памяти защищена ECC
Файл регистров, L1 кэш, L2 кэш

42

GigaThreadTM Hardware Thread Scheduler (HTS)
Аппаратный менеджер потоков
Одновременно управляет
тысячами активных потоков

В 10 раз более быстрое HTS
переключение между контекстами

Одновременное исполнение
нескольких кернелов

43

Аппаратный менеджер потоков GigaThread
Одновременное исполнение нескольких кернелов + быстрое переключение контекста

Kernel 1 Kernel 1 Kernel 2

Ker
Kernel 2 Kernel 2 Kernel 3
4

Kernel 2 nel
Kernel 5
Time

Kernel 3

Kernel 4

Kernel 5

Последовательное исполнение Параллельное исполнение
44

Схема передачи данных GigaThread
2 DMA устройства
Одновременная передача данных
CPUGPUи GPUCPU
Передача независит от счета на CPU и
GPU

SDT

Схема работы:

Kernel 0 CPU SDT0 GPU SDT1




45

Расширенная поддержка со стороны ПО

Полная поддержка C++
Виртуальные функции
Метки

Поддержка системных вызовов
Поддержка С пайпов, семафоров, printf и тд

Унифицированное 64-битное адресное пространство памяти

46

Параллельная архитектура CUDA

GPU Computing Applications

tm Direct Java and
C++ C OpenCL Fortran
Compute Python

NVIDIA GPU
with the CUDA Parallel Computing Architecture

OpenCL is trademark of Apple Inc. used under license to the Khronos Group Inc. 47

NVIDIA Nexus IDE

1-й в индустрии IDE (Integrated Development Environment) для
массивно-параллельных приложений

Ускорение разработки
гетерогенных (CPU + GPU) приложений

Полная интеграция со средствами
разработки Visual Studio

48

“
I believe history will record Fermi as a significant
milestone.
”
Dave Patterson
Director Parallel Computing Research Laboratory, U.C. Berkeley
Co-Author of Computer Architecture: A Quantitative Approach

“ Fermi surpasses anything announced by NVIDIA's
leading GPU competitor (AMD).

Tom Halfhill
”
Senior Editor
Microprocessor Report

50

“ Fermi is the world’s first complete GPU computing
architecture.
”
Peter Glaskowsky
Technology Analyst
The Envisioneering Group

“ The convergence of new, fast GPUs optimized for computation as
well as 3-D graphics acceleration and industry-standard software
development tools marks the real beginning of the GPU computing
era. Gentlemen, start your GPU computing engines.

Nathan Brookwood
”
Principle Analyst & Founder
Insight 64
51

Экосистема CUDA

Более 115 университетов преподают CUDA Языки Компиляторы
UIUC IIT Delhi C, C++ PGI Fortran
MIT Tsinghua DirectX CAPs HMPP
Harvard Dortmundt Fortran MCUDA
Berkeley ETH Zurich Java MPI
Cambridge Moscow OpenCL NOAA Fortran2C
Oxford NTU Python OpenMP
… …

Приложения Библиотеки Консалтинг OEM
FFT
BLAS
Oil & Gas Finance CFD ANEO
LAPACK
Image processing
Medical Biophysics Imaging Video processing
Signal processing
Vision
Numerics DSP EDA GPU Tech

52

Ссылки
Fermi
http://www.nvidia.ru/fermi
CUDA Zone
http://www.nvidia.ru/cuda
Приложения, документы, видео
Tesla
http://www.nvidia.ru/tesla
Спецификации, технические и маркетинговые материалы

Вертикальные отраслевые решения
http://www.nvidia.com/object/vertical_solutions.html

YouTube Videos
http://www.youtube.com/nvidiatesla

53

Nvidia Hpc Day Kiev Rus

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (18)

Similar a Nvidia Hpc Day Kiev Rus

Similar a Nvidia Hpc Day Kiev Rus (20)

Más de Oleg Nazarevych

Más de Oleg Nazarevych (20)

Nvidia Hpc Day Kiev Rus