3. Когда прирост производительности имеет значение?
Shader Model 4 + CUDA
(754Mill / 1.4 Bill / 3.0 Bill
Transistors)
Производительность в GFlops
Sailships Steamships Airplanes
Fermi
1000
Скорость в миль/час
Shader Model 3 + GPGPU
Shader Model 1 & 2 (222 / 302 Mill Transistors)
100 (63Mill / 130 Mill Transistors)
Pixel Transfer
(1Mill / 22 Mill Transistors)
10
1
1700 1725 1750 1775 1800 1825 1850 1875 1900 1925 1950 1970
1995 1999 2002 2003 2004 2005 2006 2008 2010
3
4. GPU : переломный момент в отрасли
суперкомпьютеров
Десктоп эффективнее кластера
4 Tesla
C1060 GPUs 59,9 сек
256 AMD dual-
core Opterons 67,4 сек
55 60 65 70 Tesla Personal
CalcUA Компьютерная томография, Supercomputer
$5 млн. время обработки
$10,000
Источник: University of Antwerp, Belgium
4
5. Прирост производительности до 150 раз
146X 36X 18X 50X 100X
Рентгенография, Молекулярная Транскодирование Математические Астрофизика
томография динамика видео вычисления RIKEN
U of Utah U of Illinois, Urbana Elemental Tech AccelerEyes
149X 47X 20X 130X 30X
Финансовые Линейная 3D ультразвук Квантовая химия Генная
задачи алгебра Techniscan U of Illinois, Urbana инженерия
Oxford Universidad Jaime U of Maryland
5
7. Архитектура параллельных вычислений CUDA
Архитектура для
параллельных вычислений
Включает Си компилятор
Стандартные языки и API
ATI’s Compute “Solution”
7
8. CUDA. Факты.
900+ научных трудов
115+ университетов преподают
CUDA
60 тыс. разработчиков
200 млн. GPU с CUDA
www.NVIDIA.ru/CUDA
8
9. Более 250 заказчиков / разработчиков ПО
Life Sciences & Productivit Oil and Manufa CAE / Commun
Medical Equipment y / Misc Gas EDA cturing Finance Numerics ication
Max Planck GE Healthcare CEA Hess Synopsys Renault Symcor The Nokia
FDA Siemens WRF Weather TOTAL Nascentric Boeing Level 3 Mathworks RIM
Robarts Techniscan Modeling CGG/Veritas Gauda SciComp Wolfram Philips
Research Boston Scientific OptiTex Chevron CST Hanweck National Samsung
Medtronic Eli Lilly Tech-X Headwave Agilent Quant Instruments LG
AGC Silicon Elemental Acceleware Catalyst Access Sony
Technologies Analytics
Evolved Informatics Seismic City RogueWave Ericsson
Dimensional Tech-x
machines Stockholm Imaging P-Wave BNP Paribas NTT
Smith-Waterman Research Seismic RIKEN DoCoMo
Manifold
DNA sequencing Harvard Imaging SOFA Mitsubishi
Digisens
AutoDock Delaware Mercury Hitachi
General Mills
NAMD/VMD Pittsburg Computer Radio
Rapidmind
Folding@Home ETH Zurich ffA Research
MS Visual
Howard Huges Institute Atomic Laboratory
Studio
Medical Physics US Air Force
Rhythm & Hues
CRIBI Genomics
xNormal
Elcomsoft
LINZIK
9
10. Параллельные вычисления на GPU
200+ млн. GPU в мире поддерживают CUDA
GeForce® TeslaTM Quadro®
Развлечения Высокопроизводительные вычисления Дизайн, разработка
10
11. Выбор CUDA платформы
Tesla Quadro GeForce
Стресс-тест с проверкой точности вычислений X
Произведено NVIDIA из высококачественных комплектующих X X
3-х летняя гарантия, корпоративная поддержка X X
4 Гб оперативной памяти для работы с большими объемами данных X X
Единое профессиональное решение для вычислений и графики X
Пользовательские приложения: PhysX, Video, Imaging X
Короткий жизненный цикл пользовательского продукта X
Производится и сопровождается партнерами NVIDIA X
Поддержка осуществляется через партнеров NVIDIA X
11
14. Tesla: созданы для вычислений
Системные решения Профессиональный уровень
Высококачественная память
Надежность вычислений
24-часовой стресс-тест
Поддержка NVIDIA Вычислительные ресурсы
3-х летняя гарантия Архитектура вычислений CUDA
Длинный жизненный цикл 4 ГБ ОЗУ
Корпоративная поддержка двойная точность IEEE-754
14
15. Вычислительные решения Tesla
Tesla Personal
Tesla S1070 1U System
Tesla C1060 Supercomputer
Computing Board (4 Tesla C1060s)
GPUs 4 Tesla GPUs 1 Tesla GPU 4 Tesla GPUs
Single Precision Perf. 4.14 Teraflops 933 Gigaflops 3.7 Teraflops
Double Precision Perf 346 Gigaflops 78 Gigaflops 312 Gigaflops
Memory 4 GB / GPU 4 GB 4 GB / GPU
15
16. Tesla S1070: эффективное решение
До 20 раз лучше показатель
производительность/Ватт
Hess University of Heidelberg
Chevron University of Illinois
Petrobras University of North Carolina
NCSA Max Planck Institute
CEA Rice University
TiTech University of Maryland
JFCOM GusGus
SAIC Eotvas University
Federal University of Wuppertal
Motorola Chinese Academy of Sciences
Kodak National Taiwan University
16
17. Пример: ЦОД стоимостью $5 млн.
CPU 1U Server 2 Quad-core Xeon 8 CPU Cores + CPU 1U Server
CPUs: 8 cores 960 GPU Сores
Tesla 1U System
0.17 Teraflop (single) 4.14 Teraflops (single)
0.08 Teraflop (double) 0.346 Teraflop (double)
$ 3,000 $ 11,000
700 W 1500 W
1819 CPU servers 455 CPU servers
455 Tesla systems
310 Teraflops (single) 1961 Teraflops (single) 6x more perf
155 Teraflops (double) 196 Teraflops (double)
Total area 16K sq feet Total area 9K sq feet 60% smaller
Total 1273 KW Total 682 KW
½ the power
17
18. Персональный суперкомпьютер Tesla
Производительность
Массивно параллельная CUDA архитектура
960 ядер. 4 Терафлоп/с
В 250 раз мощнее ПК
Удобство
Суперкомпьютер на рабочем столе
Включается в обычную розетку
Доступность
Программируется на Си под Windows и Linux
Стоимость порядка $10,000
18
19. В 100 раз доступнее
В 20 раз экономичнее Tesla
250x Personal
Производительность
Supercomputer
Supercomputing
Cluster В 250 раз
быстрее
1x Современный
ПК
$100K - $1M < $10 K
Доступность 19
20. Высокопроизводительные вычисления на базе GPU
Tesla Cluster
5000x
Производительность
Tesla Personal
Supercomputer
250x
Supercomputing
Cluster
Standard
Workstation
1x
$100K - $1M < $10 K
Доступность 20
22. Медицинская техника
GE Healthcare : CT
40% increase in CT resolution
2x increase in frame rate
Techniscan: Ultra-sound
Source: Stone et al, UIUC
High resolution ultra-sound
2x increase in acquisition
Digisens : Tomography
Tomography reconstruction
Several others on
X-Ray, Flow Cytometry, MRI, etc
Source: Batenburg, Sijbers, et al 22
24. 3D анализ данных сейсморазведки
SVI Pro 2009 is the first
application to accelerate 3D
seismic analysis through
parallel computation on multiple
GPUs.
Leading to performance gains
of up to 37x on workstation
hardware.
24
26. Клиенты
GPU vs CPU
преимущества
Oil & Gas ISVs
Performance / Watt 18x - 27x 12x - 17x
Performance / Space 20x - 31x 15x - 20x
Performance / Cost 15x - 20x 10x - 12x
26
27. Финансы: оценка котировок
1 Одинаковая производительность 1
2 Tesla S1070 16x экономия места 500 CPU Servers
$24 K 10x меньше стоимость $250 K
2.8 kWatts 13x меньше потребление 37.5 kWatts
27
28. Финансы: прогнозирование рынка в режиме РВ
Volera real-time option valuation engine
Value entire U.S. listed options market in real-time using 3 NVIDIA Tesla S1070’s
GPUs CPUs Savings
Processors 12 736
Rack Space 6U 92U 15x
Hardware Cost $36,000 $370,000 10x
Annual Cost $31,000 $390,000 13x
Figures assume:
Tesla S1070 + one 8-core host server per node
$260 / U / month rack and power charges
3-year hardware amortization
28
29. MATLAB: ускорение на GPU
Jacket CUDA plugin from
Accelereyes
http://www.accelereyes.com
15-day trail version avaiable
Tesla GPU in a workstation
For MATLAB and research 143x Speedup
86x Speedup
44x Speedup
29
35. Обзор Fermi
Суперкомпьютер в формате GPU
3 млрд транзисторов
DRAM I/F
DRAM I/F
Вдвое больше ядер (512 ядер)
8-кратный прирост DP производительности
DRAM I/F
HOST I/F
ECC
L2 L1 и L2 кэш
Giga Thread
DRAM I/F
Вдвое большая пропускная способность
памяти (GDDR5)
До 1Тб памяти на GPU
DRAM I/F
DRAM I/F
Конкурируещее исполнение кода, C++
35
36. “Oak Ridge National Lab (ORNL) has already announced it will be
using Fermi technology in an upcoming super that is "expected to
be 10-times more powerful than today's fastest supercomputer."
Since ORNL's Jaguar supercomputer, for all intents and purposes,
holds that title, and is in the process of being upgraded to 2.3
PFlops….
…we can surmise that the upcoming Fermi-equipped super is going
to be in the 20 Petaflops range.”
September 30 2009
36
37. Цель Fermi
DRAM I/F
DRAM I/F
Расширение круга
задач, решаемых с
помощью GPU
DRAM I/F
HOST I/F
Больше L2
Giga Thread
DRAM I/F
пользователей и
приложений для GPU
DRAM I/F
DRAM I/F
37
38. Архитектура SM Instruction Cache
Scheduler Scheduler
Dispatch Dispatch
32 CUDA ядра в SM (512 ядер всего) Register File
Core Core Core Core
8-и кратный прирост пиковой
Core Core Core Core
производительности в операциях с Core Core Core Core
плавающей точкой Core Core Core Core
50% от пиковой производительности Core Core Core Core
вычислений с одинарной точностью Core Core Core Core
Core Core Core Core
Два менеджера потоков Core Core Core Core
Load/Store Units x 16
Special Func Units x 4
64 KB RAM общей памяти и L1 кэш Interconnect Network
(конфигурируемый) 64K Configurable
Cache/Shared Mem
Uniform Cache
38
39. Архитектура ядра CUDA Instruction Cache
Scheduler Scheduler
Dispatch Dispatch
Поддержка стандарта IEEE 754-2008, Register File
недоступного на современных CPU Core Core Core Core
Core Core Core Core
FMA(Fused multiply-add) операции Core Core Core Core
как для операций с одинарной так
Core Core Core Core
CUDA Core
и с двойной точностью Dispatch Port
Core Core Core Core
Operand Collector Core Core Core Core
Core Core Core Core
Новый ALU оптимизированный FP Unit INT Unit Core Core Core Core
для 64-битных операций и Load/Store Units x 16
операций с повышенной точностью Result Queue Special Func Units x 4
Interconnect Network
64K Configurable
Cache/Shared Mem
Uniform Cache
39
40. Иерархический кэш
Первая архитектура GPU поддерживающая
иерархический кэш в сочетании с разделяемой
памятью на GPU
L1 в каждом SM (32 ядра)
Улучшение пропускной способности и снижение
латентности
DRAM I/F
DRAM I/F
Унифицированный L2 кэш (768 KB)
DRAM I/F
HOST I/F
Позволяет эффективно общаться всем ядрам GPU L2
Giga Thread
DRAM I/F
Parallel DataCache™
DRAM I/F
DRAM I/F
Memory Hierarchy
40
41. Быстрый интерфейс памяти
GDDR5 интерфейс памяти
2-кратный прирост vs GDDR3
Поддержка до 1Тб памяти на GPU
Для работы с большими наборами данных
DRAM I/F
DRAM I/F
DRAM I/F
HOST I/F
L2
Giga Thread
DRAM I/F
DRAM I/F
DRAM I/F
41
42. ECC
ECC защита для
DRAM
ECC поддержка для GDDR5 памяти
Все внутренняя памяти защищена ECC
Файл регистров, L1 кэш, L2 кэш
42
43. GigaThreadTM Hardware Thread Scheduler (HTS)
Аппаратный менеджер потоков
Одновременно управляет
тысячами активных потоков
В 10 раз более быстрое HTS
переключение между контекстами
Одновременное исполнение
нескольких кернелов
43
44. Аппаратный менеджер потоков GigaThread
Одновременное исполнение нескольких кернелов + быстрое переключение контекста
Kernel 1 Kernel 1 Kernel 2
Ker
Kernel 2 Kernel 2 Kernel 3
4
Kernel 2 nel
Kernel 5
Time
Kernel 3
Kernel 4
Kernel 5
Последовательное исполнение Параллельное исполнение
44
45. Схема передачи данных GigaThread
2 DMA устройства
Одновременная передача данных
CPUGPUи GPUCPU
Передача независит от счета на CPU и
GPU
SDT
Схема работы:
Kernel 0 CPU SDT0 GPU SDT1
Kernel 1 CPU SDT0 GPU SDT1
Kernel 2 CPU SDT0 GPU SDT1
Kernel 3 CPU SDT0 GPU SDT1
45
46. Расширенная поддержка со стороны ПО
Полная поддержка C++
Виртуальные функции
Метки
Поддержка системных вызовов
Поддержка С пайпов, семафоров, printf и тд
Унифицированное 64-битное адресное пространство памяти
46
47. Параллельная архитектура CUDA
GPU Computing Applications
tm Direct Java and
C++ C OpenCL Fortran
Compute Python
NVIDIA GPU
with the CUDA Parallel Computing Architecture
OpenCL is trademark of Apple Inc. used under license to the Khronos Group Inc. 47
48. NVIDIA Nexus IDE
1-й в индустрии IDE (Integrated Development Environment) для
массивно-параллельных приложений
Ускорение разработки
гетерогенных (CPU + GPU) приложений
Полная интеграция со средствами
разработки Visual Studio
48
50. “
I believe history will record Fermi as a significant
milestone.
”
Dave Patterson
Director Parallel Computing Research Laboratory, U.C. Berkeley
Co-Author of Computer Architecture: A Quantitative Approach
“ Fermi surpasses anything announced by NVIDIA's
leading GPU competitor (AMD).
Tom Halfhill
”
Senior Editor
Microprocessor Report
50
51. “ Fermi is the world’s first complete GPU computing
architecture.
”
Peter Glaskowsky
Technology Analyst
The Envisioneering Group
“ The convergence of new, fast GPUs optimized for computation as
well as 3-D graphics acceleration and industry-standard software
development tools marks the real beginning of the GPU computing
era. Gentlemen, start your GPU computing engines.
Nathan Brookwood
”
Principle Analyst & Founder
Insight 64
51
52. Экосистема CUDA
Более 115 университетов преподают CUDA Языки Компиляторы
UIUC IIT Delhi C, C++ PGI Fortran
MIT Tsinghua DirectX CAPs HMPP
Harvard Dortmundt Fortran MCUDA
Berkeley ETH Zurich Java MPI
Cambridge Moscow OpenCL NOAA Fortran2C
Oxford NTU Python OpenMP
… …
Приложения Библиотеки Консалтинг OEM
FFT
BLAS
Oil & Gas Finance CFD ANEO
LAPACK
Image processing
Medical Biophysics Imaging Video processing
Signal processing
Vision
Numerics DSP EDA GPU Tech
52
53. Ссылки
Fermi
http://www.nvidia.ru/fermi
CUDA Zone
http://www.nvidia.ru/cuda
Приложения, документы, видео
Tesla
http://www.nvidia.ru/tesla
Спецификации, технические и маркетинговые материалы
Вертикальные отраслевые решения
http://www.nvidia.com/object/vertical_solutions.html
YouTube Videos
http://www.youtube.com/nvidiatesla
53