Más contenido relacionado La actualidad más candente (20) Similar a NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1 (20) NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.12. 2
NVIDIA Deep Learning プラットフォーム
COMPUTER VISION SPEECH AND AUDIO BEHAVIOR
Object Detection Voice Recognition Translation
Recommendation
Engines
Sentiment Analysis
DEEP LEARNING
cuDNN
MATH LIBRARIES
cuBLAS cuSPARSE
MULTI-GPU
NCCL
cuFFT
Mocha.jl
Image Classification
DEEP LEARNING
SDK
FRAMEWORKS
APPLICATIONS
GPU PLATFORM
CLOUD GPU
Tesla
P100
Tesla
M40/K80/M4
Jetson TX1
SERVER
DGX-1
GIE
DRIVEPX2
3. 3
倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF
TESLA P100
ハイパースケールデータセンターのための
世界で最も先進的な GPU
10. 10
Tesla p100
Most Advanced data center gpu for
mixed-app hpc
CoWoS with HBM2
PAGE MIGRATION ENGINE
18.7 TF HP ∙ 9.3 TF SP ∙ 4.7 TF DP
New Deep Learning Instructions
More Registers & Cache per SM
Tesla P100 for PCIe-based Servers
PASCAL
Up to 720 GB/Sec Bandwidth
Up to 16 GB Memory Capacity
ECC with Full Performance & Capacity
Simpler Parallel Programming
Virtually Unlimited Data Size
Performance w/ data locality
11. 11
Tesla p100 accelerators
Tesla P100
for NVLink-enabled Servers
Tesla P100
for PCIe-Based Servers
5.3 TF DP ∙ 10.6 TF SP ∙ 21 TF HP
720 GB/sec Memory Bandwidth, 16 GB
4.7 TF DP ∙ 9.3 TF SP ∙ 18.7 TF HP
Config 1: 16 GB, 720 GB/sec
Config 2: 12 GB, 540 GB/sec
12. 12
Tesla p100 specifications
Tesla Products Tesla K40 Tesla M40 Tesla P100 (NVLink) Tesla P100 (PCIe)
GPU / Form Factor Kepler GK110 / PCIe Maxwell GM200 / PCIe Pascal GP100 / SXM2 Pascal GP100 / PCIe
SMs 15 24 56 56
TPCs 15 24 28 28
FP32 CUDA Cores / SM 192 128 64 64
FP32 CUDA Cores / GPU 2880 3072 3584 3584
FP64 CUDA Cores / SM 64 4 32 32
FP64 CUDA Cores / GPU 960 96 1792 1792
Base Clock 745 MHz 948 MHz 1328 MHz 1126 MHz
GPU Boost Clock 810/875 MHz 1114 MHz 1480 MHz 1303 MHz
FP64 GFLOPs 1680 213 5304 4670
Texture Units 240 192 224 224
Memory Interface 384-bit GDDR5 384-bit GDDR5 4096-bit HBM2
3072-bit HBM2 (12GB)
4096-bit HBM2 (16GB)
Memory Bandwidth 288 GB/s 288 GB/s 720 GB/s
540 GB/s (12GB)
720 GB/s (16GB)
Memory Size Up to 12 GB Up to 24 GB 16 GB 12 GB or 16 GB
L2 Cache Size 1536 KB 3072 KB 4096 KB 4096 KB
Register File Size / SM 256 KB 256 KB 256 KB 256 KB
Register File Size / GPU 3840 KB 6144 KB 14336 KB 14336 KB
TDP 235 Watts 250 Watts 300 Watts 250 Watts
Transistors 7.1 billion 8 billion 15.3 billion 15.3 billion
GPU Die Size 551 mm² 601 mm² 610 mm² 610 mm²
Manufacturing Process 28-nm 28-nm 16-nm 16-nm
14. 14
NVIDIA cuDNN
• 畳込み以外にもプーリング、ソフトマックス、活性化、batch normalization、テンソルのトランス
ポーズなどディープラーニングの順伝播・逆伝播でよく使われるレイヤータイプ、計算手法をサポート
• リカレント・ニューラルネットワーク(LSTM/GRU/RNN)をサポート。
• マルチスレッド化が容易なコンテクストベースのAPI
• 以下のOSとGPUの組み合わせで仕様が可能
• Windows(7/10),Linux(x64,power8/ARM),MacOS
• Pascal/Maxwell/Kepler世代のGPU, Tegra K1およびTegra X1
ディープラーニング計算の為の高速なプリミティブ群
15. 15
cuDNN 5 のアップデート
Torch上でLSTM リカレントニューラルネットワークの
計算を6倍高速化
パフォーマンスの向上:
• VGG、GoogleNet、ResNetsのような3x3 畳み込み
層を持つネットワークの高速化
• 3次元畳み込み
• Pascal世代のGPUの為のFP16ルーティンの追加
• Bilinear Spatial Transformer /ドロップアウト追加
Pascal世代GPU, リカレントニューラルネットワーク, パフォーマンスの向上
Performance relative to torch-rnn
(https://github.com/jcjohnson/torch-rnn)
DeepSpeech2: http://arxiv.org/abs/1512.02595
Char-rnn: https://github.com/karpathy/char-rnn
5.9x
char-rnn
RNN レイヤーの速度向上
2.8x
DeepSpeech 2
RNNレイヤーの速度向上
19. 19
cuDNN アルゴリズム
• 多種多様なアルゴリズムを提供。
• CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_GEMM
• CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_PRECOMP_GEMM
• CUDNN_CONVOLUTION_FWD_ALGO_GEMM
• CUDNN_CONVOLUTION_FWD_ALGO_DIRECT
• CUDNN_CONVOLUTION_FWD_ALGO_FFT
• CUDNN_CONVOLUTION_FWD_ALGO_FFT_TILING
• CUDNN_CONVOLUTION_FWD_ALGO_WINOGRAD
• CUDNN_CONVOLUTION_FWD_ALGO_WINOGRAD_NONFUSED