SlideShare una empresa de Scribd logo
1 de 51
Descargar para leer sin conexión
森野慎也, シニアCUDAエンジニア, エヌビディアジャパン
CUDAデバッグ・プロファイリング入門
アジェンダ
CUDAのデバッグツールの紹介
CUDAデバッガ・メモリチェッカ
Nsight Visual Studio Edition, Nsight Eclipse Edition
cuda-memcheck
範囲外アクセス・未初期化値へのアクセス・同期チェック
コマンドラインツール。 Windows、Linux、MacOS X上で同じ使い方ができる。
CUDA プロファイラの紹介
Nsight Visual Studio Edition
Nsight Eclipse Edition / Visual Profiler
CUDA デバッガ
Nsight Visual Studio Edition (NVSE)
Windows 向け。Visual Studioと統合
Nsight Eclipse Edition
Linux・MacOS 向け。EclipseベースのIDE
cuda-gdb
LInux・MacOS向け。コマンドラインデバッガ。
Nsight Eclipse Editionのバックエンド
NSIGHT VISUAL STUDIO EDITION
Visual Studioに統合されている
VS2013を使用します。
コミュニティエディションが使える!
Professional相当
無償利用も可能。
詳細は、以下をご確認んください。
http://www.microsoft.com/ja-
jp/dev/products/community.aspx
Ver 対応状況
VS2010 deprecated
VS2012 〇
VS2013 〇
VS2015 未対応
サンプル : PREFIX SUM
Warp Shuffle + シェアードメモリ
Warp (shuffle) Warp (shuffle) Warp (shuffle) Warp (shuffle)
32 32 32 32
Warp (shuffle)
32 64 92 128
Add Add Add
1 … 32 33 … 64 65 … 92 93 … 128
1 … 32 1 … 32 1 … 32 1 … 32
1, 1, 1, 1, … 1, 1, 1, 1, … 1, 1, 1, 1, … 1, 1, 1, 1, …入力
シェアードメモリ
(SM内部にある)
シェアードメモリ
結果
ビルド設定
プロジェクトメニュー
→ ビルドのカスタマイズ
CUDA 7.5を選択。
Nsight Visual Studio Edition
デバッグ設定
- 「Code Generation」
使用するGPUのCCが設定されて
いること。(複数指定可)
- 「Generate GPU Debug Info」
「はい(-G)」に設定
Nsight Visual Studio Editionによるデバッグ
デバッグ
- Nsightメニュー
“CUDA Debugging…”を選択
- 実演
Nsight Visual Studio Edition
Break Point
ステップ実行
スレッド内の
変数表示
Warp内のスレッド
変数をウォッチ
SM上のWarpの一覧
ダブルクリックで選択可能
NSIGHTでのメモリチェック
- 範囲チェックのみサポート
Nsight Visual Studio Edition
メモリチェックテストプログラム
__global__ void writeToMem(int *dMem) {
dMem[threadIdx.x] = 0;
}
int main() {
int *dMem;
cudaMalloc(&dMem, sizeof(int) * 255));
writeToMem<<<1, 256>>>(dMem);
(略)
Overrun
…
…Thread
Memory
×
メモリチェック
- プログラムをデバッグ実行する。
エラー発生行で停止。
- Debugビルド・Releaseビルドの
両方で使える。
Nsight Visual Studio Edition
エラー発生行で
停止
エラー発生状況の
説明表示
カーネル中のASSERT
- C言語のassertと同じ
- #define NDEBUGで、
無効化
Nsight Visual Studio Edition
__global__
void kernelAssert() {
assert(0);
}
int main() {
kernelAssert<<<1, 1>>>();
cudaError_t cuerr = cudaDeviceSynchronize();
printf("%s¥n", cudaGetErrorName(cuerr));
}
実演する
カーネル中のASSERT
- デバッグ実行時
device_runtime.h中で停止
出力に、詳細情報が現れる
呼び出し履歴から発生行を表示
- 通常実行時
cudaErrorAssertが
返される。
Nsight Visual Studio Edition
カーネル中のPRINTF
Nsight Visual Studio Edition
__global__ void printfKernel() {
printf("blockIdx(%d, %d, %d) threadIdx(%d, %d, %d)¥n",
blockIdx.x, blockIdx.y, blockIdx.z,
threadIdx.x, threadIdx.y, threadIdx.z);
}
int main() {
dim3 gridDim(2), blockDim(8);
size_t size;
cudaDeviceGetLimit(&size, cudaLimitPrintfFifoSize);
printf("Printf FIFO size : %d¥n", (int)size);
// cudaDeviceSetLimit(cudaLimitPrintfFifoSize, size);
printfKernel<<<gridDim, blockDim>>>();
(略)
NSIGHT ECLIPSE EDITION
Eclipse IDEに統合されたCUDA開発環境
Linux・MacOS向け
cuda-gdbをバックエンドとして利用する。
Jetsonのリモートデバッグもサポート
今日は、MakefileでのビルドとNsightでのデバッグを行います。
CUDAソースコードのコンパイル
- nvcc : CUDA用のコンパイラ
- 内部でホスト側コンパイラを使用
- デフォルトは、cl.exe(Windows)、g++(Linux)
- --ccbin で(icc, clang)など指定可能
- ホストコンパイラのオプションも受け付ける。
-Xcompiler <ホストコンパイラオプション>
NVCCの構成
18
ソース(*.cu)
ホスト/GPU ソース分割
ホスト
コンパイラ
デバイスコード
コンパイラ
マージ
オブジェクト (*.o)
MAKEFILEの書き方
デバッグ時のオプション
-G : 最適化無効。デバッグ情報の生成
実行速度は、一桁落ちると思ってよい。
-g or –Xcompiler –g
ホストコンパイラに、デバッグ情報の生成を行わせる。
Makefileのレビュー
起動・プロジェクトのインポート
起動 : $ nsight
メニューから
File -> New
-> Makefile Project with
Existing Code
Nsight Eclipse Edition プロジェクト設定
プロジェクトの作成
- Project Name
- プロジェクト名
- Existing Code Location
- 既存のソースコードの場所
- Toochain for indexer Settings
- ソースのインデキサ設定
Nsight Eclipse Edition プロジェクト設定
デバッグ設定
- 「Debug Configurations…」を開く
- 「C/C++ Application」をダブルクリック
- 以下の項目を設定
Name プロファイル名
C/C++ Application : バイナリ
Project : ソースがあるプロジェクト
Nsight Eclipse Edition
使用するGPUの設定
- Single GPUでのデバッグ (Beta)
Kepler(CC3.5以降)、Maxwellが必要
- GPUのBreak pointでの停止
- ソフトウエアで状態を保存。
- システムがGPUを利用できるようにする。
- ブレーク中に終了すると
フリーズする場合がある。
Nsight Eclipse Edition
デバッグ
- Blockスコープで、ステップ実行
Nsight Eclipse Edition
Break Point
ステップ実行
スレッド内の
変数表示
GPU上のThread一覧
ダブルクリックで選択可能
メモリチェッカの有効化
- デバッグ設定 / Debugger ペイン
- “Enable CUDA memcheck”を
チェック
- Software Preemptionは使えない。
(画面を書いていないGPUを使う)
Nsight Eclipse Edition
メモリチェッカ動作例
Nsight Eclipse Edition
CUDA-MEMCHECK
- 機能
memcheck : 範囲チェック、デバイスメモリのリークをチェック
initcheck : 未初期化値へのアクセスをチェック
synccheck : 同期(__syncthreads())の、すべてのスレッド上の発行をチェック
racecheck : シェアードメモリ上でのハザードを検出
- ビルド時に “-lineinfo”を指定しておくこと。
エラーログ中に、エラー発生行が出力されます。
- Windows / Linux / MacOS X上で、使用法は同じ。
- 今日は、Windowsで動作させてみます。 (配布ファイル中に、ログを入れておきます。)
メモリチェックのためのコマンドラインツール
プロファイラ (WINDOWS)
タイムライン計測
タイムラインの計測
GPUの使用率
データ転送・カーネル実行時の時系列を可視化
GPUの稼働時間は、長いほうがよい
並列に、データ転送・CPU処理も行われているとよい。
プロファイラ
タイムライン取得設定
- 「Nsight」メニューから
「Start Performance Analysis… 」を選択
- Trace Applicationを選択
- Trace Seettingsから “CUDA”をチェック
Nsight Visual Studio Edition
DEFAULT STREAMでの処理実行
Stream : GPU上の処理を管理するキュー
無指定の場合、Default (NULL) Streamが使用される。
t
Memcpy
Host → Device
Kernel
Memcpy
Device → Host
Default (NULL) Stream
タイムライン取得例
Nsight Visual Studio Edition
H->D
memcpy
D->H
memcpy
カーネル
同期によるレイテンシの発生
CPU→GPU : 処理開始までのレイテンシ発生
GPU→CPU : 同期によるレイテンシ
t
Memcpy
Host → Device
Kernel
Memcpy
Device → Host
GPU上での実行
t
Memcpy
Memcpy
Device → Host
CPUからのタスク発行
同期待ち 同期待ち
MemcpyAsync
Host → Device
Kernel
MemcpyAsync
Device → Host
Device
Synchronize()
CPU上で別の処理を行う
レイテンシの削減 ・ CPU/GPU上の並列処理
非同期コピー(cudaMemcpyAsync()) を使用。
t
GPU上での実行
t
CPUからのタスク発行
非同期MEMCPYを用いたタイムライン
Nsight Visual Studio Edition
memcpy、
カーネル起動処理
パイプライン化
メモリ転送・カーネル実行を、オーバーラップ
複数ストリームの使用
Stream 1
Stream 2
Stream 3
Memcpy
(H->D)
Kernel
Memcpy
(D->H)
Memcpy
(H->D)
Kernel
Memcpy
(D->H)
Memcpy
(H->D)
Kernel
Memcpy
(D->H)
パイプライン化
実行時間
34.5 ms → 19.0 ms
Nsight Visual Studio Edition
メモリアクセス解析・ビルド設定
- ビルド時に、行番号情報を生成
- ソースレベルプロファイリングで必須
Nsight Visual Studio Edition
プロファイラ設定
- Profile CUDA Applicationを選択
- Experiment Configuration
実施する計測を指定する。
今回は”All”を指定。
Nsignt Visual Studio Edition
メモリアクセス解析
GPU(Maxwell)のデータパス
SM
RegisterFile
(変数)
L2Cache
演算
Shared
Memory
CUDACores
GlobalMemory
(GPUDRAM)
Host(PC)DRAM
PCIe
高速 (数TB / sec) 低速 (~ 10 GB/sec)L1/Tex
Cache*
*CC 5.2で、R/W可能なL1キャッシュを有効可能
Global
Tex
Local
GPU内のデータトラフィック表示
- 以下を表示できる
Bandwidth
Size (Load/Store)
Size (Load)
Size (Store)
- 遅いデータパス上での
データアクセスを
減らせないか…
Nsight Eclipse Edition
Global Memory B/W
まず確認する値
アクセスパターン分析
- AoS : Array of Structures
CPU上でのスタイル
構造化・Object志向
サンプル : memoryAccess
- SoA : Structure of Arrays
GPU上でアクセス効率がよい
struct XY {
float x;
float y;
};
XY xyArray[1024];
struct XYArray {
float x[1024];
float y[1024];
};
コアレスアクセス
コアレス(Coalesced) アクセス と呼びます
理想的なアクセス
v0 v1 v2 v3 v4 v5 v6 v7 v8
Thread
Memory
…
…
アクセスパターンの違い
AoS vs SoA
x y x y
x y x y
1) xをアクセス
2) yをアクセス
x xx x
y y y y
x xx x
y y y y
AoS:
アクセスに抜けがある。効率悪い。
SoA:
アクセスが連続。効率よい。
AOSのアクセス例
- L2 Transfer Overhead
L2 → L1転送バイト数
使用されるバイト数
- 期待値は 2
- より詳細にみる
アクセスパターン分析
ソースレベルの表示
アクセスパターン分析
分岐の解析
Warp Divergence
Thread
- 両方のパスを実行する必
要がある。
- 性能が落ちる原因。
if (cond) {
}
else {
}
ソースコード
- Global IDが、偶数・奇数で分岐
- 最適化されないよう、メモリフェンス
(__threadfence_block())を、入れてあります
分岐の解析
__global__
void divergentExecutionKernel(float *dMem) {
int gid =
blockDim.x * blockIdx.x + threadIdx.x;
float angle =
float(gid % 360) * float(M_PI / 180.f);
if (gid % 2 == 0) {
dMem[gid] = __sinf(angle);
__threadfence_block();
}
else {
dMem[gid] = __cosf(angle);
}
}
BRANCH STATISTICS
- 50 %の分岐に
Divergenceがある。
- ソースコードレベルで
確認する。
分岐の解析
DIVERGENT BRANCH
- 17行目の分岐が、
Divergeしている。
分岐の解析
ソースコードの表示
- if分の中の__cos()での
分岐を表示していた。
分岐の解析
プロファイラ (LINUX)
Windows上と同等の内容を、時間の許す限り、デモンストレーションします。
THANK YOU

Más contenido relacionado

La actualidad más candente

マルチコアを用いた画像処理
マルチコアを用いた画像処理マルチコアを用いた画像処理
マルチコアを用いた画像処理Norishige Fukushima
 
開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDKNVIDIA Japan
 
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないことNorishige Fukushima
 
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門ryos36
 
ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門Fixstars Corporation
 
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層智啓 出川
 
TensorFlow Lite Delegateとは?
TensorFlow Lite Delegateとは?TensorFlow Lite Delegateとは?
TensorFlow Lite Delegateとは?Mr. Vengineer
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装MITSUNARI Shigeo
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編Fixstars Corporation
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門ryosuke-kojima
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)RCCSRENKEI
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
いまさら聞けないarmを使ったNEONの基礎と活用事例
いまさら聞けないarmを使ったNEONの基礎と活用事例いまさら聞けないarmを使ったNEONの基礎と活用事例
いまさら聞けないarmを使ったNEONの基礎と活用事例Fixstars Corporation
 

La actualidad más candente (20)

マルチコアを用いた画像処理
マルチコアを用いた画像処理マルチコアを用いた画像処理
マルチコアを用いた画像処理
 
開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK
 
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
 
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門
 
ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門
 
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
 
TensorFlow Lite Delegateとは?
TensorFlow Lite Delegateとは?TensorFlow Lite Delegateとは?
TensorFlow Lite Delegateとは?
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装高速な倍精度指数関数expの実装
高速な倍精度指数関数expの実装
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
CPU / GPU高速化セミナー!性能モデルの理論と実践:理論編
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
GPU最適化入門
GPU最適化入門GPU最適化入門
GPU最適化入門
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
いまさら聞けないarmを使ったNEONの基礎と活用事例
いまさら聞けないarmを使ったNEONの基礎と活用事例いまさら聞けないarmを使ったNEONの基礎と活用事例
いまさら聞けないarmを使ったNEONの基礎と活用事例
 

Similar a 1076: CUDAデバッグ・プロファイリング入門

OpenCV2.2 Install Guide ver.0.5
OpenCV2.2 Install Guide ver.0.5OpenCV2.2 Install Guide ver.0.5
OpenCV2.2 Install Guide ver.0.5Tsukasa Sugiura
 
もろもろの AI ツールを Windows のローカル環境にインストールする手順
もろもろの AI ツールを Windows のローカル環境にインストールする手順もろもろの AI ツールを Windows のローカル環境にインストールする手順
もろもろの AI ツールを Windows のローカル環境にインストールする手順Hide Koba
 
Maxwell と Java CUDAプログラミング
Maxwell と Java CUDAプログラミングMaxwell と Java CUDAプログラミング
Maxwell と Java CUDAプログラミングNVIDIA Japan
 
ASP.NET Core のお気に入りの機能たち (docker向け)
ASP.NET Core のお気に入りの機能たち (docker向け)ASP.NET Core のお気に入りの機能たち (docker向け)
ASP.NET Core のお気に入りの機能たち (docker向け)Takayoshi Tanaka
 
C#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめC#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめNVIDIA Japan
 
お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...
お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...
お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...Takamasa Maejima
 
Singularity Containers for Enterprise Use
Singularity Containers for Enterprise UseSingularity Containers for Enterprise Use
Singularity Containers for Enterprise UseAtsutoHashimoto
 
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」ManaMurakami1
 
3d graphics solution jp
3d graphics solution jp3d graphics solution jp
3d graphics solution jpsnanasawa
 
ディープラーニングイメージで構築する快適・高速な機械学習環境
ディープラーニングイメージで構築する快適・高速な機械学習環境ディープラーニングイメージで構築する快適・高速な機械学習環境
ディープラーニングイメージで構築する快適・高速な機械学習環境Yaboo Oyabu
 
2015年度GPGPU実践プログラミング 第3回 GPGPUプログラミング環境
2015年度GPGPU実践プログラミング 第3回 GPGPUプログラミング環境2015年度GPGPU実践プログラミング 第3回 GPGPUプログラミング環境
2015年度GPGPU実践プログラミング 第3回 GPGPUプログラミング環境智啓 出川
 
2015年度GPGPU実践基礎工学 第11回 GPUでの並列 プログラミング(ベクトル和)
2015年度GPGPU実践基礎工学 第11回 GPUでの並列プログラミング(ベクトル和)2015年度GPGPU実践基礎工学 第11回 GPUでの並列プログラミング(ベクトル和)
2015年度GPGPU実践基礎工学 第11回 GPUでの並列 プログラミング(ベクトル和)智啓 出川
 
Nano Server First Step
Nano Server First StepNano Server First Step
Nano Server First StepKazuki Takai
 
今だからこそ知りたい Docker Compose/Swarm 入門
今だからこそ知りたい Docker Compose/Swarm 入門今だからこそ知りたい Docker Compose/Swarm 入門
今だからこそ知りたい Docker Compose/Swarm 入門Masahito Zembutsu
 
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021Preferred Networks
 
GPGPUによるパーソナルスーパーコンピュータの可能性
GPGPUによるパーソナルスーパーコンピュータの可能性GPGPUによるパーソナルスーパーコンピュータの可能性
GPGPUによるパーソナルスーパーコンピュータの可能性Yusaku Watanabe
 
Asakusa Framework スモールジョブ実行エンジン & Windows対応
Asakusa Framework スモールジョブ実行エンジン & Windows対応Asakusa Framework スモールジョブ実行エンジン & Windows対応
Asakusa Framework スモールジョブ実行エンジン & Windows対応apirakun
 
NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012Takuro Iizuka
 
20130714 July Tech Festa 日本CloudStackユーザー会
20130714 July Tech Festa 日本CloudStackユーザー会20130714 July Tech Festa 日本CloudStackユーザー会
20130714 July Tech Festa 日本CloudStackユーザー会samemoon
 
kube-system落としてみました
kube-system落としてみましたkube-system落としてみました
kube-system落としてみましたShuntaro Saiba
 

Similar a 1076: CUDAデバッグ・プロファイリング入門 (20)

OpenCV2.2 Install Guide ver.0.5
OpenCV2.2 Install Guide ver.0.5OpenCV2.2 Install Guide ver.0.5
OpenCV2.2 Install Guide ver.0.5
 
もろもろの AI ツールを Windows のローカル環境にインストールする手順
もろもろの AI ツールを Windows のローカル環境にインストールする手順もろもろの AI ツールを Windows のローカル環境にインストールする手順
もろもろの AI ツールを Windows のローカル環境にインストールする手順
 
Maxwell と Java CUDAプログラミング
Maxwell と Java CUDAプログラミングMaxwell と Java CUDAプログラミング
Maxwell と Java CUDAプログラミング
 
ASP.NET Core のお気に入りの機能たち (docker向け)
ASP.NET Core のお気に入りの機能たち (docker向け)ASP.NET Core のお気に入りの機能たち (docker向け)
ASP.NET Core のお気に入りの機能たち (docker向け)
 
C#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめC#, C/CLI と CUDAによる画像処理ことはじめ
C#, C/CLI と CUDAによる画像処理ことはじめ
 
お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...
お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...
お待たせしました! 真の VDI on Azure がついに実現します!~ Citrix と Microsoft のタッグがもたらす次世代型クラウド・デス...
 
Singularity Containers for Enterprise Use
Singularity Containers for Enterprise UseSingularity Containers for Enterprise Use
Singularity Containers for Enterprise Use
 
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
 
3d graphics solution jp
3d graphics solution jp3d graphics solution jp
3d graphics solution jp
 
ディープラーニングイメージで構築する快適・高速な機械学習環境
ディープラーニングイメージで構築する快適・高速な機械学習環境ディープラーニングイメージで構築する快適・高速な機械学習環境
ディープラーニングイメージで構築する快適・高速な機械学習環境
 
2015年度GPGPU実践プログラミング 第3回 GPGPUプログラミング環境
2015年度GPGPU実践プログラミング 第3回 GPGPUプログラミング環境2015年度GPGPU実践プログラミング 第3回 GPGPUプログラミング環境
2015年度GPGPU実践プログラミング 第3回 GPGPUプログラミング環境
 
2015年度GPGPU実践基礎工学 第11回 GPUでの並列 プログラミング(ベクトル和)
2015年度GPGPU実践基礎工学 第11回 GPUでの並列プログラミング(ベクトル和)2015年度GPGPU実践基礎工学 第11回 GPUでの並列プログラミング(ベクトル和)
2015年度GPGPU実践基礎工学 第11回 GPUでの並列 プログラミング(ベクトル和)
 
Nano Server First Step
Nano Server First StepNano Server First Step
Nano Server First Step
 
今だからこそ知りたい Docker Compose/Swarm 入門
今だからこそ知りたい Docker Compose/Swarm 入門今だからこそ知りたい Docker Compose/Swarm 入門
今だからこそ知りたい Docker Compose/Swarm 入門
 
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
 
GPGPUによるパーソナルスーパーコンピュータの可能性
GPGPUによるパーソナルスーパーコンピュータの可能性GPGPUによるパーソナルスーパーコンピュータの可能性
GPGPUによるパーソナルスーパーコンピュータの可能性
 
Asakusa Framework スモールジョブ実行エンジン & Windows対応
Asakusa Framework スモールジョブ実行エンジン & Windows対応Asakusa Framework スモールジョブ実行エンジン & Windows対応
Asakusa Framework スモールジョブ実行エンジン & Windows対応
 
NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012NVIDIA Japan Seminar 2012
NVIDIA Japan Seminar 2012
 
20130714 July Tech Festa 日本CloudStackユーザー会
20130714 July Tech Festa 日本CloudStackユーザー会20130714 July Tech Festa 日本CloudStackユーザー会
20130714 July Tech Festa 日本CloudStackユーザー会
 
kube-system落としてみました
kube-system落としてみましたkube-system落としてみました
kube-system落としてみました
 

Más de NVIDIA Japan

HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?NVIDIA Japan
 
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化NVIDIA Japan
 
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情NVIDIA Japan
 
20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdfNVIDIA Japan
 
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワークNVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワークNVIDIA Japan
 
NVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読みNVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読みNVIDIA Japan
 
HPC+AI ってよく聞くけど結局なんなの
HPC+AI ってよく聞くけど結局なんなのHPC+AI ってよく聞くけど結局なんなの
HPC+AI ってよく聞くけど結局なんなのNVIDIA Japan
 
Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報NVIDIA Japan
 
データ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラデータ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラNVIDIA Japan
 
Hopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないことHopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないことNVIDIA Japan
 
GPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIAGPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIANVIDIA Japan
 
GTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーGTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーNVIDIA Japan
 
テレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティテレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティNVIDIA Japan
 
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~NVIDIA Japan
 
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×RoboticsエンジニアへのロードマップNVIDIA Japan
 
2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育NVIDIA Japan
 
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育NVIDIA Japan
 
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報NVIDIA Japan
 
Jetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジにJetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジにNVIDIA Japan
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめNVIDIA Japan
 

Más de NVIDIA Japan (20)

HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?HPC 的に H100 は魅力的な GPU なのか?
HPC 的に H100 は魅力的な GPU なのか?
 
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
NVIDIA cuQuantum SDK による量子回路シミュレーターの高速化
 
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
Physics-ML のためのフレームワーク NVIDIA Modulus 最新事情
 
20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf20221021_JP5.0.2-Webinar-JP_Final.pdf
20221021_JP5.0.2-Webinar-JP_Final.pdf
 
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワークNVIDIA Modulus: Physics ML 開発のためのフレームワーク
NVIDIA Modulus: Physics ML 開発のためのフレームワーク
 
NVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読みNVIDIA HPC ソフトウエア斜め読み
NVIDIA HPC ソフトウエア斜め読み
 
HPC+AI ってよく聞くけど結局なんなの
HPC+AI ってよく聞くけど結局なんなのHPC+AI ってよく聞くけど結局なんなの
HPC+AI ってよく聞くけど結局なんなの
 
Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報Magnum IO GPUDirect Storage 最新情報
Magnum IO GPUDirect Storage 最新情報
 
データ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラデータ爆発時代のネットワークインフラ
データ爆発時代のネットワークインフラ
 
Hopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないことHopper アーキテクチャで、変わること、変わらないこと
Hopper アーキテクチャで、変わること、変わらないこと
 
GPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIAGPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIA
 
GTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリーGTC November 2021 – テレコム関連アップデート サマリー
GTC November 2021 – テレコム関連アップデート サマリー
 
テレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティテレコムのビッグデータ解析 & AI サイバーセキュリティ
テレコムのビッグデータ解析 & AI サイバーセキュリティ
 
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
必見!絶対におすすめの通信業界セッション 5 つ ~秋の GTC 2020~
 
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
2020年10月29日 プロフェッショナルAI×Roboticsエンジニアへのロードマップ
 
2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育2020年10月29日 Jetson活用によるAI教育
2020年10月29日 Jetson活用によるAI教育
 
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
2020年10月29日 Jetson Nano 2GBで始めるAI x Robotics教育
 
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
COVID-19 研究・対策に活用可能な NVIDIA ソフトウェアと関連情報
 
Jetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジにJetson Xavier NX クラウドネイティブをエッジに
Jetson Xavier NX クラウドネイティブをエッジに
 
GTC 2020 発表内容まとめ
GTC 2020 発表内容まとめGTC 2020 発表内容まとめ
GTC 2020 発表内容まとめ
 

1076: CUDAデバッグ・プロファイリング入門