SlideShare una empresa de Scribd logo
1 de 66
Descargar para leer sin conexión
2022年4月 計算科学技術特論B
2022年4月
ジャパンメディカルデバイス
テクノロジーアセットディレクター
南�一生
minami@jmd-corp.com
計算科学技術特論B
第3回
アプリケーションの性能最適化の実例1
とCPU単体性能とは?
2
2022年4月 計算科学技術特論B
講義の概要
• スーパーコンピュータとアプリケーションの性能
• アプリケーションの性能最適化1(高並列性能最適化)
• アプリケーションの性能最適化の実例1とCPU単体性能と
は?
• アプリケーションの性能最適化2(CPU単体性能最適化)
• アプリケーションの性能最適化の実例2
3
2022年4月 計算科学技術特論B
内容
•RSDFTの性能最適化
•CPU単体性能とは?
4
2022年4月 計算科学技術特論B
RSDFTの性能最適化
5
2022年4月 計算科学技術特論B
RSDFTの計算機化学的な位置付け
5
easy
difficult
Parallelization
difficult
Parallel Performance
High
Low
High
Low
RSDFT
CPU
単体性能
並列性能
6
2022年4月 計算科学技術特論B
スーパーコンピュータを使うために(第2回)
(1)定式化(物理・数学の世界)
(2)離散化(+-×÷の世界)
(4)プログラミング(コンピュータの世界)
(5)並列化
(6)性能チューニング
(3)アルゴリズム(数学の世界)
7
2022年4月 計算科学技術特論B
離散化の結果
Ax = b
連立1次方程式
Ax = λx
固有値方程式
A : 行列
x : 解ベクトル
λ : 固有値(スカラ)
b : 定数ベクトル
A : 行列
x : 固有ベクトル
8
2022年4月 計算科学技術特論B
離散化の結果
Ax = b
連立1次方程式
Ax = λx
固有値方程式
A : 行列
x : 解ベクトル
λ : 固有値(スカラ)
b : 定数ベクトル
A : 行列
x : 固有ベクトル
9
2022年4月 計算科学技術特論B
RSDFTとは
● ナノスケールでの量子論的諸現象を第一原理に立脚して解明し新機
能を有するナノ物質・構造を予測
● 例えば・・・
Si中原子空孔による準位の電子雲
炭素ナノチューブでのスピン磁性
FET
n-Si
LSI FET
LSI
2020 2030
LSI
FET
	
漏れ電流が問題
漏れ電流を押さえる
10
2022年4月 計算科学技術特論B
RSDFTの原理
( )
∑
=
i
i r
n
2
|
)
( ϕ
r
ハミルトニアン
電子密度
Kohn-Sham方程式
波動関数
φi: 電子軌道(=波動関数)	
	i:電子準位(=エネルギーバンド)	
r:空間離散点(=空間格子)
固有値方程式
Hϕi (r) = εiϕi (r)
11
2022年4月 計算科学技術特論B
RSDFTの原理
実空間法
固有値方程式
Hϕi (r) = εiϕi (r)
ユニットセル(実際は3次元)
各次元方向をML1,ML2,ML3等分して格子を生成
ML(=ML1×ML2×ML3)次元のエルミート行列の固
有値問題
ML2
Kohn-Sham方程式を3次元格子上に
離散化し解く
12
2022年4月 計算科学技術特論B
RSDFTの計算フロー
(	CG	)	共役勾配法
(	GS	)	Gram-Schmidt規格直交化
(	SD	)	部分対角化
密度とポテンシャルの更新	
Self-Consistent	Field		procedure
1
3
2
4
SCF計算
13
2022年4月 計算科学技術特論B
RSDFTの計算フロー
原子構造の最適化
ポテンシャル計算
部分対角化
Gram-Schmidt直交化
現時点での波動関数で密度を計算
新しい密度で局所ポテンシャルを再計算
SCF収束判定
波動関数の更新
共役勾配法
波動関数の更新
最小残差法
原子に働く力Fの計算
原子の位置を少しづらす
原子座標の読み込み
初期波動関数.初期密度の準備
or
原子構造の収束判定
SCFループ
4~5回の反復
収束
未収束
未収束
収束
END
組み合わせて使うとSCF収束が速くなる
SCFループの回数で使うルーチンを変更
変更する回数は入力で与える
scf_mix
14
2022年4月 計算科学技術特論B
RSDFTの並列化
J.-I.	Iwata	et	al.,	J.	Comp.	Phys.	(2010)	
Blue	:	Si	atom	
Yellow:	electron	density
Real	space CPU	space
15
2022年4月 計算科学技術特論B
RSDFTのCPU単体性能の向上
スレッド並列化
キャッシュの有効利用
16
2022年4月 計算科学技術特論B
RSDFTのCPU単体性能の向上
1
2
1 ψ
ψ
ψ "
"
1
3
1 ψ
ψ
ψ "
"
1
4
1 ψ
ψ
ψ "
"
1
5
1 ψ
ψ
ψ "
"
2
3
2 ψ
ψ
ψ "
"
1
6
1 ψ
ψ
ψ "
"
2
4
2 ψ
ψ
ψ "
"
2
6
2 ψ
ψ
ψ "
"
2
5
2 ψ
ψ
ψ "
"
3
4
3 ψ
ψ
ψ "
"
4
5
4 ψ
ψ
ψ "
"
1
ψ "
5
6
5 ψ
ψ
ψ "
"
6
7
6 ψ
ψ
ψ "
"
-
2
ψ "
3
ψ "
4
ψ "
5
ψ "
6
ψ "
3
5
3 ψ
ψ
ψ "
"
3
6
3 ψ
ψ
ψ "
"
1
ψ
2
ψ
3
ψ
5
ψ
4
ψ
6
ψ
=
=
4
6
4 ψ
ψ
ψ "
"
1
7
1 ψ
ψ
ψ "
"
1
8
1 ψ
ψ
ψ "
"
1
9
1 ψ
ψ
ψ "
"
2
7
2 ψ
ψ
ψ "
"
2
8
2 ψ
ψ
ψ "
"
2
9
2 ψ
ψ
ψ "
"
3
7
3 ψ
ψ
ψ "
"
3
8
3 ψ
ψ
ψ "
"
3
9
3 ψ
ψ
ψ "
"
4
7
4 ψ
ψ
ψ "
"
4
8
4 ψ
ψ
ψ "
"
4
9
4 ψ
ψ
ψ "
"
5
7
5 ψ
ψ
ψ "
"
5
8
5 ψ
ψ
ψ "
"
5
9
5 ψ
ψ
ψ "
"
6
8
6 ψ
ψ
ψ "
"
6
9
6 ψ
ψ
ψ "
"
7
8
7 ψ
ψ
ψ "
"
7
9
7 ψ
ψ
ψ "
" 8
9
8 ψ
ψ
ψ "
"
=
=
=
=
=
=
=
-
-
-
-
-
-
-
7
ψ "
8
ψ "
9
ψ "
7
ψ
8
ψ
9
ψ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- -
・
・
・
オリジナルは行列ベクトル積
GramSchmidt直交化の行列積化
17
2022年4月 計算科学技術特論B
RSDFTのCPU単体性能の向上
三角部(DGEMV)
四角部(DGEMM)
	
	
	
	
	
	
	
	
• 依存関係のある三角部とない四角部にブロック化して計算	
• 再帰的にブロック化することで四角部を多く確保
※SDも同様に行列積化が可能
ベクトル積を行列積に変換 再帰分割法
GramSchmidt直交化の行列積化
18
2022年4月 計算科学技術特論B
RSDFTのCPU単体性能の向上
計算コアの最適化	
• 行列積化
スレッド並列の実装
RSDFT
• 実空間差分法	
• 空間並列
ターゲット計算機:PACS-CS,	T2K-Tsukuba
ターゲット計算機:PACS-CS,	T2K-Tsukuba
19
2022年4月 計算科学技術特論B
RSDFTの並列特性分析
20
2022年4月 計算科学技術特論B
RSDFTの並列特性分析(処理・演算量)
空間方向 ○
バンド方向 ○
▲
高並列時のScalapackのスケー
ラビリティに疑問.
空間方向 ○
バンド方向 ○
空間方向 ○
バンド方向 △
アルゴリズム上,ロードインバ
ランスを避けられない.
三角部の処理が非並列となる
空間方向 △
スカラー値のallreduceがボトル
ネック.
複数バンドの一括処理が有効
(ただし,2~5程度,キャッ
シュサイズにより変わる).
バンド方向 ○
高並列化性能
O(MLxMB2)
→O(N3)
O(MB3)→O(
N3)
O(MLxMB2)
→O(N3)
O(MLxMB2)
→O(N3)
O(ML×ML)
→O(N2)
演算量
DGEMM,DGEMVが中心.
再帰分割法によりDGEMMが
支配的.
行列要素生成
(MatE)
DGEMM,DGEMVが中心.
再帰分割法によりDGEMMが
支配的.
回転
(RotV)
Psdyevdの下位では
DGEMM,DGEMVを使用.
固有値求解
(pdsyevd)
ML次元の部分空間に
限ってハミルトニアン
の対角化をする.
DIAG
DGEMM,DGEMVが中心.
再帰分割法によりDGEMMが
支配的.
規格直交化
GramSchmidt
ロード>演算
実効性能は低い
レイリー商
MLxML対称行列の
固有値,固有ベクトル
を共役勾配法で固有値
の小さいものから順に
MB本求める.
DTCG
単体性能
処理内容
ルーチン
n
n
n
KS
m H
ψ
ψ
ψ
ψ
∑
−
=
−
=
1
1
'
n
m
n
m
m
n
n ψ
ψ
ψ
ψ
ψ
n
KS
m
n
m H
H ψ
ψ
=
,
!
!
!
"
#
$
$
$
%
&
=
!
!
!
"
#
$
$
$
%
&
!
!
!
"
#
$
$
$
%
&
× n
n
N
N c
c
H
!
!
ε
∑
=
=
N
m
m
m
n
n r
c
r
1
,
'
)
(
)
( ψ
ψ
minimize
ML:格子数,MB:バンド数
O(N2)
O(N3)
O(N3)
O(N3)
21
2022年4月 計算科学技術特論B
RSDFTの並列特性分析(コスト)
計算機 :RICC
8,000原子:格子数120x120x120,バンド数16,000
並列数 :8x8x8(空間方向のみ)
SCFループ1回実行の実測データからSCFループ100回として実行時間を推定
O(N3)
DGEMM中心
O(N2)
演算<ロード
O(N3)
DGEMM中心
O(N3)
演算
行列生成部: Reduce, Isend/Irecv(HPSI)
固有値ソルバー部:PDSYEVD内(Bcast)
ローテーション:部分Bcast,部分Reduce
30.5%
DIAG
3.1%
38.6%
27.4%
99.6%
0.4%
コスト
スカラー値のallreduce中心
Isend/Irecv(ノンローカル項/HPSI)
Isend/Irecv(境界データ交換/BCSET)
DTCG
Allreduce (内積,規格化変数)
GramSchmidt
途中結果出力は毎SCFではないのでコストは
もっと少
Mixing, 途中結果の出力
DO SCFループ(100回と仮定)
ENDDO
Bcast,Isend/Irecv
初期化
 パラメータの読込み
 全プロセスへの転送
SCF部
プロセス間通信
処理内容
22
2022年4月 計算科学技術特論B
RSDFTの並列特性分析(ブロック毎のスケーラビリティ)
512
(8x8x8)
計算機:T2K-Tsukuba
コンパイラ&ライブラリ:PGI + mvapich2-medium
S方向の分割数:128, 256, 512, 1024, 2048
Si4096(格子:96x96x96,バンド:8192)
実行時間,T2K-Tsukuba
0.0
100.0
200.0
300.0
400.0
500.0
600.0
700.0
800.0
900.0
1000.0
0 5 0 0 1,000 1,500 2,000 2,500
並列数
実行時間(秒)
S C F
DIAG
G S
DTCG
1024
(8x8x16)
2048
(8x16x16)
128
(4x4x8)
512
(8x8x8)
1024
(8x8x16)
2048
(8x16x16)
128
(4x4x8)
Si4,096(格子:96x96x96,バンド:8192)
速度向上率,T2K-Tsukuba
0.0
2.0
4.0
6.0
8.0
10.0
12.0
14.0
16.0
18.0
0 5 0 0 1,000 1,500 2,000 2,500
並列数
速度向上率
Ideal
S C F
DIAG
G S
DTCG
22
23
2022年4月 計算科学技術特論B
そもそも並列化とは?
計算時間
プロセッサ1
通信時間 通信時間
隣接通信
プロセッサ2
プロセッサ3
プロセッサ4
隣接通信
隣接通信
大域通信
例えば総和計算
MPI_allreduce
24
2022年4月 計算科学技術特論B
MPIの概要
25
2022年4月 計算科学技術特論B
RSDFTの並列特性分析(ブロック毎のスケーラビリティ)
※PDSYEVDの通信は演算部に含まれている
Si4 0 9 6(格子:9 6x9 6x9 6,バンド:8 1 9 2)
演算時間と通信時間,T2K -Tsukuba
0.0
100.0
200.0
300.0
400.0
500.0
600.0
700.0
800.0
900.0
1000.0
1
2
8
2
5
6
5
1
2
1,024
2,048
1
2
8
2
5
6
5
1
2
1,024
2,048
1
2
8
2
5
6
5
1
2
1,024
2,048
1
2
8
2
5
6
5
1
2
1,024
2,048
S C F DIAG G S DTCG
並列数
実行時間(秒)
通信(S :大域)
通信(S :隣接)
演算
通信時間増大
26
2022年4月 計算科学技術特論B
RSDFTの並列特性分析(ブロック毎のスケーラビリティ)
※PDSYEVDの通信は演算部に含まれている
Si4 0 9 6(格子:9 6x9 6x9 6,バンド:8 1 9 2)
演算時間と通信時間,T2K -Tsukuba
0.0
100.0
200.0
300.0
400.0
500.0
600.0
700.0
800.0
900.0
1000.0
1
2
8
2
5
6
5
1
2
1,024
2,048
1
2
8
2
5
6
5
1
2
1,024
2,048
1
2
8
2
5
6
5
1
2
1,024
2,048
1
2
8
2
5
6
5
1
2
1,024
2,048
S C F DIAG G S DTCG
並列数
実行時間(秒)
通信(S :大域)
通信(S :隣接)
演算
演算の	
スケーラビリティ	
悪化
27
2022年4月 計算科学技術特論B
RSDFTの並列特性分析(並列・単体性能)
空間方向 ○
バンド方向 ○
▲
高並列時のScalapackのスケー
ラビリティに疑問.
空間方向 ○
バンド方向 ○
空間方向 ○
バンド方向 △
アルゴリズム上,ロードインバ
ランスを避けられない.
三角部の処理が非並列となる
空間方向 △
スカラー値のallreduceがボトル
ネック.
複数バンドの一括処理が有効
(ただし,2~5程度,キャッ
シュサイズにより変わる).
バンド方向 ○
高並列化性能
O(MLxMB2)
→O(N3)
O(MB3)→O(
N3)
O(MLxMB2)
→O(N3)
O(MLxMB2)
→O(N3)
O(ML×ML)
→O(N2)
演算量
DGEMM,DGEMVが中心.
再帰分割法によりDGEMMが
支配的.
行列要素生成
(MatE)
DGEMM,DGEMVが中心.
再帰分割法によりDGEMMが
支配的.
回転
(RotV)
Psdyevdの下位では
DGEMM,DGEMVを使用.
固有値求解
(pdsyevd)
ML次元の部分空間に
限ってハミルトニアン
の対角化をする.
DIAG
DGEMM,DGEMVが中心.
再帰分割法によりDGEMMが
支配的.
規格直交化
GramSchmidt
ロード>演算
実効性能は低い
レイリー商
MLxML対称行列の
固有値,固有ベクトル
を共役勾配法で固有値
の小さいものから順に
MB本求める.
DTCG
単体性能
処理内容
ルーチン
n
n
n
KS
m H
ψ
ψ
ψ
ψ
∑
−
=
−
=
1
1
'
n
m
n
m
m
n
n ψ
ψ
ψ
ψ
ψ
n
KS
m
n
m H
H ψ
ψ
=
,
!
!
!
"
#
$
$
$
%
&
=
!
!
!
"
#
$
$
$
%
&
!
!
!
"
#
$
$
$
%
&
× n
n
N
N c
c
H
!
!
ε
∑
=
=
N
m
m
m
n
n r
c
r
1
,
'
)
(
)
( ψ
ψ
minimize
ML:格子数,MB:バンド数
O(N2)
O(N3)
O(N3)
O(N3)
O(N3)
通信時間増大	
演算時間と逆転	
並列度の不足	
通信時間減少せず	
演算時間と同程度	
並列度の不足
通信時間増大	
演算時間と同程度	
並列度の不足	
Scalapackのスケー
ラビリティが悪い	
行列積化で良好
行列ベクトル積	
性能は悪い
行列積化で良好
行列積化で良好
Scalapackの性能
が悪い
28
2022年4月 計算科学技術特論B
並列性能上のボトルネック
1 アプリケーションとハードウェアの並列度のミスマッチ
(アプリケーションの並列度不足)
2 非並列部の残存
3 大域通信における大きな通信サイズ、通信回数の発生
4 フルノードにおける大域通信の発生
5 隣接通信における大きな通信サイズ、通信回数の発生
6 ロードインバランスの発生
今まで示した調査を実施することにより処理ブロック毎に並列性能上の
問題がある事が発見される.
それらを分析するとだいたい以下の6点に分類されると考える.
29
2022年4月 計算科学技術特論B
RSDFTの高並列化
計算コアの最適化	
• 行列積化
スレッド並列の実装
RSDFT
• 実空間差分法	
• ベクトルの内積計算
が基本	
• 空間並列
ターゲット計算機:PACS-CS,	T2K-Tsukuba
ターゲット計算機:PACS-CS,	T2K-Tsukuba
30
2022年4月 計算科学技術特論B
RSDFTの高並列化
計算コアの最適化	
• 行列積化
スレッド並列の実装
超並列向けの実装	
• バンド並列の拡張	
• EIGENライブラリ※の適用
RSDFT
• 実空間差分法	
• ベクトルの内積計算
が基本	
• 空間並列
ターゲット計算機:PACS-CS,	T2K-Tsukuba
ターゲット計算機:PACS-CS,	T2K-Tsukuba
ターゲット計算機:K	computer
※高速固有値ライブラリ	
Imamura	el	al.	SNA+MC2010	(2010)
31
2022年4月 計算科学技術特論B
RSDFTの高並列化
固有値方程式
Hϕi (r) = εiϕi (r)
ユニットセル(実際は3次元)
ML2
φi: 電子軌道(=波動関数)	
	i:電子準位(=エネルギーバンド)	
r:空間離散点(=空間格子)
!30
1
2
3
4
5
6
2018年5月10日 計算科学技術特論B 
の対応
32
2022年4月 計算科学技術特論B
RSDFTの高並列化
固有値方程式
Hϕi (r) = εiϕi (r)
ユニットセル(実際は3次元)
ML2
i	はエネルギーバンド量子数	
i	についての依存関係はない	
空間(S)に加えエネルギーバンド(B)
の並列を実装	
万を超える並列度を確保
φi: 電子軌道(=波動関数)	
	i:電子準位(=エネルギーバンド)	
r:空間離散点(=空間格子)
!30
1
2
3
4
5
6
2018年5月10日 計算科学技術特論B 
の対応
33
2022年4月 計算科学技術特論B
RSDFTの高並列化
• 並列軸を増やす事で空間の分割
粒度を増やすことが出来る
• 10万並列レベルに対応可能	
• 空間並列のみの場合は全プロ
セッサ間の大域通信が必要	
• 通信時間の増大を招く	
• 2軸並列への書換で空間に対す
る大域通信が一部のプロセッサ
間での通信とできる	
• バンドに対する大域通信も同様	
• 大域通信の効率化が実現可
空間
6並列
空間
3×2並列
バンド
空間大域通信
空間大域通信
バンド
大域通信
並列軸拡張の効果
!30
2
3
4
5
6
2018年5月10日 計算科学技術特論B 
の対応
34
2022年4月 計算科学技術特論B
RSDFTの高並列化 - 通信の見積りと効果の予測 -
■グローバル通信
✓ALLREDUCE
➢GramSchmidt : 内積配列,規格化変数
➢DTCG : スカラー変数
✓REDUCE :
➢DIAG(MatE)
✓BCAST:
➢DIAG(RotV)
➢GramSchmidt :三角部で更新した波動関数を配送
✓ALLGATHERV
➢DIAG
➢GramSchmidt
■隣接通信
✓境界データの交換:BCSET
✓ノンローカル項計算:HPSI
✓対称ブロックデータの交換:DIAG(MatE)
下線はバンド並列で追加された通信
空間+バンド並列版(S+B並列版)
35
2022年4月 計算科学技術特論B
RSDFTの高並列化- Gram-Schmidtの実装 -
三角部
四角部
	
	
	
	
	
	
	
	
	1	
	3	
	3	
	3	
	4	
	6	
	6	 	7	
	9	 	10	
	2	
	5	
	8	
(1) 三角部の計算	
(2) 計算した値を四角部に転送(バンド方向の各プロセッサに分配)	
(3) 四角部を並列に計算
タスクはブロック・サイクリック
で分配→負荷均等化
0
1
2
0
	? 処理の順番
	? バンド並列のランク番号
36
2022年4月 計算科学技術特論B
RSDFTの高並列化 - 通信の見積りと効果の予測 -
ルーチン 通信パターン 型 通信サイズ 通信回数
GramSchmidt mpi_allgatherv mpi_real8 MB/バンド並列数 1
mpi_allreduce mpi_real8 NBLK*NBLK~
(NBLK1+1)*(NBLK1+1)
MB/NBLK*MB/NBLK/バンド並列数 +
Int(log(NBLK/NBLK1)*(MB/NBLK/バンド並列数)
mpi_allreduce mpi_real8 NBLK1~1 NBLK1*(MB/NBLK/バンド並列数)
mpi_allreduce mpi_real8 1
MB/NBLK*MB/NBLK/バンド並列数 +
Int(log(NBLK/NBLK1)*(MB/NBLK/バンド並列数)
+NBLK1*(MB/NBLK/バンド並列数)
mpi_bcast mpi_real8 ML0*NBLK MB/NBLK/バンド並列数
allgatherv mpi_real8 MB/バンド並列数 1
DIAG mpi_reduce mpi_real8 MBLK*MBLK (MB/MBLK * MB/MBLK)/バンド並列数
Isend/irecv mpi_real8 MBLK*MBLK 1
Scalapack(pdsyev
d)内の通信は省略
 
mpic_bcast mpi_real8 MBSIZE*NBSIZE (MB/MBSIZE * MB/NBSIZE)/バンド並列数
HPSI mpi_isend mpi_real8 lma_nsend(irank)*MBLK 6*各方向の深さ*MB/MBLK/バンド並列数
mpi_irecv mpi_real8 lma_nsend(irank)*MBLK 6*各方向の深さ*MB/MBLK/バンド並列数
mpi_waitall - - MB/MBLK/バンド並列数
BCSET mpi_isend mpi_real8 Md*MBLK 6*MB/MBLK/バンド並列数
mpi_irecv mpi_real8 Md*MBLK 6*MB/MBLK/バンド並列数
mpi_waitall - - MB/MBLK/バンド並列数
MB:バンド数,NBLK:行列x行列で処理する最大サイズ,NBLK1:行列xベクトルで処理する最小サイズ,MBSIZE:MBxMB行列の行方向のブロックサイズ,
MBSIZE:MBxMB行列の列方向のブロックサイズ,MBLK:min(MBSIZE,NBSIZE), Md:高次差分の次数, lma_nsend:ノンローカル項の数
: バンド方向の通信
36
37
2022年4月 計算科学技術特論B
RSDFTの高並列化 - 通信の見積りと効果の予測 -
6*各方向の深さ*MB/MB_d
*(Mcg+1)/バンド並列数
lma_nsend(irank)*
MB_d
mpi_real8
mpi_isend
HPSI
MB/MB_d*Mcg/バンド並列数*3
MB_d
mpi_real8
mpi_allreduce
precond_cg
MB/MB_d/バンド並列数
MB_d
mpi_real8
mpi_allreduce
DTCG
MB/MB_d*Mcg/バンド並列数
MB_d
mpi_real8
mpi_allreduce
MB/MB_d*Mcg/バンド並列数
MB_d
mpi_real8
mpi_allreduce
MB/MB_d/バンド並列数
MB_d
mpi_real8
mpi_allreduce
2
MB
mpi_real8
mpi_allreduce
MB/MB_d*(Mcg+1)/バンド並列数
-
-
mpi_waitall
 
6*MB/MB_d*(Mcg+1)/バンド並列数
Md*MB_d
mpi_real8
mpi_irecv
 
6*MB/MB_d*(Mcg+1)/バンド並列数
Md*MB_d
mpi_real8
mpi_isend
BCSET
 
MB/MB_d*(Mcg+1)/バンド並列数
-
-
mpi_waitall
 
 
6*各方向の深さ*MB/MB_d
*(Mcg+1)/バンド並列数
lma_nsend(irank)*
MB_d
mpi_real8
mpi_irecv
 
 
MB/MB_d*Mcg/バンド並列数
-
-
mpi_waitall
6*MB/MB_d*Mcg/バンド並列数
Md*MB_d
mpi_real8
mpi_irecv
6*MB/MB_d*Mcg/バンド並列数
Md*MB_d
mpi_real8
mpi_isend
BCSET
MB/MB_d*Mcg/バンド並列数
MB_d*6
mpi_real8
mpi_allreduce
 
 
通信回数
通信サイズ
型
通信パターン
ルーチン
MB:バンド数,MB_dバンドまとめ処理数,Md:高次差分の次数, lma_nsend:ノンローカル項の数
38
2022年4月 計算科学技術特論B
RSDFTの高並列化 - 効果の確認 -
Weak Scaling 測定
タスクサイズ/プロセスを固定する.
  格子サイズ:12x12x12,バンドサイズ:2,400
バンド方向の並列数は8で固定.
空間方向を並列数に比例して増加させる.
原子数 格子数 バンド数 並列数
パターン1 512 48x48x48 19,200 512 (4x4x4x8)
パターン2 1,000 60x60x60 19,200 1,000(5x5x5x8)
パターン3 1,728 72x72x72 19,200 1,728(6x6x6x8)
パターン4 4,096 96x96x96 19,200 4,096(8x8x8x8)
パターン5 8,000 120x120x120 19,200 8,000(10x10x10x8)
T2K-Tsukubaで測定
39
2022年4月 計算科学技術特論B
RSDFTの高並列化 - 効果の確認 -
Si4096(格子:96x96x96,バンド:8192)
DTCG, Weak Scaling, T2K-Tsukuba
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
40.0
45.0
0 1,000 2,000 3,000 4,000 5,000
並列数
実行時間(秒)
DTCG
演算
通信(S:隣接)
通信(S:大域)
通信(B:大域)
Si4096(格子:96x96x96,バンド:8192)
MatE/DIAG, Weak Scaling, T2K-Tsukuba
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
0 1,000 2,000 3,000 4,000 5,000
並列数
実行時間(秒)
MatE
演算
通信(S:隣接)
通信(S:大域)
Si4096(格子:96x96x96,バンド:8192)
RoTV/DIAG, Weak Scaling, T2K-Tsukuba
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
0 1,000 2,000 3,000 4,000 5,000
並列数
実行時間(秒)
RotV
演算
通信(S:大域)
Si4096(格子:9 6x9 6x9 6,バンド:8192)
GS, Weak Scaling, T2K-Tsukuba
0.0
10.0
20.0
30.0
40.0
50.0
60.0
0 1,000 2,000 3,000 4,000 5,000
並列数
実行時間(秒)
G S
演算
通信(S :大域)
通信(B :大域)
Weak Scaling 測定
40
2022年4月 計算科学技術特論B
RSDFTの高並列化 -Tofuネットワークへのマッピング-
!30
1
2
3
4
5
6
2018年5月10日 計算科学技術特論B 
 Tofuネットワーク
a軸
b軸
c軸
41
2022年4月 計算科学技術特論B
RSDFTの高並列化 -Tofuネットワークへのマッピング-
X
Y
Z
space
orbital
バンド(1:On)
バンド(On+1:Om)
バンド(Om+1:Omax)
バンド	(1:Omax)
空間並列
Tofuネットワークへのマッピング
x
y
z
CPU	space
空間並列+バンド並列
• マッピング・ルール	
• 通信の最適化
各バンドグループをサブメッシュ/トーラス・ネット
ワークにマッピング
サブメッシュ/トーラス内で通信が閉じられる
!30
1
2
3
4
5
6
2018年5月10日 計算科学技術特論B 
42
2022年4月 計算科学技術特論B
RSDFTの高並列化 -Gram-Schmidtへのマッピング効果-
最適マッピング → サブコミュニケータ間のコンフリクトが発生しない  
          MPI通信でTofu向けアルゴリズムが選択される
実行時間(秒)
0.0	
30.0	
60.0	
90.0	
120.0	
マッピングなし 最適マッピング
• 原子数: 19,848
• 格子数: 320x320x120
• 軌道数: 41,472
• トータルプロセス数: 12,288
✓ 空間並列: 2,048(32x32x2)
✓ バンド並列: 6
• 32x32x12のトーラスにマッピング
MPI_Bcast
MPI_Allreduce
43
2022年4月 計算科学技術特論B
RSDFTの高並列化 -二軸並列の効果-
HPCS2012
SiNW,	19,848	原子,	格子数:320x320x120,	バンド数:41,472
-78%
-79%
-79%
空間分割:	2,048	
バンド分割:	6
Time	per	SCF	(sec.)
GS CG
MatE/SD RotV/SD
Wait	/	orbital	
Global	communication	/	orbital	
Global		communication	/	space	
Adjacent	communication	/	space	
Computation
	Space	
	+	Orbital
Space	
	+	Orbital
Space	
	+	Orbital
Space	
	+	Orbital
	Space						
Space						
Space							
Space							
-78%
100.0
80.0
60.0
40.0
20.0
0.0
トータル並列プロセス数は12,288で固定
120.0
回転
行列生成
空間分割:	12,288
大域通信時間を大幅に削減
43
44
2022年4月 計算科学技術特論B
RSDFTの高並列化-スケーラビリティ-
DGEMM tuned for the K computer was also used for the
LINPACK benchmark program.
5.2 Scalability
We measured the computation time for the SCF iterations with
communications for the parallel tasks in orbitals, however, was
actually restricted to a relatively small number of compute nodes,
and therefore, the wall clock time for global communications of
the parallel tasks in orbitals was small. This means we succeeded
in decreasing time for global communication by the combination
Figure 6. Computation and communication time of (a) GS, (b) CG, (c) MatE/SD and (d)
RotV/SD for different numbers of cores.
0.0
40.0
80.0
120.0
160.0
0 20000 40000 60000 80000
Time
per
CG
(sec.)
Number of cores
theoretical computation
computation
adjacent/space
global/space
global/orbital
0.0
100.0
200.0
300.0
400.0
0 20,000 40,000 60,000 80,000
Time
per
GS
(sec.)
Number of cores
theoretical computation
computation
global/space
global/orbital
wait/orbital
0.0
50.0
100.0
150.0
200.0
0 20,000 40,000 60,000 80,000
Time
per
MatE/SD
(sec.)
Number of cores
theoretical computation
computation
adjacent/space
global/space
global/orbital
0.0
100.0
200.0
300.0
0 20,000 40,000 60,000 80,000
Time
per
RotV/SD(sec.)
Number of cores
theoretical computation
computation
adjacent/space
global/space
global/orbital
(d)
(c)
(a) (b)
time as a result of keeping the block data on the L1 cache
manually decreased by 12% compared with the computation time
for the usual data replacement operations of the L1 cache. This
DGEMM tuned for the K computer was also used for the
LINPACK benchmark program.
5.2 Scalability
We measured the computation time for the SCF iterations with
hand, the global communication time for the parallel tasks in
orbitals was supposed to increase as the number of parallel tasks
in orbitals increased. The number of MPI processes requiring
communications for the parallel tasks in orbitals, however, was
actually restricted to a relatively small number of compute nodes,
and therefore, the wall clock time for global communications of
the parallel tasks in orbitals was small. This means we succeeded
in decreasing time for global communication by the combination
Figure 6. Computation and communication time of (a) GS, (b) CG, (c) MatE/SD and (d)
RotV/SD for different numbers of cores.
0.0
40.0
80.0
120.0
160.0
0 20000 40000 60000 80000
Time
per
CG
(sec.)
Number of cores
theoretical computation
computation
adjacent/space
global/space
global/orbital
0.0
100.0
200.0
300.0
400.0
0 20,000 40,000 60,000 80,000
Time
per
GS
(sec.)
Number of cores
theoretical computation
computation
global/space
global/orbital
wait/orbital
0.0
50.0
100.0
150.0
200.0
0 20,000 40,000 60,000 80,000
Time
per
MatE/SD
(sec.)
Number of cores
theoretical computation
computation
adjacent/space
global/space
global/orbital
0.0
100.0
200.0
300.0
0 20,000 40,000 60,000 80,000
Time
per
RotV/SD(sec.)
Number of cores
theoretical computation
computation
adjacent/space
global/space
global/orbital
(d)
(c)
(a) (b)
並列度のミスマッチの解消
大域通信の増大の解消
45
2022年4月 計算科学技術特論B
RSDFTの高並列化
confinement becomes prominent. The quantum effects,
which depend on the crystallographic directions of the nano-
wire axes and on the cross-sectional shapes of the nanowires,
result in substantial modifications to the energy-band
structures and the transport characteristics of SiNW FETs.
However, knowledge of the effect of the structural mor-
phology on the energy bands of SiNWs is lacking. In addi-
tion, actual nanowires have side-wall roughness. The
effects of such imperfections on the energy bands are
Table 2. Distribution of computational costs for an iteration of the SCF calculation of the modified code.
Procedure block
Execution
time (s)
Computation
time (s)
Communication time (s)
Performance
(PFLOPS/%)
Adjacent/grids Global/grids Global/orbitals Wait/orbitals
SCF 2903.10 1993.89 61.73 823.02 12.57 11.89 5.48/51.67
SD 1796.97 1281.44 13.90 497.36 4.27 – 5.32/50.17
MatE/SD 525.33 363.18 13.90 143.98 4.27 – 6.15/57.93
EigenSolve/SD 492.56 240.66 – 251.90 – – 0.01/1.03
RotV/SD 779.08 677.60 – 101.48 – – 8.14/76.70
CG 159.97 43.28 47.83 68.85 0.01 – 0.06/0.60
GS 946.16 669.17 – 256.81 8.29 11.89 6.70/63.10
The test model was a SiNW with 107,292 atoms. The numbers of grids and orbitals were 576 ! 576 ! 180, and 230,400, respectively. The numbers of
parallel tasks in grids and orbitals were 27,648 and three, respectively, using 82,944 compute nodes. Each parallel task had 2160 grids and 76,800 orbitals.
Hasegawa et al. 13
Article
Performance evaluation of ultra-large-
scale first-principles electronic structure
calculation code on the K computer
Yukihiro Hasegawa1
, Jun-Ichi Iwata2
, Miwako Tsuji1
,
Daisuke Takahashi3
, Atsushi Oshiyama2
, Kazuo Minami1
,
Taisuke Boku3
, Hikaru Inoue4
, Yoshito Kitazawa5
,
Ikuo Miyoshi6
and Mitsuo Yokokawa7,1
Abstract
The International Journal of High
Performance Computing Applications
1–21
ª The Author(s) 2013
Reprints and permissions:
sagepub.co.uk/journalsPermissions.nav
DOI: 10.1177/1094342013508163
hpc.sagepub.com
Yukihiro Hasegawa et al.,
http://hpc.sagepub.com/
Computing Applications
International Journal of High Performance
http://hpc.sagepub.com/content/early/2013/10/16/1094342013508163
The online version of this article can be found at:
DOI: 10.1177/1094342013508163
published online 17 October 2013
International Journal of High Performance Computing Applications
Hikaru Inoue, Yoshito Kitazawa, Ikuo Miyoshi and Mitsuo Yokokawa
Yukihiro Hasegawa, Jun-Ichi Iwata, Miwako Tsuji, Daisuke Takahashi, Atsushi Oshiyama, Kazuo Minami, Taisuke Boku,
K computer
Performance evaluation of ultra-largescale first-principles electronic structure calculation code on the
Published by:
総合性能
46
課題 7 RSDFT のコデザイン 4. ターゲットアプリケーションのコデザイン
富岳で達成された性能倍率
たコデザインの成果を反映して富岳で達成された京に対する性能倍率及び消費電力を表
す。
表 4.106: RSDFT の対京性能倍率と消費電力
アプリケーション 性能倍率(注) 消費電力(注)
RSDFT 38 倍 30 MW
(注)ターゲット問題実行時における対京性能倍率:ブーストモードかつエコ無効モードで実行
富岳コデザイン・レポート
∼フラッグシップ2020プロジェクト・テクニカルレポート∼
フラッグシップ 2020 プロジェクト
理化学研究所 計算科学研究センター
2022 年 3 月
富岳コデザイン・レポート
∼フラッグシップ2020プロジェクト・テクニカルレポート∼
フラッグシップ 2020 プロジェクト
理化学研究所 計算科学研究センター
2022 年 3 月
富岳での性能
出典
ターゲット問題
2 Genomon 多重処理 96 がんの解明に向けた全ゲノム解析。リード長 150 塩基対、リード数 14
億。1 日あたり 1000 検体のスループット実現。
3 GAMERA 大規模単一 158976 都市域の地盤歪の計算に該当する、1 兆自由度の非構造格子有限要素モ
デルの非線形地盤地震動解析 (120 秒、12 万時間ステップ) を実行する。
4 NICAM+
LETKF
多重処理 +
大規模単一
131072 局地的豪雨や竜巻などの高精度な予測を実現するため、多重ケース処理
型計算では、全球 3.5km 水平メッシュ1024 メンバーのアンサンブル気
象計算と観測データとの同化を3時間毎に行うシミュレーションを 2ヶ
月間分、大規模単一問題型計算では、全球 220m 水平メッシュ鉛直 94 層
の大気シミュレーションを 72 時間分実行する。
5 NTChem 多重処理 17820 化学反応のメカニズムを解明し、エネルギー変換材料の候補物質スクリー
ニングを行うための高精度第一原理電子状態計算の典型的計算例として、
720 原子、19680 電子軌道のカーボンナノグラフェン分子複合体のエネ
ルギー計算を設定する。20 ケース実行。
6 ADVENTURE 多重処理 4096 複雑な形状の構造物の最適な全体設計を実現するため、有限要素法に基
づく構造解析を行う。薄板状領域の非線形応答問題。ソリッド四面体二
次要素分割で計 16.5 億自由度。1 時間ステップ当たり BDD 反復 500 回
を 1 万時間ステップ実行。100 ケース実行。
7 RSDFT 多重処理 10368 複数の異種物質から構成されるナノ界面を解明するため、量子力学的第
一原理計算に基づき、原子数 11 万・バンド数 22 万・SCF200 回の SCF
計算によるシリコンデバイスの構造最適化の計算を行う。24 ケース実行
する。
8 FFB 大規模単一 158976 水力機械の内部流れや自動車の空力の乱流計算など、複雑な形状の構造
物まわりの熱発生率、冷却・排気損失、ノッキング、サイクル変動等の
予測の正確な評価を行うため、有限要素法に基づく流体計算を 6700 億
要素規模で 10 万時間ステップ行う。
9 LQCD 大規模単一 147456 素粒子から宇宙全体にわたる物質創成史を解明するため、クォークを 1924
個の格子上の場としたクォーク伝搬関数を反復解法で計算する。
99
重点課題ターゲットアプリケーションにおけるコデザインの実際の進行は、各 アプリケーショ
ン 毎に組織したワーキンググループ (WG) の中で詳細な検討と開発を進めながら、全 WG の代表
者が集うアプリケーション検討会において情報共有並びに関連するテーマ毎の議論を行う形式で
進行した。
4.1.4 性能評価用ターゲット問題の設定
富岳上での各ターゲットアプリケーションの性能を評価する基準として定められた具体的な計
算問題の設定はターゲット問題と呼ばれる。ターゲット問題設定を表 4.3 にに示す。
表 4.3: 重点課題ターゲットアプリケーションの問題設定
課題
番号
アプリケーショ
ン
並列処理の
タイプ
ノード数
/ジョブ
問題設定
1 GENESIS 多重処理 1 より効果的で安全な創薬候補物質のスクリーニングのため、タンパク質、
溶媒 (水分子) を含む 10 万原子の薬剤候補結合の全原子分子動力学シミュ
レーションを 1 ケースにつき 100ns 行う。10 万ケース実行。
2 Genomon 多重処理 96 がんの解明に向けた全ゲノム解析。リード長 150 塩基対、リード数 14
億。1 日あたり 1000 検体のスループット実現。
3 GAMERA 大規模単一 158976 都市域の地盤歪の計算に該当する、1 兆自由度の非構造格子有限要素モ
デルの非線形地盤地震動解析 (120 秒、12 万時間ステップ) を実行する。
4 NICAM+
LETKF
多重処理 +
大規模単一
131072 局地的豪雨や竜巻などの高精度な予測を実現するため、多重ケース処理
型計算では、全球 3.5km 水平メッシュ1024 メンバーのアンサンブル気
象計算と観測データとの同化を3時間毎に行うシミュレーションを 2ヶ
月間分、大規模単一問題型計算では、全球 220m 水平メッシュ鉛直 94 層
の大気シミュレーションを 72 時間分実行する。
5 NTChem 多重処理 17820 化学反応のメカニズムを解明し、エネルギー変換材料の候補物質スクリー
ニングを行うための高精度第一原理電子状態計算の典型的計算例として、
720 原子、19680 電子軌道のカーボンナノグラフェン分子複合体のエネ
ルギー計算を設定する。20 ケース実行。
6 ADVENTURE 多重処理 4096 複雑な形状の構造物の最適な全体設計を実現するため、有限要素法に基
づく構造解析を行う。薄板状領域の非線形応答問題。ソリッド四面体二
次要素分割で計 16.5 億自由度。1 時間ステップ当たり BDD 反復 500 回
富岳での性能
47
2022年4月 計算科学技術特論B
CPU単体性能とは?
48
2022年4月 計算科学技術特論B
単体性能における問題点の評価法
ソースコードの調査
問題点の評価法 問題点の評価法	
高並列
測定/評価法
計算・通信カーネルの決定
単体性能
現状認識
問題点把握
49
2022年4月 計算科学技術特論B
アプリケーションのタイプ
- 性能の観点から -
要求B/F値が大きい計算
行列ベクトル積の計算
2N2個の演算 N2個のデータ N個のデータ
×
=
(a) (b)
要求B/F値が小さい計算
×
=
行列行列積の計算
2N3個の演算 N2個のデータ N2個のデータ
(a) (b)
50
2022年4月 計算科学技術特論B
メモリ・L2 キャッシュ・演算器を考慮した
性能モデル
第 1 章 アプリケーションのタ
2021年2月5日チューニング技術説明会
5
実効演算性能
ルーフラインモデルは,
理論値とtMとtCを⽤いたモ
デルである.
メモリ・L2キャッシュ・演算器を考慮した性能モデル
51
2022年4月 計算科学技術特論B
CPU性能解析レポート(ビジー時間)
tL2 が、L2 キャ
ッシュビジー時間と、tC が、浮動小数点演算器時間と、tE が、
そのものではなく、近い値となっている理由については後述する。
2021年2月5日チューニング技術説明会
6
メモリビジー時間■
実⾏時間×メモリビジー率
L2キャッシュビジー時間■
実⾏時間×L2キャッシュビジー率
L1キャッシュビジー時間■
実⾏時間×L1キャッシュビジー率
浮動⼩数点演算器ビジー時間
実⾏時間×浮動⼩数点演算器ビジー率
Elapsed Time(経過時間)
FUJITSU CONFIDENTIAL info for target apps for priority issues(Software Adjustment(2))
tvel3d1_12:実行時間 内訳(tune02)
Copyright 2020 FUJITSU LIMITED
L1D 待 時間が減少し が演算待 時間 変 多い
9
アプリケーションのタイプ-性能の観点から-
・CPU性能解析レポート(ビジー時間)
ビジー時間は前⾴の
tE,tM,tL2,tc,
に近い 値.詳細は後述
52
2022年4月 計算科学技術特論B
ビジー時間から見たアプリケーション
のタイプ
理想的にチューニングされたオンメモリなアプリケーション
ーションでは、理想的には、実効的なメモリバンド幅で決まるメモ
リバンド幅を使い切っている状態であるといえる。また L2 キャ
ッシ
。
ーションの状況を図 1.3 に示す。
2021年2月5日チューニング技術説明会
7
理想的にチューニングされたオンメモリなアプ
リケーション
経過時間
メモリビジー時間
L2キャッシュビジー時間
演算器ビジー時間
経過時間=メモリビジー時間
n メモリビジー時間は理想的には実効的なメモリバンド幅で決まる
n 現実的には少し違うが
n 理想的にチューニングされたアプリは実効メモリバンド幅を使い切って
いる状態
n L2キャッシュ/演算器は余裕がある状態
L1キャッシュビジー時間
性能限界値
図 1.3: 理想的にチューニングされたオンメモリなアプリケーション
53
2022年4月 計算科学技術特論B
理想的にチューニングされたオンキャシュなアプリケーション
にチューニングされたオンキャ
ッシュなアプリケーション (1
見たアプリケーションのタイプの2つ目は、理想的にチューニングされた
である。
リケーションでは、理想的には、実効的な L2 キャ
ッシュバンド幅で決まる
一致し、実効 L2 キャ
ッシュバンド幅を使い切っている状態であるといえる
であるといえる。
リケーションの状況を図 1.4 に示す。
2021年2月5日チューニング技術説明会
8
アプリケーションのタイプ-性能の観点から-
理想的にチューニングされたオンキャッシュな
アプリケーション(1)
経過時間=$L2ビジー時間
n $L2ビジー時間は理想的には実効的な$L2バンド幅で決まる
n 現実的には少し違うが
n 理想的にチューニングされたアプリは実効$L2バンド幅を使い切って
いる状態
n メモリ/演算器は余裕がある状態
経過時間
メモリビジー時間
L2キャッシュビジー時間
演算器ビジー時間
L1キャッシュビジー時間
性能限界値
ビジー時間から見たアプリケーション
のタイプ
54
2022年4月 計算科学技術特論B
理想的にチューニングされたオンキャシュなアプリケーション
第 1 章 アプリケーションのタイ
2021年2月5日チューニング技術説明会
9
アプリケーションのタイプ-性能の観点から-
理想的にチューニングされたオンキャッシュな
アプリケーション(2)
経過時間=演算器ビジー時間
n 演算器ビジー時間は理想的には実効的な演算器性能で決まる
n 現実的にはそれほど⾼い演算器性能か出ることは少ないが
n 理想的にチューニングされたアプリは実効的な演算器性能が出ている
状態
n メモリ/$L2は余裕がある状態
経過時間
メモリビジー時間
L2キャッシュビジー時間
演算器ビジー時間
L1キャッシュビジー時間
性能限界値
1.5: 理想的にチューニングされたオンキャ
ッシュなアプリケーション (
ビジー時間から見たアプリケーション
のタイプ
55
2022年4月 計算科学技術特論B
理想的にチューニングされたオンキャシュなアプリケーション
なく、バンド幅以外の動作にも大きく依存している。したがってメ
た方法で実効バンド幅をベースに性能のモデル化ができない。しか
キャ
ッシュのビジー時間と経過時間は一致し、メモリ、L2 キャ
ッ
ションの状況を図 1.6 に示す。
説明会
10
的にチューニングされたオンキャッシュな
ケーション(3)
経過時間=$L1ビジー時間
ジー時間は$L1の実効的なバンド幅のみでは決まらない
幅以外の動作に⼤きく依存している
理想的にチューニングされたアプリは$L1のビジー時間と経過
⼀致しメモリ/$L2/演算器は余裕がある状態となる
経過時間
メモリビジー時間
L2キャッシュビジー時間
演算器ビジー時間
L1キャッシュビジー時間
性能限界値
ビジー時間から見たアプリケーション
のタイプ
56
2022年4月 計算科学技術特論B
十分にチューニングされていないオンメモリ・オンキャシュ
なアプリケーション
たアプリケーションのタイプの5つ目は、理想的にチューニングされ
なアプリケーションである。
ケーションでは、アプリケーションの経過時間は、どのビジー時間より
ない。つまりハードウェアの限界性能まで達していないこととなり、メ
算器は共に余裕がある状態である。
ケーションの状況を図 1.7 に示す。
2021年2月5日チューニング技術説明会
11
アプリケーションのタイプ-性能の観点から-
充分にチューニングされていないオンメモリor
オンキャッシュなアプリケーション
経過時間≠全てのビジー時間
n 充分にチューニングされていないアプリケーションの経過時間はどのビ
ジー時間とも等しくない(どのビジー時間より⼤きくなる)
n メモリ/$L2/$L1/演算器は余裕がある状態
経過時間
メモリビジー時間
L2キャッシュビジー時間
演算器ビジー時間
L1キャッシュビジー時間
性能限界値
分にチューニングされていないオンメモリ or オンキャ
ッシュなアプリ
ビジー時間から見たアプリケーション
のタイプ
57
2022年4月 計算科学技術特論B
CPU単体性能から見たアプリケーション
の分類
第 1 章 アプリケーションのタイプ-性
表 1.1: CPU 単体性能からみたアプリケーションの分類
番号 単体性能上の分類 アプリケーション例
1 行列行列積に書き換え可能 第一原理 (DFT) 量子計算等
2 要求 B/F 値が小さくループボディがシンプル 高次なステンシル計算等
3 キャ
ッシュブロッキング可能 分子動力学・重力多体問題等
4 要求 B/F 値が小さいがループボディが複雑
プラズマ・気象の物理過程
量子化学計算等
5 要求 B/F 値が大きい
気象の力学過程・流体・
地震・核融合等
6 要求 B/F 値が大きくリストアクセスを使用
有限要素法を用いた構造・
流体計算等
ー時間から見たアプリケーションのタイプと CPU 単体性
プリケーション分類の対応
たビジー時間から見たアプリケーションのタイプと、1.5 節で示した CPU 単体性能か
要求B/F値が小さい
要求B/F値が大きい
58
2022年4月 計算科学技術特論B
ビジー時間から見たアプリケーションタイプ
とCPU単体性能から見たアプリケーションの
分類の対応
2021年2月5日チューニング技術説明会
13
アプリケーションのタイプ-性能の観点から-
1. 理想的な演算器チューニング
が可能なオンキャッシュアプリ
ケーション
2. 理想的な$L1チューニングが
可能なオンキャッシュアプリ
ケーション
3. 理想的な$L2チューニングが
可能なオンキャッシュアプリ
ケーション
4. 理想的なチューニングが難し
いオンキャッシュアプリケーショ
ン
5. 理想的なチューニングが可能
なオンメモリアプリケーション
6. 理想的なチューニングが難し
いオンメモリアプリケーション
1
Matrix-Matrix Multiplication
is applicable
2
Required B/F value is low
with simple loop body
3
Cache Blocking
is applicable
4
Required B/F value is low
with complex loop body
5 Required B/F value is high
6
Required B/F value is high and using
indirect access
DFT・・
MD,N Body Problem,・・
High Order FDM,・・
PIC,QC,・・
Fluid Dynamics,
Stencil・・
FEM,・・
性能の⾼い順に並べると(あくまで⽬安です)
59
2022年4月 計算科学技術特論B
CPU単体性能チューニングとは?
を図 2.1 に示す。
さらに積極的なチューニング例としては、図 2.2 に例示すように、プログラムを書き換えメモリか
シュアクセスへ移動し、メモリアクセスを減らし L2 キャ
ッシュアクセスを増やし、経過時間の上限値
問題点を解消しビジー時間の最大値 (性能限界値) まで経過時間を近づける作業ともいえる。
2021年2月5日チューニング技術説明会
15
経過時間
メモリビジー時間
L2キャッシュビジー時間
演算器ビジー時間
L1キャッシュビジー時間
n プログラムがどのタイプかを⾒極めて
n そのタイプのビジー時間のグラフが正当かを判断し
n 問題点を解消しビジー時間の最⼤値まで経過時間を
近づけること
図 2.1: CPU 単体性能チューニングとは (1)
16
経過時間
メモリビジー時間
L2キャッシュビジー時間
演算器ビジー時間
L1キャッシュビジー時間
n さらに積極的なチューニング例
n プログラムを書き換えメモリから$L2アクセスへ移動し
n メモリアクセスを減らし$L2アクセスを増やし
n 性能限界値を下げつつ問題点を解消しビジー時間の
最⼤値(性能限界値)まで経過時間を近づける
CPU単体性能チューニングとは︖
問題点を解消しビジー時間の最大値 (性能限界値) まで経過時間を近づける作業ともいえる。
2021年2月5日チューニング技術説明会
15
メモリビジー時間
L1キャッシュビジー時間
図 2.1: CPU 単体性能チューニングとは (1)
2021年2月5日チューニング技術説明会
16
経過時間
メモリビジー時間
L2キャッシュビジー時間
演算器ビジー時間
L1キャッシュビジー時間
n さらに積極的なチューニング例
n プログラムを書き換えメモリから$L2アクセスへ移動し
n メモリアクセスを減らし$L2アクセスを増やし
n 性能限界値を下げつつ問題点を解消しビジー時間の
最⼤値(性能限界値)まで経過時間を近づける
CPU単体性能チューニングとは︖
図 2.2: CPU 単体性能チューニングとは (2)
ビジー時間の限界値に
近づける!
オンメモリからオンキャッシュ
チューニング!
その後ビジー時間の限界値
に近づける!
60
2022年4月 計算科学技術特論B
CPU単体性能チューニング手順
オリジナル
性能
AICS サマースクール 2012
JITSU CONFIDENTIAL 14
diffusion
usion
L2$ )
L2$ L2$
L2$
(3)性能推定(要求B/Fが高いアプリについて)
(1)プロファイラーを使った測定
(2)プロファイラー測定結果を
 使った問題の発見
(4)性能チューニング
(6)更なる性能チューニング
(5)改良コーディングの性能予測
(要求B/Fが高いアプリについて)
性能
高
低
オリジナル
コーディング
の予測性能
改良
コーディング
の予測性能
61
2022年4月 計算科学技術特論B
ルーフラインモデル
mine sustainable DRAM bandwidth.
They include all techniques to get the
best memory performance, including
them to include memory optimiza-
tions of a computer into our bound-
and-bottleneck model. Second, we
l
n
-
d
n
-
y
e
-
-
h
”
-
t
e
n
e
d
-
s
n
e
m
-
p
e
-
Figure 1: Roofline model for (a) AMD Opteron X2 and (b) Opteron X2 vs. Opteron X4.
(a)
peak memory bandwidth (stream) peak floating-point performance
Operational Intensity (Flops/Byte)
Operational
Intensity
1
(memory-bound)
Operational
Intensity
2
(compute-bound)
Attainable
GFlops/sec
128
64
32
16
8
4
2
1
1/2
1/4 1/2 1 2 4 8 16
(b)
Opteron X4
Opteron X2
Attainable
GFlops/s
128
64
32
16
8
4
2
1
1/2
• ハードウェアの実効的なメモリバンド幅:B
• ハードウェアのピーク性能:F
• アプリケーションの演算強度:X=f/b
• アプリケーションの要求フロップス値:f
• アプリケーションの要求バイト値:b
B*X=B*(f/b)=B*F*f/(b*F)=(B/F)/(b/f)*F
アプリケーションのピーク性能比 :min(1.0 , (B/F)/(b/f) )
S. Williams, A. Waterman, and D. Patterson: Roofline: an
insightful visual performance model for multicore architectures.
Commun. ACM, 52:65–76, 2009.
アプリケーションの性能:
        min(F,B*X)
ハードウェアのB/F値をアプリ
ケーションのb/f値で割る.
62
2022年4月 計算科学技術特論B
ベースとなる性能値(京の場合)
メモリ
チップ
共用L2キャッシュ 6MB/12WAY
 コア            
L1キャッシュ32K/2WAY
SIMD演算器 ×8コア
 BF比=0.5(実効値:0.36)
BF比=4(理論値)
 BF比=2(理論値)
レイテンシ(相対値)
10
100
1
16GFLOPS
バンド幅(BF比)
ルーフラインモデルによる性能見積り
63
2022年4月 計算科学技術特論B
メモリとキャッシュアクセス(1)
do J = 1, NY
do I = 1, NX
do K = 3, NZ-1
DZV (k,I,J) = (V(k,I,J) -V(k-1,I,J))*R40 &
- (V(k+1,I,J)-V(k-2,I,J))*R41
end do
end do
end do
メモリ:ロード1,ストア1
メモリ:ロード1
$L1:ロード2
$L1:ロード1
ルーフラインモデルによる性能見積り
64
2022年4月 計算科学技術特論B
性能見積りの例
do J = 1, NY
do I = 1, NX
do K = 3, NZ-1
DZV (k,I,J) = (V(k,I,J) -V(k-1,I,J))*R40 &
- (V(k+1,I,J)-V(k-2,I,J))*R41
end do
end do
end do
n 最内軸(K軸)が差分
n 1ストリームでその他の3配列は$L1に載っ
ており再利⽤できる。
要求flop:
add : 3 mult : 2 = 5
要求B/F 12/5 = 2.4
性能予測 0.36/2.4 = 0.15
実測値 0.153
要求Byteの算出:
1store,2loadと考える
4x3 = 12byte
アプリケーションのピーク性能比の予測値
: ハードウェアのBF値(実効値)/アプリの要求BF値
ルーフラインモデルによる性能見積り
65
2022年4月 計算科学技術特論B
まとめ
•RSDFTの性能最適化
•CPU単体性能とは?
• アプリケーションのタイプ- 性能の観点から -
• メモリ・L2 キャッシュ・演算器を考慮した性能モデル
• CPU性能解析レポート(ビジー時間)
• ビジー時間から見たアプリケーションのタイプ
• CPU単体性能から見たアプリケーションの分類
• ビジー時間から見たアプリケーションタイプとCPU単体性能
から見たアプリケーションの分類の対応
• CPU単体性能チューニングとは?
• CPU単体性能チューニング手順
• ルーフラインモデル
• ルーフラインモデルによる性能見積り
66
2022年4月 計算科学技術特論B

Más contenido relacionado

La actualidad más candente

第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第1回 配信講義 計算科学技術特論B(2022)
第1回 配信講義 計算科学技術特論B(2022)第1回 配信講義 計算科学技術特論B(2022)
第1回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第9回 配信講義 計算科学技術特論B(2022)
 第9回 配信講義 計算科学技術特論B(2022) 第9回 配信講義 計算科学技術特論B(2022)
第9回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第10回 配信講義 計算科学技術特論B(2022)
第10回 配信講義 計算科学技術特論B(2022)第10回 配信講義 計算科学技術特論B(2022)
第10回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第13回 配信講義 計算科学技術特論B(2022)
第13回 配信講義 計算科学技術特論B(2022)第13回 配信講義 計算科学技術特論B(2022)
第13回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健Preferred Networks
 
制限ボルツマンマシン入門
制限ボルツマンマシン入門制限ボルツマンマシン入門
制限ボルツマンマシン入門佑馬 斎藤
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Preferred Networks
 
200604material ozaki
200604material ozaki200604material ozaki
200604material ozakiRCCSRENKEI
 
『自由エネルギー原理入門』勉強会1章&2章前半
『自由エネルギー原理入門』勉強会1章&2章前半『自由エネルギー原理入門』勉強会1章&2章前半
『自由エネルギー原理入門』勉強会1章&2章前半大地 紺野
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)cvpaper. challenge
 
クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法
クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法
クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法Hiroshi Nakagawa
 
Matlantisに込められた 技術・思想_高本_Matlantis User Conference
Matlantisに込められた 技術・思想_高本_Matlantis User ConferenceMatlantisに込められた 技術・思想_高本_Matlantis User Conference
Matlantisに込められた 技術・思想_高本_Matlantis User ConferenceMatlantis
 
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のことHiroaki Kudo
 
DeepLearning 14章 自己符号化器
DeepLearning 14章 自己符号化器DeepLearning 14章 自己符号化器
DeepLearning 14章 自己符号化器hirono kawashima
 
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてPlot Hong
 

La actualidad más candente (20)

第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)
 
第1回 配信講義 計算科学技術特論B(2022)
第1回 配信講義 計算科学技術特論B(2022)第1回 配信講義 計算科学技術特論B(2022)
第1回 配信講義 計算科学技術特論B(2022)
 
第9回 配信講義 計算科学技術特論B(2022)
 第9回 配信講義 計算科学技術特論B(2022) 第9回 配信講義 計算科学技術特論B(2022)
第9回 配信講義 計算科学技術特論B(2022)
 
第10回 配信講義 計算科学技術特論B(2022)
第10回 配信講義 計算科学技術特論B(2022)第10回 配信講義 計算科学技術特論B(2022)
第10回 配信講義 計算科学技術特論B(2022)
 
第13回 配信講義 計算科学技術特論B(2022)
第13回 配信講義 計算科学技術特論B(2022)第13回 配信講義 計算科学技術特論B(2022)
第13回 配信講義 計算科学技術特論B(2022)
 
第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)
 
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
 
制限ボルツマンマシン入門
制限ボルツマンマシン入門制限ボルツマンマシン入門
制限ボルツマンマシン入門
 
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
 
200604material ozaki
200604material ozaki200604material ozaki
200604material ozaki
 
『自由エネルギー原理入門』勉強会1章&2章前半
『自由エネルギー原理入門』勉強会1章&2章前半『自由エネルギー原理入門』勉強会1章&2章前半
『自由エネルギー原理入門』勉強会1章&2章前半
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
 
クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法
クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法
クラシックな機械学習の入門  10. マルコフ連鎖モンテカルロ 法
 
Matlantisに込められた 技術・思想_高本_Matlantis User Conference
Matlantisに込められた 技術・思想_高本_Matlantis User ConferenceMatlantisに込められた 技術・思想_高本_Matlantis User Conference
Matlantisに込められた 技術・思想_高本_Matlantis User Conference
 
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
 
DeepLearning 14章 自己符号化器
DeepLearning 14章 自己符号化器DeepLearning 14章 自己符号化器
DeepLearning 14章 自己符号化器
 
Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
 

Similar a 第3回 配信講義 計算科学技術特論B(2022)

アプリケーションの性能最適化の実例1
アプリケーションの性能最適化の実例1 アプリケーションの性能最適化の実例1
アプリケーションの性能最適化の実例1 RCCSRENKEI
 
20170726 py data.tokyo
20170726 py data.tokyo20170726 py data.tokyo
20170726 py data.tokyoManaMurakami1
 
[Cloud OnAir] Talks by DevRel Vol. 1 インフラストラクチャ 2020年7月30日 放送
[Cloud OnAir] Talks by DevRel Vol. 1 インフラストラクチャ 2020年7月30日 放送[Cloud OnAir] Talks by DevRel Vol. 1 インフラストラクチャ 2020年7月30日 放送
[Cloud OnAir] Talks by DevRel Vol. 1 インフラストラクチャ 2020年7月30日 放送Google Cloud Platform - Japan
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroupManaMurakami1
 
Oracle Cloud Infrastructure:2022年11月度サービス・アップデート
Oracle Cloud Infrastructure:2022年11月度サービス・アップデートOracle Cloud Infrastructure:2022年11月度サービス・アップデート
Oracle Cloud Infrastructure:2022年11月度サービス・アップデートオラクルエンジニア通信
 
SAP on Azure インフラ設計解説:HA/DR、Backupからパフォーマンス最適化まで
SAP on Azure インフラ設計解説:HA/DR、Backupからパフォーマンス最適化までSAP on Azure インフラ設計解説:HA/DR、Backupからパフォーマンス最適化まで
SAP on Azure インフラ設計解説:HA/DR、Backupからパフォーマンス最適化までHitoshi Ikemoto
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今Developers Summit
 
Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)
Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)
Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)オラクルエンジニア通信
 
アプリケーションの性能最適化2(CPU単体性能最適化)
アプリケーションの性能最適化2(CPU単体性能最適化)アプリケーションの性能最適化2(CPU単体性能最適化)
アプリケーションの性能最適化2(CPU単体性能最適化)RCCSRENKEI
 
Interop2019 Toyota Netcope P4
Interop2019 Toyota Netcope P4Interop2019 Toyota Netcope P4
Interop2019 Toyota Netcope P4Kentaro Ebisawa
 
AMD_Xilinx_AI_VCK5000_20220602R1.pdf
AMD_Xilinx_AI_VCK5000_20220602R1.pdfAMD_Xilinx_AI_VCK5000_20220602R1.pdf
AMD_Xilinx_AI_VCK5000_20220602R1.pdf直久 住川
 
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介NTT Communications Technology Development
 
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database AnalyticsPL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database AnalyticsKohei KaiGai
 
de:code2018 登壇資料
de:code2018 登壇資料de:code2018 登壇資料
de:code2018 登壇資料Hiroshi Senga
 
熊本クラウド語ろう会 - Azure開発入門
熊本クラウド語ろう会 -  Azure開発入門熊本クラウド語ろう会 -  Azure開発入門
熊本クラウド語ろう会 - Azure開発入門Daiyu Hatakeyama
 
Ecodesigner Userguide(Jp)
Ecodesigner Userguide(Jp)Ecodesigner Userguide(Jp)
Ecodesigner Userguide(Jp)guestf4ca97c
 
CUDAプログラミング入門
CUDAプログラミング入門CUDAプログラミング入門
CUDAプログラミング入門NVIDIA Japan
 

Similar a 第3回 配信講義 計算科学技術特論B(2022) (20)

アプリケーションの性能最適化の実例1
アプリケーションの性能最適化の実例1 アプリケーションの性能最適化の実例1
アプリケーションの性能最適化の実例1
 
20170726 py data.tokyo
20170726 py data.tokyo20170726 py data.tokyo
20170726 py data.tokyo
 
[Cloud OnAir] Talks by DevRel Vol. 1 インフラストラクチャ 2020年7月30日 放送
[Cloud OnAir] Talks by DevRel Vol. 1 インフラストラクチャ 2020年7月30日 放送[Cloud OnAir] Talks by DevRel Vol. 1 インフラストラクチャ 2020年7月30日 放送
[Cloud OnAir] Talks by DevRel Vol. 1 インフラストラクチャ 2020年7月30日 放送
 
20170421 tensor flowusergroup
20170421 tensor flowusergroup20170421 tensor flowusergroup
20170421 tensor flowusergroup
 
Oracle Cloud Infrastructure:2022年11月度サービス・アップデート
Oracle Cloud Infrastructure:2022年11月度サービス・アップデートOracle Cloud Infrastructure:2022年11月度サービス・アップデート
Oracle Cloud Infrastructure:2022年11月度サービス・アップデート
 
SAP on Azure インフラ設計解説:HA/DR、Backupからパフォーマンス最適化まで
SAP on Azure インフラ設計解説:HA/DR、Backupからパフォーマンス最適化までSAP on Azure インフラ設計解説:HA/DR、Backupからパフォーマンス最適化まで
SAP on Azure インフラ設計解説:HA/DR、Backupからパフォーマンス最適化まで
 
【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今【A-1】AIを支えるGPUコンピューティングの今
【A-1】AIを支えるGPUコンピューティングの今
 
Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)
Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)
Oracle Cloud Infrastructure 最新情報(Oracle Cloudウェビナーシリーズ: 2020年7月30日)
 
Prometech Particleworks on Rescale
Prometech Particleworks on RescalePrometech Particleworks on Rescale
Prometech Particleworks on Rescale
 
アプリケーションの性能最適化2(CPU単体性能最適化)
アプリケーションの性能最適化2(CPU単体性能最適化)アプリケーションの性能最適化2(CPU単体性能最適化)
アプリケーションの性能最適化2(CPU単体性能最適化)
 
Interop2019 Toyota Netcope P4
Interop2019 Toyota Netcope P4Interop2019 Toyota Netcope P4
Interop2019 Toyota Netcope P4
 
AMD_Xilinx_AI_VCK5000_20220602R1.pdf
AMD_Xilinx_AI_VCK5000_20220602R1.pdfAMD_Xilinx_AI_VCK5000_20220602R1.pdf
AMD_Xilinx_AI_VCK5000_20220602R1.pdf
 
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
【たぶん日本初導入!】Azure Stack Hub with GPUの性能と機能紹介
 
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database AnalyticsPL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
PL/CUDA - Fusion of HPC Grade Power with In-Database Analytics
 
de:code2018 登壇資料
de:code2018 登壇資料de:code2018 登壇資料
de:code2018 登壇資料
 
熊本クラウド語ろう会 - Azure開発入門
熊本クラウド語ろう会 -  Azure開発入門熊本クラウド語ろう会 -  Azure開発入門
熊本クラウド語ろう会 - Azure開発入門
 
Ecodesigner Userguide(Jp)
Ecodesigner Userguide(Jp)Ecodesigner Userguide(Jp)
Ecodesigner Userguide(Jp)
 
CMSI計算科学技術特論B(3) アプリケーションの性能最適化2
CMSI計算科学技術特論B(3) アプリケーションの性能最適化2CMSI計算科学技術特論B(3) アプリケーションの性能最適化2
CMSI計算科学技術特論B(3) アプリケーションの性能最適化2
 
画像処理の高性能計算
画像処理の高性能計算画像処理の高性能計算
画像処理の高性能計算
 
CUDAプログラミング入門
CUDAプログラミング入門CUDAプログラミング入門
CUDAプログラミング入門
 

Más de RCCSRENKEI

Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...RCCSRENKEI
 
Current status of the project "Toward a unified view of the universe: from la...
Current status of the project "Toward a unified view of the universe: from la...Current status of the project "Toward a unified view of the universe: from la...
Current status of the project "Toward a unified view of the universe: from la...RCCSRENKEI
 
Fugaku, the Successes and the Lessons Learned
Fugaku, the Successes and the Lessons LearnedFugaku, the Successes and the Lessons Learned
Fugaku, the Successes and the Lessons LearnedRCCSRENKEI
 
210603 yamamoto
210603 yamamoto210603 yamamoto
210603 yamamotoRCCSRENKEI
 
第15回 配信講義 計算科学技術特論A(2021)
第15回 配信講義 計算科学技術特論A(2021)第15回 配信講義 計算科学技術特論A(2021)
第15回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第12回 配信講義 計算科学技術特論A(2021)
第12回 配信講義 計算科学技術特論A(2021)第12回 配信講義 計算科学技術特論A(2021)
第12回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第13回 配信講義 計算科学技術特論A(2021)
第13回 配信講義 計算科学技術特論A(2021)第13回 配信講義 計算科学技術特論A(2021)
第13回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第11回 配信講義 計算科学技術特論A(2021)
第11回 配信講義 計算科学技術特論A(2021)第11回 配信講義 計算科学技術特論A(2021)
第11回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第9回 配信講義 計算科学技術特論A(2021)
第9回 配信講義 計算科学技術特論A(2021)第9回 配信講義 計算科学技術特論A(2021)
第9回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第6回 配信講義 計算科学技術特論A(2021)
第6回 配信講義 計算科学技術特論A(2021)第6回 配信講義 計算科学技術特論A(2021)
第6回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第5回 配信講義 計算科学技術特論A(2021)
第5回 配信講義 計算科学技術特論A(2021)第5回 配信講義 計算科学技術特論A(2021)
第5回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
El.slide takada
El.slide takadaEl.slide takada
El.slide takadaRCCSRENKEI
 

Más de RCCSRENKEI (16)

Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
 
Current status of the project "Toward a unified view of the universe: from la...
Current status of the project "Toward a unified view of the universe: from la...Current status of the project "Toward a unified view of the universe: from la...
Current status of the project "Toward a unified view of the universe: from la...
 
Fugaku, the Successes and the Lessons Learned
Fugaku, the Successes and the Lessons LearnedFugaku, the Successes and the Lessons Learned
Fugaku, the Successes and the Lessons Learned
 
210603 yamamoto
210603 yamamoto210603 yamamoto
210603 yamamoto
 
第15回 配信講義 計算科学技術特論A(2021)
第15回 配信講義 計算科学技術特論A(2021)第15回 配信講義 計算科学技術特論A(2021)
第15回 配信講義 計算科学技術特論A(2021)
 
第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)
 
第12回 配信講義 計算科学技術特論A(2021)
第12回 配信講義 計算科学技術特論A(2021)第12回 配信講義 計算科学技術特論A(2021)
第12回 配信講義 計算科学技術特論A(2021)
 
第13回 配信講義 計算科学技術特論A(2021)
第13回 配信講義 計算科学技術特論A(2021)第13回 配信講義 計算科学技術特論A(2021)
第13回 配信講義 計算科学技術特論A(2021)
 
第11回 配信講義 計算科学技術特論A(2021)
第11回 配信講義 計算科学技術特論A(2021)第11回 配信講義 計算科学技術特論A(2021)
第11回 配信講義 計算科学技術特論A(2021)
 
第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)
 
第9回 配信講義 計算科学技術特論A(2021)
第9回 配信講義 計算科学技術特論A(2021)第9回 配信講義 計算科学技術特論A(2021)
第9回 配信講義 計算科学技術特論A(2021)
 
第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)
 
第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)
 
第6回 配信講義 計算科学技術特論A(2021)
第6回 配信講義 計算科学技術特論A(2021)第6回 配信講義 計算科学技術特論A(2021)
第6回 配信講義 計算科学技術特論A(2021)
 
第5回 配信講義 計算科学技術特論A(2021)
第5回 配信講義 計算科学技術特論A(2021)第5回 配信講義 計算科学技術特論A(2021)
第5回 配信講義 計算科学技術特論A(2021)
 
El.slide takada
El.slide takadaEl.slide takada
El.slide takada
 

第3回 配信講義 計算科学技術特論B(2022)