第３回配信講義　計算科学技術特論B（2022）

2022年4月計算科学技術特論B
2022年４月
ジャパンメディカルデバイス
テクノロジーアセットディレクター
南�一生
minami@jmd-corp.com
計算科学技術特論Ｂ
第3回
アプリケーションの性能最適化の実例１
とCPU単体性能とは？

2
講義の概要
• スーパーコンピュータとアプリケーションの性能
• アプリケーションの性能最適化1(高並列性能最適化)
• アプリケーションの性能最適化の実例1とCPU単体性能と
は？
• アプリケーションの性能最適化２(CPU単体性能最適化)
• アプリケーションの性能最適化の実例2

3
内容
•RSDFTの性能最適化
•CPU単体性能とは？

4
RSDFTの性能最適化

5
RSDFTの計算機化学的な位置付け
5
easy
difficult
Parallelization
difficult
Parallel Performance
High
Low
High
Low
RSDFT
CPU
単体性能
並列性能

6
スーパーコンピュータを使うために(第２回)
(1)定式化(物理・数学の世界)
(2)離散化(+-×÷の世界)
(4)プログラミング(コンピュータの世界)
(5)並列化
(6)性能チューニング
(3)アルゴリズム(数学の世界)

7
離散化の結果
Ax = b
連立1次方程式
Ax = λx
固有値方程式
A : 行列
x : 解ベクトル
λ : 固有値(スカラ)
b : 定数ベクトル
A : 行列
x : 固有ベクトル

8
離散化の結果
Ax = b
連立1次方程式
Ax = λx
固有値方程式
A : 行列
x : 解ベクトル
λ : 固有値(スカラ)
b : 定数ベクトル
A : 行列
x : 固有ベクトル

9
RSDFTとは
● ナノスケールでの量子論的諸現象を第一原理に立脚して解明し新機
能を有するナノ物質・構造を予測
● 例えば・・・
Si中原子空孔による準位の電子雲
炭素ナノチューブでのスピン磁性
FET
n-Si
LSI FET
LSI
2020 2030
LSI
FET

漏れ電流が問題
漏れ電流を押さえる

10
RSDFTの原理
( )
∑
=
i
i r
n
2
|
)
( ϕ
r
ハミルトニアン
電子密度
Kohn-Sham方程式
波動関数
φi: 電子軌道（=波動関数）
i：電子準位（=エネルギーバンド）
r：空間離散点（=空間格子）
固有値方程式
Hϕi (r) = εiϕi (r)

11
RSDFTの原理
実空間法
固有値方程式
ユニットセル（実際は3次元）
各次元方向をML1,ML2,ML3等分して格子を生成
ML(=ML1×ML2×ML3）次元のエルミート行列の固
有値問題
ML2
Kohn-Sham方程式を3次元格子上に
離散化し解く

12
RSDFTの計算フロー
( CG ) 共役勾配法
( GS ) Gram-Schmidt規格直交化
( SD ) 部分対角化
密度とポテンシャルの更新
Self-Consistent Field procedure
1
3
2
4
SCF計算

13
RSDFTの計算フロー
原子構造の最適化
ポテンシャル計算
部分対角化
Gram-Schmidt直交化
現時点での波動関数で密度を計算
新しい密度で局所ポテンシャルを再計算
SCF収束判定
波動関数の更新
共役勾配法
波動関数の更新
最小残差法
原子に働く力Fの計算
原子の位置を少しづらす
原子座標の読み込み
初期波動関数．初期密度の準備
or
原子構造の収束判定
SCFループ
4～5回の反復
収束
未収束
未収束
収束
END
組み合わせて使うとSCF収束が速くなる
SCFループの回数で使うルーチンを変更
変更する回数は入力で与える
scf_mix

14
RSDFTの並列化
J.-I. Iwata et al., J. Comp. Phys. (2010)
Blue : Si atom
Yellow: electron density
Real space CPU space

15
RSDFTのCPU単体性能の向上
スレッド並列化
キャッシュの有効利用

16
1
2
1 ψ
ψ
ψ "
"
1
3
1 ψ
ψ
ψ "
"
1
4
1 ψ
ψ
ψ "
"
1
5
1 ψ
ψ
ψ "
"
2
3
2 ψ
ψ
ψ "
"
1
6
1 ψ
ψ
ψ "
"
2
4
2 ψ
ψ
ψ "
"
2
6
2 ψ
ψ
ψ "
"
2
5
2 ψ
ψ
ψ "
"
3
4
3 ψ
ψ
ψ "
"
4
5
4 ψ
ψ
ψ "
"
1
ψ "
5
6
5 ψ
ψ
ψ "
"
6
7
6 ψ
ψ
ψ "
"
-
2
ψ "
3
ψ "
4
ψ "
5
ψ "
6
ψ "
3
5
3 ψ
ψ
ψ "
"
3
6
3 ψ
ψ
ψ "
"
1
ψ
2
ψ
3
ψ
5
ψ
4
ψ
6
ψ
=
=
4
6
4 ψ
ψ
ψ "
"
1
7
1 ψ
ψ
ψ "
"
1
8
1 ψ
ψ
ψ "
"
1
9
1 ψ
ψ
ψ "
"
2
7
2 ψ
ψ
ψ "
"
2
8
2 ψ
ψ
ψ "
"
2
9
2 ψ
ψ
ψ "
"
3
7
3 ψ
ψ
ψ "
"
3
8
3 ψ
ψ
ψ "
"
3
9
3 ψ
ψ
ψ "
"
4
7
4 ψ
ψ
ψ "
"
4
8
4 ψ
ψ
ψ "
"
4
9
4 ψ
ψ
ψ "
"
5
7
5 ψ
ψ
ψ "
"
5
8
5 ψ
ψ
ψ "
"
5
9
5 ψ
ψ
ψ "
"
6
8
6 ψ
ψ
ψ "
"
6
9
6 ψ
ψ
ψ "
"
7
8
7 ψ
ψ
ψ "
"
7
9
7 ψ
ψ
ψ "
" 8
9
8 ψ
ψ
ψ "
"
=
=
=
=
=
=
=
-
-
-
-
-
-
-
7
ψ "
8
ψ "
9
ψ "
7
ψ
8
ψ
9
ψ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- -
・
・
・
オリジナルは行列ベクトル積
GramSchmidt直交化の行列積化

17
三角部(DGEMV)
四角部(DGEMM)

• 依存関係のある三角部とない四角部にブロック化して計算
• 再帰的にブロック化することで四角部を多く確保
※ＳＤも同様に行列積化が可能
ベクトル積を行列積に変換再帰分割法
GramSchmidt直交化の行列積化

18
計算コアの最適化
• 行列積化
スレッド並列の実装
RSDFT
• 実空間差分法
• 空間並列
ターゲット計算機：PACS-CS, T2K-Tsukuba

19
RSDFTの並列特性分析

20
RSDFTの並列特性分析(処理・演算量)
空間方向　○
バンド方向　○
▲
高並列時のScalapackのスケー
ラビリティに疑問．
空間方向　○
空間方向　○
バンド方向　△
アルゴリズム上，ロードインバ
ランスを避けられない．
三角部の処理が非並列となる
空間方向　△
スカラー値のallreduceがボトル
ネック．
複数バンドの一括処理が有効
（ただし，２～5程度，キャッ
シュサイズにより変わる）．
高並列化性能
O(MLxMB2)
→O(N3)
O(MB3)→O(
N3)
O(MLxMB2)
→O(N3)
O(MLxMB2)
→O(N３)
O(ML×ML)
→O(N2)
演算量
DGEMM，DGEMVが中心．
再帰分割法によりDGEMMが
支配的．
行列要素生成
（MatE)
支配的．
回転
(RotV)
Psdyevdの下位では
DGEMM,DGEMVを使用．
固有値求解
(pdsyevd)
ML次元の部分空間に
限ってハミルトニアン
の対角化をする．
DIAG
支配的．
規格直交化
GramSchmidt
ロード＞演算
実効性能は低い
レイリー商
MLｘML対称行列の
固有値，固有ベクトル
を共役勾配法で固有値
の小さいものから順に
MB本求める．
DTCG
単体性能
処理内容
ルーチン
n
n
n
KS
m H
ψ
ψ
ψ
ψ
∑
−
=
−
=
1
1
'
n
m
n
m
m
n
n ψ
ψ
ψ
ψ
ψ
n
KS
m
n
m H
H ψ
ψ
=
,
!
!
!
"
#
$
$
$
%
&
=
!
!
!
"
#
$
$
$
%
&
!
!
!
"
#
$
$
$
%
&
× n
n
N
N c
c
H
!
!
ε
∑
=
=
N
m
m
m
n
n r
c
r
1
,
'
)
(
)
( ψ
ψ
minimize
ML:格子数，MB:バンド数
O(N2)
O(N3)
O(N3)
O(N3)

21
RSDFTの並列特性分析(コスト)
計算機：RICC
8,000原子：格子数120x120x120，バンド数16,000
並列数：8x8x8（空間方向のみ）
SCFループ1回実行の実測データからSCFループ100回として実行時間を推定
O(N3)
DGEMM中心
O(N2)
演算＜ロード
O(N3)
DGEMM中心
O(N3)
演算
行列生成部: Reduce, Isend/Irecv（HPSI)
固有値ソルバー部：PDSYEVD内(Bcast)
ローテーション:部分Bcast，部分Reduce
30.5%
DIAG
3.1%
38.6%
27.4%
99.6%
0.4%
コスト
スカラー値のallreduce中心
Isend/Irecv(ノンローカル項/HPSI）
Isend/Irecv(境界データ交換/BCSET)
DTCG
Allreduce （内積，規格化変数）
GramSchmidt
途中結果出力は毎SCFではないのでコストは
もっと少
Mixing, 途中結果の出力
DO SCFループ(100回と仮定）
ENDDO
Bcast，Isend/Irecv
初期化
　パラメータの読込み
　全プロセスへの転送
SCF部
プロセス間通信
処理内容

22
RSDFTの並列特性分析(ブロック毎のスケーラビリティ)
512
(8x8x8)
計算機：T2K-Tsukuba
コンパイラ＆ライブラリ：PGI + mvapich2-medium
S方向の分割数:128, 256, 512, 1024, 2048
Si4096(格子：96x96x96，バンド：8192）
実行時間，T2K-Tsukuba
0.0
100.0
200.0
300.0
400.0
500.0
600.0
700.0
800.0
900.0
1000.0
0 5 0 0 1,000 1,500 2,000 2,500
並列数
実行時間（秒）
S C F
DIAG
G S
DTCG
1024
(8x8x16)
2048
(8x16x16)
128
(4x4x8)
512
(8x8x8)
1024
(8x8x16)
2048
(8x16x16)
128
(4x4x8)
Si4,096(格子:96x96x96，バンド：8192)
速度向上率，T2K-Tsukuba
0.0
2.0
4.0
6.0
8.0
10.0
12.0
14.0
16.0
18.0
0 5 0 0 1,000 1,500 2,000 2,500
並列数
速度向上率
Ideal
S C F
DIAG
G S
DTCG
22

23
そもそも並列化とは？
計算時間
プロセッサ１
通信時間通信時間
隣接通信
プロセッサ２
プロセッサ３
プロセッサ４
隣接通信
隣接通信
大域通信
例えば総和計算
MPI_allreduce

24
MPIの概要

25
※PDSYEVDの通信は演算部に含まれている
Si4 0 9 6(格子:9 6x9 6x9 6，バンド:8 1 9 2)
演算時間と通信時間，T2K -Tsukuba
0.0
100.0
200.0
300.0
400.0
500.0
600.0
700.0
800.0
900.0
1000.0
1
2
8
2
5
6
5
1
2
1,024
2,048
1
2
8
2
5
6
5
1
2
1,024
2,048
1
2
8
2
5
6
5
1
2
1,024
2,048
1
2
8
2
5
6
5
1
2
1,024
2,048
S C F DIAG G S DTCG
並列数
通信(S :大域)
通信(S :隣接)
演算
通信時間増大

26
※PDSYEVDの通信は演算部に含まれている
Si4 0 9 6(格子:9 6x9 6x9 6，バンド:8 1 9 2)
演算時間と通信時間，T2K -Tsukuba
0.0
100.0
200.0
300.0
400.0
500.0
600.0
700.0
800.0
900.0
1000.0
1
2
8
2
5
6
5
1
2
1,024
2,048
1
2
8
2
5
6
5
1
2
1,024
2,048
1
2
8
2
5
6
5
1
2
1,024
2,048
1
2
8
2
5
6
5
1
2
1,024
2,048
S C F DIAG G S DTCG
並列数
通信(S :大域)
通信(S :隣接)
演算
演算の
スケーラビリティ
悪化

27
RSDFTの並列特性分析(並列・単体性能)
空間方向　○
▲
高並列時のScalapackのスケー
ラビリティに疑問．
空間方向　○
空間方向　○
バンド方向　△
アルゴリズム上，ロードインバ
ランスを避けられない．
三角部の処理が非並列となる
空間方向　△
スカラー値のallreduceがボトル
ネック．
複数バンドの一括処理が有効
（ただし，２～5程度，キャッ
シュサイズにより変わる）．
高並列化性能
O(MLxMB2)
→O(N3)
O(MB3)→O(
N3)
O(MLxMB2)
→O(N3)
O(MLxMB2)
→O(N３)
O(ML×ML)
→O(N2)
演算量
支配的．
行列要素生成
（MatE)
支配的．
回転
(RotV)
Psdyevdの下位では
DGEMM,DGEMVを使用．
固有値求解
(pdsyevd)
ML次元の部分空間に
限ってハミルトニアン
の対角化をする．
DIAG
支配的．
規格直交化
GramSchmidt
ロード＞演算
実効性能は低い
レイリー商
MLｘML対称行列の
固有値，固有ベクトル
を共役勾配法で固有値
の小さいものから順に
MB本求める．
DTCG
単体性能
処理内容
ルーチン
n
n
n
KS
m H
ψ
ψ
ψ
ψ
∑
−
=
−
=
1
1
'
n
m
n
m
m
n
n ψ
ψ
ψ
ψ
ψ
n
KS
m
n
m H
H ψ
ψ
=
,
!
!
!
"
#
$
$
$
%
&
=
!
!
!
"
#
$
$
$
%
&
!
!
!
"
#
$
$
$
%
&
× n
n
N
N c
c
H
!
!
ε
∑
=
=
N
m
m
m
n
n r
c
r
1
,
'
)
(
)
( ψ
ψ
minimize
ML:格子数，MB:バンド数
O(N2)
O(N3)
O(N3)
O(N3)
O(N3)
通信時間増大
演算時間と逆転
並列度の不足
通信時間減少せず
演算時間と同程度
並列度の不足
通信時間増大
演算時間と同程度
並列度の不足
Scalapackのスケー
ラビリティが悪い
行列積化で良好
行列ベクトル積
性能は悪い
Scalapackの性能
が悪い

28
並列性能上のボトルネック
1 アプリケーションとハードウェアの並列度のミスマッチ
(アプリケーションの並列度不足)
2 非並列部の残存
3 大域通信における大きな通信サイズ、通信回数の発生
4 フルノードにおける大域通信の発生
5 隣接通信における大きな通信サイズ、通信回数の発生
6 ロードインバランスの発生
今まで示した調査を実施することにより処理ブロック毎に並列性能上の
問題がある事が発見される．
それらを分析するとだいたい以下の６点に分類されると考える．

29
RSDFTの高並列化
• 行列積化
RSDFT
• ベクトルの内積計算
が基本
• 空間並列

30
• 行列積化
超並列向けの実装
• バンド並列の拡張
• EIGENライブラリ※の適用
RSDFT
• ベクトルの内積計算
が基本
• 空間並列
ターゲット計算機：K computer
※高速固有値ライブラリ
Imamura el al. SNA+MC2010 (2010)

31
固有値方程式
ML2
!30
1
2
3
4
5
6
2018年5月10日計算科学技術特論Ｂ
の対応

32
固有値方程式
ML2
i はエネルギーバンド量子数
i についての依存関係はない
空間(S)に加えエネルギーバンド(B)
の並列を実装
万を超える並列度を確保
!30
1
2
3
4
5
6
の対応

33
• 並列軸を増やす事で空間の分割
粒度を増やすことが出来る
• 10万並列レベルに対応可能
• 空間並列のみの場合は全プロ
セッサ間の大域通信が必要
• 通信時間の増大を招く
• ２軸並列への書換で空間に対す
る大域通信が一部のプロセッサ
間での通信とできる
• バンドに対する大域通信も同様
• 大域通信の効率化が実現可
空間
６並列
空間
３×２並列
バンド
空間大域通信
空間大域通信
バンド
大域通信
並列軸拡張の効果
!30
2
3
4
5
6
の対応

34
RSDFTの高並列化 - 通信の見積りと効果の予測 -
■グローバル通信
✓ALLREDUCE
➢GramSchmidt : 内積配列，規格化変数
➢DTCG : スカラー変数
✓REDUCE :
➢DIAG(MatE)
✓BCAST:
➢DIAG(RotV)
➢GramSchmidt :三角部で更新した波動関数を配送
✓ALLGATHERV
➢DIAG
➢GramSchmidt
■隣接通信
✓境界データの交換:BCSET
✓ノンローカル項計算：HPSI
✓対称ブロックデータの交換：DIAG(MatE)
下線はバンド並列で追加された通信
空間＋バンド並列版（S+B並列版）

35
RSDFTの高並列化- Gram-Schmidtの実装 -
三角部
四角部

1
3
3
3
4
6
6 7
9 10
2
5
8
(1) 三角部の計算
(2) 計算した値を四角部に転送（バンド方向の各プロセッサに分配）
(3) 四角部を並列に計算
タスクはブロック・サイクリック
で分配→負荷均等化
0
1
2
0
? 処理の順番
? バンド並列のランク番号

36
ルーチン通信パターン型通信サイズ通信回数
GramSchmidt mpi_allgatherv mpi_real8 MB/バンド並列数 1
mpi_allreduce mpi_real8 NBLK*NBLK～
(NBLK1+1)*(NBLK1+1)
MB/NBLK*MB/NBLK/バンド並列数 +
Int(log(NBLK/NBLK1)*(MB/NBLK/バンド並列数）
mpi_allreduce mpi_real8 NBLK1～1 NBLK1*(MB/NBLK/バンド並列数）
mpi_allreduce mpi_real8 1
MB/NBLK*MB/NBLK/バンド並列数 +
Int(log(NBLK/NBLK1)*(MB/NBLK/バンド並列数）
+NBLK1*(MB/NBLK/バンド並列数）
mpi_bcast mpi_real8 ML0*NBLK MB/NBLK/バンド並列数
allgatherv mpi_real8 MB/バンド並列数 1
DIAG mpi_reduce mpi_real8 MBLK*MBLK (MB/MBLK * MB/MBLK)/バンド並列数
Isend/irecv mpi_real8 MBLK*MBLK 1
Scalapack(pdsyev
d)内の通信は省略
　
mpic_bcast mpi_real8 MBSIZE*NBSIZE (MB/MBSIZE * MB/NBSIZE)/バンド並列数
HPSI mpi_isend mpi_real8 lma_nsend(irank)*MBLK 6*各方向の深さ*MB/MBLK/バンド並列数
mpi_irecv mpi_real8 lma_nsend(irank)*MBLK 6*各方向の深さ*MB/MBLK/バンド並列数
mpi_waitall - - MB/MBLK/バンド並列数
BCSET mpi_isend mpi_real8 Md*MBLK 6*MB/MBLK/バンド並列数
mpi_irecv mpi_real8 Md*MBLK 6*MB/MBLK/バンド並列数
mpi_waitall - - MB/MBLK/バンド並列数
MB:バンド数，NBLK:行列ｘ行列で処理する最大サイズ，NBLK1:行列ｘベクトルで処理する最小サイズ，MBSIZE:MBxMB行列の行方向のブロックサイズ，
MBSIZE:MBxMB行列の列方向のブロックサイズ，MBLK:min(MBSIZE,NBSIZE)， Md:高次差分の次数， lma_nsend:ノンローカル項の数
: バンド方向の通信
36

37
6*各方向の深さ*MB/MB_d
*(Mcg+1)/バンド並列数
lma_nsend(irank)*
MB_d
mpi_real8
mpi_isend
HPSI
MB/MB_d*Mcg/バンド並列数*3
MB_d
mpi_real8
mpi_allreduce
precond_cg
MB/MB_d/バンド並列数
MB_d
mpi_real8
mpi_allreduce
DTCG
MB/MB_d*Mcg/バンド並列数
MB_d
mpi_real8
mpi_allreduce
MB_d
mpi_real8
mpi_allreduce
MB/MB_d/バンド並列数
MB_d
mpi_real8
mpi_allreduce
2
MB
mpi_real8
mpi_allreduce
MB/MB_d*(Mcg+1)/バンド並列数
-
-
mpi_waitall
　
6*MB/MB_d*(Mcg+1)/バンド並列数
Md*MB_d
mpi_real8
mpi_irecv
　
6*MB/MB_d*(Mcg+1)/バンド並列数
Md*MB_d
mpi_real8
mpi_isend
BCSET
　
MB/MB_d*(Mcg+1)/バンド並列数
-
-
mpi_waitall
　
　
6*各方向の深さ*MB/MB_d
*(Mcg+1)/バンド並列数
lma_nsend(irank)*
MB_d
mpi_real8
mpi_irecv
　
　
-
-
mpi_waitall
6*MB/MB_d*Mcg/バンド並列数
Md*MB_d
mpi_real8
mpi_irecv
6*MB/MB_d*Mcg/バンド並列数
Md*MB_d
mpi_real8
mpi_isend
BCSET
MB_d*6
mpi_real8
mpi_allreduce
　
　
通信回数
通信サイズ
型
通信パターン
ルーチン
MB:バンド数，MB_dバンドまとめ処理数，Md:高次差分の次数， lma_nsend:ノンローカル項の数

38
RSDFTの高並列化 - 効果の確認 -
Weak Scaling 測定
タスクサイズ/プロセスを固定する．
　　格子サイズ：12x12x12，バンドサイズ：2,400
バンド方向の並列数は8で固定．
空間方向を並列数に比例して増加させる．
原子数格子数バンド数並列数
パターン1 512 48x48x48 19,200 512 (4x4x4x8)
パターン2 1,000 60x60x60 19,200 1,000(5x5x5x8)
パターン3 1,728 72x72x72 19,200 1,728(6x6x6x8)
パターン4 4,096 96x96x96 19,200 4,096(8x8x8x8)
パターン5 8,000 120x120x120 19,200 8,000(10x10x10x8)
T2K-Tsukubaで測定

39
RSDFTの高並列化 - 効果の確認 -
Si4096(格子:96x96x96,バンド:8192)
DTCG, Weak Scaling, T2K-Tsukuba
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
40.0
45.0
0 1,000 2,000 3,000 4,000 5,000
並列数
DTCG
演算
通信(S:隣接)
通信(S:大域)
通信(B:大域)
Si4096(格子:96x96x96,バンド:8192)
MatE/DIAG, Weak Scaling, T2K-Tsukuba
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
0 1,000 2,000 3,000 4,000 5,000
並列数
MatE
演算
通信(S:隣接)
通信(S:大域)
Si4096(格子:96x96x96,バンド:8192)
RoTV/DIAG, Weak Scaling, T2K-Tsukuba
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
0 1,000 2,000 3,000 4,000 5,000
並列数
RotV
演算
通信(S:大域)
Si4096(格子:9 6x9 6x9 6,バンド:8192)
GS, Weak Scaling, T2K-Tsukuba
0.0
10.0
20.0
30.0
40.0
50.0
60.0
0 1,000 2,000 3,000 4,000 5,000
並列数
G S
演算
通信(S :大域)
通信(B :大域)
Weak Scaling 測定

40
RSDFTの高並列化 -Tofuネットワークへのマッピング-
!30
1
2
3
4
5
6
Tofuネットワーク
a軸
b軸
c軸

41
RSDFTの高並列化 -Tofuネットワークへのマッピング-
X
Y
Z
space
orbital
バンド(1:On)
バンド(On+1:Om)
バンド(Om+1:Omax)
バンド (1:Omax)
空間並列
Tofuネットワークへのマッピング
x
y
z
CPU space
空間並列＋バンド並列
• マッピング・ルール
• 通信の最適化
各バンドグループをサブメッシュ/トーラス・ネット
ワークにマッピング
サブメッシュ/トーラス内で通信が閉じられる
!30
1
2
3
4
5
6

42
RSDFTの高並列化 -Gram-Schmidtへのマッピング効果-
最適マッピング　→　サブコミュニケータ間のコンフリクトが発生しない　　
　　　　　　　　　　MPI通信でTofu向けアルゴリズムが選択される
実行時間(秒）
0.0
30.0
60.0
90.0
120.0
マッピングなし最適マッピング
• 原子数: 19,848
• 格子数: 320x320x120
• 軌道数: 41,472
• トータルプロセス数: 12,288
✓ 空間並列: 2,048(32x32x2)
✓ バンド並列: 6
• 32x32x12のトーラスにマッピング
MPI_Bcast
MPI_Allreduce

43
RSDFTの高並列化 -二軸並列の効果-
HPCS2012
SiNW, 19,848 原子, 格子数:320x320x120, バンド数:41,472
-78%
-79%
-79%
空間分割: 2,048
バンド分割: 6
Time per SCF (sec.)
GS CG
MatE/SD RotV/SD
Wait / orbital
Global communication / orbital
Global communication / space
Adjacent communication / space
Computation
Space
+ Orbital
Space
+ Orbital
Space
+ Orbital
Space
+ Orbital
Space
Space
Space
Space
-78%
100.0
80.0
60.0
40.0
20.0
0.0
トータル並列プロセス数は12,288で固定
120.0
回転
行列生成
空間分割: 12,288
大域通信時間を大幅に削減
43

44
RSDFTの高並列化-スケーラビリティ-
DGEMM tuned for the K computer was also used for the
LINPACK benchmark program.
5.2 Scalability
We measured the computation time for the SCF iterations with
communications for the parallel tasks in orbitals, however, was
actually restricted to a relatively small number of compute nodes,
and therefore, the wall clock time for global communications of
the parallel tasks in orbitals was small. This means we succeeded
in decreasing time for global communication by the combination
Figure 6. Computation and communication time of (a) GS, (b) CG, (c) MatE/SD and (d)
RotV/SD for different numbers of cores.
0.0
40.0
80.0
120.0
160.0
0 20000 40000 60000 80000
Time
per
CG
(sec.)
Number of cores
theoretical computation
computation
adjacent/space
global/space
global/orbital
0.0
100.0
200.0
300.0
400.0
0 20,000 40,000 60,000 80,000
Time
per
GS
(sec.)
Number of cores
computation
global/space
global/orbital
wait/orbital
0.0
50.0
100.0
150.0
200.0
0 20,000 40,000 60,000 80,000
Time
per
MatE/SD
(sec.)
Number of cores
computation
adjacent/space
global/space
global/orbital
0.0
100.0
200.0
300.0
0 20,000 40,000 60,000 80,000
Time
per
RotV/SD(sec.)
Number of cores
computation
adjacent/space
global/space
global/orbital
(d)
(c)
(a) (b)
time as a result of keeping the block data on the L1 cache
manually decreased by 12% compared with the computation time
for the usual data replacement operations of the L1 cache. This
DGEMM tuned for the K computer was also used for the
LINPACK benchmark program.
5.2 Scalability
We measured the computation time for the SCF iterations with
hand, the global communication time for the parallel tasks in
orbitals was supposed to increase as the number of parallel tasks
in orbitals increased. The number of MPI processes requiring
communications for the parallel tasks in orbitals, however, was
actually restricted to a relatively small number of compute nodes,
and therefore, the wall clock time for global communications of
the parallel tasks in orbitals was small. This means we succeeded
in decreasing time for global communication by the combination
Figure 6. Computation and communication time of (a) GS, (b) CG, (c) MatE/SD and (d)
RotV/SD for different numbers of cores.
0.0
40.0
80.0
120.0
160.0
0 20000 40000 60000 80000
Time
per
CG
(sec.)
Number of cores
computation
adjacent/space
global/space
global/orbital
0.0
100.0
200.0
300.0
400.0
0 20,000 40,000 60,000 80,000
Time
per
GS
(sec.)
Number of cores
computation
global/space
global/orbital
wait/orbital
0.0
50.0
100.0
150.0
200.0
0 20,000 40,000 60,000 80,000
Time
per
MatE/SD
(sec.)
Number of cores
computation
adjacent/space
global/space
global/orbital
0.0
100.0
200.0
300.0
0 20,000 40,000 60,000 80,000
Time
per
RotV/SD(sec.)
Number of cores
computation
adjacent/space
global/space
global/orbital
(d)
(c)
(a) (b)
並列度のミスマッチの解消
大域通信の増大の解消

45
confinement becomes prominent. The quantum effects,
which depend on the crystallographic directions of the nano-
wire axes and on the cross-sectional shapes of the nanowires,
result in substantial modifications to the energy-band
structures and the transport characteristics of SiNW FETs.
However, knowledge of the effect of the structural mor-
phology on the energy bands of SiNWs is lacking. In addi-
tion, actual nanowires have side-wall roughness. The
effects of such imperfections on the energy bands are
Table 2. Distribution of computational costs for an iteration of the SCF calculation of the modified code.
Procedure block
Execution
time (s)
Computation
time (s)
Communication time (s)
Performance
(PFLOPS/%)
Adjacent/grids Global/grids Global/orbitals Wait/orbitals
SCF 2903.10 1993.89 61.73 823.02 12.57 11.89 5.48/51.67
SD 1796.97 1281.44 13.90 497.36 4.27 – 5.32/50.17
MatE/SD 525.33 363.18 13.90 143.98 4.27 – 6.15/57.93
EigenSolve/SD 492.56 240.66 – 251.90 – – 0.01/1.03
RotV/SD 779.08 677.60 – 101.48 – – 8.14/76.70
CG 159.97 43.28 47.83 68.85 0.01 – 0.06/0.60
GS 946.16 669.17 – 256.81 8.29 11.89 6.70/63.10
The test model was a SiNW with 107,292 atoms. The numbers of grids and orbitals were 576 ! 576 ! 180, and 230,400, respectively. The numbers of
parallel tasks in grids and orbitals were 27,648 and three, respectively, using 82,944 compute nodes. Each parallel task had 2160 grids and 76,800 orbitals.
Hasegawa et al. 13
Article
Performance evaluation of ultra-large-
scale first-principles electronic structure
calculation code on the K computer
Yukihiro Hasegawa1
, Jun-Ichi Iwata2
, Miwako Tsuji1
,
Daisuke Takahashi3
, Atsushi Oshiyama2
, Kazuo Minami1
,
Taisuke Boku3
, Hikaru Inoue4
, Yoshito Kitazawa5
,
Ikuo Miyoshi6
and Mitsuo Yokokawa7,1
Abstract
The International Journal of High
Performance Computing Applications
1–21
ª The Author(s) 2013
Reprints and permissions:
sagepub.co.uk/journalsPermissions.nav
DOI: 10.1177/1094342013508163
hpc.sagepub.com
Yukihiro Hasegawa et al.,
http://hpc.sagepub.com/
Computing Applications
International Journal of High Performance
http://hpc.sagepub.com/content/early/2013/10/16/1094342013508163
The online version of this article can be found at:
DOI: 10.1177/1094342013508163
published online 17 October 2013
International Journal of High Performance Computing Applications
Hikaru Inoue, Yoshito Kitazawa, Ikuo Miyoshi and Mitsuo Yokokawa
Yukihiro Hasegawa, Jun-Ichi Iwata, Miwako Tsuji, Daisuke Takahashi, Atsushi Oshiyama, Kazuo Minami, Taisuke Boku,
K computer
Performance evaluation of ultra-largescale first-principles electronic structure calculation code on the
Published by:
総合性能

46
課題 7 RSDFT のコデザイン 4. ターゲットアプリケーションのコデザイン
富岳で達成された性能倍率
たコデザインの成果を反映して富岳で達成された京に対する性能倍率及び消費電力を表
す。
表 4.106: RSDFT の対京性能倍率と消費電力
アプリケーション性能倍率（注）消費電力（注）
RSDFT 38 倍 30 MW
（注）ターゲット問題実行時における対京性能倍率：ブーストモードかつエコ無効モードで実行
富岳コデザイン・レポート
∼フラッグシップ2020プロジェクト・テクニカルレポート∼
フラッグシップ 2020 プロジェクト
理化学研究所計算科学研究センター
2022 年 3 月
富岳コデザイン・レポート
∼フラッグシップ2020プロジェクト・テクニカルレポート∼
フラッグシップ 2020 プロジェクト
理化学研究所計算科学研究センター
2022 年 3 月
富岳での性能
出典
ターゲット問題
2 Genomon 多重処理 96 がんの解明に向けた全ゲノム解析。リード長 150 塩基対、リード数 14
億。1 日あたり 1000 検体のスループット実現。
3 GAMERA 大規模単一 158976 都市域の地盤歪の計算に該当する、1 兆自由度の非構造格子有限要素モ
デルの非線形地盤地震動解析 (120 秒、12 万時間ステップ) を実行する。
4 NICAM+
LETKF
多重処理 +
大規模単一
131072 局地的豪雨や竜巻などの高精度な予測を実現するため、多重ケース処理
型計算では、全球 3.5km 水平メッシュ1024 メンバーのアンサンブル気
象計算と観測データとの同化を３時間毎に行うシミュレーションを 2ヶ
月間分、大規模単一問題型計算では、全球 220m 水平メッシュ鉛直 94 層
の大気シミュレーションを 72 時間分実行する。
5 NTChem 多重処理 17820 化学反応のメカニズムを解明し、エネルギー変換材料の候補物質スクリー
ニングを行うための高精度第一原理電子状態計算の典型的計算例として、
720 原子、19680 電子軌道のカーボンナノグラフェン分子複合体のエネ
ルギー計算を設定する。20 ケース実行。
6 ADVENTURE 多重処理 4096 複雑な形状の構造物の最適な全体設計を実現するため、有限要素法に基
づく構造解析を行う。薄板状領域の非線形応答問題。ソリッド四面体二
次要素分割で計 16.5 億自由度。1 時間ステップ当たり BDD 反復 500 回
を 1 万時間ステップ実行。100 ケース実行。
7 RSDFT 多重処理 10368 複数の異種物質から構成されるナノ界面を解明するため、量子力学的第
一原理計算に基づき、原子数 11 万・バンド数 22 万・SCF200 回の SCF
計算によるシリコンデバイスの構造最適化の計算を行う。24 ケース実行
する。
8 FFB 大規模単一 158976 水力機械の内部流れや自動車の空力の乱流計算など、複雑な形状の構造
物まわりの熱発生率、冷却・排気損失、ノッキング、サイクル変動等の
予測の正確な評価を行うため、有限要素法に基づく流体計算を 6700 億
要素規模で 10 万時間ステップ行う。
9 LQCD 大規模単一 147456 素粒子から宇宙全体にわたる物質創成史を解明するため、クォークを 1924
個の格子上の場としたクォーク伝搬関数を反復解法で計算する。
99
重点課題ターゲットアプリケーションにおけるコデザインの実際の進行は、各アプリケーショ
ン毎に組織したワーキンググループ (WG) の中で詳細な検討と開発を進めながら、全 WG の代表
者が集うアプリケーション検討会において情報共有並びに関連するテーマ毎の議論を行う形式で
進行した。
4.1.4 性能評価用ターゲット問題の設定
富岳上での各ターゲットアプリケーションの性能を評価する基準として定められた具体的な計
算問題の設定はターゲット問題と呼ばれる。ターゲット問題設定を表 4.3 にに示す。
表 4.3: 重点課題ターゲットアプリケーションの問題設定
課題
番号
アプリケーショ
ン
並列処理の
タイプ
ノード数
/ジョブ
問題設定
1 GENESIS 多重処理 1 より効果的で安全な創薬候補物質のスクリーニングのため、タンパク質、
溶媒 (水分子) を含む 10 万原子の薬剤候補結合の全原子分子動力学シミュ
レーションを 1 ケースにつき 100ns 行う。10 万ケース実行。
2 Genomon 多重処理 96 がんの解明に向けた全ゲノム解析。リード長 150 塩基対、リード数 14
億。1 日あたり 1000 検体のスループット実現。
3 GAMERA 大規模単一 158976 都市域の地盤歪の計算に該当する、1 兆自由度の非構造格子有限要素モ
デルの非線形地盤地震動解析 (120 秒、12 万時間ステップ) を実行する。
4 NICAM+
LETKF
多重処理 +
大規模単一
131072 局地的豪雨や竜巻などの高精度な予測を実現するため、多重ケース処理
型計算では、全球 3.5km 水平メッシュ1024 メンバーのアンサンブル気
象計算と観測データとの同化を３時間毎に行うシミュレーションを 2ヶ
月間分、大規模単一問題型計算では、全球 220m 水平メッシュ鉛直 94 層
の大気シミュレーションを 72 時間分実行する。
5 NTChem 多重処理 17820 化学反応のメカニズムを解明し、エネルギー変換材料の候補物質スクリー
ニングを行うための高精度第一原理電子状態計算の典型的計算例として、
720 原子、19680 電子軌道のカーボンナノグラフェン分子複合体のエネ
ルギー計算を設定する。20 ケース実行。
6 ADVENTURE 多重処理 4096 複雑な形状の構造物の最適な全体設計を実現するため、有限要素法に基
づく構造解析を行う。薄板状領域の非線形応答問題。ソリッド四面体二
次要素分割で計 16.5 億自由度。1 時間ステップ当たり BDD 反復 500 回
富岳での性能

47
CPU単体性能とは？

48
単体性能における問題点の評価法
ソースコードの調査
問題点の評価法問題点の評価法
高並列
測定/評価法
計算・通信カーネルの決定
単体性能
現状認識
問題点把握

49
アプリケーションのタイプ
- 性能の観点から -
要求B/F値が大きい計算
行列ベクトル積の計算
2N2個の演算 N2個のデータ N個のデータ
×
＝
(a) (b)
要求B/F値が小さい計算
×
＝
行列行列積の計算
2N3個の演算 N2個のデータ N2個のデータ
(a) (b)

50
メモリ・L2 キャッシュ・演算器を考慮した
性能モデル
第 1 章アプリケーションのタ
2021年2月5日チューニング技術説明会
5
実効演算性能
ルーフラインモデルは，
理論値とtMとtCを⽤いたモ
デルである．
メモリ・L2キャッシュ・演算器を考慮した性能モデル

51
CPU性能解析レポート(ビジー時間)
tL2 が、L2 キャ
ッシュビジー時間と、tC が、浮動小数点演算器時間と、tE が、
そのものではなく、近い値となっている理由については後述する。
6
メモリビジー時間■
実⾏時間×メモリビジー率
L2キャッシュビジー時間■
実⾏時間×L2キャッシュビジー率
L1キャッシュビジー時間■
実⾏時間×L1キャッシュビジー率
浮動⼩数点演算器ビジー時間
実⾏時間×浮動⼩数点演算器ビジー率
Elapsed Time(経過時間)
FUJITSU CONFIDENTIAL info for target apps for priority issues(Software Adjustment(2))
tvel3d1_12:実行時間内訳(tune02)
Copyright 2020 FUJITSU LIMITED
L1D 待時間が減少しが演算待時間変多い
9
アプリケーションのタイプ-性能の観点から-
・CPU性能解析レポート(ビジー時間)
ビジー時間は前⾴の
tE，tM，tL2，tc，
に近い値．詳細は後述

52
ビジー時間から見たアプリケーション
のタイプ
理想的にチューニングされたオンメモリなアプリケーション
ーションでは、理想的には、実効的なメモリバンド幅で決まるメモ
リバンド幅を使い切っている状態であるといえる。また L2 キャ
ッシ
。
ーションの状況を図 1.3 に示す。
7
理想的にチューニングされたオンメモリなアプ
リケーション
経過時間
メモリビジー時間
L2キャッシュビジー時間
演算器ビジー時間
経過時間=メモリビジー時間
n メモリビジー時間は理想的には実効的なメモリバンド幅で決まる
n 現実的には少し違うが
n 理想的にチューニングされたアプリは実効メモリバンド幅を使い切って
いる状態
n L2キャッシュ/演算器は余裕がある状態
性能限界値
図 1.3: 理想的にチューニングされたオンメモリなアプリケーション

53
理想的にチューニングされたオンキャシュなアプリケーション
にチューニングされたオンキャ
ッシュなアプリケーション (1
見たアプリケーションのタイプの２つ目は、理想的にチューニングされた
である。
リケーションでは、理想的には、実効的な L2 キャ
ッシュバンド幅で決まる
一致し、実効 L2 キャ
ッシュバンド幅を使い切っている状態であるといえる
であるといえる。
リケーションの状況を図 1.4 に示す。
8
理想的にチューニングされたオンキャッシュな
アプリケーション(1)
経過時間=$L2ビジー時間
n $L2ビジー時間は理想的には実効的な$L2バンド幅で決まる
n 現実的には少し違うが
n 理想的にチューニングされたアプリは実効$L2バンド幅を使い切って
いる状態
n メモリ/演算器は余裕がある状態
経過時間
性能限界値
のタイプ

54
第 1 章アプリケーションのタイ
9
理想的にチューニングされたオンキャッシュな
アプリケーション(2)
経過時間=演算器ビジー時間
n 演算器ビジー時間は理想的には実効的な演算器性能で決まる
n 現実的にはそれほど⾼い演算器性能か出ることは少ないが
n 理想的にチューニングされたアプリは実効的な演算器性能が出ている
状態
n メモリ/$L2は余裕がある状態
経過時間
性能限界値
1.5: 理想的にチューニングされたオンキャ
ッシュなアプリケーション (
のタイプ

55
なく、バンド幅以外の動作にも大きく依存している。したがってメ
た方法で実効バンド幅をベースに性能のモデル化ができない。しか
キャ
ッシュのビジー時間と経過時間は一致し、メモリ、L2 キャ
ッ
ションの状況を図 1.6 に示す。
説明会
10
的にチューニングされたオンキャッシュな
ケーション(3)
経過時間=$L1ビジー時間
ジー時間は$L1の実効的なバンド幅のみでは決まらない
幅以外の動作に⼤きく依存している
理想的にチューニングされたアプリは$L1のビジー時間と経過
⼀致しメモリ/$L2/演算器は余裕がある状態となる
経過時間
性能限界値
のタイプ

56
十分にチューニングされていないオンメモリ・オンキャシュ
なアプリケーション
たアプリケーションのタイプの５つ目は、理想的にチューニングされ
なアプリケーションである。
ケーションでは、アプリケーションの経過時間は、どのビジー時間より
ない。つまりハードウェアの限界性能まで達していないこととなり、メ
算器は共に余裕がある状態である。
ケーションの状況を図 1.7 に示す。
11
充分にチューニングされていないオンメモリor
オンキャッシュなアプリケーション
経過時間≠全てのビジー時間
n 充分にチューニングされていないアプリケーションの経過時間はどのビ
ジー時間とも等しくない(どのビジー時間より⼤きくなる)
n メモリ/$L2/$L1/演算器は余裕がある状態
経過時間
性能限界値
分にチューニングされていないオンメモリ or オンキャ
ッシュなアプリ
のタイプ

57
CPU単体性能から見たアプリケーション
の分類
第 1 章アプリケーションのタイプ-性
表 1.1: CPU 単体性能からみたアプリケーションの分類
番号単体性能上の分類アプリケーション例
1 行列行列積に書き換え可能第一原理 (DFT) 量子計算等
2 要求 B/F 値が小さくループボディがシンプル高次なステンシル計算等
3 キャ
ッシュブロッキング可能分子動力学・重力多体問題等
4 要求 B/F 値が小さいがループボディが複雑
プラズマ・気象の物理過程
量子化学計算等
5 要求 B/F 値が大きい
気象の力学過程・流体・
地震・核融合等
6 要求 B/F 値が大きくリストアクセスを使用
有限要素法を用いた構造・
流体計算等
ー時間から見たアプリケーションのタイプと CPU 単体性
プリケーション分類の対応
たビジー時間から見たアプリケーションのタイプと、1.5 節で示した CPU 単体性能か
要求B/F値が小さい
要求B/F値が大きい

58
ビジー時間から見たアプリケーションタイプ
とCPU単体性能から見たアプリケーションの
分類の対応
13
1. 理想的な演算器チューニング
が可能なオンキャッシュアプリ
ケーション
2. 理想的な$L1チューニングが
可能なオンキャッシュアプリ
ケーション
3. 理想的な$L2チューニングが
可能なオンキャッシュアプリ
ケーション
4. 理想的なチューニングが難し
いオンキャッシュアプリケーショ
ン
5. 理想的なチューニングが可能
なオンメモリアプリケーション
6. 理想的なチューニングが難し
いオンメモリアプリケーション
1
Matrix-Matrix Multiplication
is applicable
2
Required B/F value is low
with simple loop body
3
Cache Blocking
is applicable
4
Required B/F value is low
with complex loop body
5 Required B/F value is high
6
Required B/F value is high and using
indirect access
DFT・・
MD,N Body Problem,・・
High Order FDM,・・
PIC,QC,・・
Fluid Dynamics,
Stencil・・
FEM,・・
性能の⾼い順に並べると(あくまで⽬安です)

59
CPU単体性能チューニングとは？
を図 2.1 に示す。
さらに積極的なチューニング例としては、図 2.2 に例示すように、プログラムを書き換えメモリか
シュアクセスへ移動し、メモリアクセスを減らし L2 キャ
ッシュアクセスを増やし、経過時間の上限値
問題点を解消しビジー時間の最大値 (性能限界値) まで経過時間を近づける作業ともいえる。
15
経過時間
n プログラムがどのタイプかを⾒極めて
n そのタイプのビジー時間のグラフが正当かを判断し
n 問題点を解消しビジー時間の最⼤値まで経過時間を
近づけること
図 2.1: CPU 単体性能チューニングとは (1)
16
経過時間
n さらに積極的なチューニング例
n プログラムを書き換えメモリから$L2アクセスへ移動し
n メモリアクセスを減らし$L2アクセスを増やし
n 性能限界値を下げつつ問題点を解消しビジー時間の
最⼤値(性能限界値)まで経過時間を近づける
CPU単体性能チューニングとは︖
問題点を解消しビジー時間の最大値 (性能限界値) まで経過時間を近づける作業ともいえる。
15
16
経過時間
n さらに積極的なチューニング例
n プログラムを書き換えメモリから$L2アクセスへ移動し
n メモリアクセスを減らし$L2アクセスを増やし
n 性能限界値を下げつつ問題点を解消しビジー時間の
最⼤値(性能限界値)まで経過時間を近づける
CPU単体性能チューニングとは︖
ビジー時間の限界値に
近づける！
オンメモリからオンキャッシュ
チューニング！
その後ビジー時間の限界値
に近づける！

60
CPU単体性能チューニング手順
オリジナル
性能
AICS サマースクール 2012
JITSU CONFIDENTIAL 14
diffusion
usion
L2$ )
L2$ L2$
L2$
(3)性能推定(要求B/Fが高いアプリについて）
(1)プロファイラーを使った測定
(2)プロファイラー測定結果を
使った問題の発見
(4)性能チューニング
(6)更なる性能チューニング
(5)改良コーディングの性能予測
(要求B/Fが高いアプリについて）
性能
高
低
オリジナル
コーディング
の予測性能
改良
コーディング
の予測性能

61
ルーフラインモデル
mine sustainable DRAM bandwidth.
They include all techniques to get the
best memory performance, including
them to include memory optimiza-
tions of a computer into our bound-
and-bottleneck model. Second, we
l
n
-
d
n
-
y
e
-
-
h
”
-
t
e
n
e
d
-
s
n
e
m
-
p
e
-
Figure 1: Roofline model for (a) AMD Opteron X2 and (b) Opteron X2 vs. Opteron X4.
(a)
peak memory bandwidth (stream) peak floating-point performance
Operational Intensity (Flops/Byte)
Operational
Intensity
1
(memory-bound)
Operational
Intensity
2
(compute-bound)
Attainable
GFlops/sec
128
64
32
16
8
4
2
1
1/2
1/4 1/2 1 2 4 8 16
(b)
Opteron X4
Opteron X2
Attainable
GFlops/s
128
64
32
16
8
4
2
1
1/2
• ハードウェアの実効的なメモリバンド幅：B
• ハードウェアのピーク性能：F
• アプリケーションの演算強度：X=f/b
• アプリケーションの要求フロップス値：f
• アプリケーションの要求バイト値：b
B*X=B*(f/b)=B*F*f/(b*F)=(B/F)/(b/f)*F
アプリケーションのピーク性能比：min(1.0 , (B/F)/(b/f) )
S. Williams, A. Waterman, and D. Patterson: Roofline: an
insightful visual performance model for multicore architectures.
Commun. ACM, 52:65–76, 2009.
アプリケーションの性能：
　　　　　　　　min（F，B*X）
ハードウェアのB/F値をアプリ
ケーションのb/f値で割る．

62
ベースとなる性能値(京の場合)
メモリ
チップ
共用Ｌ２キャッシュ　６ＭＢ／１２ＷＡＹ
　コア　　　　　　　　　　　　
Ｌ１キャッシュ３２Ｋ／２ＷＡＹ
ＳＩＭＤ演算器 ×８コア
　ＢＦ比＝０．５(実効値:0.36)
ＢＦ比＝４(理論値)
　ＢＦ比＝２(理論値)
レイテンシ（相対値）
１０
１００
１
16GFLOPS
バンド幅（ＢＦ比）
ルーフラインモデルによる性能見積り

63
メモリとキャッシュアクセス(1)
do J = 1, NY
do I = 1, NX
do K = 3, NZ-1
DZV (k,I,J) = (V(k,I,J) -V(k-1,I,J))*R40 &
- (V(k+1,I,J)-V(k-2,I,J))*R41
end do
end do
end do
メモリ：ロード１，ストア１
メモリ：ロード１
$L1：ロード2
$L1：ロード1

64
性能見積りの例
do J = 1, NY
do I = 1, NX
do K = 3, NZ-1
DZV (k,I,J) = (V(k,I,J) -V(k-1,I,J))*R40 &
- (V(k+1,I,J)-V(k-2,I,J))*R41
end do
end do
end do
n 最内軸(K軸)が差分
n 1ストリームでその他の3配列は$L1に載っ
ており再利⽤できる。
要求flop:
add : 3 mult : 2 = 5
要求B/F 12/5 = 2.4
性能予測 0.36/2.4 = 0.15
実測値 0.153
要求Byteの算出:
1store,2loadと考える
4x3 = 12byte
アプリケーションのピーク性能比の予測値
: ハードウェアのBF値(実効値)/アプリの要求BF値

65
まとめ
•RSDFTの性能最適化
•CPU単体性能とは？
• アプリケーションのタイプ- 性能の観点から -
• メモリ・L2 キャッシュ・演算器を考慮した性能モデル
• CPU性能解析レポート(ビジー時間)
• ビジー時間から見たアプリケーションのタイプ
• CPU単体性能から見たアプリケーションの分類
• ビジー時間から見たアプリケーションタイプとCPU単体性能
から見たアプリケーションの分類の対応
• CPU単体性能チューニングとは？
• CPU単体性能チューニング手順
• ルーフラインモデル
• ルーフラインモデルによる性能見積り

66

第３回配信講義　計算科学技術特論B（2022）

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a 第３回配信講義　計算科学技術特論B（2022）

Similar a 第３回配信講義　計算科学技術特論B（2022） (20)

Más de RCCSRENKEI

Más de RCCSRENKEI (16)