SlideShare una empresa de Scribd logo
1 de 90
Descargar para leer sin conexión
ABINIT-MPプログラムによる
フラグメント分子軌道(FMO)計算2
配信講義 計算科学技術特論B(2022) - 2022/6/16 - #2
望月祐志 (立教大学理学部化学科)
fullmoon@rikkyo.ac.jp
2022/6/14
1
2022/6/14 2
◇ABINIT-MPプログラムの主たる共同開発作業者(敬称略)
中野達也&沖山佳生(国立衛生研)、坂倉耕太(FOCUS)、
佐藤伸哉&山本純一(NECソリューションイノベータ)、
渡邊啓正(HPCシステムズ)、奥脇弘次(立教大)、
石川岳志(鹿児島大)、山下勝美(元NECソフト)、
大島聡史&片桐孝洋(名古屋大)
◇研究支援
CISS/HPCIの4プロジェクト; 東大生研&文科省 / FY2002-2015
FS2020(ポスト京)プロジェクト; 東大&文科省 / FY2014-2019
CRESTプロジェクト(“田中FMO”); JST / FY2004-2009
科研費(“榊-特定領域”); 文科省 / FY2008-2009
科研費(基盤B:代表); 文科省 / FY2016-2018
SFR; 立教大 / FY2006-2007, 2010-2014, 2019-2020, 2022-
企業様との公益目的の共同研究&立教宛のご寄付
謝辞
2022/6/14 3
内容と流れ
・第一回(前回)
フラグメント分子軌道(FMO)法の概要を基本的な式と処理の
フローを交えて解説します。具体的には、ハートリーフォック(HF)、
2次および3次のメラープレセット摂動論(MP2,MP3)を取り上げ、
スパコンを使ったベンチマーク計算の事例もご紹介します。
・第二回(今回)
先ず、テンソル縮約処理が支配的な高次相関計算の扱いに
触れます。次に、2020年度の試行的利用段階の「富岳」を使った
大規模計算の事例を新型コロナウイルスの関連タンパク質を例
にお示しします。最後に、高速化と超大規模系対応のプログラム
改修、「富岳」を使った応用計算やデータ解析例などの最近の
トピックをお話します。
最近のFMO計算の発展をまとめた本
https://www.springer.com/gp/book/9789811592348 / ABINIT-MPはChap. 4 - Y. Mochizuki et al., “The ABINIT-MP Program”に記載 pp. 53-67.
2021年1月刊行
4
2022/6/14
2022/6/14 5
高次相関計算
2022/6/14 6
汎用高次相関モジュールの開発
Ref.; Y. Mochizuki et al., Theor. Chem. Acc. 130 (2011) 515.
・ MP3~CCSD(T)まで
・ ファイルIO無し
・ SM-OpenMP並列を前提
・ テンソル縮約にDGEMMを多用
・ ES2で高い性能
2022/6/14 7
0
!
3
1
!
2
1
1
|
| 0
3
1
2
1
2
1
2
1
0 














C
a
i T
T
T
T
T
T
E
H
0
!
4
1
!
2
1
!
3
1
!
2
1
!
2
1
1
|
| 0
4
1
2
2
1
3
1
2
1
2
2
2
1
2
1
0 

















C
ab
ij T
T
T
T
T
T
T
T
T
T
E
H
CCSD
C
E
T
T
T
E
H 











 0
2
1
2
1
0
0
!
2
1
1
|
|
汎用高次相関モジュールの特徴
Initialize vectors ! MP1 amplitudes
Grand loop until convergence
Perform first EEO processing ! N6 cost - parallelized
Perform second EEO processing ! N6 cost - parallelized
Compute other necessary terms ! N5 cost - parallelized
Perform k-loop processing ! N6 cost - parallelized
Perform ij-loop processing ! N6 cost - parallelized
Update amplitude vectors and evaluate correlation energy
Judge convergence for breaking
End of grand loop
Summarize results
・ Kobayashiらの式を汎用化
・ MP3~CCSD(T)までカバー
・ 共有メモリを前提 (OpenMP)
・ 複数の作業配列を使用
・ BDも可能 (メモリ量を節約)
・ AO-MOの混成処理 (EEO)
・ DGEMMを多用した縮約演算
・ N6ループを並列化
・ (T)処理はN7ループ
・ MP1振幅を初期値
・ DIISで反復を加速
CCSD Equation Ref.; R. Kobayashi et al., Chem. Phts. Lett. 265 (1997) 1. & G. E. Scuseria et al., J. Chem. Phys. 89 (1988) 7382.
BD Ref.; N. C. Handy et al., Chem. Phys. Lett. 164 (1989) 185. / CCSD(T) Ref.; K. Ragavachari et al., Chem. Phys. Lett. 157 (1989) 479.




 )
exp( 2
1 T
T
CCSD
・ 非線形の展開
・ 4電子励起は2電子励起の”積”
・ 振幅に関する射影方程式を解く
2022/6/14 8
cd
ij
cd
ab
cd
ab
ij
ab
ij b 

 

  
 


k
a
k
b
k
ab
cd t
bd
kc
t
kd
ac
bd
ac
b )
|
(
)
|
(
)
|
(


cd
cd
ij
d
c
ij c
c 
 









 ij
ij
X )
|
(
 
 



k
a
k
kb
ij
b
k
ak
ij
ab
ij
ab
ij
ab
ij t
X
t
X
X


b
j
a
i
ab
ij
ab
ij t
t
t 


MP3の処理と同様、(ac,bd)のリストを顕には行わないでFock様処理で済ます
Prepare half-back-transformed (HBT) CC amplitude ! DGEMM
Find largest elements of HBT CC for  list
Loop over  AO-index quartet ! Parallelized Fock-like processing
Screen (|) with proper threshold and check also maximum HBT CC
Contract HBT CC amplitude and (|) to construct X-array ! DAXPY
End of loop over 
Transform X-array and add contributions to residual vector ! DGEMM
  








c k
c
j
a
k
c
j
ab
ij
ab
ij
ab
ij t
t
bc
ik
t
bc
ia
P )
|
(
)
|
(

      
ji
ba
ij
ab
ij
ab
ab
ij
P 
 (ia|bc)も同様に処理
EEOの処理
Ref.; J. D. Watts, Para. Comp. 26 (2000) 857. / EEO = External Exchange Operator.
2022/6/14 9
c
k
b
j
a
i
abc
ijk t
jb
ia
t
kc
ia
t
kc
jb
V )
|
(
)
|
(
)
|
( 


             
jki
bca
kij
cab
ikj
acb
kji
cba
jik
bac
ijk
abc
ijk
abc
abc
ijk
P 





c
b
a
k
j
i
abc
ijk
D 




 












  
d l
bc
lk
cd
kj
abc
ijk
abc
ijk t
jl
ia
t
bd
ia
P
W )
|
(
)
|
(
  





ijk abc c
b
a ijk
bc
ab )
2
(
3
1


(ia,bc)リストは(反復が終了しているので)メモリに置き、O3V4でコストで縮約する
  
 






ijk abc
abc
jik
abc
ikj
abc
kji
abc
jki
abc
kij
abc
ijk
abc
ijk
abc
ijk
abc
ijk
T W
W
W
W
W
W
D
V
W
E 4
4
3
1
)
(
W(i,j,k)abcの構築はabcの3重ループで並列化する
小さな基底でCCSD(T)までやって、MP2で大きな基底でやったエネルギーを補正する
 
SmallBasis
MP
BigBasis
MP
SmallBasis
T
CCSD
BigBasis
T
CCSD E
E
E
E /
2
/
2
/
)
(
/
)
( 


(T)の処理
(T) equation Ref.; T. J. Lee et al., J. Phys. Chem. 94 (1990) 5463. / Extrapolation Ref.; P. Hobza et al., ChemPhysChem 10 (2009) 282.
2022/6/14 10
OpenMP (4 cores)
( Xeon (3.4 GHz) 4 cores, 32 GB SMP / 2008: OpenMP - MKL9.1 )
D.Guanosine / 6-31G** Min.
MP4(SDQ) 218.0
CCD / #11 722.3
CEPA-1(SD) / #17 2004.2
QCISD / #13 1689.7
CCSD / #13 2167.1
MP4(SDTQ) 878.0
NB=350/ND=51/NV=280
Glucose / 6-31G** Min.
MP4(SDQ) 36.7
CEPA-1(D) / #10 87.5
CCD / #10 102.9
CEPA-1(SD) / #13 267.3
QCISD / #11 242.3
CCSD / #11 360.0
MP4(SDTQ) 145.2
QCISD(T) / #11 350.8
CCSD(T) / #11 470.4
NB=240/ND=36/NV=192
Aspirin / 6-311G** Min.
MP4(SDQ) 55.9
CCD / #11 176.8
QCISD / #13 445.6
CCSD / #13 652.4
MP4(SDTQ) 305.4
QCISD(T) / #13 703.0
CCSD(T) / #13 902.8
NB=295(6d)/ND=34/NV=248
Amantadine / 6-311G** Min.
MP4(SDQ) 90.3
CCD / #10 235.5
MP4(SDTQ) 363.7
NB=311(6d)/ND=31/NV=269
(T)はそれほど重くない
4コアの1ノードでのテスト#1
Xeon Goldに比べて3倍程度は遅い
2022/6/14 11
( Gly8: helix )
( TrpCage: 20 res. )
( Chignolin: 10 res. )
OpenMPの方が有利 (flat MPIも一応アリ) ( Crambin: 41 res. )
( Xeon (3.4 GHz) 4 cores, 32 GB SMP, 2 nodes / 2008: MKL9.1 / OpenMP - MPI )
FMO-MP4(SDQ) benchmark
Time in Min. Gly8 Chignolin Chignolin
Basis 6-31G** 6-31G 6-31G*
OMP - MPI / 4x2 54.8 559.2 2457.9
1.3 days 3.2 days
FMO-CCD benchmark
Time in Min. Gly8 Chignolin TrpCage
Basis 6-31G** 6-31G 6-31G
OMP - MPI / 4x2 159.1 1934.8 4566.8
1.7 days
FMO-MP4(DQ) benchmark
Time in Min. Gly8 Chignolin TrpCage Crambin
Basis 6-31G** 6-31G 6-31G 6-31G
MPI / 4 80.1 880.1 2704.5 N/T
MPI / 4x2 41.5 (x 1.9) 526.6 (x 1.7) 1387.3 (x 2) 3599.1
OMP / 4 91.1 733.7 N/T N/T
OMP - MPI / 4x2 48.3 (x 1.9) 419.6 (x 1.8) 1029.1 2609.0
(CCSD 727.2)
8コアの2ノードでのテスト#2
2022/6/14 12
HIV-1 Protease + Lopinavir
#Atom 3225 (H 1662)
#Basis (6-31G) 17423
#Fragment 203 (198 res.)
#Electrons 11932
HF total energy -77589.3750
MP2 energy -155.3675
MP3 energy -159.0641
MP4(DQ) energy -162.0619
MP3 job time 15.4 hours
MP4(DQ) job time 33.4 hours
Xeon (3.33 GHz) 4x16 cores / 2008: MKL11.1. / OpenMP – MPI,
only 16 GB SMP for 4 cores per node for OpenMP parallelization
N1Neuraminidase + Oseltamivir
#Atom 5792 (H 2809)
#Basis (6-31G) 32549
#Fragment 378 (377 res.)
#Electrons 22590
HF total energy -151962.8441
MP2 energy -297.4582
MP3 energy -302.6474
MP4(DQ) energy -308.2337
MP3 job time 41.5 hours
MP4(DQ) job time 98.1 hours
← 6-31G*
54.4 hours
64コアの4ノードでのテスト (実タンパク質)
2022/6/14 13
・ 200残基級の実タンパク質の高次相関計算は地球シミュレータでは容易に可能
・ 摂動3電子励起計算は行列積演算DGEMM処理が主なので性能が出やすい
6-31G basis set Nodes Time Rel. TFLOPS Eff.
(h) (%)
HIV-1
FMO-MP2 64 0.16 1.0 1.24 2.36
FMO-MP2 [custom] 64 0.16 1.0 1.22 2.33
FMO-MP3 64 0.36 2.3 3.40 6.48
FMO-MP3 [custom] 64 0.37 2.3 2.82 5.38
FMO-MP4(DQ) 64 0.62 3.9 5.70 10.87
FMO-MP4(SDQ) 64 0.85 5.3 4.92 9.38
FMO-MP4(SDTQ) 64 3.51 21.9 13.05 24.89
FMO-CCD 64 2.90 18.1 6.15 11.72
FMO-QCISD 64 5.73 35.8 5.20 9.91
FMO-QCISD(T) 64 8.46 52.9 8.45 16.13
FMO-CCSD 64 7.82 48.9 4.41 8.40
FMO-CCSD(T) 64 9.83 61.4 7.75 14.78
ES2の上でのベンチマークテスト#1
Ref.; Y. Mochizuki et al., Theor. Chem. Acc. 130 (2011) 515.
HIV Protease + Lopinavir
2022/6/14 14
CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0,
& T2V_F(1,1,1,LC),NDOC2,BFI_VO(1,1,1),NVAC,1.0D0,
& Q_IJK(1,1,1,6),NDOC2)
CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0,
& T2V_F(1,1,1,LC),NDOC2,BFI_VO(1,1,2),NVAC,1.0D0,
& Q_IJK(1,1,1,4),NDOC2)
CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0,
& T2V_F(1,1,1,LA),NDOC2,BFI_VO(1,1,3),NVAC,1.0D0,
& Q_IJK(1,1,1,2),NDOC2)
CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0,
& T2V_F(1,1,1,LB),NDOC2,BFI_VO(1,1,4),NVAC,1.0D0,
& Q_IJK(1,1,1,3),NDOC2)
CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0,
& T2V_F(1,1,1,LB),NDOC2,BFI_VO(1,1,5),NVAC,1.0D0,
& Q_IJK(1,1,1,1),NDOC2)
CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0,
& T2V_F(1,1,1,LA),NDOC2,BFI_VO(1,1,6),NVAC,1.0D0,
& Q_IJK(1,1,1,5),NDOC2)
CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0,
& T2V_F(1,1,LC,LB),NDOC,WAIJK(1,1,1,LA),NDOC,1.0D0,
& Q_IJK(1,1,1,3),NDOC)
CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0,
& T2V_F(1,1,LC,LA),NDOC,WAIJK(1,1,1,LB),NDOC,1.0D0,
& Q_IJK(1,1,1,5),NDOC)
CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0,
& T2V_F(1,1,LA,LB),NDOC,WAIJK(1,1,1,LC),NDOC,1.0D0,
& Q_IJK(1,1,1,1),NDOC)
CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0,
& T2V_F(1,1,LB,LC),NDOC,WAIJK(1,1,1,LA),NDOC,1.0D0,
& Q_IJK(1,1,1,6),NDOC)
CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0,
& T2V_F(1,1,LB,LA),NDOC,WAIJK(1,1,1,LC),NDOC,1.0D0,
& Q_IJK(1,1,1,2),NDOC)
CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0,
& T2V_F(1,1,LA,LC),NDOC,WAIJK(1,1,1,LB),NDOC,1.0D0,
& Q_IJK(1,1,1,4),NDOC)
Kernel of (T) computations - O(N7)
HIV-Protease @ 64 nodes execution / 6-31G basis
* MP4(SDQ) energy = -164.3979 au
MP4(SDTQ) energy = -170.2490 au
* Job time of MP4(SDTQ) is 3.5 hours
with 25% efficiency of peak speed!
MP4(SDTQ)計算が実タンパク質でも可能に!
Overall Data:
=============
Real Time (sec) : 12634.080
User Time (sec) : 5648740.053
System Time (sec) : 4140.492
Vector Time (sec) : 5303545.691
GOPS (rel. to User Time) : 2520.845
GFLOPS (rel. to User Time) : 1867.293
GOPS (concurrent) : 17617.673
GFLOPS (concurrent) : 13050.130
Global Memory size used (GB): 8.000
Job-info for MP4(SDTQ)
M P 3 M P 4(D Q ) M P 4(S D Q ) M P 4(S D TQ ) C C D
Ti
m e (M i
n.
) 21.
5 37.
4 51.
0 210.
6 174.
3
G FLO P S 3399.
4 5696.
9 4920.
3 13050.
1 6146.
7
E f
f
i
c.(% ) 6.
5 10.
9 9.
4 24.
9 11.
7
テンソル縮約計算をDGEMMで処理
ES2の上でのベンチマークテスト#2
2022/6/14 15
6-31G basis set Nodes Time Rel. TFLOPS Eff.
(h) (%)
NA
FMO-MP4(SDQ) 64 2.86 4.26 8.13
FMO-MP4(SDTQ) 128 10.29 15.21 14.50
HA
FMO-MP4(SDQ) 64 4.70 4.78 9.12
Trp127+His
FMO-MP4(SDQ) 64 1.79 9.58 18.27
FMO-MP4(SDTQ) 128 7.06 40.46 38.59
・ MP4(SDQ)が9百残基超えのインフルエンザHAでも計算可能に
・ (T)はDGEMM主体なので効率が大幅にアップ
・ Trp127HisモデルではMP4(SDTQ)レベルで38.6%の効率を達成
(2010年のES2の一般ユーザーでのベストパフォーマンス)
ES2の上でのベンチマークテスト#3
2022/6/14 16
相互作用エネルギーの比較例#1
* 環状の水クラスター (6-31G**)
* MP2の過大評価の傾向は明白
* MP3はむしろ過小評価
* MP2.5はMP3寄与を0.5倍した場合
* BDの大反復は3-5回程度
* BDの値はCCSDの値に近い、ただ
メモリの要求はCCDと同じで済む
* (T)の寄与は有意にある
(kcal/mol) n = 2 n = 3 n = 4 n = 5
MP2 -7.2 -22.9 -38.3 -49.0
MP3 -6.8 -21.2 -35.4 -45.4
MP2.5 -7.0 -22.1 -36.8 -47.2
MP4(DQ) -6.6 -20.9 -34.8 -44.5
MP4(SDQ) -6.8 -21.3 -35.4 -45.3
MP4(SDTQ) -7.0 -22.2 -36.9 -47.1
CCSD -6.5 -20.9 -34.8 -44.6
CCSD(T) -6.8 -21.7 -36.2 -46.2
CCD -6.5 -20.5 -34.3 -43.9
BD -6.5 -20.8 -34.7 -44.4
BD(T) -6.8 -21.7 -36.2 -46.2
Cyclic conformers - MP2/6-31G** geometries (fc)
Ref.; Y. Mochizuki et al., Theor. Chem. Acc. 130 (2011) 515. / MP2.5 Ref.; P. Hobza et al., ChemPhysChem 10 (2009) 282.
Method E(Corr.) Time(m) Rel. Cost
MP2 -7.34906 6.7 1.0
MP3 -7.51092 18.8 2.8
MP4(SDQ) -7.64507 54.3 8.1
MP4 -7.93837 224.7 33.5
CCD -7.54964 147.2 22.0
CCSD -7.62777 517.9 77.3
CCSD(T) -7.89865 691.7 103.2
QCISD -7.65727 400.5 59.8
QCISD(T) -7.90966 573.1 85.5
CEPA(SD) -7.70635 380.9 56.9
BD -7.60730 617.2 92.1
BD(T) -7.89490 785.1 117.2
* 6-31G*基底関数を使用、FMO2
* 4x5=20コアの2008年の小型クラスター
* 実用的にはMP3ないしMP4(SDQ)まで
* ECCSD=(EQCISD+EBD)/2の関係が成立
Ala9Gly Chignolin
(誤差3kcal/mol)
Method E(Corr.) Time(m) Rel. Cost
MP2 -11.19437 59.5 1.0
MP3 -11.37180 453.6 7.6
MP4 -12.02832 11049.5 185.7
CCD -11.41029 5392.7 90.6
CEPA(SD) -10.27419 13142.1 220.9
(H2O)n
2022/6/14 17
Adenine
(1A)
Adenine
(2A)
Thymine
(1’T)
Thymine
(2’T)
IFIE (6-31G*(0.25)) in kcal/mol
PairType HF (CP) MP2 (CP) MP3 MP2.5 (CP) CCSD(T)
2A-1A -1.85 (2.35) -16.85 (-7.77) -11.89 -14.37 (-5.60) -14.70
1’T-2’T 0.91 (4.64) -11.02 (-3.40) -8.12 -9.57 (-2.16) -9.95
2’T-2A -17.79 (-13.25) -24.88 (-16.22) -23.82 -24.35 (-15.95) -24.58
1’T-1A -16.70 (-12.50) -23.52 (-15.65) -22.44 -22.98 (-15.34) -23.23
1’T-2A -0.64 (1.55) -6.30 (-2.12) -5.15 -5.72 (-1.69) -6.06
2’T-1A -0.96 (-0.81) -1.60 (-1.37) -1.46 -1.53 (-1.32) -1.58
IFIE (6-31G*) in kcal/mol
PairType HF (CP) MP2 (CP) MP3 MP2.5 (CP) CCSD(T)
2A-1A 1.70 (4.16) -7.96 (-3.68) -4.12 -6.04 (-1.97) -5.88
1’T-2’T 2.30 (4.54) -4.55 (-0.59) -2.62 -3.59 (0.21) -3.62
2’T-2A -13.57 (-11.05) -20.45 (-15.00) -18.96 -19.71 (-14.54) -20.03
1’T-1A -12.44 (-10.20) -18.71 (-13.81) -17.35 -18.03 (-13.40) -18.33
1’T-2A 0.61 (1.91) -2.93 (-0.65) -2.04 -2.48 (-0.31) -2.62
2’T-1A -0.83 (-0.74) -1.14 (-1.02) -1.06 -1.10 (-0.99) -1.11
相互作用エネルギーの比較例#2
Ref.; H. Yamada et al., Comp. Theor. Chem. 1101 (2017) 46.
MP2.5の値はCCSD(T)に近い
2022/6/14 18
GPUによる加速の例 (NVIDIAさんによる試行)
・ ABINIT-MP組み込み前のモジュールをNVIDIAさんに提供
・ (T)処理周りをGPU向けにチューニング (第一次試行)
・ 水のクラスター(6-31G**)でカーネルを性能評価
NVIDIAさんのレポートより転載
GPUの利用も意識していく必要がありそう
成瀬さん・古家さんらによる
2022/6/14 19
2020年の新型コロナ関係PJ
(HPCI課題番号:g9330001, hp200146, hp200147)
「富岳」 OFP ITO Sub.A
退役直前の名大のFX100を使った計算(2020年2月)
2022/6/14 20
http://www.icts.nagoya-u.ac.jp/ja/sc/news/general/2020-03-30-general.html
ChemRxiv - https://doi.org/10.26434/chemrxiv.11988120.v1
正式出版 - https://pubs.acs.org/doi/10.1021/acs.jcim.0c00283
2022/6/14 21
名大の旧FX-100を使って行ったFMO計算の論文
Ref.; R. Hatada et al., J. Chem. Info. Model. 60 (2020) 3593.
・ ChemRxiv公開時よりリファイン
・ PB計算で水和条件を考慮
・ N3の非結合のケースも検討
試行的運用の「富岳」を使った特別PJ
22
松岡先生のSS研の2020年の公開シンポジウムのPDF資料より引用.
2022/6/14
2022/6/14 23
Ref.; <https://www.hpci-office.jp/pages/f-rep_r02_ck_cov>.
試行的運用の「富岳」を使った特別PJの報告
2022/6/14 24
新型コロナPJでの「富岳」の利用方針
■富岳の特徴
・ ノードあたりで48コア、利用者プログラムで20GB超のメモリ空間にアクセス出来る
・ 圧倒的なノード数、ラック単位(384ノード)で10程度を要求するジョブも容易に可
・ 端的に言えば「京」の100倍の計算力
■多数の分子構造による統計的な評価
・ capacity computing的な使い方
・ 構造の揺らぎを古典動力学(MD)シミュレーションで取込み、それらにFMO計算を一括実施
・ 静的な構造一つでの相互作用エネルギー評価と異なる動的な描像を取得可能
・ 本プロジェクトではメインプロテアーゼ(Mpro)の解析を対象に
・ FMO-MP2/6-31G*レベル、1.7千フラグメント(水含む)、1構造で0.6時間(半ラック)
■高コストな3次摂動計算の実行
・ capability computing的な使い方
・ MP2よりも高コストのMP3を実用的に実行、Dimer-ES近似を連続多重極展開で高速処理
・ スパイクタンパク質(3.3千フラグメント)を解析
・ FMO-MP3/cc-pVDZレベル、クローズ型(6VXX)は3.4時間で完了(8ラック)
■「京」→「富岳」で実現していくこと
・ 多数サンプル構造の計算が容易に可能 → 結果の「リアリティ」の向上
・ 機械学習やデータ科学との親和性 → ビッグデータの処理、物理化学的描像の自動演繹
・ FMO-MP3計算の実用利用 → MP2.5スケーリングによる定量性の向上
PIEDA計算の高速化 (Rev.20→Rev.22)
=====================
## TIME PROFILE
=====================
Elapsed time: Monomer SCF = 523.8 seconds
Elapsed time: Monomer MP2 = 20.0 seconds
Elapsed time: Monomer (Total) = 547.4 seconds
Elapsed time: Dimer ES = 392.1 seconds
Elapsed time: Dimer SCF = 843.1 seconds
Elapsed time: Dimer MP2 = 789.6 seconds
Elapsed time: Dimer (Total) = 4255.2 seconds
Elapsed time: FMO (Total) = 4802.7 seconds
*** Write check point file (CPF) open1.0 rev10) ***
WriteGeom = HIV-P.new2.cpf
Write coordinate data: done
## Time profile
Number of cores (total) = 64
Number of cores (fragment) = 1
THREADS (FRAGMENT) = 24
Total time = 4808.8 seconds
=====================
## TIME PROFILE
=====================
Elapsed time: Monomer SCF = 524.2 seconds
Elapsed time: Monomer MP2 = 20.2 seconds
Elapsed time: Monomer (Total) = 548.0 seconds
Elapsed time: Dimer ES = 394.4 seconds
Elapsed time: Dimer SCF = 774.0 seconds
Elapsed time: Dimer MP2 = 792.1 seconds
Elapsed time: Dimer (Total) = 2092.5 seconds
Elapsed time: FMO (Total) = 2640.5 seconds
*** Write check point file (CPF) open1.0 rev10) ***
WriteGeom = HIV-P.new2.cpf
Write coordinate data: done
## Time profile
Number of cores (total) = 64
Number of cores (fragment) = 1
THREADS (FRAGMENT) = 24
Total time = 2646.3 seconds
Before After
HIV-protease FMO-MP2/6-31G*/PIEDA
注記;「富岳」の環境は現在でも更新中であり、下記のタイミングは2020年4月当時での測定結果.
April 2020
・ 制御ループの見直し、Bcast呼び出しなどを改良
・ ダイマー段階での「謎の時間」を大幅に削減
・ 3千フラグメント級でも問題なくPIEDAが可能に
32 nodes
25
2022/6/14
坂倉氏
【富岳】
メインプロテアーゼと阻害剤
Nelfinavir
HIV-1 Protease (3EL5) HIV-1 Protease (6DJ1)
Lopinavir
N3 SARS-Cov-2 Mpro (6LU7)
Nelfinavir Lopinavir
EC50(μM) 1.13 5.73
bioRxiv (2020), https://doi.org/10.1101/2020.04.06.026476
Nelfinavir-Mpro系の全体図
26
メインプロテアーゼは増殖に関わる
2022/6/14
27
0
1
2
3
4
0 10 20 30 40 50 60 70 80 90 100
100ns
0ns
古典MDによる構造の揺らぎ(RMSD値)
水中1000構造からのサンプリング
2022/6/14
N3阻害剤はメインプロテアーゼのCys145と共有結合を形成する.
MD実行は東工大のTSUBAME3.0で実行 / AMED枠
Mpro+N3阻害剤の構造サンプリング
28
IFIE
(kcal/mol)
Residues
Cryst. MD
古典MDで1000構造をサンプルしてFMO-MP2/6-31G*(PR)レベルで計算
1構造あたり0.6時間 @ 「富岳」192ノード / 一斉投入で5時間で処理
Refs.; R. Hatada et al., Appl. Phys. Express 14 (2021) 027003. & S. Tanaka et al., J. Phys. Chem. B 125 (2021) 6501.
PR-MP2 Ref.; C. E. Dykstra et al., Intern. J. Quant. Chem. 78 (2000) 226.
2022/6/14
Mpro+N3阻害剤の統計的相互作用解析
統計的相互作用解析の重要性が顕在化
395フラグメント(タンパク質:306)
【富岳】
29
100
1000
10000
100000
10 100 1000 10000 100000
Elapsed
time
[sec.]
# hardware threads
6LU7 - FMO2-MP2/6-31G* - Elapsed time
Xeon(Gold6248)x2 Oakforest-PACS(compact,cache) Fugaku
FMO-MP2/6-31G*ジョブのスケーリング
・ PDB ID: 6LU7 = SARS-CoV-2 Mpro + N3 ligand の系
・ MP2の積分変換は全てDGEMMで実行
・ Dimer-ESのCMM近似は (>5のリージョンで使用)
・ 「富岳」はOakforest-PACSよりも2.8倍ほど速い
Xeon; 40 cores
OFP; up to 4608 cores
Fugaku; up to 18432 cores
September 2020
下記のタイミングはVer. 1 Rev. 22を使った2020年9月当時の測定結果.
2022/6/14
【富岳&OFP】
RMSD平均 3.55
RMSD分散 0.11
MD計算結果構造
(揺らぎあり)
多くの残基で
安定な相互作用を獲得
単独の残基で
偏った安定化
LigandのRMSD変化
後半の60nsについて
FMO計算を行った
ドッキングポーズ4
ドッキングポーズ4
(揺らぎなし) Gln189
Met165
Glu166
Asn142
Glu166
Mpro-ネルフィナビルの結果#1
30
【OFP】
Ref.; K. Fukuzawa et al., to be submitted.
2022/6/14
Residue Name IFIE ES DI
Asn142 -14.48±8.31→-26.96±8.40 -11.52±8.42→-27.70±10.76 -7.14±3.70→-12.79±3.78
Met165 -21.31±3.01 -16.12±2.70 -9.74±2.13
Glu166 -24.55±3.54 -26.11±2.96 -6.37±1.47
Gln189 -26.36±6.33 -23.00±7.36 -10.59±2.08
Gln189
Met165
Glu166
Asn142 Asn142
Glu166
Met165
Gln189
RMSD平均 3.55
RMSD分散 0.11
LigandのRMSD変化
ドッキングポーズ4
ドッキングポーズ4
(kcal/mol)
CH/π
相互作用
CH/π
相互作用
水素結合
31
【OFP】
Mpro-ネルフィナビルの結果#2
2022/6/14
2022/6/14 32
RBDに変異が起きている「変異ウイルス」は、
ACE2との結合形態が野生型のSARS-CoV-2と異
なっている可能性がある
【感染の仕組み】
スパイクタンパク質のReceptor Binding Domain (RBD)ヒト
のAngiotensin Converting Enzyme 2 (ACE2)
以上の2つのタンパク質同士が相互作用することで感染
脂質二重膜(E)
RBD→ヒト受容体に結合
スパイク(S)
拡大
SARS-CoV-2
スパイク(S-)タンパク質
S-タンパク質は1.1千残基のタンパク質鎖の3量体で構成
Closed構造はすべてのRBD領域が閉じている構造open構造はB (RBD) のみが開いた構造
S-タンパク質をRBD側から見た図 S-タンパク質を横から見た図
open構造 (6VYB)
closed構造 (6VXX) open構造 (6VYB)
closed構造 (6VXX)
Chain A Chain B Chain C 色が濃い領域は各ChainにおけるRBD (Thr333-Pro527) 領域
クローズ構造とオープン構造
33
2022/6/14
クローズ型(6VXX)のタイミング
=====================
## TIME PROFILE
=====================
Elapsed time: Monomer SCF = 3885.7 seconds
Elapsed time: Monomer MP3 = 280.6 seconds
Elapsed time: Monomer (Total) = 4211.3 seconds
Elapsed time: Dimer ES = 296.1 seconds
Elapsed time: Dimer SCF = 763.6 seconds
Elapsed time: Dimer MP3 = 5701.6 seconds
Elapsed time: Dimer (Total) = 7907.9 seconds
Elapsed time: FMO (Total) = 12119.1 seconds
*** Write check point file (CPF) open1.0 rev10) ***
WriteGeom = 6vxx_nonag-min0430_50k-mp3-ccpvdz.cpf
Write coordinate data: done
## Time profile
Number of cores (total) = 3072
Number of cores (fragment) = 1
THREADS (FRAGMENT) = 48
Total time = 12291.0 seconds
=====================
## TIME PROFILE
=====================
Elapsed time: Monomer SCF = 3892.7 seconds
Elapsed time: Monomer MP2 = 27.7 seconds
Elapsed time: Monomer (Total) = 3965.3 seconds
Elapsed time: Dimer ES = 282.4 seconds
Elapsed time: Dimer SCF = 838.0 seconds
Elapsed time: Dimer MP2 = 473.1 seconds
Elapsed time: Dimer (Total) = 2001.4 seconds
Elapsed time: FMO (Total) = 5966.6 seconds
*** Write check point file (CPF) open1.0 rev10) ***
WriteGeom = 6vxx_nonag-min0430_50k-mp2-ccpvdz.cpf
Write coordinate data: done
## Time profile
Number of cores (total) = 3072
Number of cores (fragment) = 1
THREADS (FRAGMENT) = 48
Total time = 6135.0 seconds
FMO-MP2/cc-pVDZ FMO-MP3/cc-pVDZ
・ 総計では8ラックで3072プロセス×48スレッド、147,456コアを使用した超並列計算
・ 1ノード/フラグメント条件で実行、エネルギー成分分析(PIEDA)はオン、CPF書き込み
・ MP2ジョブではモノマーSCF(HF)段階がジョブ時間の半分以上を占める
・ FMO-MP2に比してFMO-MP3の相対コストは2倍で済む → スパコン利用のメリット
・ Dimer-ESは連続多重極展開で近似 → 未使用では計算は不可
3.4時間
1.7時間
34
May 2020
【富岳】
2022/6/14
モノマーSCCのコストが目立つ
Ref.; K. Akisawa et al., RSC Adv. 11 (2021) 3272,
35
Closed (6VXX) Open (6VYB)
スパイクタンパク質の相互作用エネルギーの可視化
MP2.5/cc-pVDZレベル
Chain-Bから見た図
2022/6/14
可視化はBioStation Viewerを64GBメモリのPCで利用して実行
【富岳】
36
FMO-MP4(SDQ)計算は九大のITO Subsystem-Aの独占的利用で実施
(cc-pVDZは1000ノード-2000プロセス×18スレッド(75GB)で8.6時間)
Chain-Bの安定化エネルギーの減少が大きい
スパイクタンパク質の鎖間の相互作用エネルギー
2022/6/14
【富岳&ITO Sub.A】
MP3.5 Ref.; H. Yamada et al., Comp. Theor. Chem. 1101 (2017) 46. / MP3.5の方がMP2.5よりもベター.
各計算レベルでのIFIE和(RBD)
37
2022/6/14
【富岳&ITO Sub.A】
38
-1732.0
-203.8
-842.5
-557.9
-2000
-1800
-1600
-1400
-1200
-1000
-800
-600
-400
-200
0
B (RBD) closed B (RBD) open RBD-ACE2 RBD-B38 Fab
IFIE
(kcal/mol)
-1046.3
-761.7 60.0%
44.0%
Open structure
Spike RBD
B38 Fab ACE2
11.8%
エネルギー損失をACE2では60.0%B38抗体では44.0%まで回復可能
ACE2とB38抗体によるB (RBD)のエネルギー損失の補填 (MP3.5/cc-pVDZの値を使用)
RBD-ACE2、RBD-B38抗体間の結合によってclosed構造のB (RBD)の何%まで回復可能か示した
60.0%
44.0%
基準 (100%)
11.8%
スパイクタンパク質RBDのエネルギー損失の補填
2022/6/14
RBD-ACE2の複合体はPDB ID=6M0J、RBD-B38 Fab抗体の複合体はPDB ID=7BZ5.
【富岳&ITO Sub.A】
RBD-B38 Fab
RBD
residues
IFIE
(kcal/mol)
Asp420 -72.7
Lys417 -44.1
Asn487 -37.7
Gly476 -37.1
Arg403 -36.0
Asn501 -32.8
Tyr505 -32.5
Glu465 -24.2
Asp427 -23.4
Phe456 -23.3
RBD-ACE2間、RBD-B38抗体間で安定化の寄与が大きい
RBD側の残基7 (MP3.5/cc-pVDZ)
RBD-ACE2
RBD
residues
IFIE
(kcal/mol)
Lys417 -267.8
Arg403 -220.4
Arg408 -208.3
Lys444 -201.5
Arg509 -174.9
Lys378 -169.2
Arg457 -166.5
Arg454 -166.3
Lys458 -165.9
Arg346 -162.3
Lys417 Salt Bridge
Lys417
Asp30
ACE2 αHelix
S Protein RBD
-119.3 kcal/mol
RBD-ACE2間はすべて荷電性残基、RBD-B38抗体間は非荷電性残基も寄与が大きい
ACE2とB38抗体では結合形態が異なる Lys417が最重要残基
150 kcal/mol以上の変化をした残基は赤、荷電性残基はオレンジで示した
RBD-ACE2間の重要残基対
39
【富岳&ITO Sub.A】
2022/6/14
40
・ N501Y変異によって、-40 kcal/mol程IFIEの安定化が増加
野生株(Asn501) B.1.1.7株(Tyr501)
ACE2
RBD
Asn501
Tyr501
-10 kcal/mol +10 kcal/mol ACE2のTyr41やLys353が
N501Y変異で強く相互作用
N501Y
B.1.1.7株-野生株のRBD側から見たΔIFIE
野生株-B.1.1.7株(N501Y)の比較
(俗称:英国株)
2022/6/14
Ref.; K. Akisawa et al., Jpn. J. Appl. Phys. 60 (2021) 090901.
【富岳】
41
Tyr501
Tyr44
Lys353
Asn501
Tyr44
Lys353
ACE2 Dist. IFIE ES EX CT DI
Tyr44 3.2 -2.9 0.0 0.5 -1.4 -2.1
Lys353 2.9 -3.4 -0.1 0.6 -1.6 -2.4
Asp355 2.7 12.7 14.9 0.7 -1.5 -1.5
ACE2 Dist. IFIE ES EX CT DI
Tyr44 2.5 -10.6 -7.4 5.2 -3.1 -5.4
Lys353 1.8 -23.9 -27.0 18.9 -7.4 -8.4
Asp355 2.7 6.0 8.2 0.6 -1.3 -1.5
・ N501Y変異によって、Tyr44やLys353との相互作用が顕著に増加
B.1.1.7株(俗称:英国株)のN501Y変異の影響評価
野生株(Asn501) B.1.1.7株(Tyr501)
【Dist.:距離(Å) / IFIEをPIEDAで分割; ES:静電項、EX:交換反発項、CT項:電荷移動項、DI:相関補正項】
エネルギー (kcal/mol)
2022/6/14
【富岳】
DI = LRD + Erest.
分散力 相関補正項
42
・ Lys417のようなイオン性の結合は相関補正項が中心(LRD: 2~3割)
・ Tyr501-Tyr44のp/p、Tyr501-Lys353のようなCH/pのような相互作用
形態では分散力系の安定化(LRD)の寄与が大きい(LRD: 5~7割)
イオン性の相互作用
Lys417-Asp30
LRD: 24.5%
Erest : 75.5%
p/p, CH/p相互作用
Tyr501-Tyr44
LRD: 70.3%
Erest : 29.7%
Tyr501-Lys353
LRD: 54.8%
Erest : 45.2%
(下側:RBD、上側:ACE2)
RBD
ACE2
B.1.1.7株(俗称:英国株)の相互作用の内訳
2022/6/14
【富岳】
LRD (Local Response Dispersion) Ref.; K. Sato et al., J. Chem. Phys. 131 (2009) 224104.
PIEDA-LRD Ref.; Y. Akinagaga et al., to be submitted.
43
2022/6/14
【富岳】
Ref.; K. Okuwaki et al., Appl. Phys. Express 15 (2022) 017001.
① FMO計算により、三量体に含まれる
すべてのアミノ酸残基間の2体間IFIEを算出
(FMO2-MP2.5/6-31G*レベル)
② 各鎖間の特異値分解(103 ×103) 3種
各鎖で重要な残基を算出
(上位10モードから10残基ずつ取得)
➡重複を含め、A鎖:63, B鎖:56, C鎖59残基抽出
③ ②で抽出した各鎖の残基から
3体相互作用(3階テンソル)を生成
※幾何平均
④ ③で生成した3階テンソルをCP分解
(Tensorly モジュールを使用)
(20モードで分解) 特徴残基を抽出
テンソル分解による解析
44
2022/6/14
 Closed, Open量型の3体相互作用CP分解における、各モードの固有値
・ SVD の固有値は 20 モードで非常に小さくなる
・ 20 モードの累積固有値和の約 3分の2 がおよそ10 モードで寄与
→ 今回の検証では、両form、第1~第3モードで特徴づけられる残基を抽出
mode mode
固有値
固有値の分布
【富岳】
45
2022/6/14
【富岳】
 Chain A残基詳細
 各 Chain の特徴残基(固有値607)
Glu1031, Arg1039, Lys1038, Asp1041
→A、B、Cの3本の鎖すべてで支配的
(Centerヘリックス、βヘアピンに属する)
荷電残基間の塩橋によって三量体構造
の安定性を保つのに必須
Close型の第二固有モードの例
PDB ID 6ZGE 6WPS 6ZDH 6XCN 7A98
骨格構造 closed closed open open open
抗体/ACE2 無し S309Fab EY6AFab C105Fab ACE2
解像度(Å) 2.6 3.1 3.7 3.7 5.4
Fragment数 3399 4023 4680 4044 5184
構造補完 Yes Yes Yes Yes Yes
MD緩和 AMBER (ff14SB)使用(クライオ電子顕微鏡由来構造で、解像度や欠損が多いため)
その他 NAG 糖鎖を削除(構造緩和、Fragment分割のバラメータが存在しないため)
より大型のモデルの計算
・ 計算レベルはFMO-MP3/cc-pVDZまで (最大の系は5.2千フラグメント)
・ ピュアな分散力を評価するためLRD算定も併用して解析 (論文準備中)
46
2022/6/14
【富岳】
2022/6/14 47
高速化と大規模系への対応
(HPCI課題番号:jh210036-NAH, jh220010, hp210026, hp220025)
【A64FX向け整備/改良: 名大の片桐・大島研との共同研究+富士通SS研WG】
「不老」 「不老」 「富岳」 「富岳」
【SX-AT向け整備/改良: NEC-立教大の共同研究】
48
新型コロナの特別PJで認識したポイント
■プログラム改良の必要性
・高速化と大規模化
⇒ 多数のサンプル構造の扱い (Ver. 1 Rev. 22に比して数倍を目標)
⇒ 大型の水和モデルの扱い (水を含めて数万フラグメントを視野)
・想定プラットフォーム
⇒ 「富岳」を頂点とする富士通A64FX系のスパコン群
⇒ NEC SX-Aurora TSUBASA (SX-AT)やIntel Xeonのスパコン群
・GUI(BioStation Viewer)のサポートの打ち切り
⇒ 可視化用のみの配列を削除して大規模系に対応
⇒ 機械学習/データ科学向けのデータの出力 (発展的代替)
・計算機科学の専門家とのコラボレーション
⇒ スパコンを活かすには量子化学/計算化学業界だけでは不十分
⇒ 名大の片桐・大島グループとの連携、NECとの共同研究
■HPCI拠点でのABINIT-MPのライブラリ整備
・新規感染症発生時の対応
⇒ 多数拠点で同時並行的に複数の研究者が解析 (「シン・ゴジラ」の例)
・スパコン毎の個性
⇒ 目的・用途によって使い分け (FMO-MP2が基本)
2022/6/14
S-タンパク質を水和モデルで扱えなかった…
49
A64FXでのコスト分析 (FMO-MP2)
測定&まとめ:SS研 - 井上グループ(富士通株式会社コンピューティング事業本部計算科学事業部).
 プログラム全体のコスト分布
 基本プロファイラによるプロセス0番、スレッド0番のコスト分布
 2電子積分処理が全体の約半分を占める
ただし、81種の処理の総和であるため、
1種あたりのコストは1%前後と非常に小さい
 通信に関連したコストは8%程度と小さい
 性能改善に向けたソース分析は以下を対象とする
 2電子積分
 Direct SCF
 リスト作成
2電子積分
53%
Direct SCF
14%
リスト作成
10%
通信関連
8%
システム関連
6%
その他
9%
2電子積分:81種のサブルーチン(sub_*)のコスト総和
Direct SCF:サブルーチンdirect_scf_gmatのコスト
リスト作成:3種のサブルーチン(get_tei_rs_fix,
get_tei_pq_fix, get_ixijcs_to_proc_pqfix)のコスト総和
通信関連:通信に関連した処理(putofu_*, opal_*, mca_*)
のコスト総和
システム関連:ライブラリやOSなどに関連した処理のコスト総和
その他:上記以外の処理の総和
・Ala9GlyのFMO-MP2/6-31G*のテストジョブ
・12スレッド8プロセス (2ノード実行:FX1000)
2022/6/14
50
改善の方向性(積分の生成)#1
 改良指針(井上G@富士通の助言)
 OCL指示詞の導入によるSIMD化の促進、一部スカラ変数化も必要
 コンパイラオプションの変更
 リファレンス
 オリジナルコード、Ala9GlyのMP2ジョブ
 2ノード実行、12スレッド(OpenMP)×8プロセス(MPI)
 コンパイラオプション:-O3 -Knosimd -Koptmsg=2 –V
 6-31G*//cc-pVZ: 153.0s/134.5s//337.4s/306.1s (MP2;AXPY/GEMM)
 手動での最適化と結果(その1)
 オリジナルコード+SSSS, PSSS, SPSS, SSPS, SSSP, PPSS, PSPS,
PSSP, SPPS, SPSP, SSPP, DSSS, SDSS, SSDS, SSSD (スカラ変数化)
 OCL指示詞の追加
 コンパイラオプション:-O3 -Knosimd -Kocl
 6-31G*//cc-pVZ:142.5s/124.5s(7.4%)//294.4s/254.0s(17.0%)
(cc-pVDZの場合、オリジナルコードと比較して全体で17.0%の高速化)
(kfastオプションの指定によってさらに高速化される可能性あり)
MP2は全段DGEMMで処理の方がベター. 【不老 Type I】
2022/6/14
51
改善の方向性(積分の生成)#2
 手動での最適化と結果(その2)
 コンパイラオプション:-Kfast-Knosimd -Kocl
 6-31G*/cc-pVZ:116.2s(24.1%)/239.6s(29.0%)(DGEMMで4段のみ)
 6-31G*/cc-pVZ:78.3s(48.8%)/165.1s(51.1%)(Buffered direct SCF)
(Ala9Glyの例では、オリジナル状態と比較して全体で2倍の高速化)
 補足説明
 Buffered direct SCFでは生成した2電子積分を可能な限りメモリに保持
(積分計算の回数/個数を減らす直截なアプローチ)
 MP2ではバッファするよりも積分変換用の作業配列に割り当てるべき
 次期リリースのVer. 2 Rev. 4では本バッファ機能を導入
 追加ベンチマーク
 Chignolin(10残基); 24スレ/16プロで1415.0s→869.2sで38.6%の効果
 1EO8水和モデル(5千フラグ)では効果が減少 (モノマーSCCがネック)
【不老 Type I】
積分のバッファリングは大きなアミノ酸を含む実タンパク質では難しくなる(隠しオプション).
2022/6/14
52
SIMD化した積分ルーチンの例
subroutine sub_sssp(zetam,pm,dkabm,etam,qm,dkcdm, &
ma,mb,mc,md,ngij,ngkl,a,b,c,d,sint,tv)
!
! Nov.05,'02
! T.NAKANO & Y. ABE
!
use constant
use auxiliary_integral_table
use integral_parameter
implicit none
real(8),intent(in)::zetam(*),pm(3,*),dkabm(*), &
etam(*),qm(3,*),dkcdm(*)
integer,intent(in)::ma,mb,mc,md,ngij,ngkl
real(8),intent(in)::a(3),b(3),c(3),d(3),tv
real(8),intent(out)::sint(*)
!----------------------------------------------
integer npq,nrs,ix
real(8) p(3),q(3),qd(3),pq(3),wq(3),f(0:max_m), &
dkab,zeta,dkcd,eta,ze,rz,re,rho,a0,tt
integer ts,i,j,k,l,m
real(8) delta,t_inv
real(8) ssss(0:1),f0,f1,qd1,qd2,qd3,wq1,wq2,wq3
sint(1:3) = 0.0_8
!ocl eval
!ocl fp_relaxed
!ocl fp_contract
!ocl noswp
!ocl eval_concurrent
!ocl SIMD
do npq=1,ngij
if (abs(dkabm(npq)) > tv) then
do nrs=1,ngkl
if (abs(dkabm(npq)*dkcdm(nrs)) > tv) then
ze = 1.0_8/(zetam(npq)+etam(nrs))
a0 = dkabm(npq)*dkcdm(nrs)*sqrt(ze)
rz = etam(nrs)*ze
re = zetam(npq)*ze
rho = zetam(npq)*rz
do i=1,3
! qd(i) = qm(i,nrs)-d(i)
pq(i) = qm(i,nrs)-pm(i,npq)
! wq(i) =-re*pq(i)
end do
qd1 = qm(1,nrs)-d(1)
qd2 = qm(2,nrs)-d(2)
qd3 = qm(3,nrs)-d(3)
wq1 =-re*pq(1)
wq2 =-re*pq(2)
wq3 =-re*pq(3)
以下、次頁
【不老 Type I】
改造; 中野氏(国立衛生研), 坂倉氏(FOCUS).
2022/6/14
53
SIMD化した積分ルーチンの例(続き)
tt = (pq(1)*pq(1)+pq(2)*pq(2)+pq(3)*pq(3))*rho
if (tt <= 38.0_8) then ! Tf = 2*m+36 (for m=1)
ts = 0.5_8+tt*fmt_inv_step_size
delta = ts*fmt_step_size-tt
! f(0) = ((fmt_table(3,ts)*inv6*delta &
! + fmt_table(2,ts)*inv2)*delta &
! + fmt_table(1,ts))*delta &
! + fmt_table(0,ts)
! f(1) = ((fmt_table(4,ts)*inv6*delta &
! + fmt_table(3,ts)*inv2)*delta &
! + fmt_table(2,ts))*delta &
! + fmt_table(1,ts)
f0 = ((fmt_table(3,ts)*inv6*delta &
+ fmt_table(2,ts)*inv2)*delta &
+ fmt_table(1,ts))*delta &
+ fmt_table(0,ts)
f1 = ((fmt_table(4,ts)*inv6*delta &
+ fmt_table(3,ts)*inv2)*delta &
+ fmt_table(2,ts))*delta &
+ fmt_table(1,ts)
else
t_inv = inv2/tt
! f(0) = sqrt(pi_over2*t_inv)
! f(1) = t_inv*f(0)
f0 = sqrt(pi_over2*t_inv)
f1 = t_inv*f0
end if
!----------------------------------------------
! ERI code generator Ver.20020228
! 2002/02/28
! T. Nakano
!
! (sssp)
!
! ssss(0:1)=f(0:1)*a0
ssss(0)=f0*a0
ssss(1)=f1*a0
! do l=1, 3
! sint(l) = sint(l)+qd(l)*ssss(0)+wq(l)*ssss(1)
! end do
sint(1) = sint(1)+qd1*ssss(0)+wq1*ssss(1)
sint(2) = sint(2)+qd2*ssss(0)+wq2*ssss(1)
sint(3) = sint(3)+qd3*ssss(0)+wq3*ssss(1)
!----------------------------------------------
end if
end do
end if
end do
end subroutine sub_sssp
【不老 Type I】
2022/6/14
54
Ver. 2 Rev. 4での速度向上の例#1
=====================
## TIME PROFILE
=====================
Elapsed time: Monomer SCF = 452.4 seconds
Elapsed time: Monomer MP2 = 17.4 seconds
Elapsed time: Monomer (Total) = 472.7 seconds
Elapsed time: Dimer ES = 99.7 seconds
Elapsed time: Dimer SCF = 278.6 seconds
Elapsed time: Dimer MP2 = 269.1 seconds
Elapsed time: Dimer (Total) = 695.3 seconds
Elapsed time: FMO (Total) = 1168.0 seconds
## Time profile
Number of cores (total) = 200
Number of cores (fragment) = 1
THREADS (FRAGMENT) = 24
Total time = 1172.8 seconds
=====================
## TIME PROFILE
=====================
Elapsed time: Monomer SCF = 354.7 seconds
Elapsed time: Monomer MP2 = 16.0 seconds
Elapsed time: Monomer (Total) = 373.4 seconds
Elapsed time: Dimer ES = 109.5 seconds
Elapsed time: Dimer SCF = 221.7 seconds
Elapsed time: Dimer MP2 = 242.4 seconds
Elapsed time: Dimer (Total) = 673.4 seconds
Elapsed time: FMO (Total) = 1046.8 seconds
## Time profile
Number of cores (total) = 200
Number of cores (fragment) = 1
THREADS (FRAGMENT) = 24
Total time = 1050.2 seconds
Ver. 1 Rev. 22 Ver. 2 Rev. 4
・ Ver. 2 Rev. 4はA64FX向け積分SIMD化、「不要配列」の整理などを反映済み
・ より大型の系ではMP2ジョブで2-5割程度の速度向上
・ cc-pVDZの方が短縮長が長いために加速効果が出やすい (他系でも評価)
【富岳】
HIV-1 protease / FMO-MP2/6-31G* / Benchmark 100 nodes @ Fugaku
2022/6/14
{jh210036-NAH, jh220010}; “FMO プログラム ABINIT-MP の高速化と超大規模系への対応”の成果.
55
=====================
## TIME PROFILE
=====================
Elapsed time: Monomer SCF = 2028.7 seconds
Elapsed time: Monomer MP2 = 15.0 seconds
Elapsed time: Monomer (Total) = 2068.6 seconds
Elapsed time: Dimer ES = 353.9 seconds
Elapsed time: Dimer SCF = 362.4 seconds
Elapsed time: Dimer MP2 = 302.6 seconds
Elapsed time: Dimer (Total) = 1603.4 seconds
Elapsed time: FMO (Total) = 3672.1 seconds
## Time profile
Number of cores (total) = 3072
Number of cores (fragment) = 1
THREADS (FRAGMENT) = 48
Total time = 3759.3 seconds
=====================
## TIME PROFILE
=====================
Elapsed time: Monomer SCF = 1801.6 seconds
Elapsed time: Monomer MP2 = 14.2 seconds
Elapsed time: Monomer (Total) = 1839.1 seconds
Elapsed time: Dimer ES = 314.2 seconds
Elapsed time: Dimer SCF = 335.7 seconds
Elapsed time: Dimer MP2 = 294.6 seconds
Elapsed time: Dimer (Total) = 1188.5 seconds
Elapsed time: FMO (Total) = 3027.7 seconds
## Time profile
Number of cores (total) = 3072
Number of cores (fragment) = 1
THREADS (FRAGMENT) = 48
Total time = 3090.8 seconds
Ver. 1 Rev. 22 Ver. 2 Rev. 4
6VXX / FMO-MP2/6-31G* / Benchmark 8 racks @ Fugaku
2020年9月版 - http://www.cenav.org/abinit-mp-open_ver-2-rev-4/
・ Ver. 2 Rev. 4はA64FX向け積分SIMD化、「不要配列」の整理などを反映済み
・ 対Ver. 1 Rev.22で1.2倍の加速 (cc-pVDZ; 8769.9秒→6356.6秒で1.4倍)
2022/6/14
【富岳】
Ver. 2 Rev. 4での速度向上の例#2
56
超大規模系への対応 (Ver. 2 Rev. 4)
=====================
## TIME PROFILE
=====================
Elapsed time: Monomer SCF = 14546.6 seconds
Elapsed time: Monomer MP2 = 32.5 seconds
Elapsed time: Monomer (Total) = 14741.5 seconds
Elapsed time: Dimer ES = 4021.8 seconds
Elapsed time: Dimer SCF = 7215.9 seconds
Elapsed time: Dimer MP2 = 2492.4 seconds
Elapsed time: Dimer (Total) = 18240.6 seconds
Elapsed time: FMO (Total) = 32982.1 seconds
## Time profile
Number of cores (total) = 384
Number of cores (fragment) = 1
THREADS (FRAGMENT) = 48
Total time = 33120.9 seconds
・インフルHA+Fab抗体×2(PDB id: 1KEN)の水和モデル
・フラグメント総数は11307、水と対イオンを含む
・「不老」の1ラック、FMO-MP2/cc-pVDZは9.2時間で完走
・「富岳」の8ラック、FMO-MP3/cc-pVDZは6.7時間で完走
・FMO-MP2ではモノマーSCCが半分弱のコスト ⇒ 要対応
・ダイマー部分で「謎の時間」が顕在化 ⇒ 要対応
・水クラスターでは2万フラグメントのMP2ジョブも完走確認
「不老」-2021年6月時点
【不老 Type I&富岳】
=====================
## TIME PROFILE
=====================
Elapsed time: Monomer SCF = 7114.0 seconds
Elapsed time: Monomer MP3 = 343.1 seconds
Elapsed time: Monomer (Total) = 7532.4 seconds
Elapsed time: Dimer ES = 534.8 seconds
Elapsed time: Dimer SCF = 891.4 seconds
Elapsed time: Dimer MP3 = 4265.7 seconds
Elapsed time: Dimer (Total) = 16306.3 seconds
Elapsed time: FMO (Total) = 23838.7 seconds
## Time profile
Number of cores (total) = 3072
Number of cores (fragment) = 1
THREADS (FRAGMENT) = 48
Total time = 24203.2 seconds
「富岳」-2021年9月時点
GUI向け配列の削除; 中野氏.
従前の2倍の系が計算可能に
2022/6/14
57
Fock行列周りの改善
 改良指針(井上G@富士通の助言)
 14個のIF分岐(添字の同値性判断)が最適化を阻害、アクセスも不連続に
 手動での最適化と結果
 基底関数添字の同値性を(1/2)n (n=1,2,3)で繰り込み
 IF制御は積分閾値の篩い落としのみ
 この箇所のみで30%の加速
 修正組み込みは作業版で利用中
(全体の高速化では1.5倍)
 対角化(今後対応)
 LAPACKルーチンを利用
 正準直交化を導入
(線形従属性問題も回避)
do p=ixi1,ixi2
do q=ixj1,ixj2
do r=ixk1,ixk2
do s=ixl1,ixl2
ix=ix+1
val = sint(ix)
if((abs(val) <= tv)) cycle
fock(q,p)=fock(q,p)+dc(s,r)*val*2.d0!クーロン項
fock(s,r)=fock(s,r)+dc(q,p)*val*2.d0
fock(r,p)=fock(r,p)-dc(s,q)*val*0.5d0!交換項
fock(s,p)=fock(s,p)-dc(r,q)*val*0.5d0
fock(r,q)=fock(r,q)-dc(s,p)*val*0.5d0
fock(s,q)=fock(s,q)-dc(r,p)*val*0.5d0
end do
end do
end do
end do
【不老 Type I】
改造; 坂倉氏, 中野氏.
最新の作業版では従前比で速度1.7倍超を達成
2022/6/14
58
SX-ATでの高速化検討
FREQUENCY EXCLUSIVE AVER.TIME MOPS MFLOPS V.OP AVER. VECTOR L1CACHE CPU PORT VLD LLC PROC.NAME
TIME[sec]( % ) [msec] RATIO V.LEN TIME MISS CONF HIT E.%
115509 28.156( 1.9) 0.244 8753.8 1780.0 93.79 140.9 22.222 1.793 0.176 89.69 SUB_SPDD_VEC
44572 23.961( 1.6) 0.538 13049.2 2215.9 96.18 81.7 21.151 2.272 0.168 71.50 SUB_PPDD_VEC
44570 22.496( 1.5) 0.505 11357.7 3871.5 95.38 80.9 21.914 0.486 0.319 87.22 SUB_PPPD_VEC
72046 19.937( 1.3) 0.277 8808.4 1573.0 95.14 135.5 16.704 1.042 0.094 90.63 SUB_PSDD_VEC
44572 17.893( 1.2) 0.401 13296.7 4683.0 94.51 70.9 17.303 0.492 0.365 91.97 SUB_PPDP_VEC
20596 17.552( 1.2) 0.852 10086.4 3072.7 94.05 67.5 17.216 0.275 0.316 76.85 SUB_DPPD_VEC
132456 16.509( 1.1) 0.125 38728.8 24039.6 98.13 169.7 15.512 0.715 1.012 87.66 SUB_SPSS_VEC
211623 15.423( 1.0) 0.073 7188.4 2189.9 93.94 53.9 14.290 0.892 0.110 92.91 SUB_SSDD_VEC
20938 15.347( 1.0) 0.733 10936.1 3432.7 92.99 59.1 15.027 0.261 0.367 83.04 SUB_DPDP_VEC
240613 14.710( 1.0) 0.061 65161.6 47588.0 98.53 208.8 13.330 0.788 0.372 82.38 SUB_SSSS_VEC
 SX-ATでのプロファイル
 2電子積分の生成がジョブコストの半分を占める (A64FXの場合と同様)
 改良方針
 小原の漸化式アルゴリズムは最深ループの処理が重い
(以前のベクトル型スパコンでは「これ」でもよかった…)
 レジスタスピルの発生が考えられるため、手動でループを分割する
 角運動量が大きくなる組み合わせが対象 (検討した10ルーチン)
【SX-AT】
解析と改造; 佐藤氏(NECソリューションイノベータ), 坂倉氏.
Ver. 1 Rev. 22を対象
2022/6/14
59
ループ分割を検討した積分生成ルーチン群
71: +------> do npq=1,ngij
72: | if (abs(dkabm(npq)) > tv) then
73: | zeta2 = 0.5_8/zetam(npq)
74: | !CDIR UNROLL=3
75: | !NEC$ unroll(3)
76: |*-----> do i=1,3
77: || pa(i) = pm(i,npq)-a(i)
78: || pb(i) = pm(i,npq)-b(i)
79: |*----- end do
81: |V-----> do klrs=1,ngklrs
82: || ! if (abs(dkabm(npq)*dkcdm(klrs)) > tv) then
83: || ze = 1.0_8/(zetam(npq)+etam(klrs))
84: || a0 = dkabm(npq)*dkcdm(klrs)*sqrt(ze)
85: || eta2 = 0.5_8/etam(klrs)
86: || ze2 = 0.5_8*ze
分割したループ部分抜粋
FREQUENCY EXCLUSIVE AVER.TIME MOPS MFLOPS V.OP AVER. VECTOR L1CACHE CPU PORT VLD LLC PROC.NAME
TIME[sec]( % ) [msec] RATIO V.LEN TIME MISS CONF HIT E.%
232314 186.872( 1.5) 0.804 9184.1 1451.1 96.84 87.8 183.535 2.590 0.856 82.65 SUB_PPDD_VEC★最適化前
232314 63.264( 0.5) 0.272 15415.9 4554.4 94.29 48.6 56.998 4.577 0.857 90.67 SUB_PPDD_VEC★最適化後
SUB_PPDD_VEC
・SPDD, PPPD, PSDD, PPDP, DPPD, SPSS, DPDP: ループ分割
・PPDD: ループ分割の見直しを行い更に高速化
・SSDD: 分割せずに1次元的に使用される配列を変数化して高速化
・SSSS: ループがシンプルかつ小規模のために今回は見送り
【SX-AT】
2022/6/14
60
改良後の性能評価
6LU7/mpi-des 並列数/node nodes
or VEs
実行時間
[sec]
TFLOPS 実効効率
Xeon (Gold 6248) 10mpi*4smp 1 31270.4 0.191 5.96%
Xeon (Gold 6248) 40mpi 1 32197.9 0.185 5.79%
Xeon (Gold 6154) 9mpi*4smp 32 1699.0 3.512 3.18%
Xeon (Gold 6154) 36mpi 32 1682.0 3.548 3.21%
「富岳」 2mpi*24smp 32 3542.5 1.684 1.56%
「富岳」 2mpi*24smp 64 2179.3 2.738 1.27%
「富岳」 2mpi*24smp 192 1091.7 5.466 0.84%
Aurora (10AE) 8mpi 32 2478.2 2.408 3.50%
Aurora (10AE) 8mpi 64 1427.5 4.180 3.04%
Aurora (20B) 8mpi 32 2349.9 2.539 3.24%
Aurora (20B) 8mpi 64 1352.4 4.412 2.81%
新型コロナウイルスのメインプロテアーゼ+N3リガンドのFMO-MP2/6-31G*ジョブ
・ SX-Auroraの10AE/64VEの改良前 6533.6 s → 1427.5 s に短縮 (加速4.6倍)
・ 「富岳」、Xeonのデータは「素のVer. 1 Rev. 22」を使っての結果
・ Xeon(Gold 6248)は望月研の1ノードサーバでの測定
・ Xeon(Gold 6154)は九大ITO Subsystem-Aで測定
・ ベクトル版を含めて性能向上の改良は途上… (Ver. 2 Rev. 4のベクトル化中)
【SX-AT】
測定; 佐藤氏, 望月.
2022/6/14
2022/6/14 61
「富岳」時代のFMO計算
(HPCI課題番号: hp210026, hp220025, hp210261)
「富岳」 「富岳」 「富岳」
62
MD軌跡からの多構造サンプルの一括処理
【富岳】
2022/6/14
{hp210026, hp220025}; “新規感染症のための計算科学的解析環境の整備”
* MD由来の多サンプルの液滴構造の扱い
* 新型コロナウイルスのRBD-ACE2系
* インフルエンザウイルスのHA(3)-Fab系
* 処理は準自動的、解析もスクリプト処理
2022/6/14 63
新型コロナ変異株RBD-ACE2複合体の計算
【富岳】
Wild Type
Delta Omicron
Alpha 黄緑:結合界面(平均4Å以下)
赤色:変異箇所(界面の外側)
黄色:変異箇所(界面)
GROMACSを使ったMDシミュレーションは慶應大の泰岡グループによる. / OmicronのRBD部はAlphaFold2を援用してモデリング.
64
RBD-ACE2間のIFIE和の時間変化
Ref.; K. Akisawa et al., to be submitted.
2022/6/14
Wild Type Alpha
Delta Omicron
【富岳】
2022/6/14 65
インフルエンザHAとFab抗体の「再計算」
【富岳】
Ref.; S. Kitahara et al., to be submitted.
前報告(J. Phys. Chem. 113 (2009) 4991)の検証という位置づけ
Fab
HA
・ Asp63@HA – Arg94@Fabの相互作用は静的構造では強調され過ぎ
・ Glu82@HA – Arg98@Fabも同様
・ 変異箇所の同定に関しては前報告とほぼ同様の結果に
2022/6/14 66
HA-Fab界面における水和の影響例
【富岳】
・ Asp63@HA – Arg94@Fabを例に水和の影響を評価
・ 界面の水が残基間相互作用に影響を与えることを確認
Arg94
Tyr102
Asp63
His75
Phe100A
2022/6/14 67
AlphaFold2の論文 (2021/7/15)
AlphaGoで高名なDeepMind社による
Ref.; J. Jumper et al., Nature 596 (2021) 583.
畳み込み問題は
半世紀の難問
FASTA形式の残基シークエンスから立体構造を予測
2022/6/14 68
名大の「不老」でのAlphaFold2の公開
更新の告知; https://icts.nagoya-u.ac.jp/ja/sc/news/maintenance/2022-01-28-alphafold.html
2022年2月から商用利用も可能に
(2022年2月2日に更新掲載)
最初の告知; https://icts.nagoya-u.ac.jp/ja/sc/news/maintenance/2021-11-11-alphafold.html
【不老 Type II】
大島先生(名大)・森脇先生(東大)による
AlphaFold2による構造の構築が普及しそう
2022/6/14 69
タンパク質-複数リガンドの相互作用解析の例#1
女性ホルモン Estradiol
(1ERE)
(1X7E)
(1X7R)
(2QA6)
(2QZO)
(3ERD) (3UU7)
(3Q95)
(3HM1)
名前が長いため(Estradiol以外PDBIDで表記)
1EREにおけるERとリガンド
(緑 : ER 紫 : リガンド)
Ref.; R. Hatada et al., to be submitted.
各リガンドの複合体にMDを実施して構造サンプルを調製、Tucker分解で解析
2022/6/14 70
タンパク質-複数リガンドの相互作用解析の例#2
第1固有ベクトルのノルムで
残基を評価(上位10)
V
残基
重要な情報
×
動的IFIEで評価(上位10)
・ リガンド群との相互作用で共通する残基を抽出可能
・ Glu353とHis524は水素結合の寄与が大きい(化学的描像に合致)
・ 大量生成されるデータを(準)自動的に解析してポイントを演繹
71
■TrpCage
・ 20個のアミノ酸残基、人造タンパク質
・ Trpを囲む籠型のコア、π/πとCH/π相作用が重要
一段進んだ実用テストに向く
■計算スキーム
・ 前二つと同様のMD&FMO計算
・ 残基間のIFIE値は171個
■実計算値と予測値
・ カテゴリ毎に25サンプルの予測値を評価
・ 良相関の荷電-荷電は実用性アリ
・ 荷電-非荷電はまずまず
・ 非荷電-非荷電は改良の余地大
⇒ 記述子を増やすなど
⇒ 回帰手法の再選択
「構造だけから相互作用を予測出来る場」合もアリ 予測値
実
測
値
Arg16(+)-Lys8(+)
Ref.; 望月ら, J. Comp. Chem. Jpn. 16 (2017) 119.
2022/6/14
残基間のIFIEの予測例#1
72
Calculated
Predicted
formalchgGM 0.741
npachgGM 0.733
respchgGM 0.650
cnohdistmin 0.126
cnocnodistmin 0.122
vdwdist 0.120
hhdistmin 0.112
hhdistmax 0.112
comdist 0.119
cnocnodistmax 0.110
cnohdistmax 0.109
momentAM 0.045
weighAM -0.033
momentGM -0.021
polarAM -0.021
polarGM -0.016
copdistnpa 0.004
copdistresp 0.004
Linear Reg. Lasso Random Forest SVR
57.4% 57.4% 98.6% 92.9%
Ubiqutin (all residue pairs; 55500)
大量のFMOデータを生成して学習させ、「実計算無し」で予測することも視野に
2022/6/14
残基間のIFIEの予測例#2
Ref.; R. Hatada et al., to be submitted.
気象シミュレーションの結果を深層学習で解析 #1
Ref.; SC18 Gordon Bell Prize; <https://arxiv.org/abs/1810.01993>.
73
2022/6/14
計算結果を一旦可視化して、深層学習で「異常部分」を検出
74
気象シミュレーションの結果を深層学習で解析 #2
Ref.; <https://doi.org/10.1186/s40645-018-0245-y>,
2022/6/14
75
aヘリックス構造 bシート構造 両方の構造
2022/6/14
IFIE-mapからタンパク質構造を判定
Ref.; S. Saitou et al., Chem-Bio Inform. J. 18 (2018) 58. / IFIE-map Ref.; I. Kurisaki et al., BioPhys. Chem. 130 (2006) 1.
76
◆学習
{α-ヘリクスのみ、β-シートのみ、α,β両方有り、
α,β両方無し}の4パターン
多数(18種)のタンパク質を学習対象に
ランダム20枚1セットの学習*100ステップ
学習データセット内で91.7%の精度
◆学習の加速
学習の様子
学習に用いたタンパク質の例 (MD計算で各50サンプルを調製してFMO2/6-31G計算を実行)
2022/6/14
Intel Core i7 5820K
Nvidia GTX750Ti (×2.2)
Nvidia GTX1080 (×2.6)
「不老 Type II」を使って最近(jh210036-NAH課題)再度トライ、GPU(V100)による加速は12倍
処理のセットアップ(2017年当時)
2022/6/14 77
粗視化シミュレーションのパラメータを算定する試み
Ref.; K. Okuwaki et al., J. Phys. Chem. B, 122 (2018) 338.
各スケールの分子シミュレーション
◇量子化学 (FMO)
[電子状態の計算]
・タンパク質とリガンドの
相互作用
・結晶中の分子間相互作用
Å単位
◇分子動力学
[原子単位の運動]
・結晶のパッキング
・弾性率(応力-ひずみ)
・ガラス転移点の挙動
数nm単位
◇粗視化シミュレーション
[原子集団単位の運動]
・長時間の運動
・リポソームの融合
・ポリマーの相分離
数10~100nm単位
相互作用
粗視化粒子間の相互作用をFMOを使って算出
2022/6/14 78
・構造作成
・ペア配置生成
ペア座標リスト(各2000配置)
FMOの相互作用
エネルギーリスト
ABINIT-MP
配向リスト
Metropolis MC
配向情報の取得
ペア間平均相互作用(Eij )
異方性の指標(Sf )
𝝌(ZΔE×Sf/RT)
配置生成モジュール
Z(配位数)
◆異方性の指標(Sf )の導入:
・特定の配向で強い相互作用を示す系:平均相互作用を過大評価
・MC法採用配置の配向の偏りから相互作用をスケーリング
◆配置生成からパラメータ算出処理までの自動化
⇒単純な二成分系の相転移臨界温度が実験と良好な一致
FMO計算に基づくパラメータ算定のワークフロー
Ref.; K. Okuwaki et al., J. Phys. Chem. B, 122 (2018) 338. & 奥脇ら, J. Comp. Chem. Jpn., 17 (2018) 102.
ワークフローを汎用システム化してリリース (名称はFCEWS) 79
2022/6/14
Hexane -
Nitrobenzene
Diisobutyl ketone -
Polyisobutylene
Polyisoprene –
Polystyrene
Tc(K)
Mw 𝜒𝑐 exptl. FMO
22700 0.57 292 328
285000 0.52 319 346
6000000 0.50 329 354
Tc(K)
𝜒𝑐 exptl. FMO
2.0 293 286
Mw Tc(K)
pip ps 𝜒𝑐 exptl. FMO
1000 1000 0.34 243 255
2000 2700 ※0.15 329 420
2700 2100 0.15 408 420
2700 2700 0.12 448 489
実験値を10%程
の誤差で再現
◇温度上昇: 𝜒が減少(一般的に) →相溶しやすく
臨界点(相が分離しなくなる閾値)の温度Tc: 実験と比較
χ𝑐 =
(
1
𝑛𝑎
+
1
𝑛𝑏
)2
2
𝑛𝑎, 𝑛𝑏=各成分の重合度
重合度:
ポリマー分子量(Mw)
セグメント分子量
※理論値が実験値と非対応
臨界点𝜒
(χc ) -1.0
0.0
1.0
2.0
3.0
4.0
χ
Temp
Tc
2022/6/14 80
FMOによる算定値の検証
POPC脂質膜へのFMO-DPDの応用#1
A B C
D E F
W
水を含めた7成分間、21ペアのパラメータ算定
・溶媒効果(Poisson-Boltzmann)を取り入れた二分子モデル計算
・計算レベル:FMO2-MP2-PB/6-31G†、各ペア2000配座
分子内を小分子に分割 ⇒ 「部品」として再利用可能
POPC:頭部にコリンを有する代表的なリン脂質
F E D
D A
B C
A A
A B
B
Ref.; H. Doi et al., Chem. Phys. Lett. 684 (2017) 427.
2022/6/14 6
各成分間のχ(300K)
A B
C D
E F
脂質13%:ベシクル 脂質20%:膜 ⇒経験的パラメータなしで構造の再現
・親水部(E,F,W)同士:親和性大
・疎水部(A,B,C)同士:親和性大
・親水部-疎水部:親和性小
傾向を再現
B C D E F W
A -0.18 -0.23 1.39 4.75 4.76 12.08
B -0.61 0.71 5.46 5.81 12.66
C 1.18 4.81 5.74 10.56
D 1.99 -4.00 9.73
E 2.55 -6.64
F 6.00
親水部(E,F)
疎水部(A,B,C,D)
◇DPDシミュレーション[cognac, 約80000粒子(1辺21.3nm)]
82
2022/6/14
POPC脂質膜へのFMO-DPDの応用#2
観測条件 観測方法 結果 (Å2 )
303K Diffuse X-ray scattering 68.3 [1]
293K neutron and X-ray scattering 62.7[2]
303K neutron and X-ray scattering 64.3 [2]
300 K DPD 69.4[3]
実測[4](H-NMR) 2.58 (nm)
疎水基の膜厚 2.8 (nm)
膜面積
膜厚
実験値をほぼ再現
83
2022/6/14
POPC脂質膜へのFMO-DPDの応用#3
FMO-DPDによるChignolinのフォールディング
Tyr
Gly(C末)
Gly(N末) Asp
Pro
Glu
Thr Thr
Trp
Trp
・骨格はすべてGlyで表現
・非結合ポテンシャル:各残基の小分子構造を
作成しFMO計算でパラメータ作成
・結合ポテンシャル:1-2(bond), 1-3(angle),
1-4(torsion)ポテンシャルを定義
・Trpは「大きさ2つ分」で表現
・直線構造から程なくβヘアピン構造に
・同様の手法でα-シヌクレン(140残基)も成功
Ref.; K. Okuwaki et al., Appl. Phys. Express 13 (2020) 017002.
84
2022/6/14
DPD結果
(約1000粒子) アフィン変換(体積拡大) 原子化
(約10000原子)
MDによる緩和(NPT) FMO(IFIE解析)
◇DPD結果を再原子化し、FMO計算を行うスキームを確立 (DSRMS)
Ref.; K. Okuwaki et al., to be submitted.
リバースマッピング
2022/6/14 85
MD結果から一部分を切り出してFMO
(MP2/6-31G(d’)) 6000原子:7200秒(80proc)
リン酸部-水間のIFIE: -27.83kcal/mol
妥当な相互作用エネルギー
リバースマッピングによる解析例
86
2022/6/14
2022/6/14 87
有効パラメータ算定に「富岳」の計算力を活用
【富岳】
■圧倒的なノード(コア)数
・ セグメント対あたりで2千ショットのFMO計算 (機械学習による効率化も作業中)
・ 多成分系の算定を小規模サーバで行うと数週間~月の時間に
・ capacity computing文脈で大量ジョブをFCEWSで自動投入
・ 中規模系なら(待ち行列が短ければ)数日内に完了 (FMO-MP2/6-31G(d’)レベル)
■産学連携のPJ(hp210261一般機動的課題:2021年11月からの1年間)
・ 立教大が主導、J社さんが幹事、4社(B社、T1社、T2社、N社)さんが参加
・ 化学工学系でのFCEWS/FMO-DPDの普及を願って (下は電解質膜の解析例)
・ 半期で助走段階は終了、現在後期で各社さんが個別テーマに取り組み中
5
5
5
0.0
0.2
0.4
0.6
0.8
1.0
10 15 20 25 30
Water
connectivity
Water content (Vol%)
Nafion(a)
Nafion(b)
Nafion(c)
SPEEK
A
B C
ナフィオン(上)とSPEEK(下)
水クラスターの連結度評価
Nafion FMO-DPD Ref.; K. Okuwaki et al., RSC Adv. 8 (2018) 34582.
2022/6/14 88
まとめ
2022/6/14 89
ABINIT-MPによるFMO計算 (その2)
◇高次相関計算
DGEMM主体のテンソル縮約処理が主、(T)はベンチマーク向け
◇新型コロナの特別PJ
Mproでは統計的な相互作用評価、S-タンパク質ではタンパク間相互作用解析
高速化と大規模系対応の動機づけ
◇高速化と大規模系への対応
A64FX向けでは積分生成のSIMD化など、Ver. 1 Rev. 22比でMP2計算は1.7倍
インフルHA3量体の水和モデルで1.1万フラグメントをMP3で達成
SX-AT向けチューニングも並走
継続的な改良が今後も必用 (問題箇所が複数残存)
◇「富岳」時代のFMO計算
MD-FMO連携による統計的相互作用解析
計算結果の解析における機械学習やデータ科学の援用
FMO-DPDなどのマルチスケールシミュレーション
長時間のご聴講、ありがとうございました
2004年 2010年
核内受容体(ER)
~300残基
計算
電荷、溶媒効果
構造
PDB一点計算/
モデル埋戻し
MP2(p-opt)
解析 IFIE CAFI FILM BSSE
CCSD(T)
水和DNA
12塩基対+2500wtr
インフルエンザHA
抗原抗体系~1000残基
ESP/RESP NPA
MP2
インフルエンザNA
タミフル~400残基
CIS/CIS(D)
EGFR
チロシンキナーゼ
mFruits
FMO4
2013年
FMO4-IFIE
2008年
インフルエンザHA3量体
抗原抗体系~2400残基
リガンド水和
10Å水和層
結晶-ペプチド複合系
~(SiO2)250-6残基-水和
粗視化MD用
パラメータ
~数万サンプル
CD
分子固体
~千個単位
LRD
統計/ML
2015年 2020年
MP3
FMO-MD FMO-DPD
MD生成
多構造
SCIFIE PB(SA) 大型液滴
SVD
PIEDA
Dimer-ES
CMM
粗視化→原子復元構造
~1万原子×サンプル数
新型コロナウイルス
抗原抗体系~5300残基
ABINIT-MPによるFMO計算のロードマップ
2022/6/14 90

Más contenido relacionado

La actualidad más candente

第10回 配信講義 計算科学技術特論B(2022)
第10回 配信講義 計算科学技術特論B(2022)第10回 配信講義 計算科学技術特論B(2022)
第10回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第5回 配信講義 計算科学技術特論B(2022)
第5回 配信講義 計算科学技術特論B(2022)第5回 配信講義 計算科学技術特論B(2022)
第5回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
第1回 配信講義 計算科学技術特論B(2022)
第1回 配信講義 計算科学技術特論B(2022)第1回 配信講義 計算科学技術特論B(2022)
第1回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
200604material ozaki
200604material ozaki200604material ozaki
200604material ozakiRCCSRENKEI
 
200611material ozaki
200611material ozaki200611material ozaki
200611material ozakiRCCSRENKEI
 
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)RCCSRENKEI
 
第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜京大 マイコンクラブ
 
『自由エネルギー原理入門』勉強会1章&2章前半
『自由エネルギー原理入門』勉強会1章&2章前半『自由エネルギー原理入門』勉強会1章&2章前半
『自由エネルギー原理入門』勉強会1章&2章前半大地 紺野
 
アプリケーションの性能最適化1(高並列性能最適化)
アプリケーションの性能最適化1(高並列性能最適化)アプリケーションの性能最適化1(高並列性能最適化)
アプリケーションの性能最適化1(高並列性能最適化)RCCSRENKEI
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCHDeep Learning JP
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説Takateru Yamagishi
 
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)Teppei Kurita
 
第2回 配信講義 計算科学技術特論B(2022)
第2回 配信講義 計算科学技術特論B(2022)第2回 配信講義 計算科学技術特論B(2022)
第2回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 

La actualidad más candente (20)

第10回 配信講義 計算科学技術特論B(2022)
第10回 配信講義 計算科学技術特論B(2022)第10回 配信講義 計算科学技術特論B(2022)
第10回 配信講義 計算科学技術特論B(2022)
 
第5回 配信講義 計算科学技術特論B(2022)
第5回 配信講義 計算科学技術特論B(2022)第5回 配信講義 計算科学技術特論B(2022)
第5回 配信講義 計算科学技術特論B(2022)
 
第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)第11回 配信講義 計算科学技術特論B(2022)
第11回 配信講義 計算科学技術特論B(2022)
 
第1回 配信講義 計算科学技術特論B(2022)
第1回 配信講義 計算科学技術特論B(2022)第1回 配信講義 計算科学技術特論B(2022)
第1回 配信講義 計算科学技術特論B(2022)
 
200604material ozaki
200604material ozaki200604material ozaki
200604material ozaki
 
200611material ozaki
200611material ozaki200611material ozaki
200611material ozaki
 
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)
 
第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)第12回 配信講義 計算科学技術特論B(2022)
第12回 配信講義 計算科学技術特論B(2022)
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
 
『自由エネルギー原理入門』勉強会1章&2章前半
『自由エネルギー原理入門』勉強会1章&2章前半『自由エネルギー原理入門』勉強会1章&2章前半
『自由エネルギー原理入門』勉強会1章&2章前半
 
アプリケーションの性能最適化1(高並列性能最適化)
アプリケーションの性能最適化1(高並列性能最適化)アプリケーションの性能最適化1(高並列性能最適化)
アプリケーションの性能最適化1(高並列性能最適化)
 
BERTology のススメ
BERTology のススメBERTology のススメ
BERTology のススメ
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)
 
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
CMSI計算科学技術特論A(14) 量子化学計算の大規模化1
 
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
CUDAのアセンブリ言語基礎のまとめ PTXとSASSの概説
 
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
Sparse Codingをなるべく数式を使わず理解する(PCAやICAとの関係)
 
第2回 配信講義 計算科学技術特論B(2022)
第2回 配信講義 計算科学技術特論B(2022)第2回 配信講義 計算科学技術特論B(2022)
第2回 配信講義 計算科学技術特論B(2022)
 

Similar a 第9回 配信講義 計算科学技術特論B(2022)

CMSI計算科学技術特論A (2015) 第15回 量子化学計算の大規模化2
CMSI計算科学技術特論A (2015) 第15回 量子化学計算の大規模化2CMSI計算科学技術特論A (2015) 第15回 量子化学計算の大規模化2
CMSI計算科学技術特論A (2015) 第15回 量子化学計算の大規模化2Computational Materials Science Initiative
 
200514material minami
200514material minami200514material minami
200514material minamiRCCSRENKEI
 
ppOpen-HPCコードを自動チューニングする言語ppOpen-ATの現状と新展開
ppOpen-HPCコードを自動チューニングする言語ppOpen-ATの現状と新展開ppOpen-HPCコードを自動チューニングする言語ppOpen-ATの現状と新展開
ppOpen-HPCコードを自動チューニングする言語ppOpen-ATの現状と新展開Takahiro Katagiri
 
有機ソフトクリスタルの弾性・光応答機構の解明
有機ソフトクリスタルの弾性・光応答機構の解明有機ソフトクリスタルの弾性・光応答機構の解明
有機ソフトクリスタルの弾性・光応答機構の解明Michio Katouda
 
有機ソフトクリスタルの弾性・光応答機構の解明
有機ソフトクリスタルの弾性・光応答機構の解明有機ソフトクリスタルの弾性・光応答機構の解明
有機ソフトクリスタルの弾性・光応答機構の解明Michio Katouda
 
Devsumi2010 Ecmascript5 (ISO/IEC JTC1/SC22)
Devsumi2010 Ecmascript5 (ISO/IEC JTC1/SC22)Devsumi2010 Ecmascript5 (ISO/IEC JTC1/SC22)
Devsumi2010 Ecmascript5 (ISO/IEC JTC1/SC22)takesako
 
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境智啓 出川
 
PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」
PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」
PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」PC Cluster Consortium
 
CMSI計算科学技術特論A (2015) 第14回 量子化学計算の大規模化1
CMSI計算科学技術特論A (2015) 第14回 量子化学計算の大規模化1CMSI計算科学技術特論A (2015) 第14回 量子化学計算の大規模化1
CMSI計算科学技術特論A (2015) 第14回 量子化学計算の大規模化1Computational Materials Science Initiative
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawaRCCSRENKEI
 
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...Toru Tamaki
 
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成MobileRoboticsResear
 
20141112宇宙科学技術連合講演会資料
20141112宇宙科学技術連合講演会資料20141112宇宙科学技術連合講演会資料
20141112宇宙科学技術連合講演会資料tottyiwata
 
El text.tokuron a(2019).ishimura190725
El text.tokuron a(2019).ishimura190725El text.tokuron a(2019).ishimura190725
El text.tokuron a(2019).ishimura190725RCCSRENKEI
 
200625material naruse
200625material naruse200625material naruse
200625material naruseRCCSRENKEI
 
畳み込みネットワークによる高次元信号復元と異分野融合への展開
畳み込みネットワークによる高次元信号復元と異分野融合への展開 畳み込みネットワークによる高次元信号復元と異分野融合への展開
畳み込みネットワークによる高次元信号復元と異分野融合への展開 Shogo Muramatsu
 
60分でわかるソケットプログラミング
60分でわかるソケットプログラミング60分でわかるソケットプログラミング
60分でわかるソケットプログラミングMasahiko Kimoto
 
名古屋大学スーパーコンピュータ不老のOpenFOAMベンチマークテスト
名古屋大学スーパーコンピュータ不老のOpenFOAMベンチマークテスト名古屋大学スーパーコンピュータ不老のOpenFOAMベンチマークテスト
名古屋大学スーパーコンピュータ不老のOpenFOAMベンチマークテストMasashi Imano
 
PSoC Powered Human Powered Airplane
PSoC Powered Human Powered AirplanePSoC Powered Human Powered Airplane
PSoC Powered Human Powered AirplaneHirakuTOIDA
 

Similar a 第9回 配信講義 計算科学技術特論B(2022) (20)

CMSI計算科学技術特論A (2015) 第15回 量子化学計算の大規模化2
CMSI計算科学技術特論A (2015) 第15回 量子化学計算の大規模化2CMSI計算科学技術特論A (2015) 第15回 量子化学計算の大規模化2
CMSI計算科学技術特論A (2015) 第15回 量子化学計算の大規模化2
 
200514material minami
200514material minami200514material minami
200514material minami
 
ppOpen-HPCコードを自動チューニングする言語ppOpen-ATの現状と新展開
ppOpen-HPCコードを自動チューニングする言語ppOpen-ATの現状と新展開ppOpen-HPCコードを自動チューニングする言語ppOpen-ATの現状と新展開
ppOpen-HPCコードを自動チューニングする言語ppOpen-ATの現状と新展開
 
有機ソフトクリスタルの弾性・光応答機構の解明
有機ソフトクリスタルの弾性・光応答機構の解明有機ソフトクリスタルの弾性・光応答機構の解明
有機ソフトクリスタルの弾性・光応答機構の解明
 
有機ソフトクリスタルの弾性・光応答機構の解明
有機ソフトクリスタルの弾性・光応答機構の解明有機ソフトクリスタルの弾性・光応答機構の解明
有機ソフトクリスタルの弾性・光応答機構の解明
 
Devsumi2010 Ecmascript5 (ISO/IEC JTC1/SC22)
Devsumi2010 Ecmascript5 (ISO/IEC JTC1/SC22)Devsumi2010 Ecmascript5 (ISO/IEC JTC1/SC22)
Devsumi2010 Ecmascript5 (ISO/IEC JTC1/SC22)
 
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
 
PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」
PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」
PCCC21:東京大学情報基盤センター 「『計算・データ・学習』融合によるスーパーコンピューティングの革新、そして東大センターのこれから」
 
CMSI計算科学技術特論A (2015) 第14回 量子化学計算の大規模化1
CMSI計算科学技術特論A (2015) 第14回 量子化学計算の大規模化1CMSI計算科学技術特論A (2015) 第14回 量子化学計算の大規模化1
CMSI計算科学技術特論A (2015) 第14回 量子化学計算の大規模化1
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawa
 
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
 
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
 
20141112宇宙科学技術連合講演会資料
20141112宇宙科学技術連合講演会資料20141112宇宙科学技術連合講演会資料
20141112宇宙科学技術連合講演会資料
 
El text.tokuron a(2019).ishimura190725
El text.tokuron a(2019).ishimura190725El text.tokuron a(2019).ishimura190725
El text.tokuron a(2019).ishimura190725
 
CMSI計算科学技術特論A (2015) 第9回
CMSI計算科学技術特論A (2015) 第9回CMSI計算科学技術特論A (2015) 第9回
CMSI計算科学技術特論A (2015) 第9回
 
200625material naruse
200625material naruse200625material naruse
200625material naruse
 
畳み込みネットワークによる高次元信号復元と異分野融合への展開
畳み込みネットワークによる高次元信号復元と異分野融合への展開 畳み込みネットワークによる高次元信号復元と異分野融合への展開
畳み込みネットワークによる高次元信号復元と異分野融合への展開
 
60分でわかるソケットプログラミング
60分でわかるソケットプログラミング60分でわかるソケットプログラミング
60分でわかるソケットプログラミング
 
名古屋大学スーパーコンピュータ不老のOpenFOAMベンチマークテスト
名古屋大学スーパーコンピュータ不老のOpenFOAMベンチマークテスト名古屋大学スーパーコンピュータ不老のOpenFOAMベンチマークテスト
名古屋大学スーパーコンピュータ不老のOpenFOAMベンチマークテスト
 
PSoC Powered Human Powered Airplane
PSoC Powered Human Powered AirplanePSoC Powered Human Powered Airplane
PSoC Powered Human Powered Airplane
 

Más de RCCSRENKEI

Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...RCCSRENKEI
 
Current status of the project "Toward a unified view of the universe: from la...
Current status of the project "Toward a unified view of the universe: from la...Current status of the project "Toward a unified view of the universe: from la...
Current status of the project "Toward a unified view of the universe: from la...RCCSRENKEI
 
Fugaku, the Successes and the Lessons Learned
Fugaku, the Successes and the Lessons LearnedFugaku, the Successes and the Lessons Learned
Fugaku, the Successes and the Lessons LearnedRCCSRENKEI
 
210603 yamamoto
210603 yamamoto210603 yamamoto
210603 yamamotoRCCSRENKEI
 
第15回 配信講義 計算科学技術特論A(2021)
第15回 配信講義 計算科学技術特論A(2021)第15回 配信講義 計算科学技術特論A(2021)
第15回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第12回 配信講義 計算科学技術特論A(2021)
第12回 配信講義 計算科学技術特論A(2021)第12回 配信講義 計算科学技術特論A(2021)
第12回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第13回 配信講義 計算科学技術特論A(2021)
第13回 配信講義 計算科学技術特論A(2021)第13回 配信講義 計算科学技術特論A(2021)
第13回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第11回 配信講義 計算科学技術特論A(2021)
第11回 配信講義 計算科学技術特論A(2021)第11回 配信講義 計算科学技術特論A(2021)
第11回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第9回 配信講義 計算科学技術特論A(2021)
第9回 配信講義 計算科学技術特論A(2021)第9回 配信講義 計算科学技術特論A(2021)
第9回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第6回 配信講義 計算科学技術特論A(2021)
第6回 配信講義 計算科学技術特論A(2021)第6回 配信講義 計算科学技術特論A(2021)
第6回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
第5回 配信講義 計算科学技術特論A(2021)
第5回 配信講義 計算科学技術特論A(2021)第5回 配信講義 計算科学技術特論A(2021)
第5回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
El.slide takada
El.slide takadaEl.slide takada
El.slide takadaRCCSRENKEI
 

Más de RCCSRENKEI (15)

Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
Realization of Innovative Light Energy Conversion Materials utilizing the Sup...
 
Current status of the project "Toward a unified view of the universe: from la...
Current status of the project "Toward a unified view of the universe: from la...Current status of the project "Toward a unified view of the universe: from la...
Current status of the project "Toward a unified view of the universe: from la...
 
Fugaku, the Successes and the Lessons Learned
Fugaku, the Successes and the Lessons LearnedFugaku, the Successes and the Lessons Learned
Fugaku, the Successes and the Lessons Learned
 
210603 yamamoto
210603 yamamoto210603 yamamoto
210603 yamamoto
 
第15回 配信講義 計算科学技術特論A(2021)
第15回 配信講義 計算科学技術特論A(2021)第15回 配信講義 計算科学技術特論A(2021)
第15回 配信講義 計算科学技術特論A(2021)
 
第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)
 
第12回 配信講義 計算科学技術特論A(2021)
第12回 配信講義 計算科学技術特論A(2021)第12回 配信講義 計算科学技術特論A(2021)
第12回 配信講義 計算科学技術特論A(2021)
 
第13回 配信講義 計算科学技術特論A(2021)
第13回 配信講義 計算科学技術特論A(2021)第13回 配信講義 計算科学技術特論A(2021)
第13回 配信講義 計算科学技術特論A(2021)
 
第11回 配信講義 計算科学技術特論A(2021)
第11回 配信講義 計算科学技術特論A(2021)第11回 配信講義 計算科学技術特論A(2021)
第11回 配信講義 計算科学技術特論A(2021)
 
第9回 配信講義 計算科学技術特論A(2021)
第9回 配信講義 計算科学技術特論A(2021)第9回 配信講義 計算科学技術特論A(2021)
第9回 配信講義 計算科学技術特論A(2021)
 
第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)
 
第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)第7回 配信講義 計算科学技術特論A(2021)
第7回 配信講義 計算科学技術特論A(2021)
 
第6回 配信講義 計算科学技術特論A(2021)
第6回 配信講義 計算科学技術特論A(2021)第6回 配信講義 計算科学技術特論A(2021)
第6回 配信講義 計算科学技術特論A(2021)
 
第5回 配信講義 計算科学技術特論A(2021)
第5回 配信講義 計算科学技術特論A(2021)第5回 配信講義 計算科学技術特論A(2021)
第5回 配信講義 計算科学技術特論A(2021)
 
El.slide takada
El.slide takadaEl.slide takada
El.slide takada
 

第9回 配信講義 計算科学技術特論B(2022)

  • 1. ABINIT-MPプログラムによる フラグメント分子軌道(FMO)計算2 配信講義 計算科学技術特論B(2022) - 2022/6/16 - #2 望月祐志 (立教大学理学部化学科) fullmoon@rikkyo.ac.jp 2022/6/14 1
  • 2. 2022/6/14 2 ◇ABINIT-MPプログラムの主たる共同開発作業者(敬称略) 中野達也&沖山佳生(国立衛生研)、坂倉耕太(FOCUS)、 佐藤伸哉&山本純一(NECソリューションイノベータ)、 渡邊啓正(HPCシステムズ)、奥脇弘次(立教大)、 石川岳志(鹿児島大)、山下勝美(元NECソフト)、 大島聡史&片桐孝洋(名古屋大) ◇研究支援 CISS/HPCIの4プロジェクト; 東大生研&文科省 / FY2002-2015 FS2020(ポスト京)プロジェクト; 東大&文科省 / FY2014-2019 CRESTプロジェクト(“田中FMO”); JST / FY2004-2009 科研費(“榊-特定領域”); 文科省 / FY2008-2009 科研費(基盤B:代表); 文科省 / FY2016-2018 SFR; 立教大 / FY2006-2007, 2010-2014, 2019-2020, 2022- 企業様との公益目的の共同研究&立教宛のご寄付 謝辞
  • 3. 2022/6/14 3 内容と流れ ・第一回(前回) フラグメント分子軌道(FMO)法の概要を基本的な式と処理の フローを交えて解説します。具体的には、ハートリーフォック(HF)、 2次および3次のメラープレセット摂動論(MP2,MP3)を取り上げ、 スパコンを使ったベンチマーク計算の事例もご紹介します。 ・第二回(今回) 先ず、テンソル縮約処理が支配的な高次相関計算の扱いに 触れます。次に、2020年度の試行的利用段階の「富岳」を使った 大規模計算の事例を新型コロナウイルスの関連タンパク質を例 にお示しします。最後に、高速化と超大規模系対応のプログラム 改修、「富岳」を使った応用計算やデータ解析例などの最近の トピックをお話します。
  • 4. 最近のFMO計算の発展をまとめた本 https://www.springer.com/gp/book/9789811592348 / ABINIT-MPはChap. 4 - Y. Mochizuki et al., “The ABINIT-MP Program”に記載 pp. 53-67. 2021年1月刊行 4 2022/6/14
  • 6. 2022/6/14 6 汎用高次相関モジュールの開発 Ref.; Y. Mochizuki et al., Theor. Chem. Acc. 130 (2011) 515. ・ MP3~CCSD(T)まで ・ ファイルIO無し ・ SM-OpenMP並列を前提 ・ テンソル縮約にDGEMMを多用 ・ ES2で高い性能
  • 7. 2022/6/14 7 0 ! 3 1 ! 2 1 1 | | 0 3 1 2 1 2 1 2 1 0                C a i T T T T T T E H 0 ! 4 1 ! 2 1 ! 3 1 ! 2 1 ! 2 1 1 | | 0 4 1 2 2 1 3 1 2 1 2 2 2 1 2 1 0                   C ab ij T T T T T T T T T T E H CCSD C E T T T E H              0 2 1 2 1 0 0 ! 2 1 1 | | 汎用高次相関モジュールの特徴 Initialize vectors ! MP1 amplitudes Grand loop until convergence Perform first EEO processing ! N6 cost - parallelized Perform second EEO processing ! N6 cost - parallelized Compute other necessary terms ! N5 cost - parallelized Perform k-loop processing ! N6 cost - parallelized Perform ij-loop processing ! N6 cost - parallelized Update amplitude vectors and evaluate correlation energy Judge convergence for breaking End of grand loop Summarize results ・ Kobayashiらの式を汎用化 ・ MP3~CCSD(T)までカバー ・ 共有メモリを前提 (OpenMP) ・ 複数の作業配列を使用 ・ BDも可能 (メモリ量を節約) ・ AO-MOの混成処理 (EEO) ・ DGEMMを多用した縮約演算 ・ N6ループを並列化 ・ (T)処理はN7ループ ・ MP1振幅を初期値 ・ DIISで反復を加速 CCSD Equation Ref.; R. Kobayashi et al., Chem. Phts. Lett. 265 (1997) 1. & G. E. Scuseria et al., J. Chem. Phys. 89 (1988) 7382. BD Ref.; N. C. Handy et al., Chem. Phys. Lett. 164 (1989) 185. / CCSD(T) Ref.; K. Ragavachari et al., Chem. Phys. Lett. 157 (1989) 479.      ) exp( 2 1 T T CCSD ・ 非線形の展開 ・ 4電子励起は2電子励起の”積” ・ 振幅に関する射影方程式を解く
  • 8. 2022/6/14 8 cd ij cd ab cd ab ij ab ij b             k a k b k ab cd t bd kc t kd ac bd ac b ) | ( ) | ( ) | (   cd cd ij d c ij c c              ij ij X ) | (        k a k kb ij b k ak ij ab ij ab ij ab ij t X t X X   b j a i ab ij ab ij t t t    MP3の処理と同様、(ac,bd)のリストを顕には行わないでFock様処理で済ます Prepare half-back-transformed (HBT) CC amplitude ! DGEMM Find largest elements of HBT CC for  list Loop over  AO-index quartet ! Parallelized Fock-like processing Screen (|) with proper threshold and check also maximum HBT CC Contract HBT CC amplitude and (|) to construct X-array ! DAXPY End of loop over  Transform X-array and add contributions to residual vector ! DGEMM            c k c j a k c j ab ij ab ij ab ij t t bc ik t bc ia P ) | ( ) | (         ji ba ij ab ij ab ab ij P   (ia|bc)も同様に処理 EEOの処理 Ref.; J. D. Watts, Para. Comp. 26 (2000) 857. / EEO = External Exchange Operator.
  • 9. 2022/6/14 9 c k b j a i abc ijk t jb ia t kc ia t kc jb V ) | ( ) | ( ) | (                  jki bca kij cab ikj acb kji cba jik bac ijk abc ijk abc abc ijk P       c b a k j i abc ijk D                       d l bc lk cd kj abc ijk abc ijk t jl ia t bd ia P W ) | ( ) | (         ijk abc c b a ijk bc ab ) 2 ( 3 1   (ia,bc)リストは(反復が終了しているので)メモリに置き、O3V4でコストで縮約する            ijk abc abc jik abc ikj abc kji abc jki abc kij abc ijk abc ijk abc ijk abc ijk T W W W W W W D V W E 4 4 3 1 ) ( W(i,j,k)abcの構築はabcの3重ループで並列化する 小さな基底でCCSD(T)までやって、MP2で大きな基底でやったエネルギーを補正する   SmallBasis MP BigBasis MP SmallBasis T CCSD BigBasis T CCSD E E E E / 2 / 2 / ) ( / ) (    (T)の処理 (T) equation Ref.; T. J. Lee et al., J. Phys. Chem. 94 (1990) 5463. / Extrapolation Ref.; P. Hobza et al., ChemPhysChem 10 (2009) 282.
  • 10. 2022/6/14 10 OpenMP (4 cores) ( Xeon (3.4 GHz) 4 cores, 32 GB SMP / 2008: OpenMP - MKL9.1 ) D.Guanosine / 6-31G** Min. MP4(SDQ) 218.0 CCD / #11 722.3 CEPA-1(SD) / #17 2004.2 QCISD / #13 1689.7 CCSD / #13 2167.1 MP4(SDTQ) 878.0 NB=350/ND=51/NV=280 Glucose / 6-31G** Min. MP4(SDQ) 36.7 CEPA-1(D) / #10 87.5 CCD / #10 102.9 CEPA-1(SD) / #13 267.3 QCISD / #11 242.3 CCSD / #11 360.0 MP4(SDTQ) 145.2 QCISD(T) / #11 350.8 CCSD(T) / #11 470.4 NB=240/ND=36/NV=192 Aspirin / 6-311G** Min. MP4(SDQ) 55.9 CCD / #11 176.8 QCISD / #13 445.6 CCSD / #13 652.4 MP4(SDTQ) 305.4 QCISD(T) / #13 703.0 CCSD(T) / #13 902.8 NB=295(6d)/ND=34/NV=248 Amantadine / 6-311G** Min. MP4(SDQ) 90.3 CCD / #10 235.5 MP4(SDTQ) 363.7 NB=311(6d)/ND=31/NV=269 (T)はそれほど重くない 4コアの1ノードでのテスト#1 Xeon Goldに比べて3倍程度は遅い
  • 11. 2022/6/14 11 ( Gly8: helix ) ( TrpCage: 20 res. ) ( Chignolin: 10 res. ) OpenMPの方が有利 (flat MPIも一応アリ) ( Crambin: 41 res. ) ( Xeon (3.4 GHz) 4 cores, 32 GB SMP, 2 nodes / 2008: MKL9.1 / OpenMP - MPI ) FMO-MP4(SDQ) benchmark Time in Min. Gly8 Chignolin Chignolin Basis 6-31G** 6-31G 6-31G* OMP - MPI / 4x2 54.8 559.2 2457.9 1.3 days 3.2 days FMO-CCD benchmark Time in Min. Gly8 Chignolin TrpCage Basis 6-31G** 6-31G 6-31G OMP - MPI / 4x2 159.1 1934.8 4566.8 1.7 days FMO-MP4(DQ) benchmark Time in Min. Gly8 Chignolin TrpCage Crambin Basis 6-31G** 6-31G 6-31G 6-31G MPI / 4 80.1 880.1 2704.5 N/T MPI / 4x2 41.5 (x 1.9) 526.6 (x 1.7) 1387.3 (x 2) 3599.1 OMP / 4 91.1 733.7 N/T N/T OMP - MPI / 4x2 48.3 (x 1.9) 419.6 (x 1.8) 1029.1 2609.0 (CCSD 727.2) 8コアの2ノードでのテスト#2
  • 12. 2022/6/14 12 HIV-1 Protease + Lopinavir #Atom 3225 (H 1662) #Basis (6-31G) 17423 #Fragment 203 (198 res.) #Electrons 11932 HF total energy -77589.3750 MP2 energy -155.3675 MP3 energy -159.0641 MP4(DQ) energy -162.0619 MP3 job time 15.4 hours MP4(DQ) job time 33.4 hours Xeon (3.33 GHz) 4x16 cores / 2008: MKL11.1. / OpenMP – MPI, only 16 GB SMP for 4 cores per node for OpenMP parallelization N1Neuraminidase + Oseltamivir #Atom 5792 (H 2809) #Basis (6-31G) 32549 #Fragment 378 (377 res.) #Electrons 22590 HF total energy -151962.8441 MP2 energy -297.4582 MP3 energy -302.6474 MP4(DQ) energy -308.2337 MP3 job time 41.5 hours MP4(DQ) job time 98.1 hours ← 6-31G* 54.4 hours 64コアの4ノードでのテスト (実タンパク質)
  • 13. 2022/6/14 13 ・ 200残基級の実タンパク質の高次相関計算は地球シミュレータでは容易に可能 ・ 摂動3電子励起計算は行列積演算DGEMM処理が主なので性能が出やすい 6-31G basis set Nodes Time Rel. TFLOPS Eff. (h) (%) HIV-1 FMO-MP2 64 0.16 1.0 1.24 2.36 FMO-MP2 [custom] 64 0.16 1.0 1.22 2.33 FMO-MP3 64 0.36 2.3 3.40 6.48 FMO-MP3 [custom] 64 0.37 2.3 2.82 5.38 FMO-MP4(DQ) 64 0.62 3.9 5.70 10.87 FMO-MP4(SDQ) 64 0.85 5.3 4.92 9.38 FMO-MP4(SDTQ) 64 3.51 21.9 13.05 24.89 FMO-CCD 64 2.90 18.1 6.15 11.72 FMO-QCISD 64 5.73 35.8 5.20 9.91 FMO-QCISD(T) 64 8.46 52.9 8.45 16.13 FMO-CCSD 64 7.82 48.9 4.41 8.40 FMO-CCSD(T) 64 9.83 61.4 7.75 14.78 ES2の上でのベンチマークテスト#1 Ref.; Y. Mochizuki et al., Theor. Chem. Acc. 130 (2011) 515. HIV Protease + Lopinavir
  • 14. 2022/6/14 14 CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0, & T2V_F(1,1,1,LC),NDOC2,BFI_VO(1,1,1),NVAC,1.0D0, & Q_IJK(1,1,1,6),NDOC2) CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0, & T2V_F(1,1,1,LC),NDOC2,BFI_VO(1,1,2),NVAC,1.0D0, & Q_IJK(1,1,1,4),NDOC2) CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0, & T2V_F(1,1,1,LA),NDOC2,BFI_VO(1,1,3),NVAC,1.0D0, & Q_IJK(1,1,1,2),NDOC2) CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0, & T2V_F(1,1,1,LB),NDOC2,BFI_VO(1,1,4),NVAC,1.0D0, & Q_IJK(1,1,1,3),NDOC2) CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0, & T2V_F(1,1,1,LB),NDOC2,BFI_VO(1,1,5),NVAC,1.0D0, & Q_IJK(1,1,1,1),NDOC2) CALL DGEMM('N','N',NDOC2,NDOC,NVAC,1.0D0, & T2V_F(1,1,1,LA),NDOC2,BFI_VO(1,1,6),NVAC,1.0D0, & Q_IJK(1,1,1,5),NDOC2) CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0, & T2V_F(1,1,LC,LB),NDOC,WAIJK(1,1,1,LA),NDOC,1.0D0, & Q_IJK(1,1,1,3),NDOC) CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0, & T2V_F(1,1,LC,LA),NDOC,WAIJK(1,1,1,LB),NDOC,1.0D0, & Q_IJK(1,1,1,5),NDOC) CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0, & T2V_F(1,1,LA,LB),NDOC,WAIJK(1,1,1,LC),NDOC,1.0D0, & Q_IJK(1,1,1,1),NDOC) CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0, & T2V_F(1,1,LB,LC),NDOC,WAIJK(1,1,1,LA),NDOC,1.0D0, & Q_IJK(1,1,1,6),NDOC) CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0, & T2V_F(1,1,LB,LA),NDOC,WAIJK(1,1,1,LC),NDOC,1.0D0, & Q_IJK(1,1,1,2),NDOC) CALL DGEMM('N','N',NDOC,NDOC2,NDOC,-1.0D0, & T2V_F(1,1,LA,LC),NDOC,WAIJK(1,1,1,LB),NDOC,1.0D0, & Q_IJK(1,1,1,4),NDOC) Kernel of (T) computations - O(N7) HIV-Protease @ 64 nodes execution / 6-31G basis * MP4(SDQ) energy = -164.3979 au MP4(SDTQ) energy = -170.2490 au * Job time of MP4(SDTQ) is 3.5 hours with 25% efficiency of peak speed! MP4(SDTQ)計算が実タンパク質でも可能に! Overall Data: ============= Real Time (sec) : 12634.080 User Time (sec) : 5648740.053 System Time (sec) : 4140.492 Vector Time (sec) : 5303545.691 GOPS (rel. to User Time) : 2520.845 GFLOPS (rel. to User Time) : 1867.293 GOPS (concurrent) : 17617.673 GFLOPS (concurrent) : 13050.130 Global Memory size used (GB): 8.000 Job-info for MP4(SDTQ) M P 3 M P 4(D Q ) M P 4(S D Q ) M P 4(S D TQ ) C C D Ti m e (M i n. ) 21. 5 37. 4 51. 0 210. 6 174. 3 G FLO P S 3399. 4 5696. 9 4920. 3 13050. 1 6146. 7 E f f i c.(% ) 6. 5 10. 9 9. 4 24. 9 11. 7 テンソル縮約計算をDGEMMで処理 ES2の上でのベンチマークテスト#2
  • 15. 2022/6/14 15 6-31G basis set Nodes Time Rel. TFLOPS Eff. (h) (%) NA FMO-MP4(SDQ) 64 2.86 4.26 8.13 FMO-MP4(SDTQ) 128 10.29 15.21 14.50 HA FMO-MP4(SDQ) 64 4.70 4.78 9.12 Trp127+His FMO-MP4(SDQ) 64 1.79 9.58 18.27 FMO-MP4(SDTQ) 128 7.06 40.46 38.59 ・ MP4(SDQ)が9百残基超えのインフルエンザHAでも計算可能に ・ (T)はDGEMM主体なので効率が大幅にアップ ・ Trp127HisモデルではMP4(SDTQ)レベルで38.6%の効率を達成 (2010年のES2の一般ユーザーでのベストパフォーマンス) ES2の上でのベンチマークテスト#3
  • 16. 2022/6/14 16 相互作用エネルギーの比較例#1 * 環状の水クラスター (6-31G**) * MP2の過大評価の傾向は明白 * MP3はむしろ過小評価 * MP2.5はMP3寄与を0.5倍した場合 * BDの大反復は3-5回程度 * BDの値はCCSDの値に近い、ただ メモリの要求はCCDと同じで済む * (T)の寄与は有意にある (kcal/mol) n = 2 n = 3 n = 4 n = 5 MP2 -7.2 -22.9 -38.3 -49.0 MP3 -6.8 -21.2 -35.4 -45.4 MP2.5 -7.0 -22.1 -36.8 -47.2 MP4(DQ) -6.6 -20.9 -34.8 -44.5 MP4(SDQ) -6.8 -21.3 -35.4 -45.3 MP4(SDTQ) -7.0 -22.2 -36.9 -47.1 CCSD -6.5 -20.9 -34.8 -44.6 CCSD(T) -6.8 -21.7 -36.2 -46.2 CCD -6.5 -20.5 -34.3 -43.9 BD -6.5 -20.8 -34.7 -44.4 BD(T) -6.8 -21.7 -36.2 -46.2 Cyclic conformers - MP2/6-31G** geometries (fc) Ref.; Y. Mochizuki et al., Theor. Chem. Acc. 130 (2011) 515. / MP2.5 Ref.; P. Hobza et al., ChemPhysChem 10 (2009) 282. Method E(Corr.) Time(m) Rel. Cost MP2 -7.34906 6.7 1.0 MP3 -7.51092 18.8 2.8 MP4(SDQ) -7.64507 54.3 8.1 MP4 -7.93837 224.7 33.5 CCD -7.54964 147.2 22.0 CCSD -7.62777 517.9 77.3 CCSD(T) -7.89865 691.7 103.2 QCISD -7.65727 400.5 59.8 QCISD(T) -7.90966 573.1 85.5 CEPA(SD) -7.70635 380.9 56.9 BD -7.60730 617.2 92.1 BD(T) -7.89490 785.1 117.2 * 6-31G*基底関数を使用、FMO2 * 4x5=20コアの2008年の小型クラスター * 実用的にはMP3ないしMP4(SDQ)まで * ECCSD=(EQCISD+EBD)/2の関係が成立 Ala9Gly Chignolin (誤差3kcal/mol) Method E(Corr.) Time(m) Rel. Cost MP2 -11.19437 59.5 1.0 MP3 -11.37180 453.6 7.6 MP4 -12.02832 11049.5 185.7 CCD -11.41029 5392.7 90.6 CEPA(SD) -10.27419 13142.1 220.9 (H2O)n
  • 17. 2022/6/14 17 Adenine (1A) Adenine (2A) Thymine (1’T) Thymine (2’T) IFIE (6-31G*(0.25)) in kcal/mol PairType HF (CP) MP2 (CP) MP3 MP2.5 (CP) CCSD(T) 2A-1A -1.85 (2.35) -16.85 (-7.77) -11.89 -14.37 (-5.60) -14.70 1’T-2’T 0.91 (4.64) -11.02 (-3.40) -8.12 -9.57 (-2.16) -9.95 2’T-2A -17.79 (-13.25) -24.88 (-16.22) -23.82 -24.35 (-15.95) -24.58 1’T-1A -16.70 (-12.50) -23.52 (-15.65) -22.44 -22.98 (-15.34) -23.23 1’T-2A -0.64 (1.55) -6.30 (-2.12) -5.15 -5.72 (-1.69) -6.06 2’T-1A -0.96 (-0.81) -1.60 (-1.37) -1.46 -1.53 (-1.32) -1.58 IFIE (6-31G*) in kcal/mol PairType HF (CP) MP2 (CP) MP3 MP2.5 (CP) CCSD(T) 2A-1A 1.70 (4.16) -7.96 (-3.68) -4.12 -6.04 (-1.97) -5.88 1’T-2’T 2.30 (4.54) -4.55 (-0.59) -2.62 -3.59 (0.21) -3.62 2’T-2A -13.57 (-11.05) -20.45 (-15.00) -18.96 -19.71 (-14.54) -20.03 1’T-1A -12.44 (-10.20) -18.71 (-13.81) -17.35 -18.03 (-13.40) -18.33 1’T-2A 0.61 (1.91) -2.93 (-0.65) -2.04 -2.48 (-0.31) -2.62 2’T-1A -0.83 (-0.74) -1.14 (-1.02) -1.06 -1.10 (-0.99) -1.11 相互作用エネルギーの比較例#2 Ref.; H. Yamada et al., Comp. Theor. Chem. 1101 (2017) 46. MP2.5の値はCCSD(T)に近い
  • 18. 2022/6/14 18 GPUによる加速の例 (NVIDIAさんによる試行) ・ ABINIT-MP組み込み前のモジュールをNVIDIAさんに提供 ・ (T)処理周りをGPU向けにチューニング (第一次試行) ・ 水のクラスター(6-31G**)でカーネルを性能評価 NVIDIAさんのレポートより転載 GPUの利用も意識していく必要がありそう 成瀬さん・古家さんらによる
  • 20. 退役直前の名大のFX100を使った計算(2020年2月) 2022/6/14 20 http://www.icts.nagoya-u.ac.jp/ja/sc/news/general/2020-03-30-general.html ChemRxiv - https://doi.org/10.26434/chemrxiv.11988120.v1 正式出版 - https://pubs.acs.org/doi/10.1021/acs.jcim.0c00283
  • 21. 2022/6/14 21 名大の旧FX-100を使って行ったFMO計算の論文 Ref.; R. Hatada et al., J. Chem. Info. Model. 60 (2020) 3593. ・ ChemRxiv公開時よりリファイン ・ PB計算で水和条件を考慮 ・ N3の非結合のケースも検討
  • 24. 2022/6/14 24 新型コロナPJでの「富岳」の利用方針 ■富岳の特徴 ・ ノードあたりで48コア、利用者プログラムで20GB超のメモリ空間にアクセス出来る ・ 圧倒的なノード数、ラック単位(384ノード)で10程度を要求するジョブも容易に可 ・ 端的に言えば「京」の100倍の計算力 ■多数の分子構造による統計的な評価 ・ capacity computing的な使い方 ・ 構造の揺らぎを古典動力学(MD)シミュレーションで取込み、それらにFMO計算を一括実施 ・ 静的な構造一つでの相互作用エネルギー評価と異なる動的な描像を取得可能 ・ 本プロジェクトではメインプロテアーゼ(Mpro)の解析を対象に ・ FMO-MP2/6-31G*レベル、1.7千フラグメント(水含む)、1構造で0.6時間(半ラック) ■高コストな3次摂動計算の実行 ・ capability computing的な使い方 ・ MP2よりも高コストのMP3を実用的に実行、Dimer-ES近似を連続多重極展開で高速処理 ・ スパイクタンパク質(3.3千フラグメント)を解析 ・ FMO-MP3/cc-pVDZレベル、クローズ型(6VXX)は3.4時間で完了(8ラック) ■「京」→「富岳」で実現していくこと ・ 多数サンプル構造の計算が容易に可能 → 結果の「リアリティ」の向上 ・ 機械学習やデータ科学との親和性 → ビッグデータの処理、物理化学的描像の自動演繹 ・ FMO-MP3計算の実用利用 → MP2.5スケーリングによる定量性の向上
  • 25. PIEDA計算の高速化 (Rev.20→Rev.22) ===================== ## TIME PROFILE ===================== Elapsed time: Monomer SCF = 523.8 seconds Elapsed time: Monomer MP2 = 20.0 seconds Elapsed time: Monomer (Total) = 547.4 seconds Elapsed time: Dimer ES = 392.1 seconds Elapsed time: Dimer SCF = 843.1 seconds Elapsed time: Dimer MP2 = 789.6 seconds Elapsed time: Dimer (Total) = 4255.2 seconds Elapsed time: FMO (Total) = 4802.7 seconds *** Write check point file (CPF) open1.0 rev10) *** WriteGeom = HIV-P.new2.cpf Write coordinate data: done ## Time profile Number of cores (total) = 64 Number of cores (fragment) = 1 THREADS (FRAGMENT) = 24 Total time = 4808.8 seconds ===================== ## TIME PROFILE ===================== Elapsed time: Monomer SCF = 524.2 seconds Elapsed time: Monomer MP2 = 20.2 seconds Elapsed time: Monomer (Total) = 548.0 seconds Elapsed time: Dimer ES = 394.4 seconds Elapsed time: Dimer SCF = 774.0 seconds Elapsed time: Dimer MP2 = 792.1 seconds Elapsed time: Dimer (Total) = 2092.5 seconds Elapsed time: FMO (Total) = 2640.5 seconds *** Write check point file (CPF) open1.0 rev10) *** WriteGeom = HIV-P.new2.cpf Write coordinate data: done ## Time profile Number of cores (total) = 64 Number of cores (fragment) = 1 THREADS (FRAGMENT) = 24 Total time = 2646.3 seconds Before After HIV-protease FMO-MP2/6-31G*/PIEDA 注記;「富岳」の環境は現在でも更新中であり、下記のタイミングは2020年4月当時での測定結果. April 2020 ・ 制御ループの見直し、Bcast呼び出しなどを改良 ・ ダイマー段階での「謎の時間」を大幅に削減 ・ 3千フラグメント級でも問題なくPIEDAが可能に 32 nodes 25 2022/6/14 坂倉氏 【富岳】
  • 26. メインプロテアーゼと阻害剤 Nelfinavir HIV-1 Protease (3EL5) HIV-1 Protease (6DJ1) Lopinavir N3 SARS-Cov-2 Mpro (6LU7) Nelfinavir Lopinavir EC50(μM) 1.13 5.73 bioRxiv (2020), https://doi.org/10.1101/2020.04.06.026476 Nelfinavir-Mpro系の全体図 26 メインプロテアーゼは増殖に関わる 2022/6/14
  • 27. 27 0 1 2 3 4 0 10 20 30 40 50 60 70 80 90 100 100ns 0ns 古典MDによる構造の揺らぎ(RMSD値) 水中1000構造からのサンプリング 2022/6/14 N3阻害剤はメインプロテアーゼのCys145と共有結合を形成する. MD実行は東工大のTSUBAME3.0で実行 / AMED枠 Mpro+N3阻害剤の構造サンプリング
  • 28. 28 IFIE (kcal/mol) Residues Cryst. MD 古典MDで1000構造をサンプルしてFMO-MP2/6-31G*(PR)レベルで計算 1構造あたり0.6時間 @ 「富岳」192ノード / 一斉投入で5時間で処理 Refs.; R. Hatada et al., Appl. Phys. Express 14 (2021) 027003. & S. Tanaka et al., J. Phys. Chem. B 125 (2021) 6501. PR-MP2 Ref.; C. E. Dykstra et al., Intern. J. Quant. Chem. 78 (2000) 226. 2022/6/14 Mpro+N3阻害剤の統計的相互作用解析 統計的相互作用解析の重要性が顕在化 395フラグメント(タンパク質:306) 【富岳】
  • 29. 29 100 1000 10000 100000 10 100 1000 10000 100000 Elapsed time [sec.] # hardware threads 6LU7 - FMO2-MP2/6-31G* - Elapsed time Xeon(Gold6248)x2 Oakforest-PACS(compact,cache) Fugaku FMO-MP2/6-31G*ジョブのスケーリング ・ PDB ID: 6LU7 = SARS-CoV-2 Mpro + N3 ligand の系 ・ MP2の積分変換は全てDGEMMで実行 ・ Dimer-ESのCMM近似は (>5のリージョンで使用) ・ 「富岳」はOakforest-PACSよりも2.8倍ほど速い Xeon; 40 cores OFP; up to 4608 cores Fugaku; up to 18432 cores September 2020 下記のタイミングはVer. 1 Rev. 22を使った2020年9月当時の測定結果. 2022/6/14 【富岳&OFP】
  • 31. Residue Name IFIE ES DI Asn142 -14.48±8.31→-26.96±8.40 -11.52±8.42→-27.70±10.76 -7.14±3.70→-12.79±3.78 Met165 -21.31±3.01 -16.12±2.70 -9.74±2.13 Glu166 -24.55±3.54 -26.11±2.96 -6.37±1.47 Gln189 -26.36±6.33 -23.00±7.36 -10.59±2.08 Gln189 Met165 Glu166 Asn142 Asn142 Glu166 Met165 Gln189 RMSD平均 3.55 RMSD分散 0.11 LigandのRMSD変化 ドッキングポーズ4 ドッキングポーズ4 (kcal/mol) CH/π 相互作用 CH/π 相互作用 水素結合 31 【OFP】 Mpro-ネルフィナビルの結果#2 2022/6/14
  • 32. 2022/6/14 32 RBDに変異が起きている「変異ウイルス」は、 ACE2との結合形態が野生型のSARS-CoV-2と異 なっている可能性がある 【感染の仕組み】 スパイクタンパク質のReceptor Binding Domain (RBD)ヒト のAngiotensin Converting Enzyme 2 (ACE2) 以上の2つのタンパク質同士が相互作用することで感染 脂質二重膜(E) RBD→ヒト受容体に結合 スパイク(S) 拡大 SARS-CoV-2 スパイク(S-)タンパク質
  • 33. S-タンパク質は1.1千残基のタンパク質鎖の3量体で構成 Closed構造はすべてのRBD領域が閉じている構造open構造はB (RBD) のみが開いた構造 S-タンパク質をRBD側から見た図 S-タンパク質を横から見た図 open構造 (6VYB) closed構造 (6VXX) open構造 (6VYB) closed構造 (6VXX) Chain A Chain B Chain C 色が濃い領域は各ChainにおけるRBD (Thr333-Pro527) 領域 クローズ構造とオープン構造 33 2022/6/14
  • 34. クローズ型(6VXX)のタイミング ===================== ## TIME PROFILE ===================== Elapsed time: Monomer SCF = 3885.7 seconds Elapsed time: Monomer MP3 = 280.6 seconds Elapsed time: Monomer (Total) = 4211.3 seconds Elapsed time: Dimer ES = 296.1 seconds Elapsed time: Dimer SCF = 763.6 seconds Elapsed time: Dimer MP3 = 5701.6 seconds Elapsed time: Dimer (Total) = 7907.9 seconds Elapsed time: FMO (Total) = 12119.1 seconds *** Write check point file (CPF) open1.0 rev10) *** WriteGeom = 6vxx_nonag-min0430_50k-mp3-ccpvdz.cpf Write coordinate data: done ## Time profile Number of cores (total) = 3072 Number of cores (fragment) = 1 THREADS (FRAGMENT) = 48 Total time = 12291.0 seconds ===================== ## TIME PROFILE ===================== Elapsed time: Monomer SCF = 3892.7 seconds Elapsed time: Monomer MP2 = 27.7 seconds Elapsed time: Monomer (Total) = 3965.3 seconds Elapsed time: Dimer ES = 282.4 seconds Elapsed time: Dimer SCF = 838.0 seconds Elapsed time: Dimer MP2 = 473.1 seconds Elapsed time: Dimer (Total) = 2001.4 seconds Elapsed time: FMO (Total) = 5966.6 seconds *** Write check point file (CPF) open1.0 rev10) *** WriteGeom = 6vxx_nonag-min0430_50k-mp2-ccpvdz.cpf Write coordinate data: done ## Time profile Number of cores (total) = 3072 Number of cores (fragment) = 1 THREADS (FRAGMENT) = 48 Total time = 6135.0 seconds FMO-MP2/cc-pVDZ FMO-MP3/cc-pVDZ ・ 総計では8ラックで3072プロセス×48スレッド、147,456コアを使用した超並列計算 ・ 1ノード/フラグメント条件で実行、エネルギー成分分析(PIEDA)はオン、CPF書き込み ・ MP2ジョブではモノマーSCF(HF)段階がジョブ時間の半分以上を占める ・ FMO-MP2に比してFMO-MP3の相対コストは2倍で済む → スパコン利用のメリット ・ Dimer-ESは連続多重極展開で近似 → 未使用では計算は不可 3.4時間 1.7時間 34 May 2020 【富岳】 2022/6/14 モノマーSCCのコストが目立つ Ref.; K. Akisawa et al., RSC Adv. 11 (2021) 3272,
  • 35. 35 Closed (6VXX) Open (6VYB) スパイクタンパク質の相互作用エネルギーの可視化 MP2.5/cc-pVDZレベル Chain-Bから見た図 2022/6/14 可視化はBioStation Viewerを64GBメモリのPCで利用して実行 【富岳】
  • 38. 38 -1732.0 -203.8 -842.5 -557.9 -2000 -1800 -1600 -1400 -1200 -1000 -800 -600 -400 -200 0 B (RBD) closed B (RBD) open RBD-ACE2 RBD-B38 Fab IFIE (kcal/mol) -1046.3 -761.7 60.0% 44.0% Open structure Spike RBD B38 Fab ACE2 11.8% エネルギー損失をACE2では60.0%B38抗体では44.0%まで回復可能 ACE2とB38抗体によるB (RBD)のエネルギー損失の補填 (MP3.5/cc-pVDZの値を使用) RBD-ACE2、RBD-B38抗体間の結合によってclosed構造のB (RBD)の何%まで回復可能か示した 60.0% 44.0% 基準 (100%) 11.8% スパイクタンパク質RBDのエネルギー損失の補填 2022/6/14 RBD-ACE2の複合体はPDB ID=6M0J、RBD-B38 Fab抗体の複合体はPDB ID=7BZ5. 【富岳&ITO Sub.A】
  • 39. RBD-B38 Fab RBD residues IFIE (kcal/mol) Asp420 -72.7 Lys417 -44.1 Asn487 -37.7 Gly476 -37.1 Arg403 -36.0 Asn501 -32.8 Tyr505 -32.5 Glu465 -24.2 Asp427 -23.4 Phe456 -23.3 RBD-ACE2間、RBD-B38抗体間で安定化の寄与が大きい RBD側の残基7 (MP3.5/cc-pVDZ) RBD-ACE2 RBD residues IFIE (kcal/mol) Lys417 -267.8 Arg403 -220.4 Arg408 -208.3 Lys444 -201.5 Arg509 -174.9 Lys378 -169.2 Arg457 -166.5 Arg454 -166.3 Lys458 -165.9 Arg346 -162.3 Lys417 Salt Bridge Lys417 Asp30 ACE2 αHelix S Protein RBD -119.3 kcal/mol RBD-ACE2間はすべて荷電性残基、RBD-B38抗体間は非荷電性残基も寄与が大きい ACE2とB38抗体では結合形態が異なる Lys417が最重要残基 150 kcal/mol以上の変化をした残基は赤、荷電性残基はオレンジで示した RBD-ACE2間の重要残基対 39 【富岳&ITO Sub.A】 2022/6/14
  • 40. 40 ・ N501Y変異によって、-40 kcal/mol程IFIEの安定化が増加 野生株(Asn501) B.1.1.7株(Tyr501) ACE2 RBD Asn501 Tyr501 -10 kcal/mol +10 kcal/mol ACE2のTyr41やLys353が N501Y変異で強く相互作用 N501Y B.1.1.7株-野生株のRBD側から見たΔIFIE 野生株-B.1.1.7株(N501Y)の比較 (俗称:英国株) 2022/6/14 Ref.; K. Akisawa et al., Jpn. J. Appl. Phys. 60 (2021) 090901. 【富岳】
  • 41. 41 Tyr501 Tyr44 Lys353 Asn501 Tyr44 Lys353 ACE2 Dist. IFIE ES EX CT DI Tyr44 3.2 -2.9 0.0 0.5 -1.4 -2.1 Lys353 2.9 -3.4 -0.1 0.6 -1.6 -2.4 Asp355 2.7 12.7 14.9 0.7 -1.5 -1.5 ACE2 Dist. IFIE ES EX CT DI Tyr44 2.5 -10.6 -7.4 5.2 -3.1 -5.4 Lys353 1.8 -23.9 -27.0 18.9 -7.4 -8.4 Asp355 2.7 6.0 8.2 0.6 -1.3 -1.5 ・ N501Y変異によって、Tyr44やLys353との相互作用が顕著に増加 B.1.1.7株(俗称:英国株)のN501Y変異の影響評価 野生株(Asn501) B.1.1.7株(Tyr501) 【Dist.:距離(Å) / IFIEをPIEDAで分割; ES:静電項、EX:交換反発項、CT項:電荷移動項、DI:相関補正項】 エネルギー (kcal/mol) 2022/6/14 【富岳】
  • 42. DI = LRD + Erest. 分散力 相関補正項 42 ・ Lys417のようなイオン性の結合は相関補正項が中心(LRD: 2~3割) ・ Tyr501-Tyr44のp/p、Tyr501-Lys353のようなCH/pのような相互作用 形態では分散力系の安定化(LRD)の寄与が大きい(LRD: 5~7割) イオン性の相互作用 Lys417-Asp30 LRD: 24.5% Erest : 75.5% p/p, CH/p相互作用 Tyr501-Tyr44 LRD: 70.3% Erest : 29.7% Tyr501-Lys353 LRD: 54.8% Erest : 45.2% (下側:RBD、上側:ACE2) RBD ACE2 B.1.1.7株(俗称:英国株)の相互作用の内訳 2022/6/14 【富岳】 LRD (Local Response Dispersion) Ref.; K. Sato et al., J. Chem. Phys. 131 (2009) 224104. PIEDA-LRD Ref.; Y. Akinagaga et al., to be submitted.
  • 43. 43 2022/6/14 【富岳】 Ref.; K. Okuwaki et al., Appl. Phys. Express 15 (2022) 017001. ① FMO計算により、三量体に含まれる すべてのアミノ酸残基間の2体間IFIEを算出 (FMO2-MP2.5/6-31G*レベル) ② 各鎖間の特異値分解(103 ×103) 3種 各鎖で重要な残基を算出 (上位10モードから10残基ずつ取得) ➡重複を含め、A鎖:63, B鎖:56, C鎖59残基抽出 ③ ②で抽出した各鎖の残基から 3体相互作用(3階テンソル)を生成 ※幾何平均 ④ ③で生成した3階テンソルをCP分解 (Tensorly モジュールを使用) (20モードで分解) 特徴残基を抽出 テンソル分解による解析
  • 44. 44 2022/6/14  Closed, Open量型の3体相互作用CP分解における、各モードの固有値 ・ SVD の固有値は 20 モードで非常に小さくなる ・ 20 モードの累積固有値和の約 3分の2 がおよそ10 モードで寄与 → 今回の検証では、両form、第1~第3モードで特徴づけられる残基を抽出 mode mode 固有値 固有値の分布 【富岳】
  • 45. 45 2022/6/14 【富岳】  Chain A残基詳細  各 Chain の特徴残基(固有値607) Glu1031, Arg1039, Lys1038, Asp1041 →A、B、Cの3本の鎖すべてで支配的 (Centerヘリックス、βヘアピンに属する) 荷電残基間の塩橋によって三量体構造 の安定性を保つのに必須 Close型の第二固有モードの例
  • 46. PDB ID 6ZGE 6WPS 6ZDH 6XCN 7A98 骨格構造 closed closed open open open 抗体/ACE2 無し S309Fab EY6AFab C105Fab ACE2 解像度(Å) 2.6 3.1 3.7 3.7 5.4 Fragment数 3399 4023 4680 4044 5184 構造補完 Yes Yes Yes Yes Yes MD緩和 AMBER (ff14SB)使用(クライオ電子顕微鏡由来構造で、解像度や欠損が多いため) その他 NAG 糖鎖を削除(構造緩和、Fragment分割のバラメータが存在しないため) より大型のモデルの計算 ・ 計算レベルはFMO-MP3/cc-pVDZまで (最大の系は5.2千フラグメント) ・ ピュアな分散力を評価するためLRD算定も併用して解析 (論文準備中) 46 2022/6/14 【富岳】
  • 47. 2022/6/14 47 高速化と大規模系への対応 (HPCI課題番号:jh210036-NAH, jh220010, hp210026, hp220025) 【A64FX向け整備/改良: 名大の片桐・大島研との共同研究+富士通SS研WG】 「不老」 「不老」 「富岳」 「富岳」 【SX-AT向け整備/改良: NEC-立教大の共同研究】
  • 48. 48 新型コロナの特別PJで認識したポイント ■プログラム改良の必要性 ・高速化と大規模化 ⇒ 多数のサンプル構造の扱い (Ver. 1 Rev. 22に比して数倍を目標) ⇒ 大型の水和モデルの扱い (水を含めて数万フラグメントを視野) ・想定プラットフォーム ⇒ 「富岳」を頂点とする富士通A64FX系のスパコン群 ⇒ NEC SX-Aurora TSUBASA (SX-AT)やIntel Xeonのスパコン群 ・GUI(BioStation Viewer)のサポートの打ち切り ⇒ 可視化用のみの配列を削除して大規模系に対応 ⇒ 機械学習/データ科学向けのデータの出力 (発展的代替) ・計算機科学の専門家とのコラボレーション ⇒ スパコンを活かすには量子化学/計算化学業界だけでは不十分 ⇒ 名大の片桐・大島グループとの連携、NECとの共同研究 ■HPCI拠点でのABINIT-MPのライブラリ整備 ・新規感染症発生時の対応 ⇒ 多数拠点で同時並行的に複数の研究者が解析 (「シン・ゴジラ」の例) ・スパコン毎の個性 ⇒ 目的・用途によって使い分け (FMO-MP2が基本) 2022/6/14 S-タンパク質を水和モデルで扱えなかった…
  • 49. 49 A64FXでのコスト分析 (FMO-MP2) 測定&まとめ:SS研 - 井上グループ(富士通株式会社コンピューティング事業本部計算科学事業部).  プログラム全体のコスト分布  基本プロファイラによるプロセス0番、スレッド0番のコスト分布  2電子積分処理が全体の約半分を占める ただし、81種の処理の総和であるため、 1種あたりのコストは1%前後と非常に小さい  通信に関連したコストは8%程度と小さい  性能改善に向けたソース分析は以下を対象とする  2電子積分  Direct SCF  リスト作成 2電子積分 53% Direct SCF 14% リスト作成 10% 通信関連 8% システム関連 6% その他 9% 2電子積分:81種のサブルーチン(sub_*)のコスト総和 Direct SCF:サブルーチンdirect_scf_gmatのコスト リスト作成:3種のサブルーチン(get_tei_rs_fix, get_tei_pq_fix, get_ixijcs_to_proc_pqfix)のコスト総和 通信関連:通信に関連した処理(putofu_*, opal_*, mca_*) のコスト総和 システム関連:ライブラリやOSなどに関連した処理のコスト総和 その他:上記以外の処理の総和 ・Ala9GlyのFMO-MP2/6-31G*のテストジョブ ・12スレッド8プロセス (2ノード実行:FX1000) 2022/6/14
  • 50. 50 改善の方向性(積分の生成)#1  改良指針(井上G@富士通の助言)  OCL指示詞の導入によるSIMD化の促進、一部スカラ変数化も必要  コンパイラオプションの変更  リファレンス  オリジナルコード、Ala9GlyのMP2ジョブ  2ノード実行、12スレッド(OpenMP)×8プロセス(MPI)  コンパイラオプション:-O3 -Knosimd -Koptmsg=2 –V  6-31G*//cc-pVZ: 153.0s/134.5s//337.4s/306.1s (MP2;AXPY/GEMM)  手動での最適化と結果(その1)  オリジナルコード+SSSS, PSSS, SPSS, SSPS, SSSP, PPSS, PSPS, PSSP, SPPS, SPSP, SSPP, DSSS, SDSS, SSDS, SSSD (スカラ変数化)  OCL指示詞の追加  コンパイラオプション:-O3 -Knosimd -Kocl  6-31G*//cc-pVZ:142.5s/124.5s(7.4%)//294.4s/254.0s(17.0%) (cc-pVDZの場合、オリジナルコードと比較して全体で17.0%の高速化) (kfastオプションの指定によってさらに高速化される可能性あり) MP2は全段DGEMMで処理の方がベター. 【不老 Type I】 2022/6/14
  • 51. 51 改善の方向性(積分の生成)#2  手動での最適化と結果(その2)  コンパイラオプション:-Kfast-Knosimd -Kocl  6-31G*/cc-pVZ:116.2s(24.1%)/239.6s(29.0%)(DGEMMで4段のみ)  6-31G*/cc-pVZ:78.3s(48.8%)/165.1s(51.1%)(Buffered direct SCF) (Ala9Glyの例では、オリジナル状態と比較して全体で2倍の高速化)  補足説明  Buffered direct SCFでは生成した2電子積分を可能な限りメモリに保持 (積分計算の回数/個数を減らす直截なアプローチ)  MP2ではバッファするよりも積分変換用の作業配列に割り当てるべき  次期リリースのVer. 2 Rev. 4では本バッファ機能を導入  追加ベンチマーク  Chignolin(10残基); 24スレ/16プロで1415.0s→869.2sで38.6%の効果  1EO8水和モデル(5千フラグ)では効果が減少 (モノマーSCCがネック) 【不老 Type I】 積分のバッファリングは大きなアミノ酸を含む実タンパク質では難しくなる(隠しオプション). 2022/6/14
  • 52. 52 SIMD化した積分ルーチンの例 subroutine sub_sssp(zetam,pm,dkabm,etam,qm,dkcdm, & ma,mb,mc,md,ngij,ngkl,a,b,c,d,sint,tv) ! ! Nov.05,'02 ! T.NAKANO & Y. ABE ! use constant use auxiliary_integral_table use integral_parameter implicit none real(8),intent(in)::zetam(*),pm(3,*),dkabm(*), & etam(*),qm(3,*),dkcdm(*) integer,intent(in)::ma,mb,mc,md,ngij,ngkl real(8),intent(in)::a(3),b(3),c(3),d(3),tv real(8),intent(out)::sint(*) !---------------------------------------------- integer npq,nrs,ix real(8) p(3),q(3),qd(3),pq(3),wq(3),f(0:max_m), & dkab,zeta,dkcd,eta,ze,rz,re,rho,a0,tt integer ts,i,j,k,l,m real(8) delta,t_inv real(8) ssss(0:1),f0,f1,qd1,qd2,qd3,wq1,wq2,wq3 sint(1:3) = 0.0_8 !ocl eval !ocl fp_relaxed !ocl fp_contract !ocl noswp !ocl eval_concurrent !ocl SIMD do npq=1,ngij if (abs(dkabm(npq)) > tv) then do nrs=1,ngkl if (abs(dkabm(npq)*dkcdm(nrs)) > tv) then ze = 1.0_8/(zetam(npq)+etam(nrs)) a0 = dkabm(npq)*dkcdm(nrs)*sqrt(ze) rz = etam(nrs)*ze re = zetam(npq)*ze rho = zetam(npq)*rz do i=1,3 ! qd(i) = qm(i,nrs)-d(i) pq(i) = qm(i,nrs)-pm(i,npq) ! wq(i) =-re*pq(i) end do qd1 = qm(1,nrs)-d(1) qd2 = qm(2,nrs)-d(2) qd3 = qm(3,nrs)-d(3) wq1 =-re*pq(1) wq2 =-re*pq(2) wq3 =-re*pq(3) 以下、次頁 【不老 Type I】 改造; 中野氏(国立衛生研), 坂倉氏(FOCUS). 2022/6/14
  • 53. 53 SIMD化した積分ルーチンの例(続き) tt = (pq(1)*pq(1)+pq(2)*pq(2)+pq(3)*pq(3))*rho if (tt <= 38.0_8) then ! Tf = 2*m+36 (for m=1) ts = 0.5_8+tt*fmt_inv_step_size delta = ts*fmt_step_size-tt ! f(0) = ((fmt_table(3,ts)*inv6*delta & ! + fmt_table(2,ts)*inv2)*delta & ! + fmt_table(1,ts))*delta & ! + fmt_table(0,ts) ! f(1) = ((fmt_table(4,ts)*inv6*delta & ! + fmt_table(3,ts)*inv2)*delta & ! + fmt_table(2,ts))*delta & ! + fmt_table(1,ts) f0 = ((fmt_table(3,ts)*inv6*delta & + fmt_table(2,ts)*inv2)*delta & + fmt_table(1,ts))*delta & + fmt_table(0,ts) f1 = ((fmt_table(4,ts)*inv6*delta & + fmt_table(3,ts)*inv2)*delta & + fmt_table(2,ts))*delta & + fmt_table(1,ts) else t_inv = inv2/tt ! f(0) = sqrt(pi_over2*t_inv) ! f(1) = t_inv*f(0) f0 = sqrt(pi_over2*t_inv) f1 = t_inv*f0 end if !---------------------------------------------- ! ERI code generator Ver.20020228 ! 2002/02/28 ! T. Nakano ! ! (sssp) ! ! ssss(0:1)=f(0:1)*a0 ssss(0)=f0*a0 ssss(1)=f1*a0 ! do l=1, 3 ! sint(l) = sint(l)+qd(l)*ssss(0)+wq(l)*ssss(1) ! end do sint(1) = sint(1)+qd1*ssss(0)+wq1*ssss(1) sint(2) = sint(2)+qd2*ssss(0)+wq2*ssss(1) sint(3) = sint(3)+qd3*ssss(0)+wq3*ssss(1) !---------------------------------------------- end if end do end if end do end subroutine sub_sssp 【不老 Type I】 2022/6/14
  • 54. 54 Ver. 2 Rev. 4での速度向上の例#1 ===================== ## TIME PROFILE ===================== Elapsed time: Monomer SCF = 452.4 seconds Elapsed time: Monomer MP2 = 17.4 seconds Elapsed time: Monomer (Total) = 472.7 seconds Elapsed time: Dimer ES = 99.7 seconds Elapsed time: Dimer SCF = 278.6 seconds Elapsed time: Dimer MP2 = 269.1 seconds Elapsed time: Dimer (Total) = 695.3 seconds Elapsed time: FMO (Total) = 1168.0 seconds ## Time profile Number of cores (total) = 200 Number of cores (fragment) = 1 THREADS (FRAGMENT) = 24 Total time = 1172.8 seconds ===================== ## TIME PROFILE ===================== Elapsed time: Monomer SCF = 354.7 seconds Elapsed time: Monomer MP2 = 16.0 seconds Elapsed time: Monomer (Total) = 373.4 seconds Elapsed time: Dimer ES = 109.5 seconds Elapsed time: Dimer SCF = 221.7 seconds Elapsed time: Dimer MP2 = 242.4 seconds Elapsed time: Dimer (Total) = 673.4 seconds Elapsed time: FMO (Total) = 1046.8 seconds ## Time profile Number of cores (total) = 200 Number of cores (fragment) = 1 THREADS (FRAGMENT) = 24 Total time = 1050.2 seconds Ver. 1 Rev. 22 Ver. 2 Rev. 4 ・ Ver. 2 Rev. 4はA64FX向け積分SIMD化、「不要配列」の整理などを反映済み ・ より大型の系ではMP2ジョブで2-5割程度の速度向上 ・ cc-pVDZの方が短縮長が長いために加速効果が出やすい (他系でも評価) 【富岳】 HIV-1 protease / FMO-MP2/6-31G* / Benchmark 100 nodes @ Fugaku 2022/6/14 {jh210036-NAH, jh220010}; “FMO プログラム ABINIT-MP の高速化と超大規模系への対応”の成果.
  • 55. 55 ===================== ## TIME PROFILE ===================== Elapsed time: Monomer SCF = 2028.7 seconds Elapsed time: Monomer MP2 = 15.0 seconds Elapsed time: Monomer (Total) = 2068.6 seconds Elapsed time: Dimer ES = 353.9 seconds Elapsed time: Dimer SCF = 362.4 seconds Elapsed time: Dimer MP2 = 302.6 seconds Elapsed time: Dimer (Total) = 1603.4 seconds Elapsed time: FMO (Total) = 3672.1 seconds ## Time profile Number of cores (total) = 3072 Number of cores (fragment) = 1 THREADS (FRAGMENT) = 48 Total time = 3759.3 seconds ===================== ## TIME PROFILE ===================== Elapsed time: Monomer SCF = 1801.6 seconds Elapsed time: Monomer MP2 = 14.2 seconds Elapsed time: Monomer (Total) = 1839.1 seconds Elapsed time: Dimer ES = 314.2 seconds Elapsed time: Dimer SCF = 335.7 seconds Elapsed time: Dimer MP2 = 294.6 seconds Elapsed time: Dimer (Total) = 1188.5 seconds Elapsed time: FMO (Total) = 3027.7 seconds ## Time profile Number of cores (total) = 3072 Number of cores (fragment) = 1 THREADS (FRAGMENT) = 48 Total time = 3090.8 seconds Ver. 1 Rev. 22 Ver. 2 Rev. 4 6VXX / FMO-MP2/6-31G* / Benchmark 8 racks @ Fugaku 2020年9月版 - http://www.cenav.org/abinit-mp-open_ver-2-rev-4/ ・ Ver. 2 Rev. 4はA64FX向け積分SIMD化、「不要配列」の整理などを反映済み ・ 対Ver. 1 Rev.22で1.2倍の加速 (cc-pVDZ; 8769.9秒→6356.6秒で1.4倍) 2022/6/14 【富岳】 Ver. 2 Rev. 4での速度向上の例#2
  • 56. 56 超大規模系への対応 (Ver. 2 Rev. 4) ===================== ## TIME PROFILE ===================== Elapsed time: Monomer SCF = 14546.6 seconds Elapsed time: Monomer MP2 = 32.5 seconds Elapsed time: Monomer (Total) = 14741.5 seconds Elapsed time: Dimer ES = 4021.8 seconds Elapsed time: Dimer SCF = 7215.9 seconds Elapsed time: Dimer MP2 = 2492.4 seconds Elapsed time: Dimer (Total) = 18240.6 seconds Elapsed time: FMO (Total) = 32982.1 seconds ## Time profile Number of cores (total) = 384 Number of cores (fragment) = 1 THREADS (FRAGMENT) = 48 Total time = 33120.9 seconds ・インフルHA+Fab抗体×2(PDB id: 1KEN)の水和モデル ・フラグメント総数は11307、水と対イオンを含む ・「不老」の1ラック、FMO-MP2/cc-pVDZは9.2時間で完走 ・「富岳」の8ラック、FMO-MP3/cc-pVDZは6.7時間で完走 ・FMO-MP2ではモノマーSCCが半分弱のコスト ⇒ 要対応 ・ダイマー部分で「謎の時間」が顕在化 ⇒ 要対応 ・水クラスターでは2万フラグメントのMP2ジョブも完走確認 「不老」-2021年6月時点 【不老 Type I&富岳】 ===================== ## TIME PROFILE ===================== Elapsed time: Monomer SCF = 7114.0 seconds Elapsed time: Monomer MP3 = 343.1 seconds Elapsed time: Monomer (Total) = 7532.4 seconds Elapsed time: Dimer ES = 534.8 seconds Elapsed time: Dimer SCF = 891.4 seconds Elapsed time: Dimer MP3 = 4265.7 seconds Elapsed time: Dimer (Total) = 16306.3 seconds Elapsed time: FMO (Total) = 23838.7 seconds ## Time profile Number of cores (total) = 3072 Number of cores (fragment) = 1 THREADS (FRAGMENT) = 48 Total time = 24203.2 seconds 「富岳」-2021年9月時点 GUI向け配列の削除; 中野氏. 従前の2倍の系が計算可能に 2022/6/14
  • 57. 57 Fock行列周りの改善  改良指針(井上G@富士通の助言)  14個のIF分岐(添字の同値性判断)が最適化を阻害、アクセスも不連続に  手動での最適化と結果  基底関数添字の同値性を(1/2)n (n=1,2,3)で繰り込み  IF制御は積分閾値の篩い落としのみ  この箇所のみで30%の加速  修正組み込みは作業版で利用中 (全体の高速化では1.5倍)  対角化(今後対応)  LAPACKルーチンを利用  正準直交化を導入 (線形従属性問題も回避) do p=ixi1,ixi2 do q=ixj1,ixj2 do r=ixk1,ixk2 do s=ixl1,ixl2 ix=ix+1 val = sint(ix) if((abs(val) <= tv)) cycle fock(q,p)=fock(q,p)+dc(s,r)*val*2.d0!クーロン項 fock(s,r)=fock(s,r)+dc(q,p)*val*2.d0 fock(r,p)=fock(r,p)-dc(s,q)*val*0.5d0!交換項 fock(s,p)=fock(s,p)-dc(r,q)*val*0.5d0 fock(r,q)=fock(r,q)-dc(s,p)*val*0.5d0 fock(s,q)=fock(s,q)-dc(r,p)*val*0.5d0 end do end do end do end do 【不老 Type I】 改造; 坂倉氏, 中野氏. 最新の作業版では従前比で速度1.7倍超を達成 2022/6/14
  • 58. 58 SX-ATでの高速化検討 FREQUENCY EXCLUSIVE AVER.TIME MOPS MFLOPS V.OP AVER. VECTOR L1CACHE CPU PORT VLD LLC PROC.NAME TIME[sec]( % ) [msec] RATIO V.LEN TIME MISS CONF HIT E.% 115509 28.156( 1.9) 0.244 8753.8 1780.0 93.79 140.9 22.222 1.793 0.176 89.69 SUB_SPDD_VEC 44572 23.961( 1.6) 0.538 13049.2 2215.9 96.18 81.7 21.151 2.272 0.168 71.50 SUB_PPDD_VEC 44570 22.496( 1.5) 0.505 11357.7 3871.5 95.38 80.9 21.914 0.486 0.319 87.22 SUB_PPPD_VEC 72046 19.937( 1.3) 0.277 8808.4 1573.0 95.14 135.5 16.704 1.042 0.094 90.63 SUB_PSDD_VEC 44572 17.893( 1.2) 0.401 13296.7 4683.0 94.51 70.9 17.303 0.492 0.365 91.97 SUB_PPDP_VEC 20596 17.552( 1.2) 0.852 10086.4 3072.7 94.05 67.5 17.216 0.275 0.316 76.85 SUB_DPPD_VEC 132456 16.509( 1.1) 0.125 38728.8 24039.6 98.13 169.7 15.512 0.715 1.012 87.66 SUB_SPSS_VEC 211623 15.423( 1.0) 0.073 7188.4 2189.9 93.94 53.9 14.290 0.892 0.110 92.91 SUB_SSDD_VEC 20938 15.347( 1.0) 0.733 10936.1 3432.7 92.99 59.1 15.027 0.261 0.367 83.04 SUB_DPDP_VEC 240613 14.710( 1.0) 0.061 65161.6 47588.0 98.53 208.8 13.330 0.788 0.372 82.38 SUB_SSSS_VEC  SX-ATでのプロファイル  2電子積分の生成がジョブコストの半分を占める (A64FXの場合と同様)  改良方針  小原の漸化式アルゴリズムは最深ループの処理が重い (以前のベクトル型スパコンでは「これ」でもよかった…)  レジスタスピルの発生が考えられるため、手動でループを分割する  角運動量が大きくなる組み合わせが対象 (検討した10ルーチン) 【SX-AT】 解析と改造; 佐藤氏(NECソリューションイノベータ), 坂倉氏. Ver. 1 Rev. 22を対象 2022/6/14
  • 59. 59 ループ分割を検討した積分生成ルーチン群 71: +------> do npq=1,ngij 72: | if (abs(dkabm(npq)) > tv) then 73: | zeta2 = 0.5_8/zetam(npq) 74: | !CDIR UNROLL=3 75: | !NEC$ unroll(3) 76: |*-----> do i=1,3 77: || pa(i) = pm(i,npq)-a(i) 78: || pb(i) = pm(i,npq)-b(i) 79: |*----- end do 81: |V-----> do klrs=1,ngklrs 82: || ! if (abs(dkabm(npq)*dkcdm(klrs)) > tv) then 83: || ze = 1.0_8/(zetam(npq)+etam(klrs)) 84: || a0 = dkabm(npq)*dkcdm(klrs)*sqrt(ze) 85: || eta2 = 0.5_8/etam(klrs) 86: || ze2 = 0.5_8*ze 分割したループ部分抜粋 FREQUENCY EXCLUSIVE AVER.TIME MOPS MFLOPS V.OP AVER. VECTOR L1CACHE CPU PORT VLD LLC PROC.NAME TIME[sec]( % ) [msec] RATIO V.LEN TIME MISS CONF HIT E.% 232314 186.872( 1.5) 0.804 9184.1 1451.1 96.84 87.8 183.535 2.590 0.856 82.65 SUB_PPDD_VEC★最適化前 232314 63.264( 0.5) 0.272 15415.9 4554.4 94.29 48.6 56.998 4.577 0.857 90.67 SUB_PPDD_VEC★最適化後 SUB_PPDD_VEC ・SPDD, PPPD, PSDD, PPDP, DPPD, SPSS, DPDP: ループ分割 ・PPDD: ループ分割の見直しを行い更に高速化 ・SSDD: 分割せずに1次元的に使用される配列を変数化して高速化 ・SSSS: ループがシンプルかつ小規模のために今回は見送り 【SX-AT】 2022/6/14
  • 60. 60 改良後の性能評価 6LU7/mpi-des 並列数/node nodes or VEs 実行時間 [sec] TFLOPS 実効効率 Xeon (Gold 6248) 10mpi*4smp 1 31270.4 0.191 5.96% Xeon (Gold 6248) 40mpi 1 32197.9 0.185 5.79% Xeon (Gold 6154) 9mpi*4smp 32 1699.0 3.512 3.18% Xeon (Gold 6154) 36mpi 32 1682.0 3.548 3.21% 「富岳」 2mpi*24smp 32 3542.5 1.684 1.56% 「富岳」 2mpi*24smp 64 2179.3 2.738 1.27% 「富岳」 2mpi*24smp 192 1091.7 5.466 0.84% Aurora (10AE) 8mpi 32 2478.2 2.408 3.50% Aurora (10AE) 8mpi 64 1427.5 4.180 3.04% Aurora (20B) 8mpi 32 2349.9 2.539 3.24% Aurora (20B) 8mpi 64 1352.4 4.412 2.81% 新型コロナウイルスのメインプロテアーゼ+N3リガンドのFMO-MP2/6-31G*ジョブ ・ SX-Auroraの10AE/64VEの改良前 6533.6 s → 1427.5 s に短縮 (加速4.6倍) ・ 「富岳」、Xeonのデータは「素のVer. 1 Rev. 22」を使っての結果 ・ Xeon(Gold 6248)は望月研の1ノードサーバでの測定 ・ Xeon(Gold 6154)は九大ITO Subsystem-Aで測定 ・ ベクトル版を含めて性能向上の改良は途上… (Ver. 2 Rev. 4のベクトル化中) 【SX-AT】 測定; 佐藤氏, 望月. 2022/6/14
  • 61. 2022/6/14 61 「富岳」時代のFMO計算 (HPCI課題番号: hp210026, hp220025, hp210261) 「富岳」 「富岳」 「富岳」
  • 62. 62 MD軌跡からの多構造サンプルの一括処理 【富岳】 2022/6/14 {hp210026, hp220025}; “新規感染症のための計算科学的解析環境の整備” * MD由来の多サンプルの液滴構造の扱い * 新型コロナウイルスのRBD-ACE2系 * インフルエンザウイルスのHA(3)-Fab系 * 処理は準自動的、解析もスクリプト処理
  • 63. 2022/6/14 63 新型コロナ変異株RBD-ACE2複合体の計算 【富岳】 Wild Type Delta Omicron Alpha 黄緑:結合界面(平均4Å以下) 赤色:変異箇所(界面の外側) 黄色:変異箇所(界面) GROMACSを使ったMDシミュレーションは慶應大の泰岡グループによる. / OmicronのRBD部はAlphaFold2を援用してモデリング.
  • 64. 64 RBD-ACE2間のIFIE和の時間変化 Ref.; K. Akisawa et al., to be submitted. 2022/6/14 Wild Type Alpha Delta Omicron 【富岳】
  • 65. 2022/6/14 65 インフルエンザHAとFab抗体の「再計算」 【富岳】 Ref.; S. Kitahara et al., to be submitted. 前報告(J. Phys. Chem. 113 (2009) 4991)の検証という位置づけ Fab HA ・ Asp63@HA – Arg94@Fabの相互作用は静的構造では強調され過ぎ ・ Glu82@HA – Arg98@Fabも同様 ・ 変異箇所の同定に関しては前報告とほぼ同様の結果に
  • 66. 2022/6/14 66 HA-Fab界面における水和の影響例 【富岳】 ・ Asp63@HA – Arg94@Fabを例に水和の影響を評価 ・ 界面の水が残基間相互作用に影響を与えることを確認 Arg94 Tyr102 Asp63 His75 Phe100A
  • 67. 2022/6/14 67 AlphaFold2の論文 (2021/7/15) AlphaGoで高名なDeepMind社による Ref.; J. Jumper et al., Nature 596 (2021) 583. 畳み込み問題は 半世紀の難問 FASTA形式の残基シークエンスから立体構造を予測
  • 68. 2022/6/14 68 名大の「不老」でのAlphaFold2の公開 更新の告知; https://icts.nagoya-u.ac.jp/ja/sc/news/maintenance/2022-01-28-alphafold.html 2022年2月から商用利用も可能に (2022年2月2日に更新掲載) 最初の告知; https://icts.nagoya-u.ac.jp/ja/sc/news/maintenance/2021-11-11-alphafold.html 【不老 Type II】 大島先生(名大)・森脇先生(東大)による AlphaFold2による構造の構築が普及しそう
  • 69. 2022/6/14 69 タンパク質-複数リガンドの相互作用解析の例#1 女性ホルモン Estradiol (1ERE) (1X7E) (1X7R) (2QA6) (2QZO) (3ERD) (3UU7) (3Q95) (3HM1) 名前が長いため(Estradiol以外PDBIDで表記) 1EREにおけるERとリガンド (緑 : ER 紫 : リガンド) Ref.; R. Hatada et al., to be submitted. 各リガンドの複合体にMDを実施して構造サンプルを調製、Tucker分解で解析
  • 71. 71 ■TrpCage ・ 20個のアミノ酸残基、人造タンパク質 ・ Trpを囲む籠型のコア、π/πとCH/π相作用が重要 一段進んだ実用テストに向く ■計算スキーム ・ 前二つと同様のMD&FMO計算 ・ 残基間のIFIE値は171個 ■実計算値と予測値 ・ カテゴリ毎に25サンプルの予測値を評価 ・ 良相関の荷電-荷電は実用性アリ ・ 荷電-非荷電はまずまず ・ 非荷電-非荷電は改良の余地大 ⇒ 記述子を増やすなど ⇒ 回帰手法の再選択 「構造だけから相互作用を予測出来る場」合もアリ 予測値 実 測 値 Arg16(+)-Lys8(+) Ref.; 望月ら, J. Comp. Chem. Jpn. 16 (2017) 119. 2022/6/14 残基間のIFIEの予測例#1
  • 72. 72 Calculated Predicted formalchgGM 0.741 npachgGM 0.733 respchgGM 0.650 cnohdistmin 0.126 cnocnodistmin 0.122 vdwdist 0.120 hhdistmin 0.112 hhdistmax 0.112 comdist 0.119 cnocnodistmax 0.110 cnohdistmax 0.109 momentAM 0.045 weighAM -0.033 momentGM -0.021 polarAM -0.021 polarGM -0.016 copdistnpa 0.004 copdistresp 0.004 Linear Reg. Lasso Random Forest SVR 57.4% 57.4% 98.6% 92.9% Ubiqutin (all residue pairs; 55500) 大量のFMOデータを生成して学習させ、「実計算無し」で予測することも視野に 2022/6/14 残基間のIFIEの予測例#2 Ref.; R. Hatada et al., to be submitted.
  • 73. 気象シミュレーションの結果を深層学習で解析 #1 Ref.; SC18 Gordon Bell Prize; <https://arxiv.org/abs/1810.01993>. 73 2022/6/14 計算結果を一旦可視化して、深層学習で「異常部分」を検出
  • 75. 75 aヘリックス構造 bシート構造 両方の構造 2022/6/14 IFIE-mapからタンパク質構造を判定 Ref.; S. Saitou et al., Chem-Bio Inform. J. 18 (2018) 58. / IFIE-map Ref.; I. Kurisaki et al., BioPhys. Chem. 130 (2006) 1.
  • 79. ・構造作成 ・ペア配置生成 ペア座標リスト(各2000配置) FMOの相互作用 エネルギーリスト ABINIT-MP 配向リスト Metropolis MC 配向情報の取得 ペア間平均相互作用(Eij ) 異方性の指標(Sf ) 𝝌(ZΔE×Sf/RT) 配置生成モジュール Z(配位数) ◆異方性の指標(Sf )の導入: ・特定の配向で強い相互作用を示す系:平均相互作用を過大評価 ・MC法採用配置の配向の偏りから相互作用をスケーリング ◆配置生成からパラメータ算出処理までの自動化 ⇒単純な二成分系の相転移臨界温度が実験と良好な一致 FMO計算に基づくパラメータ算定のワークフロー Ref.; K. Okuwaki et al., J. Phys. Chem. B, 122 (2018) 338. & 奥脇ら, J. Comp. Chem. Jpn., 17 (2018) 102. ワークフローを汎用システム化してリリース (名称はFCEWS) 79 2022/6/14
  • 80. Hexane - Nitrobenzene Diisobutyl ketone - Polyisobutylene Polyisoprene – Polystyrene Tc(K) Mw 𝜒𝑐 exptl. FMO 22700 0.57 292 328 285000 0.52 319 346 6000000 0.50 329 354 Tc(K) 𝜒𝑐 exptl. FMO 2.0 293 286 Mw Tc(K) pip ps 𝜒𝑐 exptl. FMO 1000 1000 0.34 243 255 2000 2700 ※0.15 329 420 2700 2100 0.15 408 420 2700 2700 0.12 448 489 実験値を10%程 の誤差で再現 ◇温度上昇: 𝜒が減少(一般的に) →相溶しやすく 臨界点(相が分離しなくなる閾値)の温度Tc: 実験と比較 χ𝑐 = ( 1 𝑛𝑎 + 1 𝑛𝑏 )2 2 𝑛𝑎, 𝑛𝑏=各成分の重合度 重合度: ポリマー分子量(Mw) セグメント分子量 ※理論値が実験値と非対応 臨界点𝜒 (χc ) -1.0 0.0 1.0 2.0 3.0 4.0 χ Temp Tc 2022/6/14 80 FMOによる算定値の検証
  • 81. POPC脂質膜へのFMO-DPDの応用#1 A B C D E F W 水を含めた7成分間、21ペアのパラメータ算定 ・溶媒効果(Poisson-Boltzmann)を取り入れた二分子モデル計算 ・計算レベル:FMO2-MP2-PB/6-31G†、各ペア2000配座 分子内を小分子に分割 ⇒ 「部品」として再利用可能 POPC:頭部にコリンを有する代表的なリン脂質 F E D D A B C A A A B B Ref.; H. Doi et al., Chem. Phys. Lett. 684 (2017) 427. 2022/6/14 6
  • 82. 各成分間のχ(300K) A B C D E F 脂質13%:ベシクル 脂質20%:膜 ⇒経験的パラメータなしで構造の再現 ・親水部(E,F,W)同士:親和性大 ・疎水部(A,B,C)同士:親和性大 ・親水部-疎水部:親和性小 傾向を再現 B C D E F W A -0.18 -0.23 1.39 4.75 4.76 12.08 B -0.61 0.71 5.46 5.81 12.66 C 1.18 4.81 5.74 10.56 D 1.99 -4.00 9.73 E 2.55 -6.64 F 6.00 親水部(E,F) 疎水部(A,B,C,D) ◇DPDシミュレーション[cognac, 約80000粒子(1辺21.3nm)] 82 2022/6/14 POPC脂質膜へのFMO-DPDの応用#2
  • 83. 観測条件 観測方法 結果 (Å2 ) 303K Diffuse X-ray scattering 68.3 [1] 293K neutron and X-ray scattering 62.7[2] 303K neutron and X-ray scattering 64.3 [2] 300 K DPD 69.4[3] 実測[4](H-NMR) 2.58 (nm) 疎水基の膜厚 2.8 (nm) 膜面積 膜厚 実験値をほぼ再現 83 2022/6/14 POPC脂質膜へのFMO-DPDの応用#3
  • 84. FMO-DPDによるChignolinのフォールディング Tyr Gly(C末) Gly(N末) Asp Pro Glu Thr Thr Trp Trp ・骨格はすべてGlyで表現 ・非結合ポテンシャル:各残基の小分子構造を 作成しFMO計算でパラメータ作成 ・結合ポテンシャル:1-2(bond), 1-3(angle), 1-4(torsion)ポテンシャルを定義 ・Trpは「大きさ2つ分」で表現 ・直線構造から程なくβヘアピン構造に ・同様の手法でα-シヌクレン(140残基)も成功 Ref.; K. Okuwaki et al., Appl. Phys. Express 13 (2020) 017002. 84 2022/6/14
  • 85. DPD結果 (約1000粒子) アフィン変換(体積拡大) 原子化 (約10000原子) MDによる緩和(NPT) FMO(IFIE解析) ◇DPD結果を再原子化し、FMO計算を行うスキームを確立 (DSRMS) Ref.; K. Okuwaki et al., to be submitted. リバースマッピング 2022/6/14 85
  • 87. 2022/6/14 87 有効パラメータ算定に「富岳」の計算力を活用 【富岳】 ■圧倒的なノード(コア)数 ・ セグメント対あたりで2千ショットのFMO計算 (機械学習による効率化も作業中) ・ 多成分系の算定を小規模サーバで行うと数週間~月の時間に ・ capacity computing文脈で大量ジョブをFCEWSで自動投入 ・ 中規模系なら(待ち行列が短ければ)数日内に完了 (FMO-MP2/6-31G(d’)レベル) ■産学連携のPJ(hp210261一般機動的課題:2021年11月からの1年間) ・ 立教大が主導、J社さんが幹事、4社(B社、T1社、T2社、N社)さんが参加 ・ 化学工学系でのFCEWS/FMO-DPDの普及を願って (下は電解質膜の解析例) ・ 半期で助走段階は終了、現在後期で各社さんが個別テーマに取り組み中 5 5 5 0.0 0.2 0.4 0.6 0.8 1.0 10 15 20 25 30 Water connectivity Water content (Vol%) Nafion(a) Nafion(b) Nafion(c) SPEEK A B C ナフィオン(上)とSPEEK(下) 水クラスターの連結度評価 Nafion FMO-DPD Ref.; K. Okuwaki et al., RSC Adv. 8 (2018) 34582.
  • 89. 2022/6/14 89 ABINIT-MPによるFMO計算 (その2) ◇高次相関計算 DGEMM主体のテンソル縮約処理が主、(T)はベンチマーク向け ◇新型コロナの特別PJ Mproでは統計的な相互作用評価、S-タンパク質ではタンパク間相互作用解析 高速化と大規模系対応の動機づけ ◇高速化と大規模系への対応 A64FX向けでは積分生成のSIMD化など、Ver. 1 Rev. 22比でMP2計算は1.7倍 インフルHA3量体の水和モデルで1.1万フラグメントをMP3で達成 SX-AT向けチューニングも並走 継続的な改良が今後も必用 (問題箇所が複数残存) ◇「富岳」時代のFMO計算 MD-FMO連携による統計的相互作用解析 計算結果の解析における機械学習やデータ科学の援用 FMO-DPDなどのマルチスケールシミュレーション 長時間のご聴講、ありがとうございました
  • 90. 2004年 2010年 核内受容体(ER) ~300残基 計算 電荷、溶媒効果 構造 PDB一点計算/ モデル埋戻し MP2(p-opt) 解析 IFIE CAFI FILM BSSE CCSD(T) 水和DNA 12塩基対+2500wtr インフルエンザHA 抗原抗体系~1000残基 ESP/RESP NPA MP2 インフルエンザNA タミフル~400残基 CIS/CIS(D) EGFR チロシンキナーゼ mFruits FMO4 2013年 FMO4-IFIE 2008年 インフルエンザHA3量体 抗原抗体系~2400残基 リガンド水和 10Å水和層 結晶-ペプチド複合系 ~(SiO2)250-6残基-水和 粗視化MD用 パラメータ ~数万サンプル CD 分子固体 ~千個単位 LRD 統計/ML 2015年 2020年 MP3 FMO-MD FMO-DPD MD生成 多構造 SCIFIE PB(SA) 大型液滴 SVD PIEDA Dimer-ES CMM 粗視化→原子復元構造 ~1万原子×サンプル数 新型コロナウイルス 抗原抗体系~5300残基 ABINIT-MPによるFMO計算のロードマップ 2022/6/14 90