Fftw誰得ガイド

桜庭　俊　＠　京大誰得 Twitter: @chunjp FFTW/genfftハッキングガイドThe hitchhacker’s guide to FFTW/genfft

FFTWて何 MIT で開発されたFFT(高速フーリエ変換)のライブラリ開発： MatteoFrigo & Steven G. Johnson その名も…… The Fastest Fourier Transform in the West （西洋最速のフーリエ変換）

ここが凄い Pen4, 2.8GHz Alpha, 833MHz 全てのCPUでベンダー提供のライブラリと拮抗（時に凌駕）するパフォーマンスを提供 From Proc. IEEE 93 (2), 216–231 (2005)

支えているのはOCaml! FFT専用コンパイラ “genfft” let reccooley_tukey sign n1 n2 input = let tmp1 = array n2 (fun i2 -> dft sign n1 (fun i1 -> input (i1 * n2 + i2))) in let tmp2 = array n1 (fun i1 -> array n2 (fun i2 -> exp n (sign * i1 * i2) @* tmp1 i2 i1)) in let tmp3 = array n1 (fun i1 -> dft sign n2 (tmp2 i1)) in (funi -> tmp3 (imod n1) (i / n1)) 固定サイズの問題に対し機械生成されたCコードを出力

生成コードの例 static void n1_5(const R *ri, const R *ii, R *ro, R *io, stride is, stride os, INT v, INT ivs, INT ovs) { … { E T2, T3, T5, T6; T2 = ri[WS(is, 1)]; T3 = ri[WS(is, 4)]; T5 = ri[WS(is, 2)]; T6 = ri[WS(is, 3)]; { E Tc, T4, T7, Td, Tf, Tg; Tc = ii[WS(is, 1)]; Ts = T2 - T3; T4 = T2 + T3; Tt = T5 - T6; T7 = T5 + T6; Td = ii[WS(is, 4)]; Tf = ii[WS(is, 2)];

今日のお題：genfftで遊ぶなぜ遊ぶのか？そこにコンパイラがあるからだ！こんな時におすすめ！金曜の夜に上司から「人生、宇宙すべての答えを月曜までに計算しておいて」と命令されたとき卒論のアブストで広げてしまった風呂敷をたたむために高速な数値計算カーネルが必要なとき TopCoder Marathonや現実逃避のお供に

genfft構造 and dft sign n input = let reccooley_tukey sign n1 n2 input = let tmp1 = array n2 (fun i2 -> dft sign n1 (fun i1 -> input (i1 * n2 + i2))) in let tmp2 = .. 0.0 * a + b b a+b 2a+2b 2a+2b a a b b 1 2 V T4, T5, Te, Tf, T7, T8; T4 = LD(&(xi[WS(is, 2)]), ivs, &(xi[0])); T5 = LD(&(xi[WS(is, 7)]), ivs, &(xi[WS(is, 1)])); Te = LD(&(xi[WS(is, 6)]), ivs, &(xi[0]));

命令セット（抜粋） type expr = | Num of Number.number | Plus of expr list | Times of expr * expr | Uminus of expr | Load of Variable.variable | Store of Variable.variable * expr Ifもloopも無い! 実際にはこれを直接書くことは少なく、もっぱらmodule Complexのval(@*) : expr -> expr -> expr val (@+) : expr -> expr -> expr val (@-) : expr -> expr -> exprなどを使う

fibを作る q0, q1, q0+q1, q1+(q0+q1), (q0+q1)+(q1+(q0+q1)), … let q = load_array_c 2 input in let rec output = function 0 -> q 0 | 1 -> q 1 | i -> output (i-1) @+ output (i-2) in (* 中略 *) let odag = store_array_r n oloc output in let annot = standard_optimizerodag in let tree = Fcn (* 中略 *) ([Asch annot]))) in print_string (unparse tree ^ "") LoopはOcaml側で書く Complex.(@+)を利用自動で最適化をしてくれる魔法の言葉実態は最適化関数群を@@で繋いだもの C.unparse : C言語出力！

出力 /* * This function contains 8 FP additions, 13 FP multiplications, * (or, 1 additions, 6 multiplications, 7 fused multiply/add), * 9 stack variables, 7 constants, and 12 memory accesses */ void fib(const R * I, R * O) { DK(KP3_00000, +3.0000); DK(KP8_00000, +8.0000); DK(KP5_00000, +5.0000); DK(KP13_00000, +13.0000); DK(KP2_00000, +2.0000); DK(KP34_00000, +34.0000); DK(KP21_00000, +21.0000); { E T1; E T2; T1 = I[0]; T2 = I[1]; O[0] = T1; O[1] = T2; O[2] = T1 + T2; O[9] = FMA(KP21_00000, T1, KP34_00000 * T2); O[3] = FMA(KP2_00000, T2, T1); O[8] = FMA(KP13_00000, T1, KP21_00000 * T2); O[6] = FMA(KP5_00000, T1, KP8_00000 * T2); O[4] = FMA(KP2_00000, T1, KP3_00000 * T2); O[7] = FMA(KP8_00000, T1, KP13_00000 * T2); O[5] = FMA(KP3_00000, T1, KP5_00000 * T2); } } FMA=Fused Multiply-Add: ax+b型計算

まとめ FFTWのgenfftはソースの公開された数値計算用のミニコンパイラソースサイズが小さく、追跡が容易いろいろな部分が差し替え可能興味を持ったら触ってみてね！

MinCamlやLLVMとの違い FFTWはFFTに特化いくつかの特殊で危険な式簡略化を実装 oracle.mlなど丸め誤差程度しか違わない数字はマージしてしまうアグレッシブに符号反転した定数を処理

遊び方提案 c.mlを参考にllvm.ml, java.ml, cuda.mlを作成 DWTなどを実装あなたのタスクに最適なSchedulerを設計微妙に作りかけで放置されているConvolution kernelを作るその他あなたの好きな計算を

みどころ (* I will regret this hack : *) (* NEWS: I did *)

ソースを読む上での注意点 Spotter又は-annotate / -dtypes必須常に汝の横にPLDI’99を置け arrayはUtil.arrayで作成されint -> expr型 exprの表す数値は全てcomplex

Fftw誰得ガイド

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (9)

Similar a Fftw誰得ガイド

Similar a Fftw誰得ガイド (20)

Fftw誰得ガイド