SlideShare una empresa de Scribd logo
1 de 24
Descargar para leer sin conexión
ULTRA200
~PC世界最速を目指す~
大江@国立天文台
ORC2013ULTRA200 1
今年も東陽テクニカ様・IXIA様のご協力に深く感謝いたします.
天体望遠鏡
とデジタル化の今
高感度CCD -100℃に冷却
合計約8億7000万画素
観測した
天体のデジタルデータ
巨大なデジタルカメラ
すばる望遠鏡のあたしい目
HSC: Hyper-Suprime-Cam
すばる望遠鏡
ORC2013ULTRA200 2
天文台でなんでネットワークなんよ?
観測データを各所へ伝送・アーカイブ
•マウナケア山頂(米国ハワイ)のすばる望遠鏡からの観測デー
タは,各所でアーカイブされ,後に公開されます.
• 貴重な観測結果を各所に伝送(地理的に分散)し,アーカイブ
• 望遠鏡を利用する研究者が天体・観測方法を定め観測する
• アーカイブされた観測データを世界中の研究者が異なる視点で再活用
• アーカイブを利用した天文観測という分野
ネットの活用が天文学を支えています.
すばる望遠鏡
マウナケア山頂4200m
Hilo オフィス
(Base facility)
三鷹本部
米国ハワイ島
観測結果をIPで送信
観測結果をIPで送信
1次アーカイブ
2次アーカイブ
インターネットなどで公開
研究者
(観測者)
世界中の
研究者
日本国東京 全世界約6400km
ORC2013ULTRA200 3
ULTRA計画の背景
4
• 天文学を支えるハイパフォーマンス
なネットワークシステムへの要求
– 天文学専用スパコンシステム(岩手・
東京)
• 500Tflops 演算ノード (岩手)
• ストレージノード(東京)
– VLBI観測システム(東京・岩手・沖
縄・等)
• 観測ノード(各所)
• 解析ノード(東京)
今,演算・ストレージ・IPネット
ワークを効率よく連携させる仕組みが
自然科学の発展には必要不可欠必要
計算ノード
ストレージ
ORC2013ULTRA200
コストの観点から見る開発ゾーン
コスト
性能
カスタムASIC
(PC +) FPGA
(PC +) FPGA on NIC
この領域がULTRA計画の開発ゾーン
5ORC2013ULTRA200
PC+NIC 40Gbps FPGA
フルカスタムチップ
20Gbps
NIC + FPGA
PC + NIC
ORC2012「大沢」
•大沢の成果
正確な計測器により,ネハレムアーキテクチャにて,高性能なNICをソフト
ウェアチューニングを実施することで,1サーバで
• 100Gbpsのコンテンツ送信性能
• 40Gbps程度のL3フォワーディング性能
を有することをを客観的に示した.
ORC2013ULTRA200 6
100Gbps達成
ORC2012燃え尽きました・・
どうしたら高性能になる?
•PCの性能を搾りきる限界をORC2012で体験
• 燃え尽きました
• 壁にぶち当たる
•FPGAのアシスト構成
• 開発コストが厳しい
• Arista 7124FX FPGA BOX
• Xilinx Kintex 7
•PCをさらに絞り出す
• Intel DPDK ポーリングベースの信号処理
• 開発キット処理遅延が大きい
• ORCにはそぐわない点
ORC2013ULTRA200 7
FGPAなど
高価なハードウェアならでわの領域
安価なPCで踏み込める領域
ORC2012の検証
8
低遅延性能
広帯域
ORC2013ULTRA200
FGPAなど
高価なハードウェアならでわの領域
安価なPCで踏み込める領域
ORC2012の検証
9
低遅延性能
広帯域
2012 ULTRA40 大沢
45Gbps / 12msec2011 PCルータ
20Gbps ?msec
ORC2013ULTRA200
FGPAなど
高価なハードウェアならでわの領域
安価なPCで踏み込める領域
PC + NIC(Offload NIC)
の性能向上方向性?
ORC2012の検証
10
低遅延性能
広帯域
2012 ULTRA40 大沢
45Gbps / 12msec
2011 PCルータ
20Gbps ?msec
ORC2013ULTRA200
FGPAなど
高価なハードウェアならでわの領域
安価なPCで踏み込める領域
PC + NIC(Offload NIC)
の性能向上方向性?
ORC2012の検証
11
低遅延性能
広帯域
2012 ULTRA40 大沢
45Gbps / 12msec
2011 PCルータ
20Gbps ?msec
ORC2013 ULTRA200での
挑戦すべき方向性
非常識ですが
風穴をあけてみたい
ORC2013ULTRA200
遅延:アプリケーションを悩ますボトルネック
•広帯域化におけるPCルータやサーバの課題
• 10/40Gbpsを生かしきる広帯域かつ低遅延の両立が必要不可欠
• ORC2012では,帯域が大きかったが遅延は12msecと悪かった
• どうみても「一発屋」
技術目標:低遅延を達成することがシステムパフォーマン
スを高める
•ターゲット
• 10μsecオーダーを目標に設計
• Intel DPDK / FPGA / FPGA on NIC などなど
• 1μSec以下の領域
• FPGA,ASICやカスタムチップ
ORC2013ULTRA200 12
今できる.遅延を削り込むアプローチ
•NIC側のオフロードエンジンの有効利用
• PCI-E3.0端境期のSandy-Bridge世代をオーバクロックして,NICへアプリ
ケーションをオフロードしなおしました.
• システムの安定化
• 低遅延と広帯域の両立への挑戦
ORC2013ULTRA200 13
無駄にプロジェクトの場つなぎとしてやってきた
低遅延・広帯域L3ルータ「連雀」(Renzyaku)
•低遅延にこだわりつつも,無駄に漢を感じさせるスペック
• 無駄に一夜限りの速度にこだわる「SandyBridgeE オーバクロック」
• 無駄にポート数を稼いだ10GbE実装「12 x 10GbE SFP+ 」
• 無駄にメモリーが搭載「96GB」
• 無駄に稼働に2回路必要な大容量電源を搭載「2400W」
•机上設計のみで開発したので,出たとこ勝負でもってきました.
ORC2013ULTRA200 14
ORC2013 連雀の構成
ORC2013ULTRA200 15
2x10GbE NIC x 6
冷却効率アップ
のためファンを
全交換
Sandybridge-E をオーバクロック
基本性能の向上
冷却能力向上(エアーフロー,空冷クーリングユニットを全交換)
NICの認識安定性の改良(udev最適化とBIOSのパラメータ調整)
安定性を重視したメモリーおよび,CPUのオーバークロック
HyperThreading なし
ORC2013 連雀の構成
•Linux Kernel (CentOS 6.4)
• Kernel TCP/IPスタック機能相当をNICへオフロード
• Receiver Side Scalingにより,各CPUへの割り込みを分散
• IRQのバランス機能をカット
• RX待ち時間を0,バッファリングも最小
• CPU がC1Eステートに入るのを禁止
• CPU SPEED制御をカット
•UserLand
• SELinux / Iptableなし
ORC2013ULTRA200 16
100Gbps 環境で検証 Splient / IXIA 計測器で計測
ORC2013ULTRA200 17
連雀の性能評価:低遅延を達成
ORC2013ULTRA200 18
遅延
時間
7μsec~ 18usecを安定して達成
PCI-E 若番Slotが極めて安定
[μsec]
低遅延かつ100Gbpsを達成
フルメッシュパターンでトラフィック計測
• 送信側
ORC2013ULTRA200 19
• 受信側
ロスなし
オーバークロックが与える低遅延化
•CPUベースクロックをクロックアップすることにより,メモ
リー速度がアップ
• 低遅延化に貢献することが分かる
• CPU倍率を上げても低遅延化には効果がない.
ORC2013ULTRA200 20
CPUベースクロック
BCLK 101
CPUベースクロック
BCLK 104
ORC2012 からORC2013への進化
ORC2012 大沢 ORC2013 連雀
アーキテクチャ Nehalem Sandy-bridge-E 3.1GHz
overclock
帯域
(L3フォワーディング)
42Gbps 110Gbps越え
遅延 12msec 7.9μsec
ORC2013ULTRA200 21
場つなぎ世代として開発されたんですが,連雀の功績は大きい
PCの創意工夫を重ねれば,
新しい世界に突入できることを実証
ULTRA-Xに向けて,さらなる検証
•ORCは,正確な計測器で客観的にデータがとれる貴重な機会
•今後の開発目標を立てる上で,
• オーバークロックによる低遅延化への効果を検証
• さらに広帯域を稼ぐにはどうしたらよいか?
ORC2013ULTRA200 22
オーバクロックによる遅延の検証
ORC2013ULTRA200 23
カラ割して,液体金属に交換,
オーバクロック化
Corei7-4770K
3.5GHz 8.6μs
3.7GHz 5.9μs
4GHz 7.6μs
4.5GHz 15μs
もはやルータ開発じゃない
オレオスペック@秋葉原へゴー
ORC2013でのULTRA200の結論
•オーバークロック・カーネル・ユーザーランドチューニングと
性能の相関関係を明確化
• クロックアップにより低遅延性能アップ
• メモリーオーバクロック
• CPU倍率オーバクロックは性能に影響しない
•伸びしろはあるとみました.
• 高性能なHaswell マイクロアーキテクチャM/B (2013.7~)
• NICベンダーからのPCI-E3.0カード Full 40GbE (2013.9~)
まだ絞り出す余裕がでてくると考えています.
•帯域面については,次世代のNICが今年度登場
• PCI-E3.0 40Gbps フルスペック NIC
•今後もPC/FPGA技術に注力して,ULTRA400へバージョンアップ
• 来年は,L3で倍, 200Gbps伝送かつ低遅延を達成したい.
ORC2013ULTRA200 24

Más contenido relacionado

Más de Masafumi Oe

Bash 脆弱性祭から抜け出そう
Bash 脆弱性祭から抜け出そうBash 脆弱性祭から抜け出そう
Bash 脆弱性祭から抜け出そうMasafumi Oe
 
201406ルーター開発イントロダクション
201406ルーター開発イントロダクション201406ルーター開発イントロダクション
201406ルーター開発イントロダクションMasafumi Oe
 
Mplsj2013 100 gを使い切るnaoj sdn
Mplsj2013 100 gを使い切るnaoj sdnMplsj2013 100 gを使い切るnaoj sdn
Mplsj2013 100 gを使い切るnaoj sdnMasafumi Oe
 
How to install WWLAN card on Thinkpad X1 Carbon
How to install WWLAN card on Thinkpad X1 CarbonHow to install WWLAN card on Thinkpad X1 Carbon
How to install WWLAN card on Thinkpad X1 CarbonMasafumi Oe
 
ワイヤレス・ワイヤードにおける広帯域通信 2
ワイヤレス・ワイヤードにおける広帯域通信 2ワイヤレス・ワイヤードにおける広帯域通信 2
ワイヤレス・ワイヤードにおける広帯域通信 2Masafumi Oe
 
Overview of Satellite based Internet service and architecture in Japan
Overview of Satellite based Internet service and architecture in JapanOverview of Satellite based Internet service and architecture in Japan
Overview of Satellite based Internet service and architecture in JapanMasafumi Oe
 
Janog震災時におけるインターネットアクセスの役割
Janog震災時におけるインターネットアクセスの役割Janog震災時におけるインターネットアクセスの役割
Janog震災時におけるインターネットアクセスの役割Masafumi Oe
 
データセンターカンファレンス基調対談_ネットワーク帯域を使いまくる
データセンターカンファレンス基調対談_ネットワーク帯域を使いまくるデータセンターカンファレンス基調対談_ネットワーク帯域を使いまくる
データセンターカンファレンス基調対談_ネットワーク帯域を使いまくるMasafumi Oe
 
The importance of connecting stability
The importance of connecting stabilityThe importance of connecting stability
The importance of connecting stabilityMasafumi Oe
 

Más de Masafumi Oe (9)

Bash 脆弱性祭から抜け出そう
Bash 脆弱性祭から抜け出そうBash 脆弱性祭から抜け出そう
Bash 脆弱性祭から抜け出そう
 
201406ルーター開発イントロダクション
201406ルーター開発イントロダクション201406ルーター開発イントロダクション
201406ルーター開発イントロダクション
 
Mplsj2013 100 gを使い切るnaoj sdn
Mplsj2013 100 gを使い切るnaoj sdnMplsj2013 100 gを使い切るnaoj sdn
Mplsj2013 100 gを使い切るnaoj sdn
 
How to install WWLAN card on Thinkpad X1 Carbon
How to install WWLAN card on Thinkpad X1 CarbonHow to install WWLAN card on Thinkpad X1 Carbon
How to install WWLAN card on Thinkpad X1 Carbon
 
ワイヤレス・ワイヤードにおける広帯域通信 2
ワイヤレス・ワイヤードにおける広帯域通信 2ワイヤレス・ワイヤードにおける広帯域通信 2
ワイヤレス・ワイヤードにおける広帯域通信 2
 
Overview of Satellite based Internet service and architecture in Japan
Overview of Satellite based Internet service and architecture in JapanOverview of Satellite based Internet service and architecture in Japan
Overview of Satellite based Internet service and architecture in Japan
 
Janog震災時におけるインターネットアクセスの役割
Janog震災時におけるインターネットアクセスの役割Janog震災時におけるインターネットアクセスの役割
Janog震災時におけるインターネットアクセスの役割
 
データセンターカンファレンス基調対談_ネットワーク帯域を使いまくる
データセンターカンファレンス基調対談_ネットワーク帯域を使いまくるデータセンターカンファレンス基調対談_ネットワーク帯域を使いまくる
データセンターカンファレンス基調対談_ネットワーク帯域を使いまくる
 
The importance of connecting stability
The importance of connecting stabilityThe importance of connecting stability
The importance of connecting stability
 

Último

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 

Último (8)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 

Interop 2013 ORC ULTRA200 Project