SlideShare una empresa de Scribd logo
1 de 30
Descargar para leer sin conexión
100Gを使い切るNAOJ SDN

大江 将史 <masa@fumi.org>
天文データセンター
国立天文台
MPLSJP

1
自己紹介
•大江将史 (おおえ まさふみ)
http://fumi.org/
•所属:自然科学研究機構 国立天文台
天文データセンター

おおえまさふみ

検索

助教

•なにしてるのか?
•専門は、ネットワークセキュリティ、衛星通信、無線通信など
•天文と情報ネットワークの融合に関する研究等
•国立天文台のネットワーク運用や設計等

「星を見るのにデータセンタ?ネットワーク?」

その疑問はごもっともです.
MPLSJP

2
Mt. Mauna kea, Hawaii

Subaru Telescope

MPLSJP

3
天文学とデジタル化の事例
複数のデータセンターにてアーカイブ
コンピュータで解析
データ公開

天体のデジタルデータ

巨大なデジタルカメラ

高感度CCD -100℃に冷却
合計約8億7000万画素
すばる望遠鏡のあたらしい目
HSC: Hyper-Suprime-Cam
MPLSJP

すばる望遠鏡
5
コンピュータとネットワークなしには天文学は成り立たない
天体望遠鏡からの観測データ
コンピュータでの
・観測データの計算機解析
・数値シミュレーション
観測装置や計算機を支えるシステム
ネットワークを活用
コンピュータ&ネットワークによる成果

各拠点をネットワーク接続
JGN-X/SINET-4/
10ギガ:水沢・大手町DC・三鷹
1ギガ:岡山・ハワイ(2014.4-)
他もすべて接続されています.

MPLSJP

6
今日のテーマ
•天文学におけるデジタル・データ
•様々な観測機器からデータが生まれる

•ネットワークの果たす役割
•ネットワークに関する研究開発事例

MPLSJP

7
さまざま種類のトラフィック
水沢~大手町~三鷹

MPLSJP

8
1)スーパーコンピュータ:アテルイ
•特徴
•水沢観測所(岩手県奥州市)に設置500TFlops級のCray
社のスーパーコンピューターシステム
•2014年度に 1PFlops級へアップグレード

MPLSJP

9
1)スーパーコンピュータ:アテルイ
•計算ジョブ(最長8時間)の間隔でデータが出力
•ジョブ完了水沢から三鷹へデータ送信
•ジョブ継続再度ジョブ投入
8時間単位で,ネットワークに負荷がかかる可能性
ストレージ
ノード群(三鷹)

IPネット
ワーク

HPC計算ノード群
(水沢)
専用計算ノード群
(三鷹)

汎用計算サーバ群
(三鷹)
MPLSJP

10
2)VERA: VLBI Exploration of Radio Astrometry
VERA is a VLBI array to explore the 3-D structure of the Milky
Way Galaxy

MIZUSAWA(水沢), IWATE
IRIKI(入来), KAGOSHIMA

Correlation center

ISHIGAKIJIMA(石垣島), OKINAWA

MITAKA(三鷹), TOKYO
OGASAWARA(小笠原), TOKYO

望遠鏡(山口・茨城・他)

MPLSJP

11
2)e-VLBI : ネットワークで結ぶVLBI
観測中は,まさに「DDoS」
観測日&時間スケジューリング
Connect to the correlator
月平均400時間、年平均4000時間
Correlation
in real-time

Correlator

ATOMIC CLOCK

ATOMIC CLOCK

Image
High speed Network
(2Gbps~ per Station)

MPLSJP

ATOMIC CLOCK

Earth
12
そのほか
•クラウドシステム
•プライベートクラウドサービスを4拠点で運用
•「実機より速い」が合言葉
•三鷹地区・大手町地区・水沢地区・岡山地区に分散したクラウド
システム
•iSCSIネットワーク・VMノード

•コンテンツ配信
•デジタル4次元シアター(4D2U)のコンテンツ提供
•スパコンや観測成果に基づく科学コンテンツの配信

•アウトリーチ:観測所と学校を結んで最先端の科学にふれ
る
•HDビデオ双方向中継(1から多地点)
•天文現象の中継(皆既日食・彗星など)

MPLSJP

13
さまざまなプロパティを持つトラ
フィックが広域網を流れる
•スパコン
• 水沢の計算ノードからの結果出力を,三鷹の恒
久ストレージへ効率よく伝送
• ノンリアルタイム・利用者の利用傾向に基づく帯域の
占有予測
• 伝送中は高効率化により帯域を占有・ロスは許容され
ない.

各システムの帯域利用
帯域
率イメージ
利用率[%]
140
120
100

•VLBI
• 水沢から三鷹へ観測データをバーストトラ
フィックで伝送
• スケジュールされた観測時間に連動した帯域確保
• パケットロスには寛容・通信としてのプライオリティ
は低い扱い

•クラウド・コンテンツ配信
• 帯域は,クラウドのマイグレーション,スト
レージトラフィック,コンテンツ配信などに強
く依存
• 帯域の変動幅が大きい
• パケットロスに非寛容.

80
60

40
20
0
0:00 4:00 8:00 12:0016:0020:00 0:00

Cloud and etc.

MPLSJP

HPC

VLBI 時刻

14
トラフィックを制御する
今の解決策:必要は発明のナントカ

MPLSJP

15
ULTRA計画(2012~)を開始
•天文学を支えるハイパフォーマンスなネットワー
クへの要求
•天文学専用スパコンシステム
•VLBI観測システム
•クラウド・映像中継等々

•汎用化機器の高性能化
•専用機の開発コスト効率の悪化

地理的に分散する(天文学)情報システムとIP
ネットワークを効率よく連携させる仕組みが自然科
学の発展には必要不可欠
+計算機の運用ノウハウ習得・高コストパフォーマ
ンスの実現と応用
MPLSJP

16
ミドルボックス:
データ伝送の効率化

MPLSJP

17
ULTRA200 構成
トラフィックアプリケーションに
フロールールに応じて制御
超高速キャッ
シュ
Application

コントローラ

40GbE
(10GbE x 4)

広域網(JGN-X)の利用状況に
応じて Forwarding Engine を制御

10GbE

ストレージトラフィック

ストレージトラフィック

accelerated traffic

None-Realtime
Acceleration Engine

標準のIP Forwarding 処理
Forwarding Engine

エラー・遅延補償

ULTRAルータ

(現状,ストレージしか
考慮されていません)

CentOS 6.x
MPLSJP

18
網の高度化ではなく..
エンドの高度化で..
•天文台(一部)は,エンドの高度化でアプロー
チ
•PCサーバで十分な性能を叩き出せるという目算
•40GbE SSDフルダンプ箱開発
•100GbE L3ルーターの開発

•コストパフォーマンスの追及
•「挑戦はするけど冒険はしない.」

•水沢・大手町・三鷹地区に,ミドルボックスを
設置し,広域網{へ,から}のトラフィックを
広域網からもらえるウェザー情報に基づき制御
するアプローチをとる.
MPLSJP

19
コストの観点から見る開発・構築
ゾーン
コスト
フルカスタムチップ
カスタムASIC

(PC +) FPGA
(PC +) FPGA on NIC

20Gbps
NIC + FPGA

PC+NIC

40Gbps FPGA
PC + NIC
性能

この領域がULTRA計画の開発ゾーン
MPLSJP

20
コストの観点から見る開発・構築
ゾーン
低遅延性能 カスタムLSI/カスタムASIC/FGPAなど
ハードを生かした
高価(開発コスト)なシステムの有利な領域

安価なPCで踏み込める領域

広帯域
MPLSJP

21
コストの観点から見る開発・構築
ゾーン
低遅延性能 カスタムLSI/カスタムASIC/FGPAなど
ハードを生かした
高価(開発コスト)なシステムの有利な領域

・
• Cisco
gnodal
(>60/200nsec)
(>150nsec)

・
ARISTA
(>500nsec)
2012 第1世代 ULTRA40 大沢
(割り込みモデル)
IPフォワーディング 45Gbps
100Gbpsコンテンツ送信性能

安価なPCで踏み込める領域

2011 PCルータ
20Gbps

Intel DPDK

広帯域
MPLSJP

22
コストの観点から見る開発・構築
ゾーン
2012年 ULTRA40 「野川」&「大沢」
・
• Cisco
低遅延性能 カスタムLSI/カスタムASIC/FGPAなど
多機能IPルーター gnodal
(<60/200nsec)
ハードを生かした
4GB/sec 読み書き可能な高速ストレージ
(<150nsec)
高価(開発コスト)なシステムの有利な領域
100Gbps コンテンツ送信性能
45Gbps IPフォワーディング性能
18x 10Gbase-R or 2x 40Gbase-R I/F 搭載
・
ARISTA
(<500nsec)
安価なPCで踏み込める領域
PC性能向上の方向性?
2011 PCルータ
20Gbps ?msec

2012 ULTRA40 大沢 45Gbps / 12msec
ULTRA40 野川 4GByte/sec SSD Storage
広帯域
MPLSJP

23
コストの観点から見る開発・構築
ゾーン
・
低遅延性能 カスタムLSI/カスタムASIC/FGPAなど
2013年での • Cisco
gnodal
(<60/200nsec)
ハードを生かした
挑戦すべき方向性
(<150nsec)
高価(開発コスト)なシステムの有利な領域 非常識ですが
風穴をあけてみたい

・
ARISTA
(<500nsec)

安価なPCで踏み込める領域

2011 PCルータ
20Gbps ?msec

2012 ULTRA40 大沢 45Gbps / 12msec
ULTRA40 野川 4GByte/sec SSD Storage
広帯域
MPLSJP

24
PCサーバの性能
「連雀」:高機能PCサーバ・ルータ基盤
Intel SandyBridge-E overclock

PCI-E 2.0 2x 10GbE-SFP+ x 10 (最大12port)

Interop2013 オープンルーターコンペティション(ORC)
富士通賞受賞
国立天文台が天文データ処理用のPCサーバ / ルーター プラットフォームとし
て開発
Linux OSを基に低遅延・広帯域処理能力を目標に設計・開発
MPLSJP

25
「連雀」の性能:低遅延&広帯域の
両立

遅延

[μsec]

フルメッシュIPフォワーディング性能を計測器で長時間検証

7μsec~ 18usecを安定して達成

広帯域&低遅延を両立
時間
MPLSJP

26
「連雀」NIC オフロードの効果:
200Gbpsのトラフィック処理をおこなっていても
15%のCPUリソース消費に抑えられている

MPLSJP

27
「連雀+」: L3 120Gbps(=240Gbps)
40GbE対応 / 広帯域・低遅延の追及
Intel SandyBridge-E overclock
PCI-E 3.0 2x 40GbE-QSFP+ x 5

Full 40GbE / PCI-E 3.0 対応版

MPLSJP

28
PCサーバの性能向上
低遅延性能 FGPAなど
高価なハードウェアならでわの領域

安価なPCで踏み込める領域

2013 ULTRA200 連雀+
240Gbps / <10μsec
2013 ULTRA200 連雀
200Gbps / <17μsec

2011 PCルータ
20Gbps ?msec

2012 ULTRA40 大沢 45Gbps / 12msec
ULTRA40 野川 4GByte/sec SSD Storage
広帯域
MPLSJP

29
PCサーバの性能向上は今後も続く,
手段を問わず研究開発を継続
• 機器は<50万円程度
2011年 ?? Intel Core + PCI-E2.0 1x10GbE NIC
• なんとか10Gbpsを絞り出せるレベル

2012年「大沢」「野川」(第1世代)Intel Nehalem + PCIE2.0 2x10GbE NIC + Offload

• 10Gbpsどころか,誰
もが100Gbps~
200Gbpsを扱える時代

• コンテンツ送信力は,100Gbps

2013年「連雀」(第2世代)Intel SandyBridge-E + PCI-E2.0
2x10GbE NIC + Offload
「連雀+」
• その処理力は,200Gbpsへ向上

割り込みモデル
or
ポーリングモデル

2014年(第3世代)Intel Haswell + PCI-E3.0 NIC Full 40GbE NIC
+ Offload
• その処理力は,400Gbpsへ?
MPLSJP

30
おしらせ
*国立天文台三鷹キャンパスでは,毎月2回公開天体望遠鏡を使った
観望会を開催中!
詳しくは国立天文台ホームページをご覧ください.

口径30m次世代超大型望遠鏡(TMT) 始動
http://tmt.mtk.nao.ac.jp/
1000円から参加できる
TMT 第二期寄付金募集中!
MPLSJP

31

TMT 完成予想図 (c) 2010 Thirty Meter Telescope

ありがとうございました

Más contenido relacionado

La actualidad más candente

NAS-FPN:Learning Scalable Feature Pyramid Architecture for Object Detection
NAS-FPN:Learning Scalable Feature Pyramid Architecture for Object DetectionNAS-FPN:Learning Scalable Feature Pyramid Architecture for Object Detection
NAS-FPN:Learning Scalable Feature Pyramid Architecture for Object Detectionharmonylab
 
TwitterとWikiを使った自動情報提示システム
TwitterとWikiを使った自動情報提示システムTwitterとWikiを使った自動情報提示システム
TwitterとWikiを使った自動情報提示システムTakashi Yamanoue
 
デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~
デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~
デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~Takanori Suzuki
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic DatasetsDeep Learning JP
 
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法Eli Kaminuma
 
アカスジカスミカメの分布拡大メカニズム
アカスジカスミカメの分布拡大メカニズムアカスジカスミカメの分布拡大メカニズム
アカスジカスミカメの分布拡大メカニズムarosawa
 

La actualidad más candente (7)

NAS-FPN:Learning Scalable Feature Pyramid Architecture for Object Detection
NAS-FPN:Learning Scalable Feature Pyramid Architecture for Object DetectionNAS-FPN:Learning Scalable Feature Pyramid Architecture for Object Detection
NAS-FPN:Learning Scalable Feature Pyramid Architecture for Object Detection
 
TwitterとWikiを使った自動情報提示システム
TwitterとWikiを使った自動情報提示システムTwitterとWikiを使った自動情報提示システム
TwitterとWikiを使った自動情報提示システム
 
デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~
デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~
デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
 
アカスジカスミカメの分布拡大メカニズム
アカスジカスミカメの分布拡大メカニズムアカスジカスミカメの分布拡大メカニズム
アカスジカスミカメの分布拡大メカニズム
 
20151028koyama
20151028koyama20151028koyama
20151028koyama
 

Destacado

入門:Single / Two Rate Three Color Marker (srTCM / trTCM)
入門:Single / Two Rate Three Color Marker (srTCM / trTCM)入門:Single / Two Rate Three Color Marker (srTCM / trTCM)
入門:Single / Two Rate Three Color Marker (srTCM / trTCM)Kentaro Ebisawa
 
Bash 脆弱性祭から抜け出そう
Bash 脆弱性祭から抜け出そうBash 脆弱性祭から抜け出そう
Bash 脆弱性祭から抜け出そうMasafumi Oe
 
IPv6 /48 Filtering
IPv6 /48 FilteringIPv6 /48 Filtering
IPv6 /48 FilteringRIPE NCC
 
Ip qo s functional requirements
Ip qo s functional requirementsIp qo s functional requirements
Ip qo s functional requirementswael-b1
 
Intro to Single / Two Rate Three Color Marker (srTCM / trTCM)
Intro to Single / Two Rate Three Color Marker (srTCM / trTCM)Intro to Single / Two Rate Three Color Marker (srTCM / trTCM)
Intro to Single / Two Rate Three Color Marker (srTCM / trTCM)Kentaro Ebisawa
 
201406ルーター開発イントロダクション
201406ルーター開発イントロダクション201406ルーター開発イントロダクション
201406ルーター開発イントロダクションMasafumi Oe
 
ワイヤレス・ワイヤードにおける広帯域通信 2
ワイヤレス・ワイヤードにおける広帯域通信 2ワイヤレス・ワイヤードにおける広帯域通信 2
ワイヤレス・ワイヤードにおける広帯域通信 2Masafumi Oe
 
QoS (quality of service)
QoS (quality of service)QoS (quality of service)
QoS (quality of service)Sri Safrina
 

Destacado (10)

入門:Single / Two Rate Three Color Marker (srTCM / trTCM)
入門:Single / Two Rate Three Color Marker (srTCM / trTCM)入門:Single / Two Rate Three Color Marker (srTCM / trTCM)
入門:Single / Two Rate Three Color Marker (srTCM / trTCM)
 
Bash 脆弱性祭から抜け出そう
Bash 脆弱性祭から抜け出そうBash 脆弱性祭から抜け出そう
Bash 脆弱性祭から抜け出そう
 
IPv6 /48 Filtering
IPv6 /48 FilteringIPv6 /48 Filtering
IPv6 /48 Filtering
 
Ip qo s functional requirements
Ip qo s functional requirementsIp qo s functional requirements
Ip qo s functional requirements
 
Intro to Single / Two Rate Three Color Marker (srTCM / trTCM)
Intro to Single / Two Rate Three Color Marker (srTCM / trTCM)Intro to Single / Two Rate Three Color Marker (srTCM / trTCM)
Intro to Single / Two Rate Three Color Marker (srTCM / trTCM)
 
201406ルーター開発イントロダクション
201406ルーター開発イントロダクション201406ルーター開発イントロダクション
201406ルーター開発イントロダクション
 
ワイヤレス・ワイヤードにおける広帯域通信 2
ワイヤレス・ワイヤードにおける広帯域通信 2ワイヤレス・ワイヤードにおける広帯域通信 2
ワイヤレス・ワイヤードにおける広帯域通信 2
 
QoS
QoSQoS
QoS
 
QoS (quality of service)
QoS (quality of service)QoS (quality of service)
QoS (quality of service)
 
Quality of Service
Quality of ServiceQuality of Service
Quality of Service
 

Mplsj2013 100 gを使い切るnaoj sdn