Más contenido relacionado
La actualidad más candente (20)
Similar a 【HinemosWorld2016】A2-4_ミッションクリティカルシステムの運用管理を可能とするHinemosの仕組み (20)
【HinemosWorld2016】A2-4_ミッションクリティカルシステムの運用管理を可能とするHinemosの仕組み
- 1. Copyright © 2016 NTT DATA KANSAI Corporation
Hinemos World 2016
2016年11月18日
Hinemosアライアンス(株式会社NTTデータ関西)
松尾 寛史
ミッションクリティカルシステムの
運用管理を可能とするHinemosの仕組み
- 2. 2
Copyright © 2016 NTT DATA KANSAI Corporation
ご紹介
■会社概要
本社:
創立年月日:
資本金:
売上高:
株式:
従業員数:
株式会社エヌ・ティ・ティ・データ関西(Hinemosアライアンス)
大阪府大阪市北区堂島3-1-21 NTTDATA堂島ビル
1990年3月7日
4億円
25,788百万円(2015年度実績)
株主:株式会社エヌ・ティ・ティ・データ(100%)
794名
■Hinemosとの歩み
2005年 :
1月:
2007年 :
3月:
4月:
2010年4月:
2016年7月:
OSSを中心としたシステム基盤を積極的に採用
Hinemos誕生
Hinemosについての技術検証を実施。
商用環境へHinemos適用
社内向けにHinemosに関する構築・技術支援を開始
ユーザ様向けにHinemosサービスを展開
Hinemosアライアンス発足
Hinemosアライアンス企業として活動を開始
- 3. 3
Copyright © 2016 NTT DATA KANSAI Corporation
INDEX
01 ミッションクリティカルシステムとは
02 ミッションクリティカルシステムにおける課題
03 Hinemosによるミッションクリティカルシステムの課題の克服
04 Hinemosミッションクリティカルオプションのご紹介
05 まとめ
- 5. 5Copyright © 2016 NTT DATA KANSAI Corporation
ミッションクリティカルシステムとは...
24時間365日、無停止で動作することを要求される基幹システムなど。
• 銀行系システム
• 電子商取引システム
• 航空管制システム
• ポイント系システム、ほか
システムの中断や誤り、セキュリティ上の問題が発覚すると大きな損失を招く恐れがある。
極めて高い信頼性(耐障害性、障害発生時のリカバリー)を確保するための機能、サポート
体制が求められる。
- 6. 6Copyright © 2016 NTT DATA KANSAI Corporation
メインサイト
ミッションクリティカルシステムのシステム構成例
ミッションクリティカルシステムではシステム全体として多重化されており、障害発生時も常に対
処できるよう体制がとられている。
仮想基盤 オンプレミス クラウド
OSハイパーバイザー
ス
ト
レ
ー
ジ
ミドルウェア データベース
フレームワーク
アプリケーション
ネ
ッ
ト
ワ
ー
ク
複数のオペレータで
昼夜問わず対応
機器ごとに冗長化
仮想基盤での冗長化 待機系サーバー
DRサイト
HAクラスタ
ク
ラ
ス
タ
製
品
システム全体としても
冗長化
災害や大規模障害発生
時にDRサイトで再開
監視
サーバー
機器ごとの
管理ツール
- 7. 7Copyright © 2016 NTT DATA KANSAI Corporation
ミッションクリティカルシステムに対するHinemosの導入事例
分野/業種 システム概要 規模 その他
金融系 カード決済システム システム数:40以上(現行:75)
提供サービス:20以上
サーバー数:60台で開始(以降拡大中:900台)
5年以上の運用実績あり
ver.3.2/4.0/4.1
ver.5.0も検討中
金融系 共通基盤 ノード数:50台
金融系 共通基盤 ノード数:20台
金融系 共通基盤 ノード数:20台
公共系 某政令指定都市向け市民サービス システム数:20
サーバー数:約40拠点で130台
専用業務端末:5000台
数年前からver.4.0が導入されており、追加されたシステ
ムでもver.5.0が導入
海外政府関連 ノード:40台
公共系 共通基盤 ノード:1800台
公営競技 ノード:50台
エネルギー大手 ノード:30台
旅行業 ノード:120台
サービス業 オンラインシステム ノード:50台
多くのミッションクリティカルシステムにおいて、Hinemosが導入されており、その有用性が証明されています。
この他にも多くのミッションクリティカルシステムでの実績があります。
- 9. 9Copyright © 2016 NTT DATA KANSAI Corporation
ミッションクリティカルシステムにおける監視/運用面での課題
ミッションクリティカルシステムにおける監視/運用面においては、一般的に以下の要件が求めら
れ、それぞれに課題が存在
① 業務処理(ジョブ管理)の継続性
24/365を実現する上で、業務処理の継続性は必須事項
ジョブコントローラも含め、多重化による業務継続
ジョブコントローラの片系障害時でも無停止での復旧(継続)が求められる
② 障害検知の一元化
サービス停止時間を小さくするためには、インフラ、ハイパーバイザ、システムに対して一元的な監視による迅速な
障害箇所の特定が必要
障害検知のための情報をロストしないこと
③ セキュリティ・監査
情報漏えいを防ぐためにも、運用オペレーターのアクセス制御は必須
操作履歴による運用、IT統制も重要
- 10. Copyright © 2016 NTT DATA KANSAI Corporation
10
Hinemosによるミッションクリティカルシステムの課題の克服
- 11. 11Copyright © 2016 NTT DATA KANSAI Corporation
要件① 業務処理(ジョブ管理)の継続性
①業務処理(ジョブ管理)の継続性
24/365を実現する上で、業務処理の継続性は必須事項
ジョブコントローラも含め、多重化による業務継続
ジョブコントローラの片系障害時でも無停止での復旧(継続)が求められる
- 12. 12Copyright © 2016 NTT DATA KANSAI Corporation
要件①のHinemosによる克服
ミッションクリティカルシステムに向けたオプション製品「Hinemosミッションクリティカルオプション」
の導入により、Hinemosを冗長化することが可能
冗長化されたHinemosでは、ジョブ実行中に運用管理サーバーで障害が起きても、スタンバ
イ側にて引き続きジョブ管理が可能
ジョブコントローラー(Hinemos)の片系障害では後続処理は中断されない
• フェイルオーバー中にスケジュールされているジョブについてもカバー(フェイルオーバー後実行される)
ジョブ実行が中断されないため、リカバリーのための運用コストを低減
24/365要件についても対応可能
Hinemosマネージャは障害検知から、ただちにフェイルオーバーを実施し、業務復旧が可能
運用管理サーバーとしての障害発生から迅速に対応可能
その後のメンテナンス(フェイルバックなど)もオンラインで実施可能
- 13. 13Copyright © 2016 NTT DATA KANSAI Corporation
要件② 障害検知の一元化
②障害検知の一元化
サービス停止時間を小さくするためには、インフラ、ハイパーバイザ、システムに対して一
元的な監視による迅速な障害箇所の特定が必要
障害検知のための情報をロストしないこと
• サーバー、ストレージ、ハイパーバイザーなど、それぞれに機器の状態を確認するための管理コ
ンソールがある
• 機器が増えると障害発生個所の特定に時間がかかる
• 障害箇所の特定にあたり、まずは「取っ掛かり」となる情報が必要
- 14. 14Copyright © 2016 NTT DATA KANSAI Corporation
要件②のHinemosによる克服(1)
クラウドも含むインフラやハイパーバイザーなどのシステム基盤に依存しない監視やジョブ管理
が可能
AWSなどのクラウド、VMwareなどの仮想基盤に対するさらに効率的な運用管理も可能(クラウド仮想化オプション)
スコープ機能を活用することで、機器やシステム観点のグルーピングが可能。規模の大きなジョ
ブネットやノード数の多いシステムにおいても障害箇所の特定が迅速に行える
障害箇所の視覚化、実行中ジョブの視覚化にも対応(エンタープライズオプション)
仮想基盤オンプレミス
NW機器
ストレージ
ジョブ実行状態の視覚化
(ジョブマップ)
クラウド
サーバー配置や障害箇所の視覚化
(ノードマップ)
システム基盤に依存しない監視/ジョブ管理
(コンピュートノードの自動追加も可能)
ジョブ実行失敗箇所の特定
機器障害箇所の特定
- 15. 15Copyright © 2016 NTT DATA KANSAI Corporation
要件②のHinemosによる克服(2)
様々な通知機能による、迅速な障害検知
コマンド通知によるパトライトの鳴動、メール通知による遠隔地も含めた通知など
障害情報の到達をロストすることなく検知することが可能
HA構成の両系Hinemosに対して障害情報が到達し、情報は常に同期されている
状態となる(SNMPTRAP、syslog)
• 一方のサーバーに障害情報が届いていない状態でも監視可能
• 片系サーバーで障害が発生しても、その情報はロストせずに監視される
• 内部データベースも同期されており、監視結果も共有される
Active
Standby監視対象システム
syslogやSNMPTRAPは両系マ
ネージャに送信
- 16. 16Copyright © 2016 NTT DATA KANSAI Corporation
要件③ セキュリティ・監査
③セキュリティ・監査
情報漏えいを防ぐためにも、運用オペレーターのアクセス制御は必須
操作履歴による運用、IT統制も重要
- 17. 17Copyright © 2016 NTT DATA KANSAI Corporation
要件③のHinemosによる克服
Hinemosの各コンポーネント間はSSLによる暗号化に対応
マネージャ-エージェント間、マネージャ-クライアント間
Hinemos上の操作はオペレーションログに記録されている
参照や編集操作を記録
要件にそったユーザの発行、適切な権限の割り当てが可能
ジョブの実行権限はあるが、ジョブの編集権限はない、など
ユーザ1はジョブ実行権
限が付与されていない
ユーザ2はジョブ実行権
限が付与されている
マネージャ
クライアント
SSLによる暗号化通信
エージェント
アクセス制御(アカウント機能)
コンポーネント間の通信暗号化
- 18. 18Copyright © 2016 NTT DATA KANSAI Corporation
その他
■オペレータの習熟度に依存しない徹底した運用の均一化
• 重要なアラートを見逃さないための徹底した精査と通知方法の統一
• サービス開始時は一旦通知されていたアラートも、ホワイトリスト方式でリスクの低いものを除外し、重要なアラ
ートのみを通知する仕組みがとれる
• 通知についても柔軟に選択が可能
■多数のステークホルダ間での確実なインシデント管理
• Hinemosからのアラート情報をもとに管理
• 複数の運用業者が介在していても、トリガーとして利用するアラート情報が同一であるため、インシデント管理
を行う上でぶれがない
• インシデント管理ツールとの連携により、より柔軟なインシデント管理も可能に
■情報システムの全体最適化とIT経費削減
• Hinemosは本体をオープンソースとして提供しており、ライセンス料はかからない
• 監視機能に加え、ジョブ機能も併せて提供されているオールインワンパッケージ
• 一部オプション製品についても一般的な商用製品に比べ、非常に安価
- 20. 20Copyright © 2016 NTT DATA KANSAI Corporation
Hinemos ミッションクリティカルオプションの特徴
Hinemosミッションクリティカルオプションでは、シンプルなアーキテクチャを採用しており、フェイ
ルオーバー発生後の復帰も容易です。
共有ディスクやディスクミラーリングは使用しない
ストレージやファイバーチャネル関連機器の追加購入や、設定作業が不要
Hinemosを動作させる環境を問わない
(オンプレミス、仮想基盤、クラウド上のいずれの環境でも動作させることができる)
特定のクラスタ製品に依存しない
Hinemos本体と同じくクラスタ部分の障害についても保守サポートにて解析可能
運用後の障害および復旧にあたって、属人的な切り分け作業は必要ない
Hinemosでは事前に検証済みのパラメータが投入されており、デフォルト設定でも運
用可能
- 21. 21Copyright © 2016 NTT DATA KANSAI Corporation
Hinemosミッションクリティカルオプションの導入作業
HA構成とする2台のHinemosマネージャサーバーに対して、ミッションクリティカルオプションを
導入するだけで簡単にHA構成をとることができる。
管理対象ノード
クライアント
HA
HA
Floating IPへアクセス
syslogやSNMPTRAPの
転送先を変更
- 22. 22Copyright © 2016 NTT DATA KANSAI Corporation
Hinemos HA環境における「ジョブの実行」の仕組み
ミッションクリティカルオプションが導入されたHA環境では、ジョブ実行中にHinemosマネージャ
で障害が起きても、待機系のHinemosマネージャで後続処理が引き継がれるため、片系の
マネージャサーバー障害時でも実行中のジョブを継続して処理することが可能。
①ジョブ
実行指示Active
Standby
②ジョブ
実行中
③
障害発生前 障害発生後
Standby⇒Active
⑧後続ジョ
ブ実行
Active
④障害発生を検知
⑤フェイルオーバー
- 23. 23Copyright © 2016 NTT DATA KANSAI Corporation
Hinemos HA環境における「トラップ系ログ監視」の仕組み
それぞれの物理IPアドレスでsyslog/SNMPTRAPを受信し続けることで、サーバー切替中
の障害情報も漏らすことなく監視することが可能です。
マネージャサーバ#1 マネージャサーバ#2
Hinemos Manager (JavaVM)
rsyslog
syslog
Cluster Controller (JavaVM)
SNMPTRAP
syslog/SNMPTRAP (TCP)
rsyslog
Cluster Controller (JavaVM)
管理ネットワーク
syslog
SNMPTRAP
転送キュー
受信済みの
syslog/SNMPTRAP
を常にデータ同期
転送キュー
Active Standby
監視対象システム
- 24. 24Copyright © 2016 NTT DATA KANSAI Corporation
クラスタリングの仕組みによる違い
Hinemos HA クラスタリングソフト 仮想化・クラウド
(サーバ自動リブート)
ハードウェア障害 ○ ○ ○
OS障害 ○ ○ ○
ソフトウェア障害 ○
△
(環境に依存)
✕
障害検出時間
○
(1~2分程度)
△
(環境に依存)
✕
(数分~数10分)
ポーリング型監視
の継続性
PING/リソース/プロセス監視など
○ ○ ○
トラップ型監視の
継続性
syslog/SNMPTRAPなど
○
(サーバ切替中の
syslog/SNMPTRAPを
監視可能)
△
(サーバ切替中のsyslog/snmptrap
は
監視不可)
△
(サーバ切替中のsyslog/snmptrap
は
監視不可)
ジョブの継続性
○
(検証済み)
△
(未検証)
△
(未検証)
導入容易性 ○
✕
(設計および検証が必要)
○
運用容易性 ○
✕
(独自の手順書が必要)
○
- 26. 26Copyright © 2016 NTT DATA KANSAI Corporation
まとめ
Hinemosは他のプロダクトに依存しないオールインワンパッケージです。
Hinemosは主要部分がOSSであり、コスト面でもアドバンテージがあります。
Hinemosはミッションクリティカルシステムを支えるオプションも充実しています。
Hinemosは各分野のミッションクリティカルシステムにおいても多くの導入実績があり、ミ
ッションクリティカルシステムを安心して管理することができるソリューションです。
是非、導入をご検討ください!
- 27. Copyright © 2011 NTT DATA Corporation
Copyright © 2016 NTT DATA KANSAI Corporation