Más contenido relacionado
La actualidad más candente (20)
Similar a モンスターストライクにおける監視システムのあれこれ (15)
モンスターストライクにおける監視システムのあれこれ
- 3. ⾃⼰紹介
- ⽒名
- 白川裕介
- 経歴
- 2012年に新卒でミクシィに入社。
- SNS「mixi」でアドネットワークを担当したのちXFLAGのアドテクスタジオへ異動
- その後、モンストの開発に携わりマネージャーを経験
- 現在では開発室の室長として、モンストに関わるエンジニア組織を統括
- 15. Redis / Batch / memcached
• Redis / Batch
• Resqueを利用した非同期処理
• ミッションの達成判定や報酬付与などを非同期処理で実施
• memcached
• すべてオンプレサーバーで構成
• DBサーバーとの距離を重視
• DB性能限界へのアプローチとしてCacheを用いる
• モンストではCacheの比重が大きい
• app <=> memcached の往復が100回を超えるAPIもある
• Cacheを利用することによりレスポンスの高速化を実現
• Replica Poolを用意しサーバー障害へ対策
- 17. アーキテクチャ構成まとめ その2
• ハイブリッド構成
• 自社DCのオンプレサーバーとクラウドサーバーの併用
• 単一点障害の回避や柔軟な在庫の確保
• サーバー障害に対して、何重もの対策を実施
• DCの冗長構成
• 2つDCを利用しDCレベルでの冗長化を実現
• memcachedのReplica Poolの用意
- 21. Kibana + elasticsearch
• Appサーバーのlogなどを蓄積
• ログの集計や検索などに利用
• 1/100でサンプリングして蓄積
• Fluentd
• サンプリングやデータ加工
• Kibana + Elasticsearch
• 可視化、検索
- 34. 死活監視
• On-Call
• Nagios / CloudWatch / Zabbix などの監視からPagerDutyへ通知
• 同時にslackのalert部屋にも投稿
• アラートがなったら15分以内に対応開始
• 基本的な1次対応はドキュメント化されている
• 1次対応に少しでも迷った場合はエスカレーションを奨励
- 35. 障害対応時のルール
• 深夜対応の⼼得
• 必ず安全な道を選ぶ
• 1次対応を迅速に実施
• サービスが正常に回っている状態まで復旧
• 2次対応(サーバの復旧や新サーバの作成)は翌営業日の作業
• 作業分担
• デプロイする内容は必ずもう一人の確認するなど
• 情報を共有
• 必ずslack内で作業内容を共有
• ログなど共有すべき内容は必ず共有
• サービスにエラーや遅延など影響がある場合は企画とcsに共有