Más contenido relacionado
Más de SATOSHI TAGOMORI (20)
投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual
- 1. 投げやすい椅子と
投げにくい椅子の見分けかた
Monitoring Casual Talks #1 (2012/06/15)
@tagomoris
12年6月18日月曜日
- 2. @tagomoris
NHN Japan Corp
Web Service Division
12年6月18日月曜日
- 5. 今日のお話
投げやすい椅子
投げにくい椅子
12年6月18日月曜日
- 6. 今日のお話
投げやすい椅子アラート?
投げにくい椅子アラート?
12年6月18日月曜日
- 7. 椅子 == アラート ?
椅子
投げるべきときには投げる
アラートとは別
やばいときには投げるべき
12年6月18日月曜日
- 8. 椅子 == アラート ?
椅子
投げるべきときには投げる
アラートとは別
やばいときには投げるべき
やばい == アラート ……あれ?
12年6月18日月曜日
- 9. アラート
監視システムからの警告 (WARN/CRIT)
問題ない状況でアラートを投げてはいけない
「常にアラート出てる」状況への慣れは超危険
投げられたら対処すべきもの
毎回? すぐに? そのうち?
12年6月18日月曜日
- 10. 「投げる」が
ゲシュタルト崩壊してきた
12年6月18日月曜日
- 11. アラート もうすこし
種類を考える
深刻度
可逆・不可逆性 (放っておいても戻らないものかどうか)
傾向と対策のための通知としてのアラート
サービス停止もしくはその予兆としてのアラート
12年6月18日月曜日
- 12. 深刻である 深刻でない
プロセスダウン
不可逆性
ディスク障害 ディスク使用率高
(対応しないと戻らない)
ディスクFULL
pingドロップ
TCP接続失敗
可逆性?
loadavg超上昇 loadavg上昇
(原因(高負荷など)が去ったら
多分戻る) swap使用率上昇 メモリ使用率上昇
戻らない場合も多い
キュー滞留数増加
レプリケーション遅延
12年6月18日月曜日
- 13. アラート対応の優先度
サービス停止
サーバ停止
サーバ停止?
サーバこのままだと停止
サーバ動いてるけどなんか怪しい
サーバちょこちょこ負荷上がり気味ですね
12年6月18日月曜日
- 14. 椅子について
やってはいけないことをやってしまうのは悪
そうは言うけど、しょうがないこともある
必要が分かりきっているのにやらないのは極悪
まあみんな忙しいし……
間違ってしまっているのを握り潰すのは至上の悪
……
12年6月18日月曜日
- 16. 投げにくい椅子
処理増加による負荷上昇・パフォーマンス低下
CPU、メモリ、loadavg
レプリケーション遅延、キュー滞留
傾向と対策のための検出・アラート
お昼に改良(できるといいね!)、サーバ追加、等
12年6月18日月曜日
- 17. 投げやすい椅子
設定不備による問題
httpdが足りないで詰まる or forkでloadavg上昇
log rotate設定されてない! 世代数大杉だ!
即座に対処すべき
disk full は即死亡 → disk usage highを見逃す担当者
には椅子を
12年6月18日月曜日
- 19. 考えられるといいよね
アラートにも優先順位がある
突発的なサービス停止は当然最優先だけど
不可逆性のものを本来は優先して対処すべき
さっさと解決するものは解決しちゃった方がいい
セクショナリズムは悪
システム面の問題なら得意でしょ
12年6月18日月曜日
- 20. 椅子は軽々に投げるべからず
いざというときに投げるから価値がある
投げないと解決しないときに投げたい
解決 ==「理解してもらって繰り返させない」
慣らしてはダメ
12年6月18日月曜日
- 21. おわり
Thanks!
12年6月18日月曜日