SlideShare una empresa de Scribd logo
1 de 21
Descargar para leer sin conexión
投げやすい椅子と
      投げにくい椅子の見分けかた
      Monitoring Casual Talks #1 (2012/06/15)
      @tagomoris




12年6月18日月曜日
@tagomoris
               NHN Japan Corp
              Web Service Division


12年6月18日月曜日
Fluentdの話




12年6月18日月曜日
Fluentdの話は、しません




12年6月18日月曜日
今日のお話


         投げやすい椅子



         投げにくい椅子




12年6月18日月曜日
今日のお話


         投げやすい椅子アラート?



         投げにくい椅子アラート?




12年6月18日月曜日
椅子 == アラート ?
         椅子

              投げるべきときには投げる

              アラートとは別

              やばいときには投げるべき




12年6月18日月曜日
椅子 == アラート ?
         椅子

              投げるべきときには投げる

              アラートとは別

              やばいときには投げるべき

         やばい == アラート ……あれ?




12年6月18日月曜日
アラート
         監視システムからの警告 (WARN/CRIT)

         問題ない状況でアラートを投げてはいけない

              「常にアラート出てる」状況への慣れは超危険

         投げられたら対処すべきもの

              毎回? すぐに? そのうち?



12年6月18日月曜日
「投げる」が
              ゲシュタルト崩壊してきた




12年6月18日月曜日
アラート もうすこし
         種類を考える

              深刻度

              可逆・不可逆性 (放っておいても戻らないものかどうか)

         傾向と対策のための通知としてのアラート

         サービス停止もしくはその予兆としてのアラート



12年6月18日月曜日
深刻である        深刻でない


                       プロセスダウン
         不可逆性
                        ディスク障害      ディスク使用率高
      (対応しないと戻らない)

                       ディスクFULL

                        pingドロップ
                        TCP接続失敗
         可逆性?
                       loadavg超上昇    loadavg上昇
    (原因(高負荷など)が去ったら
              多分戻る)    swap使用率上昇    メモリ使用率上昇
        戻らない場合も多い

                      キュー滞留数増加
                      レプリケーション遅延
12年6月18日月曜日
アラート対応の優先度
         サービス停止

         サーバ停止

         サーバ停止?

         サーバこのままだと停止

         サーバ動いてるけどなんか怪しい

         サーバちょこちょこ負荷上がり気味ですね

12年6月18日月曜日
椅子について
         やってはいけないことをやってしまうのは悪

              そうは言うけど、しょうがないこともある

         必要が分かりきっているのにやらないのは極悪

              まあみんな忙しいし……

         間違ってしまっているのを握り潰すのは至上の悪

              ……


12年6月18日月曜日
椅子だ、椅子をもて!




12年6月18日月曜日
投げにくい椅子
         処理増加による負荷上昇・パフォーマンス低下

              CPU、メモリ、loadavg

              レプリケーション遅延、キュー滞留

         傾向と対策のための検出・アラート

              お昼に改良(できるといいね!)、サーバ追加、等



12年6月18日月曜日
投げやすい椅子
         設定不備による問題

              httpdが足りないで詰まる or forkでloadavg上昇

              log rotate設定されてない! 世代数大杉だ!

         即座に対処すべき

              disk full は即死亡 → disk usage highを見逃す担当者
              には椅子を


12年6月18日月曜日
何が言いたかったか



         なんだっけ……。




12年6月18日月曜日
考えられるといいよね
         アラートにも優先順位がある

              突発的なサービス停止は当然最優先だけど

              不可逆性のものを本来は優先して対処すべき

         さっさと解決するものは解決しちゃった方がいい

              セクショナリズムは悪

              システム面の問題なら得意でしょ


12年6月18日月曜日
椅子は軽々に投げるべからず

         いざというときに投げるから価値がある

         投げないと解決しないときに投げたい

              解決 ==「理解してもらって繰り返させない」

         慣らしてはダメ




12年6月18日月曜日
おわり

              Thanks!



12年6月18日月曜日

Más contenido relacionado

Más de SATOSHI TAGOMORI

Más de SATOSHI TAGOMORI (20)

Hijacking Ruby Syntax in Ruby
Hijacking Ruby Syntax in RubyHijacking Ruby Syntax in Ruby
Hijacking Ruby Syntax in Ruby
 
Lock, Concurrency and Throughput of Exclusive Operations
Lock, Concurrency and Throughput of Exclusive OperationsLock, Concurrency and Throughput of Exclusive Operations
Lock, Concurrency and Throughput of Exclusive Operations
 
Data Processing and Ruby in the World
Data Processing and Ruby in the WorldData Processing and Ruby in the World
Data Processing and Ruby in the World
 
Planet-scale Data Ingestion Pipeline: Bigdam
Planet-scale Data Ingestion Pipeline: BigdamPlanet-scale Data Ingestion Pipeline: Bigdam
Planet-scale Data Ingestion Pipeline: Bigdam
 
Technologies, Data Analytics Service and Enterprise Business
Technologies, Data Analytics Service and Enterprise BusinessTechnologies, Data Analytics Service and Enterprise Business
Technologies, Data Analytics Service and Enterprise Business
 
Ruby and Distributed Storage Systems
Ruby and Distributed Storage SystemsRuby and Distributed Storage Systems
Ruby and Distributed Storage Systems
 
Perfect Norikra 2nd Season
Perfect Norikra 2nd SeasonPerfect Norikra 2nd Season
Perfect Norikra 2nd Season
 
Fluentd 101
Fluentd 101Fluentd 101
Fluentd 101
 
To Have Own Data Analytics Platform, Or NOT To
To Have Own Data Analytics Platform, Or NOT ToTo Have Own Data Analytics Platform, Or NOT To
To Have Own Data Analytics Platform, Or NOT To
 
The Patterns of Distributed Logging and Containers
The Patterns of Distributed Logging and ContainersThe Patterns of Distributed Logging and Containers
The Patterns of Distributed Logging and Containers
 
How To Write Middleware In Ruby
How To Write Middleware In RubyHow To Write Middleware In Ruby
How To Write Middleware In Ruby
 
Modern Black Mages Fighting in the Real World
Modern Black Mages Fighting in the Real WorldModern Black Mages Fighting in the Real World
Modern Black Mages Fighting in the Real World
 
Open Source Software, Distributed Systems, Database as a Cloud Service
Open Source Software, Distributed Systems, Database as a Cloud ServiceOpen Source Software, Distributed Systems, Database as a Cloud Service
Open Source Software, Distributed Systems, Database as a Cloud Service
 
Fluentd Overview, Now and Then
Fluentd Overview, Now and ThenFluentd Overview, Now and Then
Fluentd Overview, Now and Then
 
How to Make Norikra Perfect
How to Make Norikra PerfectHow to Make Norikra Perfect
How to Make Norikra Perfect
 
Distributed Logging Architecture in Container Era
Distributed Logging Architecture in Container EraDistributed Logging Architecture in Container Era
Distributed Logging Architecture in Container Era
 
Fighting API Compatibility On Fluentd Using "Black Magic"
Fighting API Compatibility On Fluentd Using "Black Magic"Fighting API Compatibility On Fluentd Using "Black Magic"
Fighting API Compatibility On Fluentd Using "Black Magic"
 
Fluentd v0.14 Plugin API Details
Fluentd v0.14 Plugin API DetailsFluentd v0.14 Plugin API Details
Fluentd v0.14 Plugin API Details
 
Overview of data analytics service: Treasure Data Service
Overview of data analytics service: Treasure Data ServiceOverview of data analytics service: Treasure Data Service
Overview of data analytics service: Treasure Data Service
 
Hive dirty/beautiful hacks in TD
Hive dirty/beautiful hacks in TDHive dirty/beautiful hacks in TD
Hive dirty/beautiful hacks in TD
 

Último

Último (12)

Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 

投げやすい椅子と投げにくい椅子の見分けかた #monitoringcasual

  • 1. 投げやすい椅子と 投げにくい椅子の見分けかた Monitoring Casual Talks #1 (2012/06/15) @tagomoris 12年6月18日月曜日
  • 2. @tagomoris NHN Japan Corp Web Service Division 12年6月18日月曜日
  • 5. 今日のお話 投げやすい椅子 投げにくい椅子 12年6月18日月曜日
  • 6. 今日のお話 投げやすい椅子アラート? 投げにくい椅子アラート? 12年6月18日月曜日
  • 7. 椅子 == アラート ? 椅子 投げるべきときには投げる アラートとは別 やばいときには投げるべき 12年6月18日月曜日
  • 8. 椅子 == アラート ? 椅子 投げるべきときには投げる アラートとは別 やばいときには投げるべき やばい == アラート ……あれ? 12年6月18日月曜日
  • 9. アラート 監視システムからの警告 (WARN/CRIT) 問題ない状況でアラートを投げてはいけない 「常にアラート出てる」状況への慣れは超危険 投げられたら対処すべきもの 毎回? すぐに? そのうち? 12年6月18日月曜日
  • 10. 「投げる」が ゲシュタルト崩壊してきた 12年6月18日月曜日
  • 11. アラート もうすこし 種類を考える 深刻度 可逆・不可逆性 (放っておいても戻らないものかどうか) 傾向と対策のための通知としてのアラート サービス停止もしくはその予兆としてのアラート 12年6月18日月曜日
  • 12. 深刻である 深刻でない プロセスダウン 不可逆性 ディスク障害 ディスク使用率高 (対応しないと戻らない) ディスクFULL pingドロップ TCP接続失敗 可逆性? loadavg超上昇 loadavg上昇 (原因(高負荷など)が去ったら 多分戻る) swap使用率上昇 メモリ使用率上昇 戻らない場合も多い キュー滞留数増加 レプリケーション遅延 12年6月18日月曜日
  • 13. アラート対応の優先度 サービス停止 サーバ停止 サーバ停止? サーバこのままだと停止 サーバ動いてるけどなんか怪しい サーバちょこちょこ負荷上がり気味ですね 12年6月18日月曜日
  • 14. 椅子について やってはいけないことをやってしまうのは悪 そうは言うけど、しょうがないこともある 必要が分かりきっているのにやらないのは極悪 まあみんな忙しいし…… 間違ってしまっているのを握り潰すのは至上の悪 …… 12年6月18日月曜日
  • 16. 投げにくい椅子 処理増加による負荷上昇・パフォーマンス低下 CPU、メモリ、loadavg レプリケーション遅延、キュー滞留 傾向と対策のための検出・アラート お昼に改良(できるといいね!)、サーバ追加、等 12年6月18日月曜日
  • 17. 投げやすい椅子 設定不備による問題 httpdが足りないで詰まる or forkでloadavg上昇 log rotate設定されてない! 世代数大杉だ! 即座に対処すべき disk full は即死亡 → disk usage highを見逃す担当者 には椅子を 12年6月18日月曜日
  • 18. 何が言いたかったか なんだっけ……。 12年6月18日月曜日
  • 19. 考えられるといいよね アラートにも優先順位がある 突発的なサービス停止は当然最優先だけど 不可逆性のものを本来は優先して対処すべき さっさと解決するものは解決しちゃった方がいい セクショナリズムは悪 システム面の問題なら得意でしょ 12年6月18日月曜日
  • 20. 椅子は軽々に投げるべからず いざというときに投げるから価値がある 投げないと解決しないときに投げたい 解決 ==「理解してもらって繰り返させない」 慣らしてはダメ 12年6月18日月曜日
  • 21. おわり Thanks! 12年6月18日月曜日