SlideShare una empresa de Scribd logo
1 de 26
Descargar para leer sin conexión
最強のハードディスク
はどれだ?
Tokyo.R #43
1
@gepuro
http://blog.gepuro.net/
自己紹介
• @gepuro
• R言語、Python
• 4月からサラリーマン
2
https://www.backblaze.com/hard-drive-test-data.html
からダウンロードできる
4万台以上のハードディスクに
関するデータが公開されてる
3
82種のハードディスク
2013年から2014年の2年間の
データセット
4
毎日のSMART+故障情報
date serial_number model capacity_bytes failure
2014/1/1 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0
2014/1/2 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0
2014/1/3 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0
2014/1/4 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0
全部で約4GB
gepuro@ubuntu1404$ du -h 2013
740M 2013
gepuro@ubuntu1404$ du -h 2014
2.9G 2014
5
データ解析図
データの扱い方
6
打切り
故障
暦日
ワイブル分布
• 確率密度関数
–𝑓 𝑡 =
𝑚
𝜂
𝑡
𝜂
𝑚−1
exp −
𝑡
𝜂
𝑚
• 累積分布関数
–𝐹 𝑡 = 1 − exp −
𝑡
𝜂
𝑚
7
8
p.d.f.
ワイブル分布
𝜂 = 10
𝑚 = 0.5
𝑚 = 1
𝑚 = 1.5
𝑚 = 2
𝑡
9
p.d.f.
𝑡
ワイブル分布
m = 1
𝜂 = 10
𝜂 = 20
𝜂 = 30
𝜂 = 40
http://blog.gepuro.net/archives/118
前処理はブログで
10
ワイブルプロット
11
モデル: ST4000DM000
𝑚 = 0.7875
𝜂 = 35500
モデル: HGST MS5C4040ALE640
𝑚 = 0.7628
𝜂 = 119300
12
確率密度関数
モデル: ST4000DM000
𝑚 = 0.7875
𝜂 = 35500
モデル: HGST MS5C4040ALE640
𝑚 = 0.7628
𝜂 = 119300
13
モデル: ST4000DM000
B1ライフ : 103.1日
モデル: HGST MS5C4040ALE640
B1ライフ: 286.8日
B1ライフ
F(t)が1%に達するまでの値
全体の1%が壊れるまでは、何日か。
データ数と故障数
14
15
打切り率
16
ワイブルプロットへの当てはまり
日立のHDDが最強 17
B1ライフ一覧
SMARTも使いたいなあ。
• Power-On Hours
• Temperature
• など
まとめ
• 4万台以上のハードディスクの
データが公開
• ワイブル分布でB1ライフを推定
• 日立製のHDDが最強
18
おまけ
19
20
𝒎の一覧
21
𝜼 の一覧
22
𝜼 の一覧(外れ値を抜いた)
ワイブル分布
• 確率密度関数
– 𝑓 𝑡 =
𝑚
𝜂
𝑡
𝜂
𝑚−1
exp −
𝑡
𝜂
𝑚
• 累積分布関数
– 𝐹 𝑡 = 1 − exp −
𝑡
𝜂
𝑚
• 最尤法でパラメータ推定
– 𝐿 𝑚, 𝜂 = 𝑖=1
𝑛
𝑓(𝑡) 𝛿 1 − 𝐹 𝑡 1−𝛿
• 𝛿 = 1なら故障, 𝛿 = 0なら打切り
23
ワイブル確率紙1
• 𝐹 𝑡 = 1 − exp −
𝑡
𝜂
𝑚
• log log
1
1−𝐹(𝑡)
= 𝑚 ∗ log 𝑡 − 𝑚 ∗ log 𝜂
• log log
1
1−𝐹 𝑡
≡ 𝑌
• log 𝑡 ≡ 𝑋, 𝑚 ∗ log 𝜂 ≡ 𝐵
• 𝑌 = 𝑚𝑋 − 𝐵
24
ワイブル確率紙2
• 𝐻 𝑡 = 0
𝑡
𝜆 𝑥 𝑑𝑥 = − log 1 − 𝐹 𝑡
• log 𝐻 𝑡 = log log
1
1−𝐹 𝑡
• 𝜆 𝑡 =
𝑓 𝑡
𝑡
∞
𝑓 𝑡
=
𝑓(𝑡)
1−𝐹(𝑡)
25
log 𝐻 𝑡 ≡ 𝑌 = 𝑚X − 𝐵による最小二乗法で推定
累積ハザード法による推定
データ𝐭 故障𝜹 順位 逆順位 累積ハザード 𝑯 𝒕
3 0 6 1
6
10 0 5 1
5
23 1 4 1
4
1
4
= 0.25
33 0 3 1
3
35 1 2 1
2
1
4
+
1
2
= 0.75
40 1 1 1
1
1
4
+
1
2
+
1
1
= 1.75
26

Más contenido relacionado

Destacado

はじパタ11章 後半
はじパタ11章 後半はじパタ11章 後半
はじパタ11章 後半
Atsushi Hayakawa
 
R を起動するその前に
R を起動するその前にR を起動するその前に
R を起動するその前に
Kosei ABE
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
Yohei Sato
 

Destacado (20)

はじパタ11章 後半
はじパタ11章 後半はじパタ11章 後半
はじパタ11章 後半
 
Dummiesパッケージ
DummiesパッケージDummiesパッケージ
Dummiesパッケージ
 
R入門(dplyrでデータ加工)-TokyoR42
R入門(dplyrでデータ加工)-TokyoR42R入門(dplyrでデータ加工)-TokyoR42
R入門(dplyrでデータ加工)-TokyoR42
 
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoRRとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
 
Rcppのすすめ
RcppのすすめRcppのすすめ
Rcppのすすめ
 
20150303ぞくパタLT-ゆるふわ構造学習
20150303ぞくパタLT-ゆるふわ構造学習20150303ぞくパタLT-ゆるふわ構造学習
20150303ぞくパタLT-ゆるふわ構造学習
 
Mxnetで回帰 #TokyoR 53th
Mxnetで回帰 #TokyoR 53thMxnetで回帰 #TokyoR 53th
Mxnetで回帰 #TokyoR 53th
 
20170923 excelユーザーのためのr入門
20170923 excelユーザーのためのr入門20170923 excelユーザーのためのr入門
20170923 excelユーザーのためのr入門
 
20140625 rでのデータ分析(仮) for_tokyor
20140625 rでのデータ分析(仮) for_tokyor20140625 rでのデータ分析(仮) for_tokyor
20140625 rでのデータ分析(仮) for_tokyor
 
Rで潜在ランク分析
Rで潜在ランク分析Rで潜在ランク分析
Rで潜在ランク分析
 
R を起動するその前に
R を起動するその前にR を起動するその前に
R を起動するその前に
 
データサイエンティスト必見!M-1グランプリ
データサイエンティスト必見!M-1グランプリデータサイエンティスト必見!M-1グランプリ
データサイエンティスト必見!M-1グランプリ
 
TokyoR42_around_chaining
TokyoR42_around_chainingTokyoR42_around_chaining
TokyoR42_around_chaining
 
マルコフ連鎖モンテカルロ法入門-1
マルコフ連鎖モンテカルロ法入門-1マルコフ連鎖モンテカルロ法入門-1
マルコフ連鎖モンテカルロ法入門-1
 
Rで代数統計 TokyoR #42 LT
Rで代数統計 TokyoR #42 LTRで代数統計 TokyoR #42 LT
Rで代数統計 TokyoR #42 LT
 
ggplot2再入門(2015年バージョン)
ggplot2再入門(2015年バージョン)ggplot2再入門(2015年バージョン)
ggplot2再入門(2015年バージョン)
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
Tokyo r33 beginner
Tokyo r33 beginnerTokyo r33 beginner
Tokyo r33 beginner
 
Tokyo r30 anova
Tokyo r30 anovaTokyo r30 anova
Tokyo r30 anova
 

Más de Atsushi Hayakawa

Más de Atsushi Hayakawa (20)

tidyverse.orgの翻訳
tidyverse.orgの翻訳tidyverse.orgの翻訳
tidyverse.orgの翻訳
 
Zepp play soccerで測ってみた
Zepp play soccerで測ってみたZepp play soccerで測ってみた
Zepp play soccerで測ってみた
 
dataclassとtypehintを使ってますか?
dataclassとtypehintを使ってますか?dataclassとtypehintを使ってますか?
dataclassとtypehintを使ってますか?
 
トライアスロンとgepuro task views V2.0 Japan.R 2018
トライアスロンとgepuro task views V2.0 Japan.R 2018トライアスロンとgepuro task views V2.0 Japan.R 2018
トライアスロンとgepuro task views V2.0 Japan.R 2018
 
バンクーバー旅行記
バンクーバー旅行記バンクーバー旅行記
バンクーバー旅行記
 
Analyze The Community Of Tokyo.R
Analyze The Community Of Tokyo.RAnalyze The Community Of Tokyo.R
Analyze The Community Of Tokyo.R
 
Visual Studio CodeでRを使う
Visual Studio CodeでRを使うVisual Studio CodeでRを使う
Visual Studio CodeでRを使う
 
トライアスロンと僕 - Japan.R 2017
トライアスロンと僕 - Japan.R 2017トライアスロンと僕 - Japan.R 2017
トライアスロンと僕 - Japan.R 2017
 
simputatoinで欠損値補完 - Tokyo.R #65
simputatoinで欠損値補完 - Tokyo.R #65simputatoinで欠損値補完 - Tokyo.R #65
simputatoinで欠損値補完 - Tokyo.R #65
 
useR!2017 in Brussels
useR!2017 in BrusselsuseR!2017 in Brussels
useR!2017 in Brussels
 
Japan.R 2016の運営
Japan.R 2016の運営Japan.R 2016の運営
Japan.R 2016の運営
 
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstallRstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
 
Splatoon界での壮絶な戦い&Japan.Rの宣伝
Splatoon界での壮絶な戦い&Japan.Rの宣伝Splatoon界での壮絶な戦い&Japan.Rの宣伝
Splatoon界での壮絶な戦い&Japan.Rの宣伝
 
最近のクラウドストレージの事情と私情
最近のクラウドストレージの事情と私情最近のクラウドストレージの事情と私情
最近のクラウドストレージの事情と私情
 
nginxのログを非スケーラブルに省メモリな方法で蓄積する
nginxのログを非スケーラブルに省メモリな方法で蓄積するnginxのログを非スケーラブルに省メモリな方法で蓄積する
nginxのログを非スケーラブルに省メモリな方法で蓄積する
 
implyを用いたアクセスログの可視化
implyを用いたアクセスログの可視化implyを用いたアクセスログの可視化
implyを用いたアクセスログの可視化
 
イケてる分析基盤をつくる
イケてる分析基盤をつくるイケてる分析基盤をつくる
イケてる分析基盤をつくる
 
らずぱいラジコン
らずぱいラジコンらずぱいラジコン
らずぱいラジコン
 
らずぱいカー
らずぱいカーらずぱいカー
らずぱいカー
 
らずぱいでウィーン!!!!!
らずぱいでウィーン!!!!!らずぱいでウィーン!!!!!
らずぱいでウィーン!!!!!
 

最強のハードディスクはどれだ?