SlideShare una empresa de Scribd logo
1 de 30
Wilson score interval を
使った信頼区間の応用
株式会社 VOYAGE GROUP
中野智文
言語と統計2017
背景
• 二項分布
• ベルヌーイ試行による分布
• ベルヌーイ試行の例:コインを投げた
後の表裏
• 二項分布の例:n回コインを投げて表がな
何回出るか
• その応用
• コーパス中の語彙の頻度
• Web広告のクリックの頻度
応用:コーパス語彙の頻度
• 専門英語における特徴語を抽出
• 特徴語のスコア
• MIスコア、tスコア、対数尤度など
• 上記のスコアの性質:
• 一般的なコーパスでは低頻度(低出現
率)の語彙が専門的なコーパスで相対的
に高出現率で出現するものが特徴的と判
断される。
応用における問題点
• 先の特徴スコアにおいて、低頻度であるの
で、1回出現の有無により大きな影響がある。
• 例:
• 一般コーパスと比べ専門コーパスの出現
率が10倍だった
• 一般コーパス(10億語)中100語のものが、
専門コーパス(100万語)中、1語出現。
検定による解決
• 例
• tスコア、尤度比検定
• 性質
• 独立性検定なので、独立でない可能性が
高ければ高いほど(語彙の頻度が大きい
ほど)スコアが高い
• 結果
• つまらない語彙(the, if, be動詞など)ばか
りが上位となる
信頼区間で考えたい
信頼区間とは
• ある信頼水準(例:95%)で母平均がその区間
にある。
• 区間の小さい端点を信頼下限、大きい端点を
信頼上限とよぶ
二項分布の信頼区間
▼信頼上限信頼下限▼
出現確率
信頼区間を使った応用
• 専門コーパスの出
現率の信頼下限/
一般コーパスの出
現率の信頼上限
• 有意にx倍出現して
いる
専門コーパス
の出現率
一般コーパス
の出現率
0
信頼区間を使った応用
• オーバーラップして
いる場合は有意な
違いがないとして
扱わない
専門コーパス
の出現率
一般コーパス
の出現率
0
信頼区間を使った応用
• 専門コーパスの出
現率の信頼上限/
一般コーパスの出
現率の信頼下限
• 有意にx倍出現して
いる(負の場合)
一般コーパス
の出現率
専門コーパス
の出現率
0
信頼区間を求める方法(二種類)
• Wald法
• Wilson score interaval (score法)
Wald法
• 標本平均と標本分散から信頼区間を求めて
いる
• 標本平均:標本の平均
• 標本分散:標本平均からの分散
• 母平均から求まる分散から正しい信頼区間
は求まるので、標本分散から求めた信頼区
間は不正確(信頼できない)
Wald 法のいいわけ
• 中心極限定理により…
• コーパスのサイズが大きくなると、標本平
均と標本分散は母平均と分散に近づく
• ただし二項分布の場合は母平均が0.5に
近いとき
• 我々が扱うのは母平均が0に近い時
標本平均0、標本分散0
• 信頼区間は0±0です!
• 信頼区間がないということは、0%以外あり
えないということですが、これは正しい信頼
区間ですか?(正しくないですよね)
• すなわち標本数が100万だったとしても
中心極限定理は適用できません
Wilson (score)の考え方
• ある母平均を仮定したとき、標本平均が起
こりうる信頼区間を偏差(母平均による分散
の二乗根)と正規分布のzを使って表す。
• 母平均と実際の標本平均との差が上記信
頼区間からはみ出るかどうか
イメージ
▼標本平均
▲母平均(仮説)
実際の標本平均
が含まれておら
ず、仮説はNG!
凡例:
▼:標本平均
▲:母平均(仮説)
⇔:標本平均の信頼区間
イメージ
▼標本平均
▲母平均(仮説)
実際の標本平均
が含まれており、
仮説はOK!
凡例:
▼:標本平均
▲:母平均(仮説)
⇔:標本平均の信頼区間
イメージ
▼標本平均
▲母平均(仮説)
実際の標本平均
が含まれており、
仮説はOK!
凡例:
▼:標本平均
▲:母平均(仮説)
⇔:標本平均の信頼区間
イメージ
▼標本平均
▲母平均(仮説)
実際の標本平均
が含まれており、
仮説はOK!
凡例:
▼:標本平均
▲:母平均(仮説)
⇔:標本平均の信頼区間
イメージ
▼標本平均
▲母平均(仮説)
実際の標本平均
が含まれており、
仮説はOK!
凡例:
▼:標本平均
▲:母平均(仮説)
⇔:標本平均の信頼区間
イメージ
▼標本平均
▲母平均(仮説)
実際の標本平均
が含まれておらず、
仮説はNG!
凡例:
▼:標本平均
▲:母平均(仮説)
⇔:標本平均の信頼区間
• 両端がぎりぎりのときの母平均(仮説)を見れ
ば良い。
• 次の2つが一致する母平均(仮説)を求める
• 母平均(仮説)と本当の標本平均との差の
二乗
• 母平均(仮説)と標本平均の信頼区間の
両端との差の二乗
以上まとめると
• 母平均と標本平均の信頼区間の差:
• 母平均と標本平均との差:
• 二乗が一致するとき:
Wilson score interval
• 標本分散を使っているWald法に比べ正確。
• 境界値のみを計算しているので、(累積)密
度関数が必要なく、二乗根と四則演算が出
来れば計算ができる。
• SQLなどで実行可能。
特徴語の例をWilsonで計算
• 10億で、100語
• (8.22e-8, 1.22e-7)
• 100万で、1語
• (1.77e-7, 5.66e-6)
• 1.77e-7/1.22e-7=1.45倍
• 10倍と比べると
10倍にしてみる
• 10億で、1,000語
• (9.40e-7,1.06e-6)
• 100万で、10語
• (5.43e-6,1.84e-5)
• 5.43e-6/1.06e-6=5.11倍
100倍にしてみる
• 10億で、10,000語
• (9.80e-6,1.02e-5)
• 100万で、100語
• (8.22e-5,0.000122)
• 8.22e-5/1.02e-5=8.06倍
• 徐々に10倍に近づいてきた
まとめ
• 頻度(出現率)が低い応用が多々ある
• 語彙、特に特徴語
• 標本分散は信頼区間を求めるのに不正確
• 標本分散が母平均を使った分散に近づ
いていない
• 結果Wald法は不正確
• Wilson score interval:
• 母平均と分散を仮定することで解決
• 計算も容易
QA
• Q1)信頼区間をどのように応用していくのか
• A2)スライドにあった特徴語を抽出する例あ
ります。またMIスコア内の確率を信頼上限、
信頼下限に置き換えて使う。
• Q2)Exact 法より正しいとあるのですが、そう
いった文献がありますか?
• A2)Agresti 1998など。応用によっては保守
的な方がよい場合があったりするので、応
用依存にはなると思います。

Más contenido relacionado

La actualidad más candente

金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデルKei Nakagawa
 
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)Hideo Hirose
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)Hidetoshi Matsui
 
RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門Masaki Tsuda
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法Hidetoshi Matsui
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング. .
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布Junya Saito
 
色々な確率分布とその応用
色々な確率分布とその応用色々な確率分布とその応用
色々な確率分布とその応用Hiroki Iida
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門Yu Tamura
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理するHiroshi Shimizu
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心takehikoihayashi
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)Yasunori Ozaki
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布についてhoxo_m
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布Nagayoshi Yamashita
 
多重代入法の書き方 公開用
多重代入法の書き方 公開用 多重代入法の書き方 公開用
多重代入法の書き方 公開用 Koichiro Gibo
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門shima o
 

La actualidad más candente (20)

金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
 
RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
 
色々な確率分布とその応用
色々な確率分布とその応用色々な確率分布とその応用
色々な確率分布とその応用
 
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
Chapter2.3.6
Chapter2.3.6Chapter2.3.6
Chapter2.3.6
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
多重代入法の書き方 公開用
多重代入法の書き方 公開用 多重代入法の書き方 公開用
多重代入法の書き方 公開用
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 

Destacado

6章 最適腕識別とA/Bテスト
6章 最適腕識別とA/Bテスト6章 最適腕識別とA/Bテスト
6章 最適腕識別とA/Bテスト智文 中野
 
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法智文 中野
 
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)智文 中野
 
ノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリングノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリング智文 中野
 
p5.js について
p5.js についてp5.js について
p5.js についてreona396
 
MLaPP 5章 「ベイズ統計学」
MLaPP 5章 「ベイズ統計学」MLaPP 5章 「ベイズ統計学」
MLaPP 5章 「ベイズ統計学」moterech
 
異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知智文 中野
 
Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04Masakazu Sano
 
Predictive Content: Boost Your Engagement with AI
Predictive Content: Boost Your Engagement with AIPredictive Content: Boost Your Engagement with AI
Predictive Content: Boost Your Engagement with AIMarketo
 
imercury 若手VCのための知財戦略勉強会_20170329
imercury 若手VCのための知財戦略勉強会_20170329imercury 若手VCのための知財戦略勉強会_20170329
imercury 若手VCのための知財戦略勉強会_20170329Kan Otani
 
APIdays Australia 2017 TOI #APIdaysAU
APIdays Australia 2017 TOI #APIdaysAUAPIdays Australia 2017 TOI #APIdaysAU
APIdays Australia 2017 TOI #APIdaysAUTatsuo Kudo
 
CDNによるInternet支配の現状とICNの可能性
CDNによるInternet支配の現状とICNの可能性CDNによるInternet支配の現状とICNの可能性
CDNによるInternet支配の現状とICNの可能性J-Stream Inc.
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピTakahiro Kubo
 
2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShareSlideShare
 
What to Upload to SlideShare
What to Upload to SlideShareWhat to Upload to SlideShare
What to Upload to SlideShareSlideShare
 
Getting Started With SlideShare
Getting Started With SlideShareGetting Started With SlideShare
Getting Started With SlideShareSlideShare
 

Destacado (16)

6章 最適腕識別とA/Bテスト
6章 最適腕識別とA/Bテスト6章 最適腕識別とA/Bテスト
6章 最適腕識別とA/Bテスト
 
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
 
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
 
ノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリングノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリング
 
p5.js について
p5.js についてp5.js について
p5.js について
 
MLaPP 5章 「ベイズ統計学」
MLaPP 5章 「ベイズ統計学」MLaPP 5章 「ベイズ統計学」
MLaPP 5章 「ベイズ統計学」
 
異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知
 
Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04
 
Predictive Content: Boost Your Engagement with AI
Predictive Content: Boost Your Engagement with AIPredictive Content: Boost Your Engagement with AI
Predictive Content: Boost Your Engagement with AI
 
imercury 若手VCのための知財戦略勉強会_20170329
imercury 若手VCのための知財戦略勉強会_20170329imercury 若手VCのための知財戦略勉強会_20170329
imercury 若手VCのための知財戦略勉強会_20170329
 
APIdays Australia 2017 TOI #APIdaysAU
APIdays Australia 2017 TOI #APIdaysAUAPIdays Australia 2017 TOI #APIdaysAU
APIdays Australia 2017 TOI #APIdaysAU
 
CDNによるInternet支配の現状とICNの可能性
CDNによるInternet支配の現状とICNの可能性CDNによるInternet支配の現状とICNの可能性
CDNによるInternet支配の現状とICNの可能性
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
 
2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare
 
What to Upload to SlideShare
What to Upload to SlideShareWhat to Upload to SlideShare
What to Upload to SlideShare
 
Getting Started With SlideShare
Getting Started With SlideShareGetting Started With SlideShare
Getting Started With SlideShare
 

Wilson score intervalを使った信頼区間の応用

Notas del editor

  1. https://gist.github.com/gizmaa/7214002
  2. (\hat{p}-p)^2 & = z^2\sigma^2 \\ & = z^2 \frac{p(1-p)}{n} \\