Wilson score intervalを使った信頼区間の応用

Wilson score interval を
使った信頼区間の応用
株式会社 VOYAGE GROUP
中野智文
言語と統計2017

背景
• 二項分布
• ベルヌーイ試行による分布
• ベルヌーイ試行の例：コインを投げた
後の表裏
• 二項分布の例：n回コインを投げて表がな
何回出るか
• その応用
• コーパス中の語彙の頻度
• Web広告のクリックの頻度

応用：コーパス語彙の頻度
• 専門英語における特徴語を抽出
• 特徴語のスコア
• MIスコア、tスコア、対数尤度など
• 上記のスコアの性質：
• 一般的なコーパスでは低頻度（低出現
率）の語彙が専門的なコーパスで相対的
に高出現率で出現するものが特徴的と判
断される。

応用における問題点
• 先の特徴スコアにおいて、低頻度であるの
で、1回出現の有無により大きな影響がある。
• 例：
• 一般コーパスと比べ専門コーパスの出現
率が10倍だった
• 一般コーパス（10億語）中100語のものが、
専門コーパス（100万語）中、1語出現。

検定による解決
• 例
• ｔスコア、尤度比検定
• 性質
• 独立性検定なので、独立でない可能性が
高ければ高いほど（語彙の頻度が大きい
ほど）スコアが高い
• 結果
• つまらない語彙(the, if, be動詞など)ばか
りが上位となる

信頼区間とは
• ある信頼水準（例:95％）で母平均がその区間
にある。
• 区間の小さい端点を信頼下限、大きい端点を
信頼上限とよぶ

二項分布の信頼区間
▼信頼上限信頼下限▼
出現確率

信頼区間を使った応用
• 専門コーパスの出
現率の信頼下限／
一般コーパスの出
現率の信頼上限
• 有意にx倍出現して
いる
専門コーパス
の出現率
一般コーパス
の出現率
０

• オーバーラップして
いる場合は有意な
違いがないとして
扱わない
専門コーパス
の出現率
一般コーパス
の出現率
０

• 専門コーパスの出
現率の信頼上限／
一般コーパスの出
現率の信頼下限
• 有意にx倍出現して
いる（負の場合）
一般コーパス
の出現率
専門コーパス
の出現率
０

信頼区間を求める方法(二種類)
• Wald法
• Wilson score interaval (score法)

Wald法
• 標本平均と標本分散から信頼区間を求めて
いる
• 標本平均：標本の平均
• 標本分散：標本平均からの分散
• 母平均から求まる分散から正しい信頼区間
は求まるので、標本分散から求めた信頼区
間は不正確（信頼できない）

Wald 法のいいわけ
• 中心極限定理により…
• コーパスのサイズが大きくなると、標本平
均と標本分散は母平均と分散に近づく
• ただし二項分布の場合は母平均が0.5に
近いとき
• 我々が扱うのは母平均が0に近い時

標本平均0、標本分散0
• 信頼区間は0±0です！
• 信頼区間がないということは、0％以外あり
えないということですが、これは正しい信頼
区間ですか？(正しくないですよね)
• すなわち標本数が１００万だったとしても
中心極限定理は適用できません

Wilson (score)の考え方
• ある母平均を仮定したとき、標本平均が起
こりうる信頼区間を偏差（母平均による分散
の二乗根）と正規分布のzを使って表す。
• 母平均と実際の標本平均との差が上記信
頼区間からはみ出るかどうか

イメージ
▼標本平均
▲母平均（仮説）
実際の標本平均
が含まれておら
ず、仮説はNG！
凡例：
▼：標本平均
▲：母平均（仮説）
⇔：標本平均の信頼区間

イメージ
▼標本平均
が含まれており、
仮説はOK！
凡例：
▼：標本平均

イメージ
▼標本平均
が含まれておらず、
仮説はNG!
凡例：
▼：標本平均

• 両端がぎりぎりのときの母平均(仮説)を見れ
ば良い。
• 次の２つが一致する母平均(仮説)を求める
• 母平均(仮説)と本当の標本平均との差の
二乗
• 母平均(仮説)と標本平均の信頼区間の
両端との差の二乗

以上まとめると
• 母平均と標本平均の信頼区間の差：
• 母平均と標本平均との差:
• 二乗が一致するとき:

Wilson score interval
• 標本分散を使っているWald法に比べ正確。
• 境界値のみを計算しているので、（累積）密
度関数が必要なく、二乗根と四則演算が出
来れば計算ができる。
• SQLなどで実行可能。

特徴語の例をWilsonで計算
• 10億で、100語
• (8.22e-8, 1.22e-7)
• 100万で、1語
• (1.77e-7, 5.66e-6)
• 1.77e-7/1.22e-7=1.45倍
• 10倍と比べると

10倍にしてみる
• 10億で、1,000語
• (9.40e-7,1.06e-6)
• 100万で、10語
• (5.43e-6,1.84e-5)
• 5.43e-6/1.06e-6=5.11倍

100倍にしてみる
• 10億で、10,000語
• (9.80e-6,1.02e-5)
• 100万で、100語
• (8.22e-5,0.000122)
• 8.22e-5/1.02e-5=8.06倍
• 徐々に10倍に近づいてきた

まとめ
• 頻度（出現率）が低い応用が多々ある
• 語彙、特に特徴語
• 標本分散は信頼区間を求めるのに不正確
• 標本分散が母平均を使った分散に近づ
いていない
• 結果Wald法は不正確
• Wilson score interval:
• 母平均と分散を仮定することで解決
• 計算も容易

QA
• Q1）信頼区間をどのように応用していくのか
• A2）スライドにあった特徴語を抽出する例あ
ります。またMIスコア内の確率を信頼上限、
信頼下限に置き換えて使う。
• Q2）Exact 法より正しいとあるのですが、そう
いった文献がありますか？
• A2）Agresti 1998など。応用によっては保守
的な方がよい場合があったりするので、応
用依存にはなると思います。

Wilson score intervalを使った信頼区間の応用

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (16)

Wilson score intervalを使った信頼区間の応用

Notas del editor