Enviar búsqueda
Cargar
Wilson score intervalを使った信頼区間の応用
•
Descargar como PPTX, PDF
•
1 recomendación
•
4,472 vistas
智文 中野
Seguir
統計数理研究所言語系共同研究グループ合同発表会「言語と統計2017」での発表資料です。
Leer menos
Leer más
Ciencias
Denunciar
Compartir
Denunciar
Compartir
1 de 30
Descargar ahora
Recomendados
潜在クラス分析
潜在クラス分析
Yoshitake Takebayashi
2 4.devianceと尤度比検定
2 4.devianceと尤度比検定
logics-of-blue
2 3.GLMの基礎
2 3.GLMの基礎
logics-of-blue
負の二項分布について
負の二項分布について
Hiroshi Shimizu
階層ベイズとWAIC
階層ベイズとWAIC
Hiroshi Shimizu
混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をする
Masaru Tokuoka
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
Stanコードの書き方 中級編
Stanコードの書き方 中級編
Hiroshi Shimizu
Recomendados
潜在クラス分析
潜在クラス分析
Yoshitake Takebayashi
2 4.devianceと尤度比検定
2 4.devianceと尤度比検定
logics-of-blue
2 3.GLMの基礎
2 3.GLMの基礎
logics-of-blue
負の二項分布について
負の二項分布について
Hiroshi Shimizu
階層ベイズとWAIC
階層ベイズとWAIC
Hiroshi Shimizu
混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をする
Masaru Tokuoka
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
Stanコードの書き方 中級編
Stanコードの書き方 中級編
Hiroshi Shimizu
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
Kei Nakagawa
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
Hideo Hirose
Stan超初心者入門
Stan超初心者入門
Hiroshi Shimizu
coordinate descent 法について
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
Hidetoshi Matsui
RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門
Masaki Tsuda
関数データ解析の概要とその方法
関数データ解析の概要とその方法
Hidetoshi Matsui
順序データでもベイズモデリング
順序データでもベイズモデリング
. .
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
Junya Saito
色々な確率分布とその応用
色々な確率分布とその応用
Hiroki Iida
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
Yu Tamura
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
Hiroshi Shimizu
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
hoxo_m
Rで階層ベイズモデル
Rで階層ベイズモデル
Yohei Sato
Chapter2.3.6
Chapter2.3.6
Takuya Minagawa
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
Nagayoshi Yamashita
多重代入法の書き方 公開用
多重代入法の書き方 公開用
Koichiro Gibo
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
6章 最適腕識別とA/Bテスト
6章 最適腕識別とA/Bテスト
智文 中野
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
智文 中野
Más contenido relacionado
La actualidad más candente
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
Kei Nakagawa
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
Hideo Hirose
Stan超初心者入門
Stan超初心者入門
Hiroshi Shimizu
coordinate descent 法について
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
Hidetoshi Matsui
RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門
Masaki Tsuda
関数データ解析の概要とその方法
関数データ解析の概要とその方法
Hidetoshi Matsui
順序データでもベイズモデリング
順序データでもベイズモデリング
. .
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
Junya Saito
色々な確率分布とその応用
色々な確率分布とその応用
Hiroki Iida
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
Yu Tamura
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
Hiroshi Shimizu
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
Yasunori Ozaki
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
hoxo_m
Rで階層ベイズモデル
Rで階層ベイズモデル
Yohei Sato
Chapter2.3.6
Chapter2.3.6
Takuya Minagawa
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
Nagayoshi Yamashita
多重代入法の書き方 公開用
多重代入法の書き方 公開用
Koichiro Gibo
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
La actualidad más candente
(20)
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
Stan超初心者入門
Stan超初心者入門
coordinate descent 法について
coordinate descent 法について
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門
関数データ解析の概要とその方法
関数データ解析の概要とその方法
順序データでもベイズモデリング
順序データでもベイズモデリング
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
色々な確率分布とその応用
色々な確率分布とその応用
一般化線形混合モデル入門の入門
一般化線形混合モデル入門の入門
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
Rで階層ベイズモデル
Rで階層ベイズモデル
Chapter2.3.6
Chapter2.3.6
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
多重代入法の書き方 公開用
多重代入法の書き方 公開用
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
Destacado
6章 最適腕識別とA/Bテスト
6章 最適腕識別とA/Bテスト
智文 中野
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
智文 中野
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
智文 中野
ノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリング
智文 中野
p5.js について
p5.js について
reona396
MLaPP 5章 「ベイズ統計学」
MLaPP 5章 「ベイズ統計学」
moterech
異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知
智文 中野
Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04
Masakazu Sano
Predictive Content: Boost Your Engagement with AI
Predictive Content: Boost Your Engagement with AI
Marketo
imercury 若手VCのための知財戦略勉強会_20170329
imercury 若手VCのための知財戦略勉強会_20170329
Kan Otani
APIdays Australia 2017 TOI #APIdaysAU
APIdays Australia 2017 TOI #APIdaysAU
Tatsuo Kudo
CDNによるInternet支配の現状とICNの可能性
CDNによるInternet支配の現状とICNの可能性
J-Stream Inc.
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
Takahiro Kubo
2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare
SlideShare
What to Upload to SlideShare
What to Upload to SlideShare
SlideShare
Getting Started With SlideShare
Getting Started With SlideShare
SlideShare
Destacado
(16)
6章 最適腕識別とA/Bテスト
6章 最適腕識別とA/Bテスト
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
ノンパラメトリックベイズ4章クラスタリング
ノンパラメトリックベイズ4章クラスタリング
p5.js について
p5.js について
MLaPP 5章 「ベイズ統計学」
MLaPP 5章 「ベイズ統計学」
異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知
Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04
Predictive Content: Boost Your Engagement with AI
Predictive Content: Boost Your Engagement with AI
imercury 若手VCのための知財戦略勉強会_20170329
imercury 若手VCのための知財戦略勉強会_20170329
APIdays Australia 2017 TOI #APIdaysAU
APIdays Australia 2017 TOI #APIdaysAU
CDNによるInternet支配の現状とICNの可能性
CDNによるInternet支配の現状とICNの可能性
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
2015 Upload Campaigns Calendar - SlideShare
2015 Upload Campaigns Calendar - SlideShare
What to Upload to SlideShare
What to Upload to SlideShare
Getting Started With SlideShare
Getting Started With SlideShare
Wilson score intervalを使った信頼区間の応用
1.
Wilson score interval
を 使った信頼区間の応用 株式会社 VOYAGE GROUP 中野智文 言語と統計2017
2.
背景 • 二項分布 • ベルヌーイ試行による分布 •
ベルヌーイ試行の例:コインを投げた 後の表裏 • 二項分布の例:n回コインを投げて表がな 何回出るか • その応用 • コーパス中の語彙の頻度 • Web広告のクリックの頻度
3.
応用:コーパス語彙の頻度 • 専門英語における特徴語を抽出 • 特徴語のスコア •
MIスコア、tスコア、対数尤度など • 上記のスコアの性質: • 一般的なコーパスでは低頻度(低出現 率)の語彙が専門的なコーパスで相対的 に高出現率で出現するものが特徴的と判 断される。
4.
応用における問題点 • 先の特徴スコアにおいて、低頻度であるの で、1回出現の有無により大きな影響がある。 • 例: •
一般コーパスと比べ専門コーパスの出現 率が10倍だった • 一般コーパス(10億語)中100語のものが、 専門コーパス(100万語)中、1語出現。
5.
検定による解決 • 例 • tスコア、尤度比検定 •
性質 • 独立性検定なので、独立でない可能性が 高ければ高いほど(語彙の頻度が大きい ほど)スコアが高い • 結果 • つまらない語彙(the, if, be動詞など)ばか りが上位となる
6.
信頼区間で考えたい
7.
信頼区間とは • ある信頼水準(例:95%)で母平均がその区間 にある。 • 区間の小さい端点を信頼下限、大きい端点を 信頼上限とよぶ
8.
二項分布の信頼区間 ▼信頼上限信頼下限▼ 出現確率
9.
信頼区間を使った応用 • 専門コーパスの出 現率の信頼下限/ 一般コーパスの出 現率の信頼上限 • 有意にx倍出現して いる 専門コーパス の出現率 一般コーパス の出現率 0
10.
信頼区間を使った応用 • オーバーラップして いる場合は有意な 違いがないとして 扱わない 専門コーパス の出現率 一般コーパス の出現率 0
11.
信頼区間を使った応用 • 専門コーパスの出 現率の信頼上限/ 一般コーパスの出 現率の信頼下限 • 有意にx倍出現して いる(負の場合) 一般コーパス の出現率 専門コーパス の出現率 0
12.
信頼区間を求める方法(二種類) • Wald法 • Wilson
score interaval (score法)
13.
Wald法 • 標本平均と標本分散から信頼区間を求めて いる • 標本平均:標本の平均 •
標本分散:標本平均からの分散 • 母平均から求まる分散から正しい信頼区間 は求まるので、標本分散から求めた信頼区 間は不正確(信頼できない)
14.
Wald 法のいいわけ • 中心極限定理により… •
コーパスのサイズが大きくなると、標本平 均と標本分散は母平均と分散に近づく • ただし二項分布の場合は母平均が0.5に 近いとき • 我々が扱うのは母平均が0に近い時
15.
標本平均0、標本分散0 • 信頼区間は0±0です! • 信頼区間がないということは、0%以外あり えないということですが、これは正しい信頼 区間ですか?(正しくないですよね) •
すなわち標本数が100万だったとしても 中心極限定理は適用できません
16.
Wilson (score)の考え方 • ある母平均を仮定したとき、標本平均が起 こりうる信頼区間を偏差(母平均による分散 の二乗根)と正規分布のzを使って表す。 •
母平均と実際の標本平均との差が上記信 頼区間からはみ出るかどうか
17.
イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれておら ず、仮説はNG! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
18.
イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれており、 仮説はOK! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
19.
イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれており、 仮説はOK! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
20.
イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれており、 仮説はOK! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
21.
イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれており、 仮説はOK! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
22.
イメージ ▼標本平均 ▲母平均(仮説) 実際の標本平均 が含まれておらず、 仮説はNG! 凡例: ▼:標本平均 ▲:母平均(仮説) ⇔:標本平均の信頼区間
23.
• 両端がぎりぎりのときの母平均(仮説)を見れ ば良い。 • 次の2つが一致する母平均(仮説)を求める •
母平均(仮説)と本当の標本平均との差の 二乗 • 母平均(仮説)と標本平均の信頼区間の 両端との差の二乗
24.
以上まとめると • 母平均と標本平均の信頼区間の差: • 母平均と標本平均との差: •
二乗が一致するとき:
25.
Wilson score interval •
標本分散を使っているWald法に比べ正確。 • 境界値のみを計算しているので、(累積)密 度関数が必要なく、二乗根と四則演算が出 来れば計算ができる。 • SQLなどで実行可能。
26.
特徴語の例をWilsonで計算 • 10億で、100語 • (8.22e-8,
1.22e-7) • 100万で、1語 • (1.77e-7, 5.66e-6) • 1.77e-7/1.22e-7=1.45倍 • 10倍と比べると
27.
10倍にしてみる • 10億で、1,000語 • (9.40e-7,1.06e-6) •
100万で、10語 • (5.43e-6,1.84e-5) • 5.43e-6/1.06e-6=5.11倍
28.
100倍にしてみる • 10億で、10,000語 • (9.80e-6,1.02e-5) •
100万で、100語 • (8.22e-5,0.000122) • 8.22e-5/1.02e-5=8.06倍 • 徐々に10倍に近づいてきた
29.
まとめ • 頻度(出現率)が低い応用が多々ある • 語彙、特に特徴語 •
標本分散は信頼区間を求めるのに不正確 • 標本分散が母平均を使った分散に近づ いていない • 結果Wald法は不正確 • Wilson score interval: • 母平均と分散を仮定することで解決 • 計算も容易
30.
QA • Q1)信頼区間をどのように応用していくのか • A2)スライドにあった特徴語を抽出する例あ ります。またMIスコア内の確率を信頼上限、 信頼下限に置き換えて使う。 •
Q2)Exact 法より正しいとあるのですが、そう いった文献がありますか? • A2)Agresti 1998など。応用によっては保守 的な方がよい場合があったりするので、応 用依存にはなると思います。
Notas del editor
https://gist.github.com/gizmaa/7214002
(\hat{p}-p)^2 & = z^2\sigma^2 \\ & = z^2 \frac{p(1-p)}{n} \\
Descargar ahora