SlideShare a Scribd company logo
1 of 59
Download to read offline
べき乗則・パレート分布・ジップの法則
東京大学大学院教育学研究科修士1年 黒宮寛之
今日の論文
Newman, MEJ, Power laws, Pareto distributions and Zipf’s law. Contemporary
Physics (2005).
特に新しい知見があるわけではないが、べき乗則についてよくまとめられたレビュー論
文
論文に入る前に
べき乗則とは
使われる分野によって3つ言い方が変わりますが、どれもなにかデータを集めてきたら、
その分布が下のような数式で表される分布になるということを意味します
べき乗則 パレート分布 ジップの法則
x:変数 C:定数 α:指数
まぎらわしいので注意
指数分布と形がよく似ているので注意が必要:減少の仕方がべき乗分布の方が緩い
指数分布 べき乗分布
今日の目標
● べき乗分布の基礎的な性質と扱い方について
● べき乗分布が生まれる背景にはどのようなメカニズムがあるか
を知りたい。それを
● 式変形の過程を逐次追っかけながら
話すので、誤解や間違いがあれば指摘していただけたらと思っています。
ここから本編
正規分布だけじゃない
身の回りの多くの現象は正規分
布する
ex. 身長、車のスピード、・・・
正規分布だけじゃない
街の規模、論文の引用数、ウェブの訪問数、ほんの売上、電話がかかってくる回数、地震
の規模・・・これらはすべてべき乗分布になる
両対数プロットについて
両対数プロットで直線になればべき乗分布を意味します
べき乗分布になるもの一覧
べき乗分布になるもの一覧
実際のデータからべき乗分布を見つける方法
さきほど述べたように、対数目盛りでプロットしてみて直線になれば良い
しかし対数目盛りの性質から、対数グラフの尻尾の方がギザギザになることがある
←xのスケールが右にいくほど広くなっていくのでサンプルが集中する
 yのスケールが下に行くほど広がっていくので微小な差異が強調される
解決法1 - logarithmic binning
通常のヒストグラム
ビンの間隔は一定
1.0~1.1の間に4人
1.1~1.2の間に5人
1.2~1.3の間に3人
・・・
logarithmic binning
ビンの間隔を大きくしていく
1.0~1.1の間に4人
1.1~1.3の間に8人
1.3~1.7の間に9人
・・・
適用後
logarithmic binning の問題点
α>1のとき
kが増えるにつれてビンの中
のサンプル数が少なくなって
いく
→グラフの右の方ほどノイズ
の影響を受けやすい
解決法2 累積分布 (こっちのほうがベター)
累積分布とは(ウェブサイトより)・・・確率変数Xがある値以下になる確率
https://bellcurve.jp/statistics/course/6708.html
ヒストグラムを累積分布に書き直すことで、大きな xの値に対してもサンプル数を確保できる
べき乗分布の累積もまたべき乗分布になる
指数の値は変わるが、べき乗
分布の累積分布もまたべき乗
分布になる
→累積分布が両対数プロット
で直線になれば元の分布もべ
き乗則に従う
べき乗則を確かめるには、累積分布を両対数
プロットして、直線になるか確かめるのが定石
rank-frequency plotについて
rank-frequency plotは累積分布と等価である?
累積分布におけるある点のy座標はx以上ものの頻
度の累計を表すが、xを頻度順に並び替えてしまえ
ばxはx番目に頻度が高いことが保証されるので、
累積分布のある比をとったものにすぎない。
べき指数の推定
両対数プロットに対して最小二乗法で
直線をひけば直線の傾きからべき指
数をある程度推定できるが・・・
このような方法はあまりよくないらしい
(おそらく両対数グラフの目盛りの歪
みのため)
最尤推定によるべき指数の推定
尤度(likelihood)を最大化する
尤度って何   ベイズの公式で図のlikelihoodの位置にあるもの
http://www.saedsayad.com/naive_bayesian.htm
最尤推定に入る前に 定数Cの扱い
べき指数の最尤推定
べき指数の最尤推定
さきほど出した規格化定数Cを代入して
べき指数の最尤推定
最尤推定によるべき指数の推定
無事べき指数αが求まっ
た!!
推定の確信度を知りたい
ベイズなら簡単
推定の確信度を知りたい
推定の確信度を知りたい
ベイズ更新
P(x), P(α)は定数なので P(α|x ) = P( x|α)
P(α) = P(x | α)
推定の確信度を知りたい
値×確率
積分区間が-∞→∞でないので、サンプル数で割る
推定の確信度を知りたい
推定の確信度を知りたい
(右図)規格化定数に α-1の指数が入っているので、 α=1の
本ケースではあまり意味をなさなかった。
たぶん工夫すればなんとかなる模様
べき乗則を生み出すメカニズム
べき乗則を生み出すメカニズム
● 指数関数の組み合わせ
● 逆数
● ランダムウォーク
● ユール過程
● 相転移と臨界現象
● 自己組織化臨界
指数関数の組み合わせ
確率分布保存の法則
指数関数の組み合わせ
ランダムタイプライター
ランダムに文字を打ち込んでスペースが入るまでを1単語と数え
る
スペースを打つ確率をqsとすると、アルファベットは全部で26文字
あるので特定の1文字を打つ確率は
ql = (1-qs)/27
指数関数の組み合わせ
特定の単語(長さy)の頻度xは
指数関数の組み合わせ
逆数
ランダムウォーク
1次元ランダムウォーク
例えばコイントスをして表が出たら右へ一歩進み、裏が出たら左へ一歩進むというような
ことを考える
ランダムウォーク
今回はとくに、0地点から出発してまた0地点に戻ってくるのにかかる時間(first return
time)の長さに焦点を当てる
t秒後(2mステップ)に原点に戻る確率をf, もう1回、2回、3回・・・と原点に戻ってくる確率
をuとする
ランダムウォーク
ランダムウォーク
ランダムウォーク
ランダムウォーク
ランダムウォーク
ランダムウォーク
ランダムウォーク
“Gambler’s ruin”
ギャンブラーが破産するまでの時間のヒ
ストグラムはべき乗分布になる
ユール過程
分類学でいう「種」と「属」を考える
ユール過程
k個の「種」をもつ「属」の数を
数えてみると、べき乗分布に
なる。
その生成メカニズムのモデル
がユール過程。
ユール過程
1ステップごとに一定の確率で「種」に遺伝子変異が起きて2つの「種」に分かれる
ユール過程
新たに生まれた「種」は一定の確率で新しい「属」を形成する
属A 属B
ユール過程
1ステップごとに新しい属が1つ生まれ、m個の「種」が既存の属に加わる
t時点
t+1時
点
属A 属B
属C
ユール過程
パラメータ
● n → 属の数
● k[i] → i番目の属に入っている種の数
● m → 1ステップで加わる種の数
● p[k] → k個の種をもつ属の数(確率分布)
ルール
● 1ステップごとにnは必ず1増える。この新しい属には新しい1つの種が入る。
● 新たに加わるm個の種はそれぞれの属がもっている種の数に応じて分配される(た
くさん種がある属ほど新たにたくさんの種を獲得しやすい)
ユール過程
ユール過程
n+1ステップ目にk個の種を獲得している属は、nステップ目にk個の種を持っていて変化
していないものか、nステップ目にk-1個の種しかもっていなかったが、1個の種を獲得し
てk個の種を持つようになったものである。
ユール過程
ユール過程
ユール過程
ユール過程
ベータ分布の右裾はべ
き乗分布とほぼ等しい

More Related Content

What's hot

「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 Ken'ichi Matsui
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択kazutantan
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方Shinagawa Seitaro
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギーHiroshi Shimizu
 
逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎ShoutoYonekura
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章nocchi_airport
 
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価これからの仮説検証・モデル評価
これからの仮説検証・モデル評価daiki hojo
 
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章Shushi Namba
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?hoxo_m
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
ベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づけるベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づけるitoyan110
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介Taku Yoshioka
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリングShushi Namba
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布についてhoxo_m
 

What's hot (20)

2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギー
 
逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
 
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価これからの仮説検証・モデル評価
これからの仮説検証・モデル評価
 
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
ベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づけるベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づける
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
 
馬に蹴られるモデリング
馬に蹴られるモデリング馬に蹴られるモデリング
馬に蹴られるモデリング
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 

べき乗則・パレート分布・ジップの法則