SlideShare a Scribd company logo
1 of 5
Download to read offline
はじめての確率論 測度から確率へ  佐藤 坦  57~60ページ
前回までに,以下の順を追って確率変数   の平均値を定義した.
 が非負単関数の場合    52ページの定義 (a)
 が非負確率変数の場合    54ページの定義 (b)
 が一般の確率変数の場合    56ページの定義 (c)
これらの定義にしたがえば平均値は求まるが,  が有限集合や可算集合であって,  のすべての部分
集合に確率が定義されている場合はもっと直接的な定式化ができる → 補題5.6,補題5.7.
補題 5.6
標本空間   が有限集合( 例えば   としても一般性を失わない ),
 とする.このとき,  上の任意の関数   は平均可能な確率変数で,
 と定義するとその平均値は以下で与えられる.
証明
まず,   上の任意の関数   は   の形にかける.
かつ,  で,   なので,
 上の任意の関数   は必ず   上の単関数になる.
よって,  上の任意の関数   は必ず   上の確率変数になる.
また,   上の任意の関数   についてその絶対値   は   上の
非負単関数なので52ページの定義 (a) より常に平均値が定義でき,かつその平均値は有限なので常に
平均可能である.よって,  上の任意の関数   について,  が平均可能なので,
補題5.5 より   も平均可能である. 要するに,単関数は常に平均可能な確率変数である.
 の平均値は,56ページの定義 (c) より   なので
( ただし,  ),
 
     
     
     
補題 5.7
確率空間   で,標本空間   が可算集合( 例えば   としても一般性を
失わない ),  とする.このとき,  上の任意の関数   は確率変数である.
 と定義すると   が平均可能であるための必要十分条件は
となることで,このときその平均値は以下で与えられる.
X
X ⋯
X ⋯
X ⋯
Ω Ω
Ω Ω = { | k = 1, 2, ⋯ , n}ωk
B = 2
Ω
Ω X
≡ P ({ }), k = 1, 2, ⋯ , nρk ωk
E[X] = X( )∑
k=1
n
ωk ρk
Ω X X(ω) = (ω), ∈ R, ω ∈ Ω∑
n
k=1
ak I{ }ωk
ak
{ } ∈ B, k = 1, 2, ⋯ , nωk { } = Ω⋃
n
k=1
ωk
Ω X (Ω, B)
Ω X (Ω, B)
Ω X |X(ω)| = | | (ω)∑
n
k=1
ak I{ }ωk
(Ω, B)
Ω X |X|
X
X E[X] = E[ ] − E[ ]X
+
X
−
≡ max(X, 0), ≡ max(−X, 0)X
+
X
−
E[X] = E[ max( , 0) (ω)] − E[ max(− , 0) (ω)]∑
n
k=1
ak I{ }ωk
∑
n
k=1
ak I{ }ωk
= max( , 0) P ({ }) − max(− , 0) P ({ })∑
n
k=1
ak ωk ∑
n
k=1
ak ωk
= P ({ })∑
n
k=1
ak ωk
= X( )∑
n
k=1
ωk ρk
□
(Ω, B, P ) Ω Ω = { | k ∈ N}ωk
B = 2
Ω
Ω X
≡ P ({ }), k ∈ Nρk ωk X
|X( )| < +∞∑
k∈N
ωk ρk
証明
まず,   上の任意の関数   は   の形にかける.
また,任意の実数   に対して   なので,
 上の任意の関数   は必ず   上の可測関数になる.
よって,  上の任意の関数   は必ず   上の確率変数になる.
 は一般の確率変数なので常に平均値が定義されるかどうかはわからないが,54ページの定義 (b) 
よりその絶対値(非負確率変数)の平均値は常に定義されるので,先にそちらを求めておく.
ここで,  と定義すると,  は   の近似単関数列であるので,
54ページの定義 (b) より,   の平均値は以下のようになる.
       
       
       
       
よって,もし   が平均可能ならば,  である.
また,補題5.5 より,  が平均可能であるための必要十分条件は   が平均可能であることなので,
結局,  が平均可能であるための必要十分条件は,  である.
 が平均可能なときその平均値は,56ページの定義 (c) より   であり
( ただし,  ),
 と定義すると,  は   の近似単関数列なので,
 
     
     
           
       
     
     
     
例題 5.1
 に対して   を   上のポアソン測度とする.
このとき確率空間   上の確率変数
の平均値を求めよ.
E[X] = X( )∑
k∈N
ωk ρk
Ω X X(ω) = (ω), ∈ R, ω ∈ Ω∑
k∈N
ak I{ }ωk
ak
α {ω | X(ω) > α} ∈ B
Ω X (Ω, B)
Ω X (Ω, B)
X
≡ | | (ω)Xn ∑
n
k=1
ak I{ }ωk
{ }Xn |X|
|X|
E[|X|] = E[ ]limn→∞ Xn
= E[ | | (ω)]limn→∞ ∑
n
k=1
ak I{ }ωk
= | | P ({ })limn→∞ ∑
n
k=1
ak ωk
= | | P ({ })∑
k∈N
ak ωk
= |X( )|∑
k∈N
ωk ρk
|X| E[|X|] < +∞ ⇔ |X( )| < +∞∑
k∈N
ωk ρk
X |X|
X |X( )| < +∞∑
k∈N
ωk ρk
X E[X] = E[ ] − E[ ]X
+
X
−
≡ max(X, 0), ≡ max(−X, 0)X
+
X
−
≡ max(± , 0) (ω)X
±
n ∑
n
k=1
ak I{ }ωk
{ }X
±
n X
±
E[X] = E[ ] − E[ ]X
+
X
−
= E[ ] − E[ ]limn→∞ X
+
n limn→∞ X
−
n
= E[ max( , 0) (ω)]limn→∞ ∑
n
k=1
ak I{ }ωk
− E[ max(− , 0) (ω)]limn→∞ ∑
n
k=1
ak I{ }ωk
= max( , 0) P ({ }) − max(− , 0) P ({ })limn→∞ ∑
n
k=1
ak ωk limn→∞ ∑
n
k=1
ak ωk
= max( , 0) P ({ }) − max(− , 0) P ({ })∑
k∈N
ak ωk ∑
k∈N
ak ωk
= P ({ })∑
k∈N
ak ωk
= X( )∑
k∈N
ωk ρk
□
λ > 0 Πλ
≡ {0, 1, 2, ⋯}N0
= , A ∈Πλ ∑
k∈A
λ
k
k!
e
−λ
2
N0
( , , )N0 2
N0
Πλ
X(k) = k, k ∈ N0
回答
補題 5.7 で   の場合なので,
では次に,  が非可算集合である場合,平均値はどのように計算されるかの例を考えてみる.
確率空間としてルベーグ空間   (33ページ)を考えてみる.
このとき,  上の任意の関数が確率変数になるとは限らないが,定理2.2(15ページ)の系より,
 が   上の連続関数であれば任意の1次元ボレル集合   について 
なので,任意の実数   について   である.
よって,  が   上の連続関数であれば   はルベーグ空間上の実確率変数である.
特に,  が   上の有界連続関数であれば,  が有限の値になるので,有限の
 が存在し,  の平均値を有限の値で上から抑えられる.つまり,  は必ず
平均可能になる.このときの平均値が   のリーマン積分で与えられることを示す → 補題5.8.
補題 5.8
区間   上の有界連続関数   はルベーグ空間   上の
実確率変数であるが,平均可能であり,その平均値はリーマン積分の値に一致する.すなわち,
証明
 が区間   上の有界連続関数であれば,  も有界連続関数であるので,  が非負有界連続
関数として一般性を失わない.
非負有界連続関数についてさえ証明すれば,非負とは限らない有界連続関数   についても 
 より題意を示せるので,  を非負として
証明を進めてよい.
 とおくと   より   は平均可能である.
このとき,  を以下のように定義すると   の連続性より   は   の近似単関数列である.
要するに,  は区間   を   等分して,それぞれの区間でその区間での   の下限値を
取るような関数である.分割したそれぞれの区間は左開右閉区間の形なので   の元である.
よって,  は単関数である.
   に分割.
   に分割.
   に分割.
また,もし   に(   で表せないような )不連続な点があれば   はその点で 
= /k!ρk λ
k
e
−λ
E[X] = X(k) = k = k = λ = λ = λ∑
k=0
∞
ρk ∑
k=0
∞
λ
k
k!
e
−λ
∑
k=1
∞
λ
k
k!
e
−λ
∑
k=1
∞
λ
(k−1)
(k − 1)!
e
−λ
e
λ
e
−λ
□
Ω
((0, 1], M(0, 1], m)
(0, 1]
f (0, 1] B ∈ B1 (B) ∈ B((0, 1])f
−1
α ((α, +∞)) ∈ B((0, 1]) ⊂ M(0, 1]f
−1
f (0, 1] f
f (0, 1] f(t)limt→0
f(t)sup0<t≦1
|f(t)| f(t)
f(t)
(0, 1] f = f(t), t ∈ (0, 1] ((0, 1], M(0, 1], m)
E[f] = f(t)dt∫
1
0
f (0, 1] ,f
+
f
−
f
f
E[ ] − E[ ] = (t)dt − (t)dtf
+
f
−
∫
1
0
f
+
∫
1
0
f
−
f
M ≡ f(t)sup
0<t≦1
E[|f|] = E[f] ≦ E[M ] = M < +∞ f
fn f { }fn f
(t) ≡ inf {f(s) < s ≦ } (t) , t ∈ (0, 1] , n ∈ Nfn ∑
k=1
2
n
∣
∣
∣
k − 1
2
n
k
2
n
I
( , ]
k−1
2
n
k
2
n
(t)fn (0, 1] 2
n
f(t)
M(0, 1]
(t)fn
(t) ⋯ (0, ], ( , 1]f1
1
2
1
2
(t) ⋯ (0, ], ( , ], ( , ], ( , 1]f2
1
4
1
4
2
4
2
4
3
4
3
4
(t) ⋯ (0, ], ( , ], ( , ], ( , ], ( , ], ( , ], ( , ], ( , 1]f3
1
8
1
8
2
8
2
8
3
8
3
8
4
8
4
8
5
8
5
8
6
8
6
8
7
8
7
8
f(t) t = k/2
n
{ (t)}fn f(t)
に収束できないが( ∵   を大きくとっても   を任意の正数   で抑えられない ),
 
いま   は連続なのでその心配はなく,  は   の近似関数列になっている.
 
よって,54ページの定義 (b) より,  の平均値は以下のようになる.
      
      
      
         ∵ リーマン積分の定義
※ 補題5.8 では   が   で連続であることは仮定していない(   で不連続でもよい ).
例題 5.2
ルベーグ空間   上の確率変数   の平均値を計算せよ.
回答
可測部分集合上の平均値
 を   上の確率変数,  とする.  が平均可能であれば,  は   で平均可能
といい,  の   での平均値 を   で定義する.
 が平均可能でなくても   は平均可能である場合がある.
 を以下のようにもかくことがあるが意味は同じ.
補題 5.9
 が零集合ならば,任意の確率変数   は   で平均可能かつ   の   での平均値は   である.
証明
 が非負単関数の場合,  とかけるとする.このとき,
        
        
        
        
        
より,  は   で平均可能かつ   の   での平均値は   である.
 が非負確率変数の場合,近似単関数列を   とすると任意の   で   なので,
           ∵   の近似単関数列は 
N | (t) − f(t)|fN ε
f(t) { (t)}fn f(t)
f
E[f] = E[ ]limn→∞ fn
= E [ inf {f(s) < s ≦ } (t)]limn→∞ ∑
2
n
k=1
∣
∣
k−1
2
n
k
2
n
I
( , ]
k−1
2
n
k
2
n
= inf {f(s) < s ≦ } m(( , ])limn→∞ ∑
2
n
k=1
∣
∣
k−1
2
n
k
2
n
k−1
2
n
k
2
n
= inf {f(s) < s ≦ }limn→∞
1
2
n
∑
2
n
k=1
∣
∣
k−1
2
n
k
2
n
= f(t)dt∫
1
0
□
f [0, 1] t = 0
((0, 1], M(0, 1], m) X(t) = cos πt
E[X] = cos πtdt = 0∫
1
0
□
X (Ω, B, P ) B ∈ B XIB X B
X B E[X|B] ≡ E[X ]IB
X XIB
E[X|B]
X(ω)dP (ω) , X(ω)P (dω) , XdP∫
B
∫
B
∫
B
N X N X N 0
X X = ∑
n
k=1
ak IAk
E[X|N ] = E[X ]IN
= E[ ]∑
n
k=1
ak IAk
IN
= E[ ]∑
n
k=1
ak I ∩NAk
= P ( ∩ N )∑
n
k=1
ak Ak
≦ P (N )∑
n
k=1
ak
= 0
X N X N 0
X { }Xn n E[ |N ] = 0Xn
E[X|N ] = E[X ]IN
= E[ ]limn→∞ Xn IN XIN { }Xn IN
        
 
        
 
より,やはり   は   で平均可能かつ   の   での平均値は   である.
 
 が一般の確率変数の場合,
           ∵   は非負確率変数   の差に等しい
        
        
より,やはり   は   で平均可能かつ   の   での平均値は   である.
補題5.9 は,確率変数   の零集合上での値は,  の平均値   に影響しないことを示している.
実際   が非負確率変数のとき以下のようになり,  の   上での値は   に影響しない.
        ∵ 補題 5.4(2)
     
     
 の   上での値は   に影響しないので,さらにいえば,  が   上で定義されていなくても 
 は計算できる.  が計算できるためには,零集合   を除いたところで   が定義されて
いればよい( つまり,ほとんどいたるところで   が定義されていればよい ).
零集合   を除いたところで   が定義されているとき,  上での   の値を適当に決めることで
( 例えば一律に   とするなど )  を   全体で定義された関数   に拡張できる.この拡張された 
 を   上の確率変数となるように選べるとき,  は ほとんどいたるところ定義された確率
変数 といい,  と定義する.当然,  は   の拡張の仕方によらない(  の 
上での値は,  に影響しないため).
ルベーグ空間   上では1点集合は零集合なので,ルベーグ空間上の確率変数 
が   上で平均可能であれば,  上でも   上でも   上でも
平均可能であり,これらの区間上での平均値はすべて等しい.
 が   上で平均可能であっても,つまり,  が平均可能な確率変数であっても
もしかしたら   は   の外側で定義されていなかったり,あるいは発散したりしていて 
より広い区間では平均可能でないかもしれない.ただ,  の両端に1点ずつ加えるだけなら,
1点集合は零集合なので,  が   で定義されていなくても発散していても関係なく   の
区間   上での平均値は求まり,区間   上での平均値に等しい.
この   をリーマン積分と同じ
ように以下のようにかくことが多い.
 
= E[ |N ]limn→∞ Xn
= 0
X N X N 0
X
E[X|N ] = E[X ]IN
= E[ ] − E[ ]X
+
IN X
−
IN XIN ,X
+
IN X
−
IN
= E[ |N ] − E[ |N ]X
+
X
−
= 0
X N X N 0
□
X X E[X]
X X N E[X]
E[X] = E[X + X ]I
N
C IN
= E[X ] + E[X ]I
N
C IN
= E[X| ] + E[X|N ]N
C
= E[X| ]N
C
X N E[X] X N
E[X] E[X] N X
X
N X N X
0 X Ω X
^
X
^
(Ω, B, P ) X
E[X] ≡ E[ ]X
^
E[X] X
^
X N
E[X]
((0, 1], M(0, 1], m) f
(a, b) (0 ≦ a < b ≦ 1) (a, b] [a, b) [a, b]
f (a, b) fI(a,b)
f (a, b) (a, b)
(a, b)
f t = a, b f
[a, b] (a, b)
E[f (a, b]] = E[f (a, b]] = E[f [a, b)] = E[f [a, b]]∣∣ ∣∣ ∣∣ ∣∣
f(t)dt∫
b
a

More Related Content

What's hot

PRML読書会#4資料+補足
PRML読書会#4資料+補足PRML読書会#4資料+補足
PRML読書会#4資料+補足Hiromasa Ohashi
 
スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元Shogo Muramatsu
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1matsuolab
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)narumikanno0918
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定Akira Masuda
 
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2Hiroyuki Kato
 
PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布Yuki Soma
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Taiji Suzuki
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論sleepy_yoshi
 
[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)Ryosuke Sasaki
 
セミパラメトリック推論の基礎
セミパラメトリック推論の基礎セミパラメトリック推論の基礎
セミパラメトリック推論の基礎Daisuke Yoneoka
 
「統計的学習理論」第1章
「統計的学習理論」第1章「統計的学習理論」第1章
「統計的学習理論」第1章Kota Matsui
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門Shuyo Nakatani
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Takao Yamanaka
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成Prunus 1350
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 

What's hot (20)

Prml 2.3
Prml 2.3Prml 2.3
Prml 2.3
 
PRML読書会#4資料+補足
PRML読書会#4資料+補足PRML読書会#4資料+補足
PRML読書会#4資料+補足
 
スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.5.2
 
PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
 
[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)
 
セミパラメトリック推論の基礎
セミパラメトリック推論の基礎セミパラメトリック推論の基礎
セミパラメトリック推論の基礎
 
「統計的学習理論」第1章
「統計的学習理論」第1章「統計的学習理論」第1章
「統計的学習理論」第1章
 
PRML8章
PRML8章PRML8章
PRML8章
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Fisher Vectorによる画像認識
Fisher Vectorによる画像認識
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 

Similar to はじめての確率論 測度から確率へ 57~60ページ ノート

PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)Toshiyuki Shimono
 
ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章YosukeAkasaka
 
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)Toshiyuki Shimono
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)Kota Mori
 
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Wataru Kishimoto
 
統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析
統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析
統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析YasutoTerasawa
 
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Akira Miyazawa
 
LLM は数学を理解しているのか?
LLM は数学を理解しているのか?LLM は数学を理解しているのか?
LLM は数学を理解しているのか?Hide Koba
 
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎Tomoshige Nakamura
 
2011年11月18日
2011年11月18日2011年11月18日
2011年11月18日nukaemon
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...T T
 
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2Hiroyuki Kato
 

Similar to はじめての確率論 測度から確率へ 57~60ページ ノート (17)

prml_titech_9.0-9.2
prml_titech_9.0-9.2prml_titech_9.0-9.2
prml_titech_9.0-9.2
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
 
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
PRML輪講用資料10章(パターン認識と機械学習,近似推論法)
 
Draftall
DraftallDraftall
Draftall
 
#7:演算子と分岐
#7:演算子と分岐#7:演算子と分岐
#7:演算子と分岐
 
ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章ベイズ推論による機械学習入門 第4章
ベイズ推論による機械学習入門 第4章
 
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
PRML 10.3, 10.4 (Pattern Recognition and Machine Learning)
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
 
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059Bishop prml 10.2.2-10.2.5_wk77_100412-0059
Bishop prml 10.2.2-10.2.5_wk77_100412-0059
 
統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析
統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析
統計的因果推論の理論と実践 ch9 交互作用項のある共分散分析
 
Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1
 
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)
 
LLM は数学を理解しているのか?
LLM は数学を理解しているのか?LLM は数学を理解しているのか?
LLM は数学を理解しているのか?
 
ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
 
2011年11月18日
2011年11月18日2011年11月18日
2011年11月18日
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
 

はじめての確率論 測度から確率へ 57~60ページ ノート

  • 1. はじめての確率論 測度から確率へ  佐藤 坦  57~60ページ 前回までに,以下の順を追って確率変数   の平均値を定義した.  が非負単関数の場合    52ページの定義 (a)  が非負確率変数の場合    54ページの定義 (b)  が一般の確率変数の場合    56ページの定義 (c) これらの定義にしたがえば平均値は求まるが,  が有限集合や可算集合であって,  のすべての部分 集合に確率が定義されている場合はもっと直接的な定式化ができる → 補題5.6,補題5.7. 補題 5.6 標本空間   が有限集合( 例えば   としても一般性を失わない ),  とする.このとき,  上の任意の関数   は平均可能な確率変数で,  と定義するとその平均値は以下で与えられる. 証明 まず,   上の任意の関数   は   の形にかける. かつ,  で,   なので,  上の任意の関数   は必ず   上の単関数になる. よって,  上の任意の関数   は必ず   上の確率変数になる. また,   上の任意の関数   についてその絶対値   は   上の 非負単関数なので52ページの定義 (a) より常に平均値が定義でき,かつその平均値は有限なので常に 平均可能である.よって,  上の任意の関数   について,  が平均可能なので, 補題5.5 より   も平均可能である. 要するに,単関数は常に平均可能な確率変数である.  の平均値は,56ページの定義 (c) より   なので ( ただし,  ),                     補題 5.7 確率空間   で,標本空間   が可算集合( 例えば   としても一般性を 失わない ),  とする.このとき,  上の任意の関数   は確率変数である.  と定義すると   が平均可能であるための必要十分条件は となることで,このときその平均値は以下で与えられる. X X ⋯ X ⋯ X ⋯ Ω Ω Ω Ω = { | k = 1, 2, ⋯ , n}ωk B = 2 Ω Ω X ≡ P ({ }), k = 1, 2, ⋯ , nρk ωk E[X] = X( )∑ k=1 n ωk ρk Ω X X(ω) = (ω), ∈ R, ω ∈ Ω∑ n k=1 ak I{ }ωk ak { } ∈ B, k = 1, 2, ⋯ , nωk { } = Ω⋃ n k=1 ωk Ω X (Ω, B) Ω X (Ω, B) Ω X |X(ω)| = | | (ω)∑ n k=1 ak I{ }ωk (Ω, B) Ω X |X| X X E[X] = E[ ] − E[ ]X + X − ≡ max(X, 0), ≡ max(−X, 0)X + X − E[X] = E[ max( , 0) (ω)] − E[ max(− , 0) (ω)]∑ n k=1 ak I{ }ωk ∑ n k=1 ak I{ }ωk = max( , 0) P ({ }) − max(− , 0) P ({ })∑ n k=1 ak ωk ∑ n k=1 ak ωk = P ({ })∑ n k=1 ak ωk = X( )∑ n k=1 ωk ρk □ (Ω, B, P ) Ω Ω = { | k ∈ N}ωk B = 2 Ω Ω X ≡ P ({ }), k ∈ Nρk ωk X |X( )| < +∞∑ k∈N ωk ρk
  • 2. 証明 まず,   上の任意の関数   は   の形にかける. また,任意の実数   に対して   なので,  上の任意の関数   は必ず   上の可測関数になる. よって,  上の任意の関数   は必ず   上の確率変数になる.  は一般の確率変数なので常に平均値が定義されるかどうかはわからないが,54ページの定義 (b)  よりその絶対値(非負確率変数)の平均値は常に定義されるので,先にそちらを求めておく. ここで,  と定義すると,  は   の近似単関数列であるので, 54ページの定義 (b) より,   の平均値は以下のようになる.                                 よって,もし   が平均可能ならば,  である. また,補題5.5 より,  が平均可能であるための必要十分条件は   が平均可能であることなので, 結局,  が平均可能であるための必要十分条件は,  である.  が平均可能なときその平均値は,56ページの定義 (c) より   であり ( ただし,  ),  と定義すると,  は   の近似単関数列なので,                                                     例題 5.1  に対して   を   上のポアソン測度とする. このとき確率空間   上の確率変数 の平均値を求めよ. E[X] = X( )∑ k∈N ωk ρk Ω X X(ω) = (ω), ∈ R, ω ∈ Ω∑ k∈N ak I{ }ωk ak α {ω | X(ω) > α} ∈ B Ω X (Ω, B) Ω X (Ω, B) X ≡ | | (ω)Xn ∑ n k=1 ak I{ }ωk { }Xn |X| |X| E[|X|] = E[ ]limn→∞ Xn = E[ | | (ω)]limn→∞ ∑ n k=1 ak I{ }ωk = | | P ({ })limn→∞ ∑ n k=1 ak ωk = | | P ({ })∑ k∈N ak ωk = |X( )|∑ k∈N ωk ρk |X| E[|X|] < +∞ ⇔ |X( )| < +∞∑ k∈N ωk ρk X |X| X |X( )| < +∞∑ k∈N ωk ρk X E[X] = E[ ] − E[ ]X + X − ≡ max(X, 0), ≡ max(−X, 0)X + X − ≡ max(± , 0) (ω)X ± n ∑ n k=1 ak I{ }ωk { }X ± n X ± E[X] = E[ ] − E[ ]X + X − = E[ ] − E[ ]limn→∞ X + n limn→∞ X − n = E[ max( , 0) (ω)]limn→∞ ∑ n k=1 ak I{ }ωk − E[ max(− , 0) (ω)]limn→∞ ∑ n k=1 ak I{ }ωk = max( , 0) P ({ }) − max(− , 0) P ({ })limn→∞ ∑ n k=1 ak ωk limn→∞ ∑ n k=1 ak ωk = max( , 0) P ({ }) − max(− , 0) P ({ })∑ k∈N ak ωk ∑ k∈N ak ωk = P ({ })∑ k∈N ak ωk = X( )∑ k∈N ωk ρk □ λ > 0 Πλ ≡ {0, 1, 2, ⋯}N0 = , A ∈Πλ ∑ k∈A λ k k! e −λ 2 N0 ( , , )N0 2 N0 Πλ X(k) = k, k ∈ N0
  • 3. 回答 補題 5.7 で   の場合なので, では次に,  が非可算集合である場合,平均値はどのように計算されるかの例を考えてみる. 確率空間としてルベーグ空間   (33ページ)を考えてみる. このとき,  上の任意の関数が確率変数になるとは限らないが,定理2.2(15ページ)の系より,  が   上の連続関数であれば任意の1次元ボレル集合   について  なので,任意の実数   について   である. よって,  が   上の連続関数であれば   はルベーグ空間上の実確率変数である. 特に,  が   上の有界連続関数であれば,  が有限の値になるので,有限の  が存在し,  の平均値を有限の値で上から抑えられる.つまり,  は必ず 平均可能になる.このときの平均値が   のリーマン積分で与えられることを示す → 補題5.8. 補題 5.8 区間   上の有界連続関数   はルベーグ空間   上の 実確率変数であるが,平均可能であり,その平均値はリーマン積分の値に一致する.すなわち, 証明  が区間   上の有界連続関数であれば,  も有界連続関数であるので,  が非負有界連続 関数として一般性を失わない. 非負有界連続関数についてさえ証明すれば,非負とは限らない有界連続関数   についても   より題意を示せるので,  を非負として 証明を進めてよい.  とおくと   より   は平均可能である. このとき,  を以下のように定義すると   の連続性より   は   の近似単関数列である. 要するに,  は区間   を   等分して,それぞれの区間でその区間での   の下限値を 取るような関数である.分割したそれぞれの区間は左開右閉区間の形なので   の元である. よって,  は単関数である.    に分割.    に分割.    に分割. また,もし   に(   で表せないような )不連続な点があれば   はその点で  = /k!ρk λ k e −λ E[X] = X(k) = k = k = λ = λ = λ∑ k=0 ∞ ρk ∑ k=0 ∞ λ k k! e −λ ∑ k=1 ∞ λ k k! e −λ ∑ k=1 ∞ λ (k−1) (k − 1)! e −λ e λ e −λ □ Ω ((0, 1], M(0, 1], m) (0, 1] f (0, 1] B ∈ B1 (B) ∈ B((0, 1])f −1 α ((α, +∞)) ∈ B((0, 1]) ⊂ M(0, 1]f −1 f (0, 1] f f (0, 1] f(t)limt→0 f(t)sup0<t≦1 |f(t)| f(t) f(t) (0, 1] f = f(t), t ∈ (0, 1] ((0, 1], M(0, 1], m) E[f] = f(t)dt∫ 1 0 f (0, 1] ,f + f − f f E[ ] − E[ ] = (t)dt − (t)dtf + f − ∫ 1 0 f + ∫ 1 0 f − f M ≡ f(t)sup 0<t≦1 E[|f|] = E[f] ≦ E[M ] = M < +∞ f fn f { }fn f (t) ≡ inf {f(s) < s ≦ } (t) , t ∈ (0, 1] , n ∈ Nfn ∑ k=1 2 n ∣ ∣ ∣ k − 1 2 n k 2 n I ( , ] k−1 2 n k 2 n (t)fn (0, 1] 2 n f(t) M(0, 1] (t)fn (t) ⋯ (0, ], ( , 1]f1 1 2 1 2 (t) ⋯ (0, ], ( , ], ( , ], ( , 1]f2 1 4 1 4 2 4 2 4 3 4 3 4 (t) ⋯ (0, ], ( , ], ( , ], ( , ], ( , ], ( , ], ( , ], ( , 1]f3 1 8 1 8 2 8 2 8 3 8 3 8 4 8 4 8 5 8 5 8 6 8 6 8 7 8 7 8 f(t) t = k/2 n { (t)}fn f(t)
  • 4. に収束できないが( ∵   を大きくとっても   を任意の正数   で抑えられない ),   いま   は連続なのでその心配はなく,  は   の近似関数列になっている.   よって,54ページの定義 (b) より,  の平均値は以下のようになる.                               ∵ リーマン積分の定義 ※ 補題5.8 では   が   で連続であることは仮定していない(   で不連続でもよい ). 例題 5.2 ルベーグ空間   上の確率変数   の平均値を計算せよ. 回答 可測部分集合上の平均値  を   上の確率変数,  とする.  が平均可能であれば,  は   で平均可能 といい,  の   での平均値 を   で定義する.  が平均可能でなくても   は平均可能である場合がある.  を以下のようにもかくことがあるが意味は同じ. 補題 5.9  が零集合ならば,任意の確率変数   は   で平均可能かつ   の   での平均値は   である. 証明  が非負単関数の場合,  とかけるとする.このとき,                                              より,  は   で平均可能かつ   の   での平均値は   である.  が非負確率変数の場合,近似単関数列を   とすると任意の   で   なので,            ∵   の近似単関数列は  N | (t) − f(t)|fN ε f(t) { (t)}fn f(t) f E[f] = E[ ]limn→∞ fn = E [ inf {f(s) < s ≦ } (t)]limn→∞ ∑ 2 n k=1 ∣ ∣ k−1 2 n k 2 n I ( , ] k−1 2 n k 2 n = inf {f(s) < s ≦ } m(( , ])limn→∞ ∑ 2 n k=1 ∣ ∣ k−1 2 n k 2 n k−1 2 n k 2 n = inf {f(s) < s ≦ }limn→∞ 1 2 n ∑ 2 n k=1 ∣ ∣ k−1 2 n k 2 n = f(t)dt∫ 1 0 □ f [0, 1] t = 0 ((0, 1], M(0, 1], m) X(t) = cos πt E[X] = cos πtdt = 0∫ 1 0 □ X (Ω, B, P ) B ∈ B XIB X B X B E[X|B] ≡ E[X ]IB X XIB E[X|B] X(ω)dP (ω) , X(ω)P (dω) , XdP∫ B ∫ B ∫ B N X N X N 0 X X = ∑ n k=1 ak IAk E[X|N ] = E[X ]IN = E[ ]∑ n k=1 ak IAk IN = E[ ]∑ n k=1 ak I ∩NAk = P ( ∩ N )∑ n k=1 ak Ak ≦ P (N )∑ n k=1 ak = 0 X N X N 0 X { }Xn n E[ |N ] = 0Xn E[X|N ] = E[X ]IN = E[ ]limn→∞ Xn IN XIN { }Xn IN
  • 5.                       より,やはり   は   で平均可能かつ   の   での平均値は   である.    が一般の確率変数の場合,            ∵   は非負確率変数   の差に等しい                   より,やはり   は   で平均可能かつ   の   での平均値は   である. 補題5.9 は,確率変数   の零集合上での値は,  の平均値   に影響しないことを示している. 実際   が非負確率変数のとき以下のようになり,  の   上での値は   に影響しない.         ∵ 補題 5.4(2)              の   上での値は   に影響しないので,さらにいえば,  が   上で定義されていなくても   は計算できる.  が計算できるためには,零集合   を除いたところで   が定義されて いればよい( つまり,ほとんどいたるところで   が定義されていればよい ). 零集合   を除いたところで   が定義されているとき,  上での   の値を適当に決めることで ( 例えば一律に   とするなど )  を   全体で定義された関数   に拡張できる.この拡張された   を   上の確率変数となるように選べるとき,  は ほとんどいたるところ定義された確率 変数 といい,  と定義する.当然,  は   の拡張の仕方によらない(  の  上での値は,  に影響しないため). ルベーグ空間   上では1点集合は零集合なので,ルベーグ空間上の確率変数  が   上で平均可能であれば,  上でも   上でも   上でも 平均可能であり,これらの区間上での平均値はすべて等しい.  が   上で平均可能であっても,つまり,  が平均可能な確率変数であっても もしかしたら   は   の外側で定義されていなかったり,あるいは発散したりしていて  より広い区間では平均可能でないかもしれない.ただ,  の両端に1点ずつ加えるだけなら, 1点集合は零集合なので,  が   で定義されていなくても発散していても関係なく   の 区間   上での平均値は求まり,区間   上での平均値に等しい. この   をリーマン積分と同じ ように以下のようにかくことが多い.   = E[ |N ]limn→∞ Xn = 0 X N X N 0 X E[X|N ] = E[X ]IN = E[ ] − E[ ]X + IN X − IN XIN ,X + IN X − IN = E[ |N ] − E[ |N ]X + X − = 0 X N X N 0 □ X X E[X] X X N E[X] E[X] = E[X + X ]I N C IN = E[X ] + E[X ]I N C IN = E[X| ] + E[X|N ]N C = E[X| ]N C X N E[X] X N E[X] E[X] N X X N X N X 0 X Ω X ^ X ^ (Ω, B, P ) X E[X] ≡ E[ ]X ^ E[X] X ^ X N E[X] ((0, 1], M(0, 1], m) f (a, b) (0 ≦ a < b ≦ 1) (a, b] [a, b) [a, b] f (a, b) fI(a,b) f (a, b) (a, b) (a, b) f t = a, b f [a, b] (a, b) E[f (a, b]] = E[f (a, b]] = E[f [a, b)] = E[f [a, b]]∣∣ ∣∣ ∣∣ ∣∣ f(t)dt∫ b a