「超曖昧語「母集団」「標本」にケリをつける // ID列と独立ベキ測度の前送り定理」で、間違いを書いてしまい訂正しました。訂正のところに、「たぶん間違った理由を説明します、後日」と書いてますが、間違いを説明するだけでは建設的でないので、「独立ベキ測度の前送り定理」をほぼセルフコンテインドな形で説明します。
そして、どこからともなく唐突に現れるIID〈independent and identically distributed〉な確率変数達は、もとの確率変数(母集団の変量)から具体的に構成できるシロモノであることを示します。
内容:
はじめに
この記事のエッセンスは、与えられた確率空間 A = (ΩA, ΣA, μA) に対して、独立積の意味でのn乗 A⊗n = ((ΩA)n, (ΣA)⊗n, (μA)⊗n) を作ることです。独立積の意味でのn乗は独立ベキと呼びます。
独立ベキは、確率空間への操作として良い性質を持っていて、f:A→B が確率空間のあいだの準同型写像(確率測度を保存する可測写像)ならば、自動的に、A⊗n から B⊗n への準同型写像を誘導します*1。誘導された写像は f⊗n と書くのが整合的ですが、この記事では(諸般の事情から)f×nと書きます。
- f×n:(ΩA)n→(ΩB)n (確率を保存する写像)
B側に確率測度がなくて、単なる可測空間のときは、A側の確率測度をfによってB側に前送りできます。前送りされた測度を備えたBは確率空間になり、f×nは確率測度を保存する可測写像となります。
このテの議論のためには、測度の定義くらいは知っている必要がありますが、実際にやっていることのほとんどは、部分集合(可測集合)を写像の逆像によりあっちこっちに引っ張り回すことです。集合と写像の計算/推論をたくさんするので、「全称記号・存在記号の練習:集合と写像の話題から」で出したような練習問題の宝庫と言えます。
準備:写像の一般論
写像 f:A→B, g:C→D に対して、次のような構成を説明します。これらの構成は、たいへん基本的なものです。
- fとgの結合〈composition | 合成〉、記法は f;g または gf *2
- fとgの直積〈direct product〉、記法は f×g *3
- fとgのデカルトタプリング〈cartesian tupling〉、記法は <f, g>
定義は次のとおりです。
- 結合: B = C のときだけ定義可能で f;g = gf:A→D
定義: (f;g)(a) = (gf)(a) := g(f(a)) - 直積: f×g:A×C→B×D
定義: (f×g)(a, c) := (f(a), g(c)) - デカルトタプリング: A = C のときだけ定義可能で <f, g>:A→B×D
定義: <f, g>(a) := (f(a), g(a))
集合の直積A×Bに対して、その第一射影〈first projection〉を π1A,B:A×B→A、第二射影〈second projection〉を π2A,B:A×B→A とします。
- π1A,B(a, b) := a
- π2A,B(a, b) := b
A, Bが分かっているとき、または特に明示する必要もないときは、射影を単に π1, π2 とも書きます。
集合Aの対角写像〈diagonal map〉は ΔA:A→A×A と書きます。
- ΔA(a) := (a, a)
Aが分かっているとき、または特に明示する必要もないときは、対角写像を単にΔとも書きます。
次の関係があります。
- f:A→B, g:A→D に対して、<f, g> = Δ;(f×g)
- f:A→B, g:C→D に対して、f×g = <π1A,C;f, π2A,C;g>
- f:A→B, g:A→D に対して、<f, g>;π1 = f, <f, g>;π2 = g
- f:A→B×D に対して、<f;π1, f;π2> = f
どれも、定義から容易に示せます。
直積もデカルトペアリングも、n個の集合/写像に対して定義できます。詳しく説明する必要はないでしょうが、次のような記号を使います。
- 直積 f1×...×fn:A1×...×An→B1×...×Bn
- デカルトペアリング <f1, ..., fn>:A→B1×...×Bn
- 射影 πiA1,...,An:A1×...×An→Ai (i = 1, ..., n)
- 対角 ΔnA:A→A×...×A
後で使うので、次の等式は心に留めておいてください。
- f:A→B1×...×Bn に対して、<f;π1, ..., f;πn> = f
集合Aに対して Pow(A) はAのベキ集合〈power set〉とします。f:A→B に対して、fの逆像写像〈inverse-image mapping〉 f*:Pow(B)→Pow(A) と、fの像写像〈image mapping〉 f*:Pow(A)→Pow(B) を次のように定義します。
- T∈Pow(B) に対して、f*(T) := {a∈A | f(a)∈T}
- S∈Pow(A) に対して、f*(S) := {b∈B | ∃a∈A.(a∈A かつ f(a) = b)}
fの逆像写像の像写像 f** = (f*)* : Pow(Pow(B))→Pow(Pow(A)) は次のような写像です。
- F∈Pow(Pow(B)) に対して、f**(F) = {S∈Pow(A) | ∃T∈Pow(B).(T∈F かつ f*(T) = S)}
f**は、B上の集合族(Bの部分集合の集合)を、A上の集合族に写します。f** は、σ代数やその生成系をfと逆向きに送るときに使われます。
準備:可測写像の独立性
この節では、可測写像の独立性の定義を天下りに述べます。動機付けや実例がないのは心苦しいですが、かんべんしてね。なお、この記事では、「確率変数」という言葉を積極的に使う気はありません。「可測写像〈確率変数〉」という表記にとどめます(タイトルとリード文には「確率変数」と出してるけど(苦笑))。
A = (ΩA, ΣA) を可測空間とします。ΩAが台集合で、ΣAはΩA上のσ代数です。混乱の心配がなければ、記号を乱用して A = (A, ΣA) とも書きます。
F⊆ΣA を任意の集合(Aの部分集合の集合)として、σA(F) をFから生成された最小のσ代数〈smallest sigma-algebra〉とします。σA(F)⊆ΣA。可測空間Aが分かっているとき、または特に明示する必要もないときは、σA(F) を単に σ(F) とも書きます。
A = (A, ΣA), B = (B, ΣB) を可測空間、f:A→B を可測写像とします。f**(ΣB) は、ΣAの部分σ代数になります。
- f**(ΣB) = {S∈ΣA | ∃T∈ΣB.(T∈ΣB かつ f*(T) = S)}
可測写像 f:A→B から f**(ΣB) が一意に決まるので、次のように定義します。
- σ[f] := f**(ΣB)
σ[f]を、fで生成されたσ代数〈sigma-algebra generated by f〉と呼ぶことがあります。σ(-)とσ[-]は、括弧の種類で区別しています。似てはいますが、違う概念です。
ここから先、Aは単なる可測空間ではなくて、確率空間だとします。つまり、A = (A, ΣA, μA) で、μAは確率測度とします。A, BをΣAの部分σ代数とします。2つの部分σ代数AとBがμAに関して独立〈independent〉だとは、次が成立することです。
- 任意の U∈A, V∈B に対して、μA(U∩V) = μA(U)μA(V)
より一般に、A1, ..., An をΣAの部分σ代数として、n個の部分σ代数 A1, ..., An がμAに関して独立だとは、次が成立することです。
- 任意の Ui∈Ai(i = 1, ..., n)に対して、μA(U1∩...∩Un) = μA(U1)...μA(Un) (n個の積)
A = (A, ΣA, μA) が確率空間で、X1 = (X1, ΣX1), ..., Xn = (Xn, ΣXn) がn個の可測空間のとき、n個の可測写像〈確率変数〉 f1:A→X1, ..., fn:A→Xn が独立だとは、ΣAの部分σ代数 σ[f1], ..., σ[fn] が独立なことです。
具体的に書けば:
- 任意の Ui∈σ[fi](i = 1, ..., n)に対して、μA(U1∩...∩Un) = μA(U1)...μA(Un) (n個の積)
Ui∈σ[fi] を丁寧に書けば、適当な Vi∈ΣXi によって、Ui = fi*(Vi) と書けることです。これを使って f1, ..., fn の独立性の条件をさらに書き換えれば:
- 任意の Vi∈ΣXi (i = 1, ..., n)に対して、μA(f1*(V1)∩...∩fn*(Vn)) = μA(f1*(V1))...μA(fn*(Vn)) (n個の積) ---(独立性の条件)
n個の可測写像〈確率変数〉の独立性は、確率測度μAがないと定義できないことに注意してください。
準備:確率空間の独立積と独立ベキ
確率空間の独立積と独立ベキについては、次を参照してください。
確率空間の独立積/独立ベキを扱うときは、A = (A, ΣA, μA) といういつもの記号の乱用はマズイので、A = (ΩA, ΣA, μA) という書き方をすることにします。
確率空間Aの独立ベキ(独立積の意味でのn乗)をA⊗nと書きます。
- A⊗n = ((ΩA)n, (ΣA)⊗n, (μA)⊗n)
A⊗nの台集合は、直積の意味でのn乗である(ΩA)nです。U1×...×Un∈(ΣA)⊗n に対して、独立ベキ確率測度〈independent power of a probability measure〉(確率測度の独立ベキ)は次のように定義されています。
- (μA)⊗n(U1×...×Un) := μA(U1)...μA(Un) (右辺はn個の積)
U1×...×Un という形(矩形 | 方形)の集合以外の集合に対しては、標準的な測度の拡張方法を使って測度を定義します。
独立ベキ測度の前送り定理
A = (ΩA, ΣA, μA) を確率空間、X = (ΩX, ΣX) を可測空間、f:ΩA→ΩX を可測写像とします。したがって、f*は ΣX→ΣA というσ代数のあいだの準同型写像を定義します。fとf*で向きが逆になることに注意してください。
可測写像fによる確率測度μAの前送りは f*(μA) と書きます。f*は写像の像写像と同じ記号ですが、これは文脈で区別することにします。
- (f*(μA))(U) = μA(f*(U))
測度νに可測集合Sを渡すことを <ν|S> と書くことにすると:
- <f*(μA)|U> = <μA|f*(U)>
こう書いてみると、可測集合の引き戻しf*と測度の前送りf*が、ある種の双対の関係にあることが分かるでしょう。
f:ΩA→ΩX の直積の意味でのn乗をf×nと書きます。
- f×n = f×...×f :(ΩA)n→(ΩX)n
- f×n(a1, ..., an) = (f(a1), ..., f(an))
fが可測写像なら、f×nも可測写像になります。σ代数 (ΣX)⊗n の生成元は、V1, ..., Vn∈ΣX による V1×...×Vn⊆(ΩX)n の形の集合です。したがって、V1×...×Vnのf×nによる逆像が(ΣA)⊗nに入ればいいのですが、
- (f×n)*(V1×...×Vn) = f*(V1)×...×f*(V1)
が成立するので、確かに(ΣA)⊗nの要素になります。なお、すぐ上の等式は次のように確認できます
(a1, ..., an)∈(f×n)*(V1×...×Vn) ⇔ (f×n)(a1, ..., an)∈V1×...×Vn ⇔ (f(a1), ..., f(an))∈V1×...×Vn ⇔ f(a1)∈V1 ∧ ... ∧ f(an)∈Vn ⇔ a1∈f*(V1) ∧ ... ∧ an∈f*(Vn) ⇔ (a1, ..., an)∈f*(V1)×...×f*(Vn)
f×nは可測写像なので、(ΩA)n上の確率測度(μA)⊗nを前送りして、(ΩX)n上の確率測度を構成できます。その定義は:
- [(f×n)*((μA)⊗n)](V1×...×Vn) := (μA)⊗n[(f×n)*(V1×...×Vn)] (ここのブラケット('['と']')に特に意味はなくて丸括弧と同じです。)
今しがた示した等式 (f×n)*(V1×...×Vn) = f*(V1)×...×f*(V1) を使うと:
- (μA)⊗n[(f×n)*(V1×...×Vn)] = (μA)⊗n[f*(V1)×...×f*(V1)]
独立ベキ測度 (μA)⊗n の定義により
- (μA)⊗n[f*(V1)×...×f*(V1)] = μA(f*(V1))...μA(f*(Vn))
μA(f*(V)) = (f*(μA))(V) なので、
- μA(f*(V1))...μA(f*(Vn)) = (f*(μA))(V1)...(f*(μA))(Vn)
これは、前送り測度f*(μA)から作った独立ベキ測度の値です。つまり:
- (f*(μA))(V1)...(f*(μA))(Vn) = (f*(μA))⊗n(V1×...×Vn)
以上の計算から、次が示せました。
- (f×n)*((μA)⊗n) = (f*(μA))⊗n
これが、独立ベキ測度の前送り定理で、内容的には次のことを言っています。
- A側の独立ベキ測度を作ってそれをX側に前送りしても、X側に前送りした測度の独立ベキ測度を作っても同じ。
どちらかの方法(どっちでも同じ)で作られた(ΩX)n上の測度が、変量値リストの抽出確率測度(実現確率測度)を与えます。「リスト」という言葉については、「超曖昧語「母集団」「標本」にケリをつける // 抽出法とコレクションデータ型」を見てください。通常、この変量値リストの抽出確率測度(実現確率測度)を標本分布と呼んでいます。“変量値が実現する”とは、標本が抽出され測定されることです。
IID列を作る
前節と同じ設定で、f×n:(ΩA)n→(ΩX)n とします。直積集合 (ΩX)n の第i射影を単にπiと書くことにします。
- πi:(ΩX)n→ΩX
gi:(ΩX)n→ΩX を次のように定義します。
- gi := f×n;πi = πif×n
具体的に書けば:
- gi(a1, ..., an) := (f×n;πi)(a1, ..., an) = (πif×n)(a1, ..., an) = πi(f(a1), ..., f(an)) = f(ai)
こう定義すると、次の等式が成立します。
- <g1, ..., gn> = f×n : (ΩA)n→(ΩX)n
この等式は、σ代数とか確率とかに関係はなくて、「準備:写像の一般論」で述べた一般論だけに関わる話です。「心に留めておいてください」と言った次の等式から上の等式は出ます。
- f:A→B1×...×Bn に対して、<f;π1, ..., f;πn> = f (ただし、fをf×nに、BiをΩXに置き換える)
こうして作られた g1, ..., gn が可測写像〈確率変数〉のIID列ですが、IIDと呼ばれるからには次が必要です。
- (gi)*((μA)⊗n) = f*(μA) ---(同分布性)
- g1, ..., gn は確率測度(μA)⊗nに関して独立 ---(独立性)
1番目の等式を示すには、次の点に注意します。
- 写像として、f×n;πi = πi;f あるいはまったく同じことだが πif×n = fπi 、ここで、左辺のπiは(ΩX)nの射影で、右辺のπiは(ΩA)nの射影。
- (πi;f)* = (πi)*;f* あるいはまったく同じことだが (fπi)* = f*(πi)*
- (πi)*((μA)⊗n) = μA (独立ベキ確率測度の射影像)
これらは簡単に示せます(やってみてください)。上記のそれぞれを(1), (2), (3)と参照することにして、計算します。
(gi)* // giの定義より = (πif×n)* // (1)より = (fπi)* // (2)より = f*(πi)* したがって、 (gi)* = f*(πi)* これに、確率測度 μA⊗n を渡して (gi)*(μA⊗n) = (f*(πi)*)(μA⊗n) = f*[(πi)*(μA⊗n)] // (3)より f*[(πi)*(μA⊗n)] = f*(μA) したがって、 (gi)*(μA⊗n) = f*(μA)
これで、(gi)*((μA)⊗n) = f*(μA) は示せました。独立性は次の節で示します。
IID列の独立性
「g1, ..., gn は確率測度(μA)⊗nに関して独立」であることをいうには、「準備:可測写像の独立性」の「独立性の条件」から、確率測度 ν := (μA)⊗n に関して次の等式が示せればいいわけです。
- 任意の Vi∈ΣX に対して、ν(g1*(V1)∩...∩gn*(Vn)) = ν(g1*(V1))...ν(gn*(Vn)) (右辺はn個の積)
一般のnの場合を書くと記号が煩雑になるので、n = 2 の場合を証明します。nが3以上でも発想は同じです。
記号を簡略にするために、再び記号の乱用を使って、ΩAをAとも書くことにします。次のように置きます。
- f:A→X
- f×f:A×A→X×X
- g = π1(f×f)
- h = π2(f×f)
- μ = μA (略記)
- ν = μμ (A×A上の確率測度)
この記法の約束に従うと、gとhの独立性は次のように書けます。
- 任意の V, W∈ΣX に対して、ν(g*(V)∩h*(W)) = ν(g*(V))ν(h*(W))
一般のnに比べると随分と簡単で、分かりやすいでしょ。
さて、確率測度νの引数に入っている集合を書き出すと:
- g*(V)∩h*(W)
- g*(V)
- h*(W)
これらの集合を書き換えると次のようになります。
- g*(V)∩h*(W) = f*(V)×f*(W)
- g*(V) = f*(V)×A
- h*(W) = A×f*(W)
これは、まさに集合と写像の練習問題なのでやってみてください。そのとき、f, g, h の関係を確認してくださいね。
集合を書き換えた形で独立性を書くなら:
- 任意の V, W∈ΣX に対して、ν(f*(V)×f*(W)) = ν(f*(V)×A)ν(A×f*(W))
これが示すべきターゲット命題です。ところが、νが独立ベキ測度μμだったことを思い起こせば、等式はほぼ自明になってしまいます。
等式の左辺 = ν(f*(V)×f*(W)) = (μμ)(f*(V)×f*(W)) = μ(f*(V))μ(f*(W)) 等式の右辺 = ν(f*(V)×A)ν(A×f*(W)) = (μμ)(f*(V)×A)(μμ)(A×f*(W)) = [μ(f*(V))μ(A)][μ(A)μ(f*(W))] = μ(f*(V))μ(f*(W))
おわりに
今回のこの記事と前回の「超曖昧語「母集団」「標本」にケリをつける」をあわせれば、母集団 A = (ΩA, ΣA, μA, f:ΩA→X) のサイズnの標本リストの空間(ΩA)nと、そこからの可測写像 g1, ..., gn の関係は明白だと思います。まったくかけ離れているように思えた「標本」の2つの定義がこれでつながるわけです。
g1, ..., gn 達の前送り測度はすべて等しく、独立なn個の可測写像となっています。そのことは、gi達がどうやって構成されたかによって完全に説明可能です。
よくある「確率変数Xに対して、IID列 X1, ..., Xn を考える」みたいな言い方だと、「どうやって考えるのよ? そんな都合がいいもんがホントにあるの?」と(僕は)なるのですが、チャンと自力で作り上げれば、そういう疑念は払拭されると思います。
ところで、「たぶん間違った理由を説明します、後日」の理由ですが、まー、僕がボンヤリしていたからです。今回説明したようなスジをシッカリ確認しないで、なんとなく等式を書いてしまったからです。何かを述べるときは、根拠を再確認すべきですね。
*1:Probを確率空間と確率を保存する可測写像の圏とすると、Pn(A) := A⊗n として定義される操作は、f:A→B に対しても Pn(f):Pn(A)→Pn(B) と拡張できて、Pn:Prob→Prob という自己関手となります。Pn(-) = (-)⊗n が関手であることが、様々な構成のベースとなっています。
*2:';'と''が混じっても平気なように、上下左右のトレーニングをしましょう。
*3:写像の直積に''を使うことも多いです。今回のこの記事だと、''を使ったほうが全体に辻褄があう気もしますが、集合レベルでは直積(デカルト積)なので'×'を使いました。集合レベルでは'×'、構造(確率空間)レベルでは''が正確ですが、使い分けがめんどくさい。