IIDな確率変数達はどこから来るのか - 檜山正幸のキマイラ飼育記 (はてなBlog)

「超曖昧語「母集団」「標本」にケリをつける // ID列と独立ベキ測度の前送り定理」で、間違いを書いてしまい訂正しました。訂正のところに、「たぶん間違った理由を説明します、後日」と書いてますが、間違いを説明するだけでは建設的でないので、「独立ベキ測度の前送り定理」をほぼセルフコンテインドな形で説明します。

そして、どこからともなく唐突に現れるIID〈independent and identically distributed〉な確率変数達は、もとの確率変数（母集団の変量）から具体的に構成できるシロモノであることを示します。

内容：

はじめに
準備：写像の一般論
準備：可測写像の独立性
準備：確率空間の独立積と独立ベキ
独立ベキ測度の前送り定理
IID列を作る
IID列の独立性
おわりに

はじめに

この記事のエッセンスは、与えられた確率空間 A = (Ω_A, Σ_A, μ_A) に対して、独立積の意味でのn乗 A^⊗n = ((Ω_A)ⁿ, (Σ_A)^⊗n, (μ_A)^⊗n) を作ることです。独立積の意味でのn乗は独立ベキと呼びます。

独立ベキは、確率空間への操作として良い性質を持っていて、f:A→B が確率空間のあいだの準同型写像（確率測度を保存する可測写像）ならば、自動的に、A^⊗n から B^⊗n への準同型写像を誘導します*1。誘導された写像は f^⊗n と書くのが整合的ですが、この記事では（諸般の事情から）f^×nと書きます。

f^×n:(Ω_A)ⁿ→(Ω_B)ⁿ （確率を保存する写像）

B側に確率測度がなくて、単なる可測空間のときは、A側の確率測度をfによってB側に前送りできます。前送りされた測度を備えたBは確率空間になり、f^×nは確率測度を保存する可測写像となります。

このテの議論のためには、測度の定義くらいは知っている必要がありますが、実際にやっていることのほとんどは、部分集合（可測集合）を写像の逆像によりあっちこっちに引っ張り回すことです。集合と写像の計算／推論をたくさんするので、「全称記号・存在記号の練習：集合と写像の話題から」で出したような練習問題の宝庫と言えます。

準備：写像の一般論

写像 f:A→B, g:C→D に対して、次のような構成を説明します。これらの構成は、たいへん基本的なものです。

fとgの結合〈composition | 合成〉、記法は f;g または g $\circ$ f *2
fとgの直積〈direct product〉、記法は f×g *3
fとgのデカルトタプリング〈cartesian tupling〉、記法は <f, g>

定義は次のとおりです。

結合： B = C のときだけ定義可能で f;g = g $\circ$ f:A→D
定義： (f;g)(a) = (g $\circ$ f)(a) := g(f(a))
直積： f×g:A×C→B×D
定義： (f×g)(a, c) := (f(a), g(c))
デカルトタプリング： A = C のときだけ定義可能で <f, g>:A→B×D
定義： <f, g>(a) := (f(a), g(a))

集合の直積A×Bに対して、その第一射影〈first projection〉を π₁^A,B:A×B→A、第二射影〈second projection〉を π₂^A,B:A×B→A とします。

π₁^A,B(a, b) := a
π₂^A,B(a, b) := b

A, Bが分かっているとき、または特に明示する必要もないときは、射影を単に π₁, π₂ とも書きます。

集合Aの対角写像〈diagonal map〉は Δ_A:A→A×A と書きます。

Δ_A(a) := (a, a)

Aが分かっているとき、または特に明示する必要もないときは、対角写像を単にΔとも書きます。

次の関係があります。

f:A→B, g:A→D に対して、<f, g> = Δ;(f×g)
f:A→B, g:C→D に対して、f×g = <π₁^A,C;f, π₂^A,C;g>
f:A→B, g:A→D に対して、<f, g>;π₁ = f, <f, g>;π₂ = g
f:A→B×D に対して、<f;π₁, f;π₂> = f

どれも、定義から容易に示せます。

直積もデカルトペアリングも、n個の集合／写像に対して定義できます。詳しく説明する必要はないでしょうが、次のような記号を使います。

直積 f₁×...×f_n:A₁×...×A_n→B₁×...×B_n
デカルトペアリング <f₁, ..., f_n>:A→B₁×...×B_n
射影 π_i^A₁,...,A_n:A₁×...×A_n→A_i （i = 1, ..., n）
対角 Δⁿ_A:A→A×...×A

後で使うので、次の等式は心に留めておいてください。

f:A→B₁×...×B_n に対して、<f;π₁, ..., f;π_n> = f

集合Aに対して Pow(A) はAのベキ集合〈power set〉とします。f:A→B に対して、fの逆像写像〈inverse-image mapping〉 f^*:Pow(B)→Pow(A) と、fの像写像〈image mapping〉 f_*:Pow(A)→Pow(B) を次のように定義します。

T∈Pow(B) に対して、f^*(T) := {a∈A | f(a)∈T}
S∈Pow(A) に対して、f_*(S) := {b∈B | ∃a∈A.(a∈A かつ f(a) = b)}

fの逆像写像の像写像 f^*_* = (f^*)_* : Pow(Pow(B))→Pow(Pow(A)) は次のような写像です。

F∈Pow(Pow(B)) に対して、f^*_*(F) = {S∈Pow(A) | ∃T∈Pow(B).(T∈F かつ f^*(T) = S)}

f^*_*は、B上の集合族（Bの部分集合の集合）を、A上の集合族に写します。f^*_* は、σ代数やその生成系をfと逆向きに送るときに使われます。

準備：可測写像の独立性

この節では、可測写像の独立性の定義を天下りに述べます。動機付けや実例がないのは心苦しいですが、かんべんしてね。なお、この記事では、「確率変数」という言葉を積極的に使う気はありません。「可測写像〈確率変数〉」という表記にとどめます（タイトルとリード文には「確率変数」と出してるけど(苦笑)）。

A = (Ω_A, Σ_A) を可測空間とします。Ω_Aが台集合で、Σ_AはΩ_A上のσ代数です。混乱の心配がなければ、記号を乱用して A = (A, Σ_A) とも書きます。

F⊆Σ_A を任意の集合（Aの部分集合の集合）として、σ_A(F) をFから生成された最小のσ代数〈smallest sigma-algebra〉とします。σ_A(F)⊆Σ_A。可測空間Aが分かっているとき、または特に明示する必要もないときは、σ_A(F) を単に σ(F) とも書きます。

A = (A, Σ_A), B = (B, Σ_B) を可測空間、f:A→B を可測写像とします。f^*_*(Σ_B) は、Σ_Aの部分σ代数になります。

f^*_*(Σ_B) = {S∈Σ_A | ∃T∈Σ_B.(T∈Σ_B かつ f^*(T) = S)}

可測写像 f:A→B から f^*_*(Σ_B) が一意に決まるので、次のように定義します。

σ[f] := f^*_*(Σ_B)

σ[f]を、fで生成されたσ代数〈sigma-algebra generated by f〉と呼ぶことがあります。σ(-)とσ[-]は、括弧の種類で区別しています。似てはいますが、違う概念です。

ここから先、Aは単なる可測空間ではなくて、確率空間だとします。つまり、A = (A, Σ_A, μ_A) で、μ_Aは確率測度とします。A, BをΣ_Aの部分σ代数とします。2つの部分σ代数AとBがμ_Aに関して独立〈independent〉だとは、次が成立することです。

任意の U∈A, V∈B に対して、μ_A(U∩V) = μ_A(U)μ_A(V)

より一般に、A₁, ..., A_n をΣ_Aの部分σ代数として、n個の部分σ代数 A₁, ..., A_n がμ_Aに関して独立だとは、次が成立することです。

任意の U_i∈A_i（i = 1, ..., n）に対して、μ_A(U₁∩...∩U_n) = μ_A(U₁)...μ_A(U_n) （n個の積）

A = (A, Σ_A, μ_A) が確率空間で、X₁ = (X₁, Σ_X₁), ..., X_n = (X_n, Σ_{X_n}) がn個の可測空間のとき、n個の可測写像〈確率変数〉 f₁:A→X₁, ..., f_n:A→X_n が独立だとは、Σ_Aの部分σ代数 σ[f₁], ..., σ[f_n] が独立なことです。

具体的に書けば：

任意の U_i∈σ[f_i]（i = 1, ..., n）に対して、μ_A(U₁∩...∩U_n) = μ_A(U₁)...μ_A(U_n) （n個の積）

U_i∈σ[f_i] を丁寧に書けば、適当な V_i∈Σ_{X_i} によって、U_i = f_i^*(V_i) と書けることです。これを使って f₁, ..., f_n の独立性の条件をさらに書き換えれば：

任意の V_i∈Σ_{X_i} （i = 1, ..., n）に対して、μ_A(f₁^*(V₁)∩...∩f_n^*(V_n)) = μ_A(f₁^*(V₁))...μ_A(f_n^*(V_n)) （n個の積） ---(独立性の条件)

n個の可測写像〈確率変数〉の独立性は、確率測度μ_Aがないと定義できないことに注意してください。

準備：確率空間の独立積と独立ベキ

確率空間の独立積と独立ベキについては、次を参照してください。

確率空間の独立積／独立ベキを扱うときは、A = (A, Σ_A, μ_A) といういつもの記号の乱用はマズイので、A = (Ω_A, Σ_A, μ_A) という書き方をすることにします。

確率空間Aの独立ベキ（独立積の意味でのn乗）をA^⊗nと書きます。

A^⊗n = ((Ω_A)ⁿ, (Σ_A)^⊗n, (μ_A)^⊗n)

A^⊗nの台集合は、直積の意味でのn乗である(Ω_A)ⁿです。U₁×...×U_n∈(Σ_A)^⊗n に対して、独立ベキ確率測度〈independent power of a probability measure〉（確率測度の独立ベキ）は次のように定義されています。

(μ_A)^⊗n(U₁×...×U_n) := μ_A(U₁)...μ_A(U_n) （右辺はn個の積）

U₁×...×U_n という形（矩形 | 方形）の集合以外の集合に対しては、標準的な測度の拡張方法を使って測度を定義します。

独立ベキ測度の前送り定理

A = (Ω_A, Σ_A, μ_A) を確率空間、X = (Ω_X, Σ_X) を可測空間、f:Ω_A→Ω_X を可測写像とします。したがって、f^*は Σ_X→Σ_A というσ代数のあいだの準同型写像を定義します。fとf^*で向きが逆になることに注意してください。

可測写像fによる確率測度μ_Aの前送りは f_*(μ_A) と書きます。f_*は写像の像写像と同じ記号ですが、これは文脈で区別することにします。

(f_*(μ_A))(U) = μ_A(f^*(U))

測度νに可測集合Sを渡すことを <ν|S> と書くことにすると：

<f_*(μ_A)|U> = <μ_A|f^*(U)>

こう書いてみると、可測集合の引き戻しf^*と測度の前送りf_*が、ある種の双対の関係にあることが分かるでしょう。

f:Ω_A→Ω_X の直積の意味でのn乗をf^×nと書きます。

f^×n = f×...×f :(Ω_A)ⁿ→(Ω_X)ⁿ
f^×n(a₁, ..., a_n) = (f(a₁), ..., f(a_n))

fが可測写像なら、f^×nも可測写像になります。σ代数 (Σ_X)^⊗n の生成元は、V₁, ..., V_n∈Σ_X による V₁×...×V_n⊆(Ω_X)ⁿ の形の集合です。したがって、V₁×...×V_nのf^×nによる逆像が(Σ_A)^⊗nに入ればいいのですが、

(f^×n)^*(V₁×...×V_n) = f^*(V₁)×...×f^*(V₁)

が成立するので、確かに(Σ_A)^⊗nの要素になります。なお、すぐ上の等式は次のように確認できます

   (a₁, ..., a_n)∈(f^×n)^*(V₁×...×V_n)
⇔ (f^×n)(a₁, ..., a_n)∈V₁×...×V_n
⇔ (f(a₁), ..., f(a_n))∈V₁×...×V_n
⇔ f(a₁)∈V₁ ∧ ... ∧ f(a_n)∈V_n
⇔ a₁∈f^*(V₁) ∧ ... ∧ a_n∈f^*(V_n)
⇔ (a₁, ..., a_n)∈f^*(V₁)×...×f^*(V_n)

f^×nは可測写像なので、(Ω_A)ⁿ上の確率測度(μ_A)^⊗nを前送りして、(Ω_X)ⁿ上の確率測度を構成できます。その定義は：

[(f^×n)_*((μ_A)^⊗n)](V₁×...×V_n) := (μ_A)^⊗n[(f^×n)^*(V₁×...×V_n)] （ここのブラケット（'['と']'）に特に意味はなくて丸括弧と同じです。）

今しがた示した等式 (f^×n)^*(V₁×...×V_n) = f^*(V₁)×...×f^*(V₁) を使うと：

(μ_A)^⊗n[(f^×n)^*(V₁×...×V_n)] = (μ_A)^⊗n[f^*(V₁)×...×f^*(V₁)]

独立ベキ測度 (μ_A)^⊗n の定義により

(μ_A)^⊗n[f^*(V₁)×...×f^*(V₁)] = μ_A(f^*(V₁))...μ_A(f^*(V_n))

μ_A(f^*(V)) = (f_*(μ_A))(V) なので、

μ_A(f^*(V₁))...μ_A(f^*(V_n)) = (f_*(μ_A))(V₁)...(f_*(μ_A))(V_n)

これは、前送り測度f_*(μ_A)から作った独立ベキ測度の値です。つまり：

(f_*(μ_A))(V₁)...(f_*(μ_A))(V_n) = (f_*(μ_A))^⊗n(V₁×...×V_n)

以上の計算から、次が示せました。

(f^×n)_*((μ_A)^⊗n) = (f_*(μ_A))^⊗n

これが、独立ベキ測度の前送り定理で、内容的には次のことを言っています。

A側の独立ベキ測度を作ってそれをX側に前送りしても、X側に前送りした測度の独立ベキ測度を作っても同じ。

どちらかの方法（どっちでも同じ）で作られた(Ω_X)ⁿ上の測度が、変量値リストの抽出確率測度（実現確率測度）を与えます。「リスト」という言葉については、「超曖昧語「母集団」「標本」にケリをつける // 抽出法とコレクションデータ型」を見てください。通常、この変量値リストの抽出確率測度（実現確率測度）を標本分布と呼んでいます。“変量値が実現する”とは、標本が抽出され測定されることです。

IID列を作る

前節と同じ設定で、f^×n:(Ω_A)ⁿ→(Ω_X)ⁿ とします。直積集合 (Ω_X)ⁿ の第i射影を単にπ_iと書くことにします。

π_i:(Ω_X)ⁿ→Ω_X

g_i:(Ω_X)ⁿ→Ω_X を次のように定義します。

g_i := f^×n;π_i = π_i $\circ$ f^×n

具体的に書けば：

g_i(a₁, ..., a_n) := (f^×n;π_i)(a₁, ..., a_n) = (π_i $\circ$ f^×n)(a₁, ..., a_n) = π_i(f(a₁), ..., f(a_n)) = f(a_i)

こう定義すると、次の等式が成立します。

<g₁, ..., g_n> = f^×n : (Ω_A)ⁿ→(Ω_X)ⁿ

この等式は、σ代数とか確率とかに関係はなくて、「準備：写像の一般論」で述べた一般論だけに関わる話です。「心に留めておいてください」と言った次の等式から上の等式は出ます。

f:A→B₁×...×B_n に対して、<f;π₁, ..., f;π_n> = f （ただし、fをｆ^×nに、B_iをΩ_Xに置き換える）

こうして作られた g₁, ..., g_n が可測写像〈確率変数〉のIID列ですが、IIDと呼ばれるからには次が必要です。

(g_i)_*((μ_A)^⊗n) = f_*(μ_A) ---(同分布性)
g₁, ..., g_n は確率測度(μ_A)^⊗nに関して独立 ---(独立性)

1番目の等式を示すには、次の点に注意します。

写像として、f^×n;π_i = π_i;f あるいはまったく同じことだが π_i $\circ$ f^×n = f $\circ$ π_i 、ここで、左辺のπ_iは(Ω_X)ⁿの射影で、右辺のπ_iは(Ω_A)ⁿの射影。
(π_i;f)_* = (π_i)_*;f_* あるいはまったく同じことだが (f $\circ$ π_i)_* = f_* $\circ$ (π_i)_*
(π_i)_*((μ_A)^⊗n) = μ_A （独立ベキ確率測度の射影像）

これらは簡単に示せます（やってみてください）。上記のそれぞれを(1), (2), (3)と参照することにして、計算します。

   (g_i)_*
 // g_iの定義より
 = (π_if^×n)_*
 // (1)より
 = (fπ_i)_*
 // (2)より
 = f_*(π_i)_*
したがって、
 (g_i)_* = f_*(π_i)_*
これに、確率測度 μ_A^⊗n を渡して
 (g_i)_*(μ_A^⊗n) = (f_*(π_i)_*)(μ_A^⊗n) = f_*[(π_i)_*(μ_A^⊗n)]
// (3)より
 f_*[(π_i)_*(μ_A^⊗n)] = f_*(μ_A)
したがって、
 (g_i)_*(μ_A^⊗n) = f_*(μ_A)

これで、(g_i)_*((μ_A)^⊗n) = f_*(μ_A) は示せました。独立性は次の節で示します。

IID列の独立性

「g₁, ..., g_n は確率測度(μ_A)^⊗nに関して独立」であることをいうには、「準備：可測写像の独立性」の「独立性の条件」から、確率測度 ν := (μ_A)^⊗n に関して次の等式が示せればいいわけです。

任意の V_i∈Σ_X に対して、ν(g₁^*(V₁)∩...∩g_n^*(V_n)) = ν(g₁^*(V₁))...ν(g_n^*(V_n)) （右辺はn個の積）

一般のnの場合を書くと記号が煩雑になるので、n = 2 の場合を証明します。nが3以上でも発想は同じです。

記号を簡略にするために、再び記号の乱用を使って、Ω_AをAとも書くことにします。次のように置きます。

f:A→X
f×f:A×A→X×X
g = π₁ $\circ$ (f×f)
h = π₂ $\circ$ (f×f)
μ = μ_A （略記）
ν = μ $\otimes$ μ （A×A上の確率測度）

この記法の約束に従うと、gとhの独立性は次のように書けます。

任意の V, W∈Σ_X に対して、ν(g^*(V)∩h^*(W)) = ν(g^*(V))ν(h^*(W))

一般のnに比べると随分と簡単で、分かりやすいでしょ。

さて、確率測度νの引数に入っている集合を書き出すと：

g^*(V)∩h^*(W)
g^*(V)
h^*(W)

これらの集合を書き換えると次のようになります。

g^*(V)∩h^*(W) = f^*(V)×f^*(W)
g^*(V) = f^*(V)×A
h^*(W) = A×f^*(W)

これは、まさに集合と写像の練習問題なのでやってみてください。そのとき、f, g, h の関係を確認してくださいね。

集合を書き換えた形で独立性を書くなら：

任意の V, W∈Σ_X に対して、ν(f^*(V)×f^*(W)) = ν(f^*(V)×A)ν(A×f^*(W))

これが示すべきターゲット命題です。ところが、νが独立ベキ測度μ $\otimes$ μだったことを思い起こせば、等式はほぼ自明になってしまいます。

    等式の左辺
  = ν(f^*(V)×f^*(W))
  = (μμ)(f^*(V)×f^*(W))
  = μ(f^*(V))μ(f^*(W))

    等式の右辺
  = ν(f^*(V)×A)ν(A×f^*(W))
  = (μμ)(f^*(V)×A)(μμ)(A×f^*(W))
  = [μ(f^*(V))μ(A)][μ(A)μ(f^*(W))]
  = μ(f^*(V))μ(f^*(W))

おわりに

今回のこの記事と前回の「超曖昧語「母集団」「標本」にケリをつける」をあわせれば、母集団 A = (Ω_A, Σ_A, μ_A, f:Ω_A→X) のサイズnの標本リストの空間(Ω_A)ⁿと、そこからの可測写像 g₁, ..., g_n の関係は明白だと思います。まったくかけ離れているように思えた「標本」の2つの定義がこれでつながるわけです。

g₁, ..., g_n 達の前送り測度はすべて等しく、独立なn個の可測写像となっています。そのことは、g_i達がどうやって構成されたかによって完全に説明可能です。

よくある「確率変数Xに対して、IID列 X₁, ..., X_n を考える」みたいな言い方だと、「どうやって考えるのよ？そんな都合がいいもんがホントにあるの？」と（僕は）なるのですが、チャンと自力で作り上げれば、そういう疑念は払拭されると思います。

ところで、「たぶん間違った理由を説明します、後日」の理由ですが、まー、僕がボンヤリしていたからです。今回説明したようなスジをシッカリ確認しないで、なんとなく等式を書いてしまったからです。何かを述べるときは、根拠を再確認すべきですね。

*1:Probを確率空間と確率を保存する可測写像の圏とすると、P_n(A) := A^⊗n として定義される操作は、f:A→B に対しても P_n(f):P_n(A)→P_n(B) と拡張できて、P_n:Prob→Prob という自己関手となります。P_n(-) = (-)^⊗n が関手であることが、様々な構成のベースとなっています。

*2:';'と' $\circ$ 'が混じっても平気なように、上下左右のトレーニングをしましょう。

*3:写像の直積に' $\otimes$ 'を使うことも多いです。今回のこの記事だと、' $\otimes$ 'を使ったほうが全体に辻褄があう気もしますが、集合レベルでは直積（デカルト積）なので'×'を使いました。集合レベルでは'×'、構造（確率空間）レベルでは' $\otimes$ 'が正確ですが、使い分けがめんどくさい。