このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

参照用 記事

IIDな確率変数達はどこから来るのか

超曖昧語「母集団」「標本」にケリをつける // ID列と独立ベキ測度の前送り定理」で、間違いを書いてしまい訂正しました。訂正のところに、「たぶん間違った理由を説明します、後日」と書いてますが、間違いを説明するだけでは建設的でないので、「独立ベキ測度の前送り定理」をほぼセルフコンテインドな形で説明します。

そして、どこからともなく唐突に現れるIID〈independent and identically distributed〉な確率変数達は、もとの確率変数(母集団の変量)から具体的に構成できるシロモノであることを示します。

内容:

はじめに

この記事のエッセンスは、与えられた確率空間 A = (ΩA, ΣA, μA) に対して、独立積の意味でのn乗 A⊗n = ((ΩA)n, (ΣA)⊗n, (μA)⊗n) を作ることです。独立積の意味でのn乗は独立ベキと呼びます。

独立ベキは、確率空間への操作として良い性質を持っていて、f:A→B が確率空間のあいだの準同型写像(確率測度を保存する可測写像)ならば、自動的に、A⊗n から B⊗n への準同型写像を誘導します*1。誘導された写像は f⊗n と書くのが整合的ですが、この記事では(諸般の事情から)f×nと書きます。

  • f×n:(ΩA)n→(ΩB)n (確率を保存する写像

B側に確率測度がなくて、単なる可測空間のときは、A側の確率測度をfによってB側に前送りできます。前送りされた測度を備えたBは確率空間になり、f×nは確率測度を保存する可測写像となります。

このテの議論のためには、測度の定義くらいは知っている必要がありますが、実際にやっていることのほとんどは、部分集合(可測集合)を写像の逆像によりあっちこっちに引っ張り回すことです。集合と写像の計算/推論をたくさんするので、「全称記号・存在記号の練習:集合と写像の話題から」で出したような練習問題の宝庫と言えます。

準備:写像の一般論

写像 f:A→B, g:C→D に対して、次のような構成を説明します。これらの構成は、たいへん基本的なものです。

  1. fとgの結合〈composition | 合成〉、記法は f;g または g\circf *2
  2. fとgの直積〈direct product〉、記法は f×g *3
  3. fとgのデカルトタプリング〈cartesian tupling〉、記法は <f, g>

定義は次のとおりです。

  1. 結合: B = C のときだけ定義可能で f;g = g\circf:A→D
    定義: (f;g)(a) = (g\circf)(a) := g(f(a))
  2. 直積: f×g:A×C→B×D
    定義: (f×g)(a, c) := (f(a), g(c))
  3. デカルトタプリング: A = C のときだけ定義可能で <f, g>:A→B×D
    定義: <f, g>(a) := (f(a), g(a))

集合の直積A×Bに対して、その第一射影〈first projection〉を π1A,B:A×B→A、第二射影〈second projection〉を π2A,B:A×B→A とします。

  • π1A,B(a, b) := a
  • π2A,B(a, b) := b

A, Bが分かっているとき、または特に明示する必要もないときは、射影を単に π1, π2 とも書きます。

集合Aの対角写像〈diagonal map〉は ΔA:A→A×A と書きます。

  • ΔA(a) := (a, a)

Aが分かっているとき、または特に明示する必要もないときは、対角写像を単にΔとも書きます。

次の関係があります。

  • f:A→B, g:A→D に対して、<f, g> = Δ;(f×g)
  • f:A→B, g:C→D に対して、f×g = <π1A,C;f, π2A,C;g>
  • f:A→B, g:A→D に対して、<f, g>;π1 = f, <f, g>;π2 = g
  • f:A→B×D に対して、<f;π1, f;π2> = f

どれも、定義から容易に示せます。

直積もデカルトペアリングも、n個の集合/写像に対して定義できます。詳しく説明する必要はないでしょうが、次のような記号を使います。

  • 直積 f1×...×fn:A1×...×An→B1×...×Bn
  • デカルトペアリング <f1, ..., fn>:A→B1×...×Bn
  • 射影 πiA1,...,An:A1×...×An→Ai (i = 1, ..., n)
  • 対角 ΔnA:A→A×...×A

後で使うので、次の等式は心に留めておいてください

  • f:A→B1×...×Bn に対して、<f;π1, ..., f;πn> = f

集合Aに対して Pow(A) はAのベキ集合〈power set〉とします。f:A→B に対して、fの逆像写像〈inverse-image mapping〉 f*:Pow(B)→Pow(A) と、fの写像〈image mapping〉 f*:Pow(A)→Pow(B) を次のように定義します。

  • T∈Pow(B) に対して、f*(T) := {a∈A | f(a)∈T}
  • S∈Pow(A) に対して、f*(S) := {b∈B | ∃a∈A.(a∈A かつ f(a) = b)}

fの逆像写像の像写像 f** = (f*)* : Pow(Pow(B))→Pow(Pow(A)) は次のような写像です。

  • F∈Pow(Pow(B)) に対して、f**(F) = {S∈Pow(A) | ∃T∈Pow(B).(T∈F かつ f*(T) = S)}

f**は、B上の集合族(Bの部分集合の集合)を、A上の集合族に写します。f** は、σ代数やその生成系をfと逆向きに送るときに使われます。

準備:可測写像の独立性

この節では、可測写像の独立性の定義を天下りに述べます。動機付けや実例がないのは心苦しいですが、かんべんしてね。なお、この記事では、「確率変数」という言葉を積極的に使う気はありません。「可測写像〈確率変数〉」という表記にとどめます(タイトルとリード文には「確率変数」と出してるけど(苦笑))。

A = (ΩA, ΣA) を可測空間とします。ΩAが台集合で、ΣAはΩA上のσ代数です。混乱の心配がなければ、記号を乱用して A = (A, ΣA) とも書きます。

F⊆ΣA を任意の集合(Aの部分集合の集合)として、σA(F) をFから生成された最小のσ代数〈smallest sigma-algebra〉とします。σA(F)⊆ΣA。可測空間Aが分かっているとき、または特に明示する必要もないときは、σA(F) を単に σ(F) とも書きます。

A = (A, ΣA), B = (B, ΣB) を可測空間、f:A→B を可測写像とします。f**B) は、ΣAの部分σ代数になります。

  • f**B) = {S∈ΣA | ∃T∈ΣB.(T∈ΣB かつ f*(T) = S)}

可測写像 f:A→B から f**B) が一意に決まるので、次のように定義します。

  • σ[f] := f**B)

σ[f]を、fで生成されたσ代数sigma-algebra generated by f〉と呼ぶことがあります。σ(-)とσ[-]は、括弧の種類で区別しています。似てはいますが、違う概念です。

ここから先、Aは単なる可測空間ではなくて、確率空間だとします。つまり、A = (A, ΣA, μA) で、μAは確率測度とします。A, BをΣAの部分σ代数とします。2つの部分σ代数ABがμAに関して独立〈independent〉だとは、次が成立することです。

  • 任意の U∈A, V∈B に対して、μA(U∩V) = μA(U)μA(V)

より一般に、A1, ..., An をΣAの部分σ代数として、n個の部分σ代数 A1, ..., An がμAに関して独立だとは、次が成立することです。

  • 任意の UiAi(i = 1, ..., n)に対して、μA(U1∩...∩Un) = μA(U1)...μA(Un) (n個の積)

A = (A, ΣA, μA) が確率空間で、X1 = (X1, ΣX1), ..., Xn = (Xn, ΣXn) がn個の可測空間のとき、n個の可測写像〈確率変数〉 f1:A→X1, ..., fn:A→Xn独立だとは、ΣAの部分σ代数 σ[f1], ..., σ[fn] が独立なことです。

具体的に書けば:

  • 任意の Ui∈σ[fi](i = 1, ..., n)に対して、μA(U1∩...∩Un) = μA(U1)...μA(Un) (n個の積)

Ui∈σ[fi] を丁寧に書けば、適当な Vi∈ΣXi によって、Ui = fi*(Vi) と書けることです。これを使って f1, ..., fn の独立性の条件をさらに書き換えれば:

  • 任意の Vi∈ΣXi (i = 1, ..., n)に対して、μA(f1*(V1)∩...∩fn*(Vn)) = μA(f1*(V1))...μA(fn*(Vn)) (n個の積) ---(独立性の条件)

n個の可測写像〈確率変数〉の独立性は、確率測度μAがないと定義できないことに注意してください。

準備:確率空間の独立積と独立ベキ

確率空間の独立積と独立ベキについては、次を参照してください。

確率空間の独立積/独立ベキを扱うときは、A = (A, ΣA, μA) といういつもの記号の乱用はマズイので、A = (ΩA, ΣA, μA) という書き方をすることにします。

確率空間Aの独立ベキ(独立積の意味でのn乗)をA⊗nと書きます。

  • A⊗n = ((ΩA)n, (ΣA)⊗n, (μA)⊗n)

A⊗nの台集合は、直積の意味でのn乗である(ΩA)nです。U1×...×Un∈(ΣA)⊗n に対して、独立ベキ確率測度〈independent power of a probability measure〉(確率測度の独立ベキ)は次のように定義されています。

  • A)⊗n(U1×...×Un) := μA(U1)...μA(Un) (右辺はn個の積)

U1×...×Un という形(矩形 | 方形)の集合以外の集合に対しては、標準的な測度の拡張方法を使って測度を定義します。

独立ベキ測度の前送り定理

A = (ΩA, ΣA, μA) を確率空間、X = (ΩX, ΣX) を可測空間、f:ΩA→ΩX を可測写像とします。したがって、f*は ΣX→ΣA というσ代数のあいだの準同型写像を定義します。fとf*で向きが逆になることに注意してください。

可測写像fによる確率測度μAの前送りは f*A) と書きます。f*写像の像写像と同じ記号ですが、これは文脈で区別することにします。

  • (f*A))(U) = μA(f*(U))

測度νに可測集合Sを渡すことを <ν|S> と書くことにすると:

  • <f*A)|U> = <μA|f*(U)>

こう書いてみると、可測集合の引き戻しf*と測度の前送りf*が、ある種の双対の関係にあることが分かるでしょう。

f:ΩA→ΩX の直積の意味でのn乗をf×nと書きます。

  • f×n = f×...×f :(ΩA)n→(ΩX)n
  • f×n(a1, ..., an) = (f(a1), ..., f(an))

fが可測写像なら、f×nも可測写像になります。σ代数 (ΣX)⊗n の生成元は、V1, ..., Vn∈ΣX による V1×...×Vn⊆(ΩX)n の形の集合です。したがって、V1×...×Vnのf×nによる逆像が(ΣA)⊗nに入ればいいのですが、

  • (f×n)*(V1×...×Vn) = f*(V1)×...×f*(V1)

が成立するので、確かに(ΣA)⊗nの要素になります。なお、すぐ上の等式は次のように確認できます

   (a1, ..., an)∈(f×n)*(V1×...×Vn)
⇔ (f×n)(a1, ..., an)∈V1×...×Vn
⇔ (f(a1), ..., f(an))∈V1×...×Vn
⇔ f(a1)∈V1 ∧ ... ∧ f(an)∈Vn
⇔ a1∈f*(V1) ∧ ... ∧ an∈f*(Vn)
⇔ (a1, ..., an)∈f*(V1)×...×f*(Vn)

f×nは可測写像なので、(ΩA)n上の確率測度(μA)⊗nを前送りして、(ΩX)n上の確率測度を構成できます。その定義は:

  • [(f×n)*((μA)⊗n)](V1×...×Vn) := (μA)⊗n[(f×n)*(V1×...×Vn)] (ここのブラケット('['と']')に特に意味はなくて丸括弧と同じです。)

今しがた示した等式 (f×n)*(V1×...×Vn) = f*(V1)×...×f*(V1) を使うと:

  • A)⊗n[(f×n)*(V1×...×Vn)] = (μA)⊗n[f*(V1)×...×f*(V1)]

独立ベキ測度 (μA)⊗n の定義により

  • A)⊗n[f*(V1)×...×f*(V1)] = μA(f*(V1))...μA(f*(Vn))

μA(f*(V)) = (f*A))(V) なので、

  • μA(f*(V1))...μA(f*(Vn)) = (f*A))(V1)...(f*A))(Vn)

これは、前送り測度f*A)から作った独立ベキ測度の値です。つまり:

  • (f*A))(V1)...(f*A))(Vn) = (f*A))⊗n(V1×...×Vn)

以上の計算から、次が示せました。

  • (f×n)*((μA)⊗n) = (f*A))⊗n

これが、独立ベキ測度の前送り定理で、内容的には次のことを言っています。

  • A側の独立ベキ測度を作ってそれをX側に前送りしても、X側に前送りした測度の独立ベキ測度を作っても同じ。

どちらかの方法(どっちでも同じ)で作られた(ΩX)n上の測度が、変量値リストの抽出確率測度(実現確率測度)を与えます。「リスト」という言葉については、「超曖昧語「母集団」「標本」にケリをつける // 抽出法とコレクションデータ型」を見てください。通常、この変量値リストの抽出確率測度(実現確率測度)を標本分布と呼んでいます。“変量値が実現する”とは、標本が抽出され測定されることです。

IID列を作る

前節と同じ設定で、f×n:(ΩA)n→(ΩX)n とします。直積集合 (ΩX)n の第i射影を単にπiと書くことにします。

  • πi:(ΩX)n→ΩX

gi:(ΩX)n→ΩX を次のように定義します。

  • gi := f×ni = πi\circf×n

具体的に書けば:

  • gi(a1, ..., an) := (f×ni)(a1, ..., an) = (πi\circf×n)(a1, ..., an) = πi(f(a1), ..., f(an)) = f(ai)

こう定義すると、次の等式が成立します。

  • <g1, ..., gn> = f×n : (ΩA)n→(ΩX)n

この等式は、σ代数とか確率とかに関係はなくて、「準備:写像の一般論」で述べた一般論だけに関わる話です。「心に留めておいてください」と言った次の等式から上の等式は出ます。

  • f:A→B1×...×Bn に対して、<f;π1, ..., f;πn> = f (ただし、fをf×nに、BiをΩXに置き換える)

こうして作られた g1, ..., gn が可測写像〈確率変数〉のIID列ですが、IIDと呼ばれるからには次が必要です。

  1. (gi)*((μA)⊗n) = f*A) ---(同分布性)
  2. g1, ..., gn は確率測度(μA)⊗nに関して独立 ---(独立性)

1番目の等式を示すには、次の点に注意します。

  1. 写像として、f×ni = πi;f あるいはまったく同じことだが πi\circf×n = f\circπi 、ここで、左辺のπiは(ΩX)nの射影で、右辺のπiは(ΩA)nの射影。
  2. i;f)* = (πi)*;f* あるいはまったく同じことだが (f\circπi)* = f*\circi)*
  3. i)*((μA)⊗n) = μA (独立ベキ確率測度の射影像)

これらは簡単に示せます(やってみてください)。上記のそれぞれを(1), (2), (3)と参照することにして、計算します。

   (gi)*
 // giの定義より
 = (πi\circf×n)*
 // (1)より
 = (f\circπi)*
 // (2)より
 = f*\circi)*
したがって、
 (gi)* = f*\circi)*
これに、確率測度 μA⊗n を渡して
 (gi)*A⊗n) = (f*\circi)*)(μA⊗n) = f*[(πi)*A⊗n)]
// (3)より
 f*[(πi)*A⊗n)] = f*A)
したがって、
 (gi)*A⊗n) = f*A)

これで、(gi)*((μA)⊗n) = f*A) は示せました。独立性は次の節で示します。

IID列の独立性

「g1, ..., gn は確率測度(μA)⊗nに関して独立」であることをいうには、「準備:可測写像の独立性」の「独立性の条件」から、確率測度 ν := (μA)⊗n に関して次の等式が示せればいいわけです。

  • 任意の Vi∈ΣX に対して、ν(g1*(V1)∩...∩gn*(Vn)) = ν(g1*(V1))...ν(gn*(Vn)) (右辺はn個の積)

一般のnの場合を書くと記号が煩雑になるので、n = 2 の場合を証明します。nが3以上でも発想は同じです。

記号を簡略にするために、再び記号の乱用を使って、ΩAをAとも書くことにします。次のように置きます。

  • f:A→X
  • f×f:A×A→X×X
  • g = π1\circ(f×f)
  • h = π2\circ(f×f)
  • μ = μA (略記)
  • ν = μ\otimesμ (A×A上の確率測度)

この記法の約束に従うと、gとhの独立性は次のように書けます。

  • 任意の V, W∈ΣX に対して、ν(g*(V)∩h*(W)) = ν(g*(V))ν(h*(W))

一般のnに比べると随分と簡単で、分かりやすいでしょ。

さて、確率測度νの引数に入っている集合を書き出すと:

  1. g*(V)∩h*(W)
  2. g*(V)
  3. h*(W)

これらの集合を書き換えると次のようになります。

  1. g*(V)∩h*(W) = f*(V)×f*(W)
  2. g*(V) = f*(V)×A
  3. h*(W) = A×f*(W)

これは、まさに集合と写像の練習問題なのでやってみてください。そのとき、f, g, h の関係を確認してくださいね。

集合を書き換えた形で独立性を書くなら:

  • 任意の V, W∈ΣX に対して、ν(f*(V)×f*(W)) = ν(f*(V)×A)ν(A×f*(W))

これが示すべきターゲット命題です。ところが、νが独立ベキ測度μ\otimesμだったことを思い起こせば、等式はほぼ自明になってしまいます。

    等式の左辺
  = ν(f*(V)×f*(W))
  = (μ\otimesμ)(f*(V)×f*(W))
  = μ(f*(V))μ(f*(W))

    等式の右辺
  = ν(f*(V)×A)ν(A×f*(W))
  = (μ\otimesμ)(f*(V)×A)(μ\otimesμ)(A×f*(W))
  = [μ(f*(V))μ(A)][μ(A)μ(f*(W))]
  = μ(f*(V))μ(f*(W))

おわりに

今回のこの記事と前回の「超曖昧語「母集団」「標本」にケリをつける」をあわせれば、母集団 A = (ΩA, ΣA, μA, f:ΩA→X) のサイズnの標本リストの空間(ΩA)nと、そこからの可測写像 g1, ..., gn の関係は明白だと思います。まったくかけ離れているように思えた「標本」の2つの定義がこれでつながるわけです。

g1, ..., gn 達の前送り測度はすべて等しく、独立なn個の可測写像となっています。そのことは、gi達がどうやって構成されたかによって完全に説明可能です。

よくある「確率変数Xに対して、IID列 X1, ..., Xn を考える」みたいな言い方だと、「どうやって考えるのよ? そんな都合がいいもんがホントにあるの?」と(僕は)なるのですが、チャンと自力で作り上げれば、そういう疑念は払拭されると思います。

ところで、「たぶん間違った理由を説明します、後日」の理由ですが、まー、僕がボンヤリしていたからです。今回説明したようなスジをシッカリ確認しないで、なんとなく等式を書いてしまったからです。何かを述べるときは、根拠を再確認すべきですね。

*1:Probを確率空間と確率を保存する可測写像の圏とすると、Pn(A) := A⊗n として定義される操作は、f:A→B に対しても Pn(f):Pn(A)→Pn(B) と拡張できて、Pn:ProbProb という自己関手となります。Pn(-) = (-)⊗n が関手であることが、様々な構成のベースとなっています。

*2:';'と'\circ'が混じっても平気なように、上下左右のトレーニングをしましょう。

*3:写像の直積に'\otimes'を使うことも多いです。今回のこの記事だと、'\otimes'を使ったほうが全体に辻褄があう気もしますが、集合レベルでは直積(デカルト積)なので'×'を使いました。集合レベルでは'×'、構造(確率空間)レベルでは'\otimes'が正確ですが、使い分けがめんどくさい。