確率空間に対して、直和に似た演算として凸結合を導入し、そこから見方を変えて確率空間の分割を定義します。
内容:
確率空間
この記事は、もっと長い記事の前半部分を切り出したものです。ありていに言えば、息切れしたので、一区切りつけたものです。続き(後半)がそのうち出るかも(出ないかも)。
まずは確率空間の定義; 確率空間〈probability space〉は、(Ω, Σ, μ)という3つ組です。ここで:
Ωを確率空間の台集合〈underlying set〉と呼びます。「標本空間」という言葉は混乱のもとなので使いません。台集合Ωはなんでもいいですが、Ωが空集合だと μ(Ω) = 1 となる測度μが作れないので、結果的には非空集合になります。
Σの要素を「事象」と呼ぶことがありますが、この言葉も使いません。代わりに可測集合〈measurable set〉といいます。
μ(Ω) = 1 という条件を満たす測度を確率測度〈probability measure〉と呼びます。確率測度を単に「確率」、あるいは単に「測度」というのは好ましくないので、なるべく使わないようにします(絶対に使わないとは言ってない)。
いくつかの確率空間を考えるとき、それらを区別するために、
- X = (ΩX, ΣX, μX)
- Y = (ΩY, ΣY, μY)
のように書きます。記号の乱用により、
- X = (X, ΣX, μX)
- Y = (Y, ΣY, μY)
のようにも書きます。ΣXをΣXと書くこともあります。
写像 f:ΩX→ΩY が次の条件を満たすとき、確率空間XからYへの準同型写像〈homomorphism〉と呼びます。
- B∈ΣY に対して、f*(B)∈ΣX、f*は逆像を対応させる写像。
- B∈ΣYに対して、μY(B) = μX(f*(B)) が成立する。
確率空間を対象として、確率空間のあいだの準同型写像を射とする圏ができるので、それをProbと書きます。圏Probの射である準同型写像は、確率保存写像〈probability preserving {map | mapping}〉と呼ぶことが多いです。
確率空間の独立積
X = (X, ΣX, μX), Y = (Y, ΣY, μY) が2つの確率空間のとき、台集合の直積 X×Y 上には、標準的〈canonical〉な確率空間構造が構成できます。実際に作ってみましょう。XとYをもとに(これから)作る確率空間をZとします。Z := X×Y です。
ΣZを作るために、矩形〈rectangle | 長方形〉の話からします。X, Yは単なる集合だとして、
- rect:Pow(X)×Pow(Y)→Pow(X×Y)
を次のように定義します。
- for A∈Pow(X), B∈Pow(Y), rect(A, B) := A×B ∈Pow(X×Y)
あるいはラムダ記法を使って、
- rect := λA∈Pow(X), B∈Pow(Y).(A×B ∈Pow(X×Y))
要するに、“二辺”A, B から矩形を作り出す写像がrectです。
rectをΣX×ΣYに制限すると、
- rect|ΣX×ΣY : ΣX×ΣY→Pow(X×Y)
ができます。この写像rect|ΣX×ΣYの像は、Pow(X×Y)の部分集合となるので、それをRect(ΣX, ΣY)とします。
- C∈Rect(ΣX, ΣY) ⇔ A∈ΣX, B∈ΣY が存在して、C = A×B と書ける。
Rect(ΣX, ΣY)は、“二辺”がそれぞれΣX、ΣYに入るような矩形の集合です。
Rect(ΣX, ΣY)を含むような Z = X×Y 上のσ代数で最小のものが一意に決まる(可測空間に関する定理)ので、それをΣXΣYとします。
- ΣXΣY := (Rect(ΣX, ΣY)から生成された、X×Y上のσ代数)
ここまでで、集合 Z = X×Y = ΩZ とZ上のσ代数 ΣZ = ΣXΣY が構成できました。組み合わせた (Z, ΣZ) は可測空間です。
可測空間(Z, ΣZ)上の測度μZを、A×B∈Rect(ΣX, ΣY) に対して、
- μZ(A×B) = μX(A)μY(B) (右辺は実数の掛け算)
が成立するように決めます。そのような測度は一意的に存在する(測度に関する定理)ので、μZ = μXμY と書きます。
3つ組 (Z, ΣZ, μZ) が確率空間になることは容易に確認できます。Z = X×Y, ΣZ = ΣXΣY, μZ = μXμY だったので、確率空間としてのZをXYと書きます。
- XY = (X×Y, ΣXΣY, μXμY)
このようにして作ったXYを、XとYの直積と呼びたくなりますが、そうは呼びません! 理由は、は圏Probの圏論的直積にはならないからです。f:X→Y, g:V→W in Prob に対しても fg:XV→YW を定義して、をProb上のモノイド積にすることは出来ますが、直積の条件は満たしません。
直積にはならないProb上のモノイド積は、独立積〈independent product〉と呼びます。確率的独立性〈stochastic independence〉と関係するからです。
モノイド積としての独立積に関しては次の論文が詳しいです。ただし、「射影付き(または入射付き)テンソル積」という言葉が使われています。
- Title: What is Stochastic Independence? (2002)
- Author: Uwe Franz
- Pages: 16p
- URL: https://arxiv.org/abs/math/0206017
独立性の一般論は次を参照。
- Title: Category-theoretic Structure for Independence and Conditional Independence (2018)
- Author: Alex Simpson
- Pages: 17p
- URL: https://www.sciencedirect.com/science/article/pii/S1571066118300318
確率空間の直和類似物は?
前節で述べた確率空間の独立積は、圏論的直積〈デカルト積〉にはなりませんが、台集合の直積の上に載っかる確率空間構造なので、直積に近いとは言えます。では、台集合の直和の上に載っかる確率空間構造はあるでしょうか? もしあるなら、それは、直和に近いモノイド積となるでしょう。
X = (X, ΣX, μX), Y = (Y, ΣY, μY) として、集合として Z = X + Y とします。集合としてのZ上に、なるべく自然な確率空間構造を定義することを目的にします。
まず Pow(X + Y) Pow(X)×Pow(Y) であることに注意します。Pow(X)×Pow(Y)→Pow(X + Y) 方向の同型(全単射)をsumとします。sum(A, B) := (A + B in X + Y) です。sumをΣX×ΣYに制限して像を取ると、それはPow(X + Y)の部分集合になるので、Sum(ΣX, ΣY) と置きましょう。
- C∈Sum(ΣX, ΣY) ⇔ A∈ΣX, B∈ΣY が存在して、C = A + B と書ける。
Sum(ΣX, ΣY) ⊆ Pow(X + Y) から生成される最小のσ代数をΣZとします。すると、(Z, ΣZ)は可測空間になります。
(Z, ΣZ)上で定義される測度μZを、次が成立するように定義します。
- μZ(A + B) = μX(A) + μY(B)
以上により、測度空間(Z, ΣZ, μZ) が構成できます。この定義は自然に思えます。が、しかし、μZは確率測度になっていません。μZ(Z) = μX(X) + μY(Y) = 2 だからです。
μZ(Z)を1にするために、μXとμYに1/2ずつの重みを付ける案がありますが、そうすると、モノイド積としての結合律が成立しません。
そもそも、2つの確率空間を常に対等な重さで扱うのは根拠がない気がします。そこで、p + q = 1 となる非負実数p, qを用意して、
- μZ(A + B) = pμX(A) + qμY(B)
と定義してはどうでしょう。これなら確かに確率測度になります。この確率測度μZを持つ確率空間(Z, ΣZ, μZ)を、
- Z = pX + qY
と書いてもいいでしょう。係数p, q付きの和は、モノイド積にはなりませんが、2つの確率空間を重み付きで足したもの、というハッキリした意味を持ちます。
確率空間の凸結合
ベクトルxとyの凸結合とは、p + q = 1 となる非負実数p, qを係数とした足し算 px + qy のことです。xとyがベクトル(ベクトル空間の要素)のときは、px + qy はそのまま意味を持ちますが、前もって足し算がなくても、凸結合を公理的に定義することができます。
Cを集合として、0≦ q ≦1 である実数qに対して、写像 γq:C×C→C が定義されていて、次の条件を満たすとします。
- γ0(x, y) = x
- γq(x, x) = x
- γ1-q(x, y) = γq(y, x)
- γq(x, γp(y, z)) = γpq(γr(x, y), z) ただし、q(1 - p) = (1 - pq)r
最後の条件がちょっと複雑ですが、一種の結合律だとみなせます。Cに足し算があるときは、γq(x, y) = (1 - q)x + qy と定義するとこれらの条件を満たします。
集合Cと上記の条件を満たすγの組(C, γ)を凸空間〈convex space〉と呼びます。γpは、パラメータqを持つ二項演算で、(公理的に定義された)凸結合〈convex combination〉と呼びます。(詳しくはnLab項目を参照。)
γ自体はパラメータ付き二項演算ですが、γを入れ子にすることにより、p1 + p2 + ... + pn = 1 であるような非負実数の列 p1, p2, ... ,pn に対する凸結合を定義できます。足し算がない場合でも、記法としては足し算を使って、
- p1x1 + p2x2 + ... + pnxn
のように書きます。あたかも足し算があるかのように扱ってかまいません。
さて、前節で定義した pX + qY ですが、これを γq(X, Y) := (1 - q)X + qY とすると、(|Prob|, γ)は凸空間になります。|Prob|は普通の集合ではなくて大きな集合〈プロパークラス〉なので、(|Prob|, γ)は”大きな凸空間”と言うべきかもしれません。大きさを気にしなければ、凸空間の議論はすべて(|Prob|, γ)に対しても適用できます。
f:X→Y, g:V→W in Prob に、(pf + qg):(pX + qW)→(pV + qW) と重み付けできるので、対象だけでなく射の凸結合も定義できます。これにより、圏Probは凸空間としての構造を持つことになります。
僕は理解してないのですが、凸空間の構造を持つ圏は、エントロピーの定義と関係するようです。バエズ〈John Baez〉による次のページに色々書いてあります。
確率空間の分割
p1 + p2 + ... + pn = 1 であるような非負実数の列 p1, p2, ... ,pn と、n個の確率空間 X1, X2, ..., Xn があったとします。前節で述べたように、これらの凸結合が定義できます。
- Z = p1X1 + p2X2 + ... + pnXn
各Xi(i = 1, 2, ..., n)は確率空間であり、それらを重み付きで寄せ集めたZもまた確率空間です。
ここで、発想を逆転させて、確率空間Zが最初にあって、それを小さな確率空間達 X1, X2, ..., Xn に分割したと考えましょう。凸結合と同じことではありますが、Zの分割〈partitioning | disjoint decomposition〉を定義すると:
- 台集合として、Z = X1∪X2∪...∪Xn である。
- i ≠ j ならば、Xi∩Xj は空集合である(互いに共通部分がない)*1。
- 各Xiには、Zのσ代数/確率測度から“誘導された”σ代数/確率測度により、確率空間の構造が入る。詳細は割愛するが、条件付き確率になる。
- 各Xiに非負実数piが割り当てられていて、すべてのpiを足すと1になる。
μZ(Xi) ≠ 0 とか pi ≠ 0 を仮定しておいたほうが扱いやすそうですが、かえって邪魔になることもありそう … よく分かりません。
いずれにしても、確率空間達の凸結合(重み付きの和)と、確率空間の分割(これも重み付き)は事実上同じものです。複数の確率空間達を集約してひとつにするか、ひとつの確率空間を分割して複数の確率空間達を得るか -- 見方の違いがあるだけです。
集約/分割のときに使う重みの列 p1, p2, ..., pn を、積分して1になる関数 p(t)(t∈T)に置き換えたらどうなるんだろうな? と思ったりします。t∈T に対する各Xtが確率空間で、ZはXt達を重み付きで束ねた(バンドルした)確率空間になります。このような“確率バンドル”、あるいは“確率ファイブレーション”を、「分布から拡散へ: ミシェル・ジリィを巡って」で述べた拡散圏のなかで考えたら面白いかもしれません。よく分からんけど。
おわりに
冒頭に書いたように、この記事は、もっと長い記事の一部分になる予定のものでした。残る話題は何かというと、確率空間の凸結合/分割が、より一般的なメカニズムの事例ではないか、ということです。前節で、有限個の重みを連続化することを書きましたが、ソッチ方面への拡張ではありません。有限個のままでも、なんか面白いことがあるような気がします。