確率空間の凸結合と分割 - 檜山正幸のキマイラ飼育記 (はてなBlog)

確率空間に対して、直和に似た演算として凸結合を導入し、そこから見方を変えて確率空間の分割を定義します。

内容：

確率空間
確率空間の独立積
確率空間の直和類似物は？
確率空間の凸結合
確率空間の分割
おわりに

確率空間

この記事は、もっと長い記事の前半部分を切り出したものです。ありていに言えば、息切れしたので、一区切りつけたものです。続き（後半）がそのうち出るかも（出ないかも）。

まずは確率空間の定義； 確率空間〈probability space〉は、(Ω, Σ, μ)という3つ組です。ここで：

Ωは集合。なんでもいい。
Σは、Ωのベキ集合Pow(Ω)の部分集合で、σ代数（完全加法族ともいう）であるもの。
μは、Σ上の測度で、μ(Ω) = 1 となるもの。

Ωを確率空間の台集合〈underlying set〉と呼びます。「標本空間」という言葉は混乱のもとなので使いません。台集合Ωはなんでもいいですが、Ωが空集合だと μ(Ω) = 1 となる測度μが作れないので、結果的には非空集合になります。

Σの要素を「事象」と呼ぶことがありますが、この言葉も使いません。代わりに可測集合〈measurable set〉といいます。

μ(Ω) = 1 という条件を満たす測度を確率測度〈probability measure〉と呼びます。確率測度を単に「確率」、あるいは単に「測度」というのは好ましくないので、なるべく使わないようにします（絶対に使わないとは言ってない）。

いくつかの確率空間を考えるとき、それらを区別するために、

X = (Ω_X, Σ_X, μ_X)
Y = (Ω_Y, Σ_Y, μ_Y)

のように書きます。記号の乱用により、

X = (X, Σ_X, μ_X)
Y = (Y, Σ_Y, μ_Y)

のようにも書きます。Σ_XをΣXと書くこともあります。

写像 f:Ω_X→Ω_Y が次の条件を満たすとき、確率空間XからYへの準同型写像〈homomorphism〉と呼びます。

B∈Σ_Y に対して、f^*(B)∈Σ_X、f^*は逆像を対応させる写像。
B∈Σ_Yに対して、μ_Y(B) = μ_X(f^*(B)) が成立する。

確率空間を対象として、確率空間のあいだの準同型写像を射とする圏ができるので、それをProbと書きます。圏Probの射である準同型写像は、確率保存写像〈probability preserving {map | mapping}〉と呼ぶことが多いです。

確率空間の独立積

X = (X, Σ_X, μ_X), Y = (Y, Σ_Y, μ_Y) が2つの確率空間のとき、台集合の直積 X×Y 上には、標準的〈canonical〉な確率空間構造が構成できます。実際に作ってみましょう。XとYをもとに（これから）作る確率空間をZとします。Z := X×Y です。

Σ_Zを作るために、矩形〈rectangle | 長方形〉の話からします。X, Yは単なる集合だとして、

rect:Pow(X)×Pow(Y)→Pow(X×Y)

を次のように定義します。

for A∈Pow(X), B∈Pow(Y), rect(A, B) := A×B ∈Pow(X×Y)

あるいはラムダ記法を使って、

rect := λA∈Pow(X), B∈Pow(Y).(A×B ∈Pow(X×Y))

要するに、“二辺”A, B から矩形を作り出す写像がrectです。

rectをΣ_X×Σ_Yに制限すると、

rect|_{Σ_X×Σ_Y} : Σ_X×Σ_Y→Pow(X×Y)

ができます。この写像rect|_{Σ_X×Σ_Y}の像は、Pow(X×Y)の部分集合となるので、それをRect(Σ_X, Σ_Y)とします。

C∈Rect(Σ_X, Σ_Y) ⇔ A∈Σ_X, B∈Σ_Y が存在して、C = A×B と書ける。

Rect(Σ_X, Σ_Y)は、“二辺”がそれぞれΣ_X、Σ_Yに入るような矩形の集合です。

Rect(Σ_X, Σ_Y)を含むような Z = X×Y 上のσ代数で最小のものが一意に決まる（可測空間に関する定理）ので、それをΣ_X $\otimes$ Σ_Yとします。

Σ_X $\otimes$ Σ_Y := (Rect(Σ_X, Σ_Y)から生成された、X×Y上のσ代数)

ここまでで、集合 Z = X×Y = Ω_Z とZ上のσ代数 Σ_Z = Σ_X $\otimes$ Σ_Y が構成できました。組み合わせた (Z, Σ_Z) は可測空間です。

可測空間(Z, Σ_Z)上の測度μ_Zを、A×B∈Rect(Σ_X, Σ_Y) に対して、

μ_Z(A×B) = μ_X(A)μ_Y(B) （右辺は実数の掛け算）

が成立するように決めます。そのような測度は一意的に存在する（測度に関する定理）ので、μ_Z = μ_X $\otimes$ μ_Y と書きます。

3つ組 (Z, Σ_Z, μ_Z) が確率空間になることは容易に確認できます。Z = X×Y, Σ_Z = Σ_X $\otimes$ Σ_Y, μ_Z = μ_X $\otimes$ μ_Y だったので、確率空間としてのZをX $\otimes$ Yと書きます。

X $\otimes$ Y = (X×Y, Σ_X $\otimes$ Σ_Y, μ_X $\otimes$ μ_Y)

このようにして作ったX $\otimes$ Yを、XとYの直積と呼びたくなりますが、そうは呼びません！ 理由は、 $\otimes$ は圏Probの圏論的直積にはならないからです。f:X→Y, g:V→W in Prob に対しても f $\otimes$ g:X $\otimes$ V→Y $\otimes$ W を定義して、 $\otimes$ をProb上のモノイド積にすることは出来ますが、直積の条件は満たしません。

直積にはならないProb上のモノイド積 $\otimes$ は、独立積〈independent product〉と呼びます。確率的独立性〈stochastic independence〉と関係するからです。

モノイド積としての独立積に関しては次の論文が詳しいです。ただし、「射影付き（または入射付き）テンソル積」という言葉が使われています。

Title: What is Stochastic Independence? (2002)
Author: Uwe Franz
Pages: 16p
URL: https://arxiv.org/abs/math/0206017

独立性の一般論は次を参照。

Title: Category-theoretic Structure for Independence and Conditional Independence (2018)
Author: Alex Simpson
Pages: 17p
URL: https://www.sciencedirect.com/science/article/pii/S1571066118300318

確率空間の直和類似物は？

前節で述べた確率空間の独立積は、圏論的直積〈デカルト積〉にはなりませんが、台集合の直積の上に載っかる確率空間構造なので、直積に近いとは言えます。では、台集合の直和の上に載っかる確率空間構造はあるでしょうか？もしあるなら、それは、直和に近いモノイド積となるでしょう。

X = (X, Σ_X, μ_X), Y = (Y, Σ_Y, μ_Y) として、集合として Z = X + Y とします。集合としてのZ上に、なるべく自然な確率空間構造を定義することを目的にします。

まず Pow(X + Y) $\stackrel{\sim}{=}$ Pow(X)×Pow(Y) であることに注意します。Pow(X)×Pow(Y)→Pow(X + Y) 方向の同型（全単射）をsumとします。sum(A, B) := (A + B in X + Y) です。sumをΣ_X×Σ_Yに制限して像を取ると、それはPow(X + Y)の部分集合になるので、Sum(Σ_X, Σ_Y) と置きましょう。

C∈Sum(Σ_X, Σ_Y) ⇔ A∈Σ_X, B∈Σ_Y が存在して、C = A + B と書ける。

Sum(Σ_X, Σ_Y) ⊆ Pow(X + Y) から生成される最小のσ代数をΣ_Zとします。すると、(Z, Σ_Z)は可測空間になります。

(Z, Σ_Z)上で定義される測度μ_Zを、次が成立するように定義します。

μ_Z(A + B) = μ_X(A) + μ_Y(B)

以上により、測度空間(Z, Σ_Z, μ_Z) が構成できます。この定義は自然に思えます。が、しかし、μ_Zは確率測度になっていません。μ_Z(Z) = μ_X(X) + μ_Y(Y) = 2 だからです。

μ_Z(Z)を1にするために、μ_Xとμ_Yに1/2ずつの重みを付ける案がありますが、そうすると、モノイド積としての結合律が成立しません。

そもそも、2つの確率空間を常に対等な重さで扱うのは根拠がない気がします。そこで、p + q = 1 となる非負実数p, qを用意して、

μ_Z(A + B) = pμ_X(A) + qμ_Y(B)

と定義してはどうでしょう。これなら確かに確率測度になります。この確率測度μ_Zを持つ確率空間(Z, Σ_Z, μ_Z)を、

Z = pX + qY

と書いてもいいでしょう。係数p, q付きの和は、モノイド積にはなりませんが、2つの確率空間を重み付きで足したもの、というハッキリした意味を持ちます。

確率空間の凸結合

ベクトルxとyの凸結合とは、p + q = 1 となる非負実数p, qを係数とした足し算 px + qy のことです。xとyがベクトル（ベクトル空間の要素）のときは、px + qy はそのまま意味を持ちますが、前もって足し算がなくても、凸結合を公理的に定義することができます。

Cを集合として、0≦ q ≦1 である実数qに対して、写像 γ_q:C×C→C が定義されていて、次の条件を満たすとします。

γ₀(x, y) = x
γ_q(x, x) = x
γ_1-q(x, y) = γ_q(y, x)
γ_q(x, γ_p(y, z)) = γ_pq(γ_r(x, y), z) ただし、q(1 - p) = (1 - pq)r

最後の条件がちょっと複雑ですが、一種の結合律だとみなせます。Cに足し算があるときは、γ_q(x, y) = (1 - q)x + qy と定義するとこれらの条件を満たします。

集合Cと上記の条件を満たすγの組(C, γ)を凸空間〈convex space〉と呼びます。γ_pは、パラメータqを持つ二項演算で、（公理的に定義された）凸結合〈convex combination〉と呼びます。（詳しくはnLab項目を参照。）

γ自体はパラメータ付き二項演算ですが、γを入れ子にすることにより、p₁ + p₂ + ... + p_n = 1 であるような非負実数の列 p₁, p₂, ... ,p_n に対する凸結合を定義できます。足し算がない場合でも、記法としては足し算を使って、

p₁x₁ + p₂x₂ + ... + p_nx_n

のように書きます。あたかも足し算があるかのように扱ってかまいません。

f:X→Y, g:V→W in Prob に、(pf + qg):(pX + qW)→(pV + qW) と重み付けできるので、対象だけでなく射の凸結合も定義できます。これにより、圏Probは凸空間としての構造を持つことになります。

僕は理解してないのですが、凸空間の構造を持つ圏は、エントロピーの定義と関係するようです。バエズ〈John Baez〉による次のページに色々書いてあります。

Convex spaces and an operadic approach to entropy

確率空間の分割

p₁ + p₂ + ... + p_n = 1 であるような非負実数の列 p₁, p₂, ... ,p_n と、n個の確率空間 X₁, X₂, ..., X_n があったとします。前節で述べたように、これらの凸結合が定義できます。

Z = p₁X₁ + p₂X₂ + ... + p_nX_n

各X_i（i = 1, 2, ..., n）は確率空間であり、それらを重み付きで寄せ集めたZもまた確率空間です。

ここで、発想を逆転させて、確率空間Zが最初にあって、それを小さな確率空間達 X₁, X₂, ..., X_n に分割したと考えましょう。凸結合と同じことではありますが、Zの分割〈partitioning | disjoint decomposition〉を定義すると：

台集合として、Z = X₁∪X₂∪...∪X_n である。
i ≠ j ならば、X_i∩X_j は空集合である（互いに共通部分がない）*1。
各X_iには、Zのσ代数／確率測度から“誘導された”σ代数／確率測度により、確率空間の構造が入る。詳細は割愛するが、条件付き確率になる。
各X_iに非負実数p_iが割り当てられていて、すべてのp_iを足すと1になる。

μ_Z(X_i) ≠ 0 とか p_i ≠ 0 を仮定しておいたほうが扱いやすそうですが、かえって邪魔になることもありそう … よく分かりません。

いずれにしても、確率空間達の凸結合（重み付きの和）と、確率空間の分割（これも重み付き）は事実上同じものです。複数の確率空間達を集約してひとつにするか、ひとつの確率空間を分割して複数の確率空間達を得るか -- 見方の違いがあるだけです。

集約／分割のときに使う重みの列 p₁, p₂, ..., p_n を、積分して1になる関数 p(t)（t∈T）に置き換えたらどうなるんだろうな？と思ったりします。t∈T に対する各X_tが確率空間で、ZはX_t達を重み付きで束ねた（バンドルした）確率空間になります。このような“確率バンドル”、あるいは“確率ファイブレーション”を、「分布から拡散へ：ミシェル・ジリィを巡って」で述べた拡散圏のなかで考えたら面白いかもしれません。よく分からんけど。

おわりに

冒頭に書いたように、この記事は、もっと長い記事の一部分になる予定のものでした。残る話題は何かというと、確率空間の凸結合／分割が、より一般的なメカニズムの事例ではないか、ということです。前節で、有限個の重みを連続化することを書きましたが、ソッチ方面への拡張ではありません。有限個のままでも、なんか面白いことがあるような気がします。

*1:X_i∩X_jが測度ゼロの集合になる、でもいいでしょうが、煩雑なので空集合にしておきます。