このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

参照用 記事

確率空間の凸結合と分割

確率空間に対して、直和に似た演算として凸結合を導入し、そこから見方を変えて確率空間の分割を定義します。

内容:

確率空間

この記事は、もっと長い記事の前半部分を切り出したものです。ありていに言えば、息切れしたので、一区切りつけたものです。続き(後半)がそのうち出るかも(出ないかも)。

まずは確率空間の定義; 確率空間〈probability space〉は、(Ω, Σ, μ)という3つ組です。ここで:

  • Ωは集合。なんでもいい。
  • Σは、Ωのベキ集合Pow(Ω)の部分集合で、σ代数(完全加法族ともいう)であるもの。
  • μは、Σ上の測度で、μ(Ω) = 1 となるもの。

Ωを確率空間の台集合〈underlying set〉と呼びます。「標本空間」という言葉は混乱のもとなので使いません。台集合Ωはなんでもいいですが、Ωが空集合だと μ(Ω) = 1 となる測度μが作れないので、結果的には非空集合になります。

Σの要素を「事象」と呼ぶことがありますが、この言葉も使いません。代わりに可測集合〈measurable set〉といいます。

μ(Ω) = 1 という条件を満たす測度を確率測度〈probability measure〉と呼びます。確率測度を単に「確率」、あるいは単に「測度」というのは好ましくないので、なるべく使わないようにします(絶対に使わないとは言ってない)。

いくつかの確率空間を考えるとき、それらを区別するために、

  • X = (ΩX, ΣX, μX)
  • Y = (ΩY, ΣY, μY)

のように書きます。記号の乱用により、

  • X = (X, ΣX, μX)
  • Y = (Y, ΣY, μY)

のようにも書きます。ΣXをΣXと書くこともあります。

写像 f:ΩX→ΩY が次の条件を満たすとき、確率空間XからYへの準同型写像〈homomorphism〉と呼びます。

  1. B∈ΣY に対して、f*(B)∈ΣX、f*は逆像を対応させる写像
  2. B∈ΣYに対して、μY(B) = μX(f*(B)) が成立する。

確率空間を対象として、確率空間のあいだの準同型写像を射とする圏ができるので、それをProbと書きます。圏Probの射である準同型写像は、確率保存写像〈probability preserving {map | mapping}〉と呼ぶことが多いです。

確率空間の独立積

X = (X, ΣX, μX), Y = (Y, ΣY, μY) が2つの確率空間のとき、台集合の直積 X×Y 上には、標準的〈canonical〉な確率空間構造が構成できます。実際に作ってみましょう。XとYをもとに(これから)作る確率空間をZとします。Z := X×Y です。

ΣZを作るために、矩形〈rectangle | 長方形〉の話からします。X, Yは単なる集合だとして、

  • rect:Pow(X)×Pow(Y)→Pow(X×Y)

を次のように定義します。

  • for A∈Pow(X), B∈Pow(Y), rect(A, B) := A×B ∈Pow(X×Y)

あるいはラムダ記法を使って、

  • rect := λA∈Pow(X), B∈Pow(Y).(A×B ∈Pow(X×Y))

要するに、“二辺”A, B から矩形を作り出す写像がrectです。

rectをΣX×ΣYに制限すると、

  • rect|ΣX×ΣY : ΣX×ΣY→Pow(X×Y)

ができます。この写像rect|ΣX×ΣYの像は、Pow(X×Y)の部分集合となるので、それをRect(ΣX, ΣY)とします。

  • C∈Rect(ΣX, ΣY) ⇔ A∈ΣX, B∈ΣY が存在して、C = A×B と書ける。

Rect(ΣX, ΣY)は、“二辺”がそれぞれΣX、ΣYに入るような矩形の集合です。

Rect(ΣX, ΣY)を含むような Z = X×Y 上のσ代数で最小のものが一意に決まる(可測空間に関する定理)ので、それをΣX\otimesΣYとします。

  • ΣX\otimesΣY := (Rect(ΣX, ΣY)から生成された、X×Y上のσ代数)

ここまでで、集合 Z = X×Y = ΩZ とZ上のσ代数 ΣZ = ΣX\otimesΣY が構成できました。組み合わせた (Z, ΣZ) は可測空間です。

可測空間(Z, ΣZ)上の測度μZを、A×B∈Rect(ΣX, ΣY) に対して、

  • μZ(A×B) = μX(A)μY(B) (右辺は実数の掛け算)

が成立するように決めます。そのような測度は一意的に存在する(測度に関する定理)ので、μZ = μX\otimesμY と書きます。

3つ組 (Z, ΣZ, μZ) が確率空間になることは容易に確認できます。Z = X×Y, ΣZ = ΣX\otimesΣY, μZ = μX\otimesμY だったので、確率空間としてのZをX\otimesYと書きます。

  • X\otimesY = (X×Y, ΣX\otimesΣY, μX\otimesμY)

このようにして作ったX\otimesYを、XとYの直積と呼びたくなりますが、そうは呼びません! 理由は、\otimesは圏Prob圏論的直積にはならないからです。f:X→Y, g:V→W in Prob に対しても f\otimesg:X\otimesV→Y\otimesW を定義して、\otimesProb上のモノイド積にすることは出来ますが、直積の条件は満たしません。

直積にはならないProb上のモノイド積\otimesは、独立積〈independent product〉と呼びます。確率的独立性〈stochastic independence〉と関係するからです。

モノイド積としての独立積に関しては次の論文が詳しいです。ただし、「射影付き(または入射付き)テンソル積」という言葉が使われています。

独立性の一般論は次を参照。

確率空間の直和類似物は?

前節で述べた確率空間の独立積は、圏論的直積〈デカルト積〉にはなりませんが、台集合の直積の上に載っかる確率空間構造なので、直積に近いとは言えます。では、台集合の直和の上に載っかる確率空間構造はあるでしょうか? もしあるなら、それは、直和に近いモノイド積となるでしょう。

X = (X, ΣX, μX), Y = (Y, ΣY, μY) として、集合として Z = X + Y とします。集合としてのZ上に、なるべく自然な確率空間構造を定義することを目的にします。

まず Pow(X + Y) \stackrel{\sim}{=} Pow(X)×Pow(Y) であることに注意します。Pow(X)×Pow(Y)→Pow(X + Y) 方向の同型(全単射)をsumとします。sum(A, B) := (A + B in X + Y) です。sumをΣX×ΣYに制限して像を取ると、それはPow(X + Y)の部分集合になるので、Sum(ΣX, ΣY) と置きましょう。

  • C∈Sum(ΣX, ΣY) ⇔ A∈ΣX, B∈ΣY が存在して、C = A + B と書ける。

Sum(ΣX, ΣY) ⊆ Pow(X + Y) から生成される最小のσ代数をΣZとします。すると、(Z, ΣZ)は可測空間になります。

(Z, ΣZ)上で定義される測度μZを、次が成立するように定義します。

  • μZ(A + B) = μX(A) + μY(B)

以上により、測度空間(Z, ΣZ, μZ) が構成できます。この定義は自然に思えます。が、しかし、μZは確率測度になっていません。μZ(Z) = μX(X) + μY(Y) = 2 だからです。

μZ(Z)を1にするために、μXとμYに1/2ずつの重みを付ける案がありますが、そうすると、モノイド積としての結合律が成立しません。

そもそも、2つの確率空間を常に対等な重さで扱うのは根拠がない気がします。そこで、p + q = 1 となる非負実数p, qを用意して、

  • μZ(A + B) = pμX(A) + qμY(B)

と定義してはどうでしょう。これなら確かに確率測度になります。この確率測度μZを持つ確率空間(Z, ΣZ, μZ)を、

  • Z = pX + qY

と書いてもいいでしょう。係数p, q付きの和は、モノイド積にはなりませんが、2つの確率空間を重み付きで足したもの、というハッキリした意味を持ちます。

確率空間の凸結合

ベクトルxとyの凸結合とは、p + q = 1 となる非負実数p, qを係数とした足し算 px + qy のことです。xとyがベクトル(ベクトル空間の要素)のときは、px + qy はそのまま意味を持ちますが、前もって足し算がなくても、凸結合を公理的に定義することができます。

Cを集合として、0≦ q ≦1 である実数qに対して、写像 γq:C×C→C が定義されていて、次の条件を満たすとします。

  1. γ0(x, y) = x
  2. γq(x, x) = x
  3. γ1-q(x, y) = γq(y, x)
  4. γq(x, γp(y, z)) = γpqr(x, y), z) ただし、q(1 - p) = (1 - pq)r

最後の条件がちょっと複雑ですが、一種の結合律だとみなせます。Cに足し算があるときは、γq(x, y) = (1 - q)x + qy と定義するとこれらの条件を満たします。

集合Cと上記の条件を満たすγの組(C, γ)を凸空間〈convex space〉と呼びます。γpは、パラメータqを持つ二項演算で、(公理的に定義された)凸結合〈convex combination〉と呼びます。(詳しくはnLab項目を参照。)

γ自体はパラメータ付き二項演算ですが、γを入れ子にすることにより、p1 + p2 + ... + pn = 1 であるような非負実数の列 p1, p2, ... ,pn に対する凸結合を定義できます。足し算がない場合でも、記法としては足し算を使って、

  • p1x1 + p2x2 + ... + pnxn

のように書きます。あたかも足し算があるかのように扱ってかまいません。

さて、前節で定義した pX + qY ですが、これを γq(X, Y) := (1 - q)X + qY とすると、(|Prob|, γ)は凸空間になります。|Prob|は普通の集合ではなくて大きな集合〈プロパークラス〉なので、(|Prob|, γ)は”大きな凸空間”と言うべきかもしれません。大きさを気にしなければ、凸空間の議論はすべて(|Prob|, γ)に対しても適用できます。

f:X→Y, g:V→W in Prob に、(pf + qg):(pX + qW)→(pV + qW) と重み付けできるので、対象だけでなく射の凸結合も定義できます。これにより、圏Probは凸空間としての構造を持つことになります。

僕は理解してないのですが、凸空間の構造を持つ圏は、エントロピーの定義と関係するようです。バエズ〈John Baez〉による次のページに色々書いてあります。

確率空間の分割

p1 + p2 + ... + pn = 1 であるような非負実数の列 p1, p2, ... ,pn と、n個の確率空間 X1, X2, ..., Xn があったとします。前節で述べたように、これらの凸結合が定義できます。

  • Z = p1X1 + p2X2 + ... + pnXn

各Xi(i = 1, 2, ..., n)は確率空間であり、それらを重み付きで寄せ集めたZもまた確率空間です。

ここで、発想を逆転させて、確率空間Zが最初にあって、それを小さな確率空間達 X1, X2, ..., Xn に分割したと考えましょう。凸結合と同じことではありますが、Zの分割〈partitioning | disjoint decomposition〉を定義すると:

  1. 台集合として、Z = X1∪X2∪...∪Xn である。
  2. i ≠ j ならば、Xi∩Xj空集合である(互いに共通部分がない)*1
  3. 各Xiには、Zのσ代数/確率測度から“誘導された”σ代数/確率測度により、確率空間の構造が入る。詳細は割愛するが、条件付き確率になる。
  4. 各Xiに非負実数piが割り当てられていて、すべてのpiを足すと1になる。

μZ(Xi) ≠ 0 とか pi ≠ 0 を仮定しておいたほうが扱いやすそうですが、かえって邪魔になることもありそう … よく分かりません。

いずれにしても、確率空間達の凸結合(重み付きの和)と、確率空間の分割(これも重み付き)は事実上同じものです。複数の確率空間達を集約してひとつにするか、ひとつの確率空間を分割して複数の確率空間達を得るか -- 見方の違いがあるだけです。

集約/分割のときに使う重みの列 p1, p2, ..., pn を、積分して1になる関数 p(t)(t∈T)に置き換えたらどうなるんだろうな? と思ったりします。t∈T に対する各Xtが確率空間で、ZはXt達を重み付きで束ねた(バンドルした)確率空間になります。このような“確率バンドル”、あるいは“確率ファイブレーション”を、「分布から拡散へ: ミシェル・ジリィを巡って」で述べた拡散圏のなかで考えたら面白いかもしれません。よく分からんけど。

おわりに

冒頭に書いたように、この記事は、もっと長い記事の一部分になる予定のものでした。残る話題は何かというと、確率空間の凸結合/分割が、より一般的なメカニズムの事例ではないか、ということです。前節で、有限個の重みを連続化することを書きましたが、ソッチ方面への拡張ではありません。有限個のままでも、なんか面白いことがあるような気がします。

*1:Xi∩Xjが測度ゼロの集合になる、でもいいでしょうが、煩雑なので空集合にしておきます。