「確率・統計の「分布」の意味と使用法」で間違いがありました。最初、「“離散分布”と“連続分布”の集合としての直和から作った自由凸空間が、測度の空間に埋め込める」と書いていたのですが、「埋め込める」はウソです。単に間違いを訂正するだけでなく、事情をもう少し詳しく書くことにします。
内容:
なぜ言葉の用法にこだわるのか
僕にとって意味不明だったり、曖昧と感じる確率・統計の記述が存在します。それらを批判する気はありません。むしろ逆で、そのテの記述を読めるようになりたいのです。興味深い事例や面白い考え方が書いてありそうでも、暗黙の習慣や言葉の多義的使用法に阻まれて理解できないのです。
理解できるようになるには、次の2つをすればよいと思っています。
- 暗黙の習慣や言葉の多義的使用法を分析し、自分にとって分かりやすい表現に翻訳できるようにする。
- 多義的な言葉に対して適用可能なメンタルモデルを構成する。
2番目は心情的・心理的なものなので、厳密性は要求しないで、比喩・示唆のレベルでかまいません。例えば、「分布」を、質点や連続的物体の質量分布として物理的に比喩する事などです。
今回の話は、「分かりやすい表現に翻訳」と「メンタルモデル」の中間的なもので、いちおう形式的な定義はしますが、心情的・心理的な納得感が主たる目的です。
この記事内では、「分布」は「確率分布」より広い意味で使います。全空間の測度が1じゃなくても「分布」と呼ぶことにします。分布のなかで、特に全空間の測度が1なものを「確率分布」と呼ぶことにします。
土台になる空間
まず、分布が載る土台となる空間を決めます。X = (ΩX, ΣX, ΛX) は次の意味だとします。
- ΩXは、集合。
- ΣXは、ΩX上のσ集合代数。
- ΛXは、可測空間(ΩX, ΣX)上のσ-有限測度。
σ-有限という条件は、ΛX(ΩX) = ∞ も許すけど、ΛX(Si) < ∞ であるようなSi達(i∈I で、Iは高々可算)があって、ΩXがSi達の合併になっていることです。
よく使う実例は、ΩXが有限集合のときと、ΩX = Rn のときです。
例1:
- ΩXは有限集合
- ΣX = (ΩXのべき集合の集合代数)
- ΛX = (部分集合の個数を勘定する測度)
例2:
- ΩX = Rn
- ΣX = (Rnの標準的位相から決まるボレルσ集合代数)
- ΛX = (Rnの標準的測度)
Rnでは、Λ(Rn) = ∞ ですが、例えば、一辺が長さ1の方体(cube)でRnを覆えます。よってσ-有限です。
一般論を展開するには、他の条件も必要になりますが、とりあえず、上記の二種の実例を想定して話を進めます。
有限測度の空間
X = (ΩX, ΣX, ΛX) は前節で述べたような測度空間とします。(ΩX, ΣX) は可測空間なので、この可測空間上の有限測度(finite measure)の全体をFinMeasure(X)と書くことにします。μが有限測度とは、μ(ΩX) < ∞ を満たすことです。有界測度と呼んだほうがいいような気がするのですが、「有限測度」が定着してるみたい。
Xに最初から在るΛXは有限測度とは限りません(RnのΛは非有限)。Λは特別なので大文字ギリシャ文字を使いました。Λを背景測度(background measure)と呼ぶこともあるようです。一部では、大文字ラムダを使うのが慣例になっています(一部ですけど)。
FinMeasure(X)はベクトル空間ではありませんが、ベクトル空間にかなり近い構造を持ちます。
- μ, μ'∈FinMeasure(X) のとき、μ + μ' が定義できる。
- 全ての可測集合に0を対応させるゼロ測度がある。
- 足し算とゼロで、可換モノイド構造を持つ。
- 非負の実数によるスカラー乗法ができる。
法則(公理)を全部列挙はしませんが、引き算やマイナス倍以外はベクトル空間とほぼ同様です。このような構造を持った空間をベクトル錐空間(vector cone space)あるいは単にベクトル錐(vector cone)と呼ぶことにします。
X上の符号付き測度(signed measures)で有限なもの全体をFinSignedMeasure(X)とすると、これはベクトル空間になります。FinMeasure(X)はベクトル空間FinSignedMeasure(X)に埋め込めるので、FinMeasure(X)はベクトル空間の部分集合で足し算と非負スカラー倍で閉じたものとみなせます。
PMeasure(X) = {μ∈FinMeasure(X) | μ(ΩX) = 1} と定義します。PMeasure(X)の要素である測度を、X上の確率測度(probability measure)と呼びます。PMeasure(X)はベクトル錘空間にはなりませんが、凸結合(重心結合)で閉じているので凸空間(convex space)になっています。
Measure(X)やPMeasure(X)に、錘空間や凸空間の構造以外に、位相構造や可測構造を入れる話もありますが、今は不要なので触れません。
密度関数の空間
X上の実数値可測関数のなかで密度関数と呼べるものを特定して、その全体をDensity(X)とします。Density(X)は固定した関数空間ではなくて、用途に応じて決めればいいですが、以下の条件は満たすとします。
- 密度関数(Density(X)の要素)は、非負値の可測関数である。
- 密度関数をX上で標準測度ΛXにより積分すると有限の値となる。
- Density(X)は(足し算と非負スカラー倍で)ベクトル錘空間の構造を持つ。
f∈Density(X) のとき、密度関数fに対応する測度μを次のように定義できます。SはXの可測集合として:
ΛX(dx) は、X上の標準測度による積分を意味します。μはfから決まるので、μ = J(f) として、J:Density(X)→FinMeasure(X) という写像が決まります。次が成立します。
- J(f + g) = J(f) + J(g)
- J(0) = 0 (左辺の0はゼロ関数、右辺の0はゼロ測度)
- sを非負実数として、J(sf) = sJ(f)
Jはベクトル錘空間のあいだの準同型写像になっています。密度関数fを使って μ = J(f) と書ける測度μは標準測度ΛXに関して絶対連続(μ ≪ ΛX)なので、Jの像はX上の絶対連続測度の集合に含まれます。
(J(f))(ΩX) = 1 のとき、fは確率密度関数(probability density function)だといいます。確率密度関数の全体PDensity(X)は、J-1(PMeasure(X))という逆像で定義できます。fが確率密度関数である条件を積分で書けば:
離散分布の空間
離散分布は、物理的比喩で言うなら、質量を持つ質点達(有限個)からなる系だとします。代数的には、集合ΩXから生成された自由ベクトル錘空間とします。この定義だと可算集合に台を持つ測度を定義できませんが、それが必要なときは別途工夫をすることにして、今は有限質点系のモデルでよしとします。
一般に、集合S上の自由ベクトル錘空間は次のように定義します。
- Sのn個(n > 0)の要素 a1, ..., an と、n個の正実数 ξ1, ..., ξn から作った形式的1次結合 ξ1a1 + ... + ξnan をすべて考える。
- これに、0(ゼロ)を加えた集合をCとする。
- C内で、形式的足し算、形式的スカラー乗法を考えると、ベクトル錘構造が定まる。
- ベクトル錘構造を備えた集合CをFreeCone(S)とする。
FreeCone(S)は、S→R≧0 という関数で、有限個(0個でもよい)の点を除いて0である関数の全体(に足し算とスカラー乗法)としても同じです。
Sを単なる集合、Wを任意のベクトル錘空間として、S→W という写像があると、FreeCone(S)→W という自由ベクトル錘空間の準同型写像に一意に拡張できます。それが「自由に生成したこと」の意味です。圏論の随伴(adjunction)として書けば:
- Cone(FreeCone(S), W) Set(S, Forget(W))
ここで、Coneはベクトル錘空間の圏、Forgetはベクトル錘空間の構造を忘れて台集合を対応させる忘却関手です。
Xを先に定義した“土台の空間”として、J':FreeCone(ΩX)→FinMeasure(X) を次のように定義します。
この定義から:
- J'(Σ(i = 1..n | ξiai)) = Σ(i = 1..n | ξiδai)
J':FreeCone(ΩX)→FinMeasure(X) はベクトル錘空間のあいだの準同型写像になっています。ディラック測度やその1次結合は(ΛXに関して)特異測度なので、J'の像はX上の特異測度の集合に含まれます。FreeCone(ΩX)とまったく同じ意味でDiscrete(X)も使うことにします。
(J'(α))(ΩX) = 1 のとき、αは確率離散分布(または離散確率密度)だといいます。確率離散分布の全体PDiscrete(X)は、J'-1(PMeasure(X))という逆像で定義できます。あるいは、Σ(i = 1..n | ξiai) に次の条件を課すと確率離散密度です。
- Σ(i = 1..n | ξi) = 1
ベクトル錘空間の直和
ベクトル錘空間は、ベクトル空間とよく似ているので、ベクトル空間の場合と同様に直和を定義できます。同様なので簡略に記します。
VとWをベクトル錘空間として、その台集合の直積をつくります。台集合も同じ記号で表してしまえば(記号の乱用)V×Wですね。このV×Wに足し算とスカラー乗法を入れます。ゼロも特定します。ここらへん、ベクトル空間の場合と同じです。
V×Wの要素であるペア(v, w)を、vw とか v + w とか書いて、ペアにすることを足し算のように扱います。直積としての射影 π1V,W:V×W→V, π2V,W:V×W→W と、v|→(v, 0), w|→(0, w) で定義される入射 ι1V,W:V→V×W, ι2V,W:W→V×W が定義できます。
上記のような構造を持ったV×WをVWと書いて、VとWの直和(direct sum)と呼びます。圏論的には双積(biproduct)と呼ぶべきですが、ベクトル空間のときと同じ呼び名を使うことにします。
X上の分布の空間
さて、いよいよ分布の空間を定義します。冒頭に書いたように、これはメンタルモデルの側面が強いので、僕にとって「こういうものを『分布』と呼ぶなら心が安らぐ」という基準で定義します。
X = (ΩX, ΣX, ΛX) を土台になる空間とします。集合ΩXの要素は、根本(原子)事象とか標本とか値とかデータとか呼ばれるモノです。ΩXは単なる集合ではなくて位相空間のときが多いですが、今それには言及しません。
X上の密度関数の空間Density(X)と、離散分布の空間Discrete(X)はどちらもベクトル錘空間なので、それらの直和Density(X)Discrete(X)を作れます。これを、X上の分布の空間とします。[追記]ΩXが有限集合のときは、Density(X)かDiscrete(X)のどちらか一方をゼロ空間(ゼロしかない空間)だと考えます。[/追記]
- Dist(X) := Density(X)Discrete(X)
J:Density(X)→FinMeasure(X), J':Discrete(X)→FinMeasur(X) というベクトル錘空間の準同型写像がありました。これらは、直和Density(X)Discrete(X)上に一意に拡張できます。それをJ''とするなら:
- J''(fγ) := J(f) + J'(γ)
J'':Density(X)Discrete(X)→FinMeasure(X) を改めてJと置き直すと、Dist(X) = Density(X)Discrete(X) は、FinMeasur(X)への埋め込み J:Dist(X)→FinMeasure(X) を持つベクトル錘空間となります。
確率測度の空間PMeasure(X)のJによる逆像J-1(PMeasure(X))が確率分布(probability distribution)の空間で、PDist(X)と書くことにします。
- PDist(X) := J-1(PMeasure(X))
当然ながら、PDensity(X) ⊆ PDist(X), PDiscrete(X) ⊆ PDist(X) です。
分布の空間の性質
分布の空間Dist(X)は、定義のうえからはFinMeasure(X)とは別物です。これにより、「分布」と「測度」が完全に同義とは思いたくない、という欲求が満たされます。一方で、埋め込み J:Dist(X)→FinMeasure(X) があるので、Dist(X) J(Dist(X)) ⊆ FinMeasure(X) 。Dist(X)とJ(Dist(X))を同一視するなら、Dist(X) ⊆ FinMeasure(X) と考えてもいいので、「分布」って結局は「測度」のことだよ、とも言えます。
Dist(X) ⊆ FinMeasure(X) とみなせますが、Dist(X) = FinMeasure(X) である必要はありません。FinMeasure(X) には扱いにくい測度が入っているかも知れませんが、そんな変なヤツを「分布」と呼ぶ必要はありません。自分にとって扱いやすい密度関数や有限質点系を設定して、それで定義される測度だけが、分布に対応する測度なのです。
Dist(X)には、直和分解の構造 Density(X)Discrete(X) が備わっているので、分布が連続分布か離散分布かの区別があります。連続分布なら密度関数、離散分布なら質点系という、扱いやすい対象物です。抽象的な測度に比べて、関数や質点系は実体として把握しやすいでしょう。
土台の空間がRn(n > 1)のときは、曲線や曲面上に質量が集中した物体のような分布を考えることもあるでしょう。そのような分布の定義は、土台を単なる可測集合と考えていては無理そうです。どうすりゃいんだろう? うーん、心の安らぎもほんの束の間かも知れません。