このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

参照用 記事

マルコフ核と確率密度関数

確率統計の理解のために、僕がジリィモナド、マルコフ核、マルコフ圏などをおすすめするのは、見通しがよくなり、必要な概念が実は少数なことが分かるからです。少数の概念に対する膨大な呼び名(同義語、類義語、曖昧語)が無節操にとっ散らかっています。

必要な少数な概念が測度論ベースなので、そこのハードルが高いのは事実です。測度論を避ける手段として、確率測度の代わりに確率密度関数を使う方法があります。確率密度関数をベースにするアプローチには、次の制限があります。

  1. 可測空間に測度(確率測度とは限らない)を割り当てないと議論ができない。
  2. すべてのマルコフ核が、確率密度関数で表せるわけではない。
  3. 確率密度関数ベースで、圏と類似の構造を作れるが、ほんとの圏にはならない*1

学習(お勉強)の観点からの確率密度関数の問題点は、確率密度関数と確率測度を同一視する悪い癖が付いてしまうことです。特に、有限離散の場合は、関数と測度が区別できなくなります。

制限や問題点はありますが、現実に確率密度関数が必須なことはあるので、確率密度関数の説明をします。でも、「測度論を避けるために確率密度関数」という発想ではありません。測度論から見て確率密度関数を理解する方針です。なので、やっぱり測度論のハードルは存在します、あしからず。

必要に応じて「マルコフ核: 確率計算のモダンな体系」を参照してください。

内容:

パラメータ付き確率密度関数

測度空間 (X, Σ, Λ) を考えます。ここで、

  • Xは集合
  • Σは、X上のシグマ集合代数
  • Λは、可測空間 (X, Σ) 上の測度

Λは確率測度である必要はありませんが、σ-有限性とか、ある程度はいい性質を仮定します。X = (X, ΣX, ΛX) と記号の乱用をします。ΛX の下付きXはときに省略します*2

(X, ΣX, ΛX), (Y, ΣY, ΛY) が(よい性質を持つ)測度空間として、可測関数 f:X×Y→R≧0 が次を満たすときパラメータ付き確率密度関数〈parameterized probability density function〉と呼ぶことにします。

  • x∈X に対して、 {\displaystyle \int_{y\in Y}f(x, y)\Lambda(dy) = 1}

確率密度核〈probability density kernel〉と呼んだりもしますが、ここではパラメータ付き確率密度関数としておきます。名前が長すぎると思ったら、「PPDF」と略称してください。

f:X×Y→R≧0 がパラメータ付き確率密度関数のとき、fに対応するマルコフ核を次のように定義します。

  •  \mbox{For } x \in X, B\in \Sigma Y,\\ \hat{f}(B \mid x) := {\displaystyle \int_{y\in B\subseteq Y}f(y \mid x)\Lambda(dy)}

  \hat{f} が、(X, ΣX)→* (Y, ΣY) というマルコフ核になることはすぐ分かるでしょう。マルコフ核を定義する際に、Y上の測度 Λ = ΛY が必要なことに注意。

半圏PPDF

圏の公理から、恒等射の存在と単位律を除いて定義される構造を半圏〈semi-category〉といいます。測度空間とパラメータ付き確率密度関数の全体は半圏になります。その半圏をPPDFとして、以下に定義します。

  • |PPDF| = Obj(PPDF) = (よい性質を持つ(って、曖昧だけど)測度空間の全体)
  • ホムセット: PPDF((X, ΣX, ΛX), (Y, ΣY, ΛY)) := (パラメータ付き確率密度関数 f:X×Y→R≧0 の全体)

X = (X, ΣX, ΛX), Y = (Y, ΣY, ΛY) と記号の乱用をして、f∈PPDF(X, Y) であることを f:X→Y in PPDF と書きます。f:X→Y, g:Y→Z in PPDF に対して、結合は次のように定義します(\bullet が結合の反図式順記号)。

  •  \mbox{For } x\in X, z\in Z,\\ (g\bullet f)(z \mid x) := {\displaystyle \int_{y\in Y} g(z \mid y)f(y \mid x)\Lambda_{Y}(dy)}

\bullet”の結合律  h\bullet (g\bullet f) = (h\bullet g)\bullet f はフビニの定理から出ます。恒等射と単位律は考えません。

半圏PPDFを、マルコフ核の圏へ埋め込む

Sは可測空間とマルコフ核の圏で次の条件を満たすとします。

  • (X, ΣX, ΛX)∈|PPDF| ならば、(X, ΣX)∈|S|

半関手〈semi-functor〉 MK:PPDFS を定義します。半圏のあいだの半関手は、結合などの半圏の構造を保つ対応です。圏Sは半圏とみなすことができます。

  •  MK( (X, \Sigma X, \Lambda_X) ) := (X, \Sigma X)
  •  MK(f) := \hat{f}

半関手であるためには、次の等式が必要です。

  •  MK(g\bullet f) = MK(g)\odot MK(f)

同じことですが:

  •  \widehat{g\bullet f}= \hat{g}\odot \hat{f}

積分計算をしてみてください。

半関手MKの存在が、マルコフ核の代わりに密度関数を使ってもいい根拠です。しかし、すべてのマルコフ核Fに、 F = \hat{f} となるパラメータ付き確率密度関数fが存在するわけではありません*3。冒頭に述べたとおり、マルコフ核をパラメータ付き確率密度関数で代替は出来ないのです。

有限離散の場合(「有限離散マルコフ核に関する注意」参照)は、パラメータ付き確率密度関数は確率遷移行列になります。有限離散の場合のマルコフ核とパラメータ付き確率密度関数は同一視できますが、連続の場合との一貫性のためには区別したほうがいいと思います。

*1:さほど深刻な欠点ではありません。たいてい近似的な恒等射は作れるし、形式的に恒等射を追加してしまうこともできます。

*2:X = R のとき、Xの標準的な測度と言えばルベーグ測度です。ルベーグの'L'に対応するギリシャ文字が'Λ'です。

*3:ラドン/ニコディムの定理を参照。