このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

参照用 記事

統計的反転の圏論的セットアップ 1/2

ベイズ反転〈Bayesian {inversion | conversion}〉と尤度関数の構成はなんとなく似てますが、その関係がハッキリとは分かりません(僕には)。また、ベイズ反転や尤度関数の利用場面では、実際に観測されたデータを使いますが、観測データは測度なのか述語なのかもハッキリしません。

ベイズ反転も尤度関数の構成も、統計モデル〈確率モデル〉の向きを反転させて、反転した写像を観測データに適用する、という共通構造を持ちます。この共通構造を上手に定式化すれば、ハッキリしなかった点が明確になるかも知れません。試みてみます。

ベイズ反転と尤度関数の構成を総称して統計的反転〈{statistic | statistical} {inversion | conversion}〉と呼んで、統計的反転を議論するための圏論的枠組みをセットアップします。この記事の内容は、ドールクゥイスト達の以下の論文の後半(9ページから14ページ)に書いてあることに基いています。(用語と記法は、ドールクゥイスト達と同一ではありません。)

アイディアを一言でいえば、確率的圏/準確率的圏からωバナッハ錐の圏への幾つかの関手を構成して、それらの関手のあいだの双対構造を定義します。

今日は枠組みのセットアップ〈準備〉だけですが、この枠組みを利用して、ジェイコブス達のチャンネル理論における更新演算を定式化する目論見があります。

と、そんな感じで記事を書き始めたら思いのほか長くなって疲れたので、途中で切って残りは後日にします。タイトルに「1/2」とか入れると、「2/2」がなかなか出ない傾向があるのですが(苦笑)、なるべく早い時期に次のような話題を書くつもり; ωバナッハ錐のω双対性、p-ルベーグ錐のω双対性、ルベーグ錐と測度錐の等張同型、ω双対ペアに関する随伴。\newcommand{\cat}[1]{\mathcal{#1}}\newcommand{\For}{\mbox{For }}\newcommand{\Iff}{\Leftrightarrow}\newcommand{\Imp}{\Rightarrow}

内容:

確率的圏と準確率的圏

確率的圏の合意された定義はありませんが、ここでは次のように考えます; 確率的圏〈stochastic category〉とは、ジリィ型モナド(すぐ後で定義します)のクライスリ圏の部分圏であり、マルコフ圏となっているもの。具体的に構成されたマルコフ圏と言ってもいいでしょう。

準確率的圏〈quasi-stochastic category〉は、準ジリィ型モナド(すぐ後で定義します)のクライスリ圏の部分圏であり準マルコフ圏となっているものです。準マルコフ圏については「マルコフ圏の一族」で説明しています。以下に、ジリィ型モナドと準ジリィ型モナドを説明します。

可測空間の圏Measの上で定義されたジリィ・モノイドを (Giry, ν, δ)/Meas とします。Giry:MeasMeas in CATモナドの台関数です。圏Cは、Measへの忘却関手(忠実関手) U:CMeas in CAT を持つします。C上のモナド (F, μ, η)/Cジリィ型〈Giry-style | Giry-like〉だとは、以下に述べる条件を満たすことです。

まず、自然変換 ι::F*U ⇒ U*Giry:CMeas in CAT (下図、'*'は関手の図式順結合記号)があり、その成分 ιX:U(F(X)) → Giry(U(X)) in Meas が包含写像〈inclusion map〉であることです。


\xymatrix {
 *{\cat{C}} \ar[r]^{U}\ar[d]_{F}  & *{\bf Meas} \ar[d]^{Giry}\\
 *{\cat{C}} \ar[r]^{U} \ar@{=>}[ur]^{\iota}&  *{\bf Meas}
}\\
\mbox{in }{\bf CAT}

さらに、この ι::F*U ⇒ U*Giry が、2つのモナド (F, μ, η)/C と (Giry, ν, δ)/Meas のあいだのモナド準同型射になっているなら、(F, μ, η)/C はジリィ型です。モナド準同型射(モナドのあいだの準同型射)については、以下の記事を参照してください。

ジリィ型モナドを指定するには、単に (F, μ, η)/C だけではなくて、忘却関手 U:CMeas in CAT と自然変換 ι::F*U ⇒ U*Giry:CMeas in CAT も指定する必要があります。念の為に、モナド準同型射の条件を関手圏 [C, Meas] 内の可換図式として描いておきます。(ストリング図を図式順記法で写し取ったものです。)

\require{AMScd}
\begin{CD}
F*F*U @>{\mu*U}>>      F*U         @>{\iota}>>  U*Giry \\
@V{F*\iota}VV          @.                       @| \\
F*U*Giry @>{\iota*Giry}>> U*Giry*Giry @>{U*\nu}>> U*Giy
\end{CD}\\
\:\\
\begin{CD}
U           @>{U*\delta}>> U*Giry\\ 
@V{\eta*U}VV                @| \\
F*U         @>{\iota}>>    U*Giry
\end{CD}\\
\:\\
\mbox{commutative in }[\cat{C}, {\bf Meas}]

ジリィ・モナドの Giry(X)∈|Meas| for X∈|Meas| は、可測空間X上のすべての確率測度の集合に可測構造を入れたものです。確率測度の代わりに有限測度にしたものを QGiry(X)∈|Meas| for X∈|Meas| とします。ジリィ・モナドと同様な構成法で、QGiry:MeasMeas in CAT を台関手とするモナド (QGiry, ν, δ)/Meas が作れます(記号 'ν', 'δ' はオーバーロードしてます)。このモナド準ジリィ・モナド〈quasi-Giry monad〉と呼ぶことにします。準ジリィ・モナドのクライスリ圏はマルコフ圏にはなりませんが、準マルコフ圏になります。

ジリィ・モナドに対するジリィ型モナドの定義と同様にして、準ジリィ・モナドの類似物である準ジリィ型モナド〈quasi-Giry-{style | like} monad〉を定義できます。準ジリィ型モナドのクライスリ圏である準マルコフ圏の部分準マルコフ圏を準確率的圏と呼ぶわけです。

確率的圏/準確率的圏は、それぞれマルコフ圏/準マルコフ圏の具体例ですが、具体的なモナドのクライスリ圏内に埋め込める、という意味で具体的な圏です。

標準ボレル空間上のジリィ型モナド

ジリィ・モナドはもちろん、自明にジリィ型モナドです。ジリィ〈Michèle Giry〉は、THE・ジリィ・モナド以外にジリィ型モナドを定義しています。標準ボレル空間の圏上のジリィ型モナドです。このジリィ型モナドが一番よく使われていると思うので、ここで簡単に触れておきます。

可測空間の圏Measは茫漠としていて扱いやすくありません。Measの部分圏で扱いやすいものに標準ボレル空間(と可測写像)の圏 SBSMeas があります。圏SBSについて説明します。

可分な完備距離空間から得られる位相(開集合族)を持つ位相空間ポーランド空間〈Polish space〉と呼び、ポーランド空間(と連続写像)の圏を PolTop とします。P = (S, O) をポーランド空間とします; Sは台集合で、Oは開集合族です。同じ台集合Sに、Oから生成されたシグマ集合代数(ボレル集合族)を載せた可測空間を Borel(S)∈|Meas| とします。Borel:|Pol| → |Meas| の像(大きな集合)から誘導される充満部分圏がSBSです。

SBSの対象(ポーランド空間から生成された可測空間)を標準ボレル空間〈standard Borel space〉と呼ぶので、圏SBS標準ボレル空間の圏〈the category of standaard Borel spaces〉です。

標準ボレル空間X上の確率測度の集合は、「Xの可測集合による評価写像がすべて可測写像になるような最小のシグマ代数」により可測空間になります。それだけでなく、ワッサースタイン距離〈Wasserstein metric〉により可分な完備距離空間になります。距離から誘導される位相のボレル集合族は、最初に与えたシグマ代数と一致します。これにより、Measの部分圏SBSに制限したジリィ関手 Giry:SBSMeas in CAT は、自己関手 Giry:SBSSBS in CAT になります。Measの部分圏SBSはGiry作用で“閉じている”と言えます。

圏の包含を忘却関手 U:SBSMeas in CAT と考えて、(Giry, ν, δ)/SBS がジリィ型モナドになるのは明らかでしょう。

SBSに制限した準ジリィ関手 QGiry:SBSMeas in CAT を自己関手に出来るかどうか僕は知りません。Giry(X)∈|Meas| 上の距離の構成が、確率測度の集合であることを利用している場合が多いので、確率測度ではない測度の集合である QGiry(X)∈|Meas| に一般化するのは難しそうです。「出来ない」とも言い切れませんが(要するに分からない)。

(Giry, ν, δ)/SBS のクライスリ圏やその部分圏では、可測構造だけでなく完備な距離と距離位相が使えるので、具体的で細かい議論が可能になります。

確率空間の2-圏と確率的関連の圏

Cを確率的圏とします。つまり、Cはマルコフ圏であり、その対象は可測空間とみなせ、射はマルコフ核とみなせます。以下、Cの射はマルコフ核と呼びます。

Cはマルコフ圏なので単位対象兼終対象1があります。アンダー圏 1/CPS(C) と書き、C確率空間の圏〈category of probability spaces〉と呼びます。実際、PS(C) の対象は、Cの対象Xと、Cの射 p:1 → X in C の組 (X, p) なので、可測空間に確率測度を載せた構造=確率空間 と考えることができます。PS(C) の射は、確率測度を保存するマルコフ核です。

PS(C) のホムセット PS(C)(​(X, p), (Y, q)) ⊆ C(X, Y) には、p-ASE(p almost surely equal)により同値関係が入ります。この同値関係は、圏の構造と整合するので、圏論的合同〈categorical congruence〉になります。

PS(C) のホムセットごとに定義された同値関係を、可逆な2-射とみなすと、PS(C) は2-圏になります。2-圏であることを強調したいときは、2PS(C) と書きます。

合同を備えた圏とみなした PS(C) のホムセットを同値関係ASE〈almost surely equal〉で商を取ってできる圏を Relev(C) とします。

  • Relev(C) := PS(C)/ASE = (1/C)/ASE

Relev(C) の射(マルコフ核のASE同値類)を確率的関連〈stochastic relevance〉と呼ぶことにします。単に関連ともいいます。なので、Relev(C) は{確率的}?関連の圏〈category of {stochastic}? relevances | {stochastic}? relevance category〉です。Relev(C) の構成は次の記事でも扱っています。

Relev(C)を、ホムセット内の等号〈同一性 | equality〉を2-射として2-圏とみなしたものを 2Relev(C) と書きましょう。合同による商への標準射影が定義する関手を Q:PS(C) → Relev(C) とすると、この関手は2-圏のあいだの2-関手とみなすことができます; Q:2PS(C) → 2Relev(C) in 2-CAT

確率空間の圏 PS(C) を2-圏 2PS(C) と見る立場はけっこう重要で、対象の同型性だけでなくて、対象の同値性が定義できます。2PS(C) 内の同値な対象は2-圏的には区別する必要がありません。例えば、ディラック測度が確率測度として載った任意の確率空間は、一点だけの確率空間と同値です。この話題は次の記事で扱っています。

商を取って作った圏 Relev(C) を1-圏論的に扱うだけでなく、商を取る前の 2PS(C) を2-圏論的に扱うことが重要です。

冒頭で紹介したドールクゥイスト達の論文では、Kl(-) をクライスリ圏として C := Kl(​(Giry, ν, δ)/SBS) と置いた場合の Relev(C) を Krn と名付けています。確率測度を保存するマルコフ核の同値類を再び「核」と呼ぶわけです(ちょっと分かりにくい)。

ωバナッハ錐とωヒルベルト

ドールクゥイスト達の論文の特色は、ベイズ反転の定式化に関数解析/領域理論〈domain theory〉的な手法を取り入れたことです。領域理論は、位相や順序を利用するプログラム意味論の一分野です。ジェイコブス達のチャンネル理論でも、プログラム意味論の状態変換子/述語変換子を使っていますが、ドールクゥイスト達は状態変換子/述語変換子をマルコフ作用素〈Markov operator〉と呼んでいます。マルコフ作用素が働く舞台がωバナッハ錐の圏です。マルコフ核から構成されたマルコフ作用素は、ωバナッハ錐の圏の射になります。

以下で、ωバナッハ錐とωヒルベルト錐を定義します。ωバナッハ錐は(実数体上の)バナッハ空間の類似物で、ωヒルベルト錐は(実数体上の)ヒルベルト空間の類似物です。完備性の定義にはコーシー列ではなくてωチェーンが使われます。これが'ω'が付いている理由です。

P = R≧0 := {x∈R | x ≧ 0} とします。Pには半体〈semifield〉の構造を考えます。半体は、引き算が自由にできない以外は体と同じです。Pは positive〈正〉に由来しますが、positive〈正〉の用法には注意してください。

正しい用法 誤用だがよく使われる
非負
非負値 正値
真に正

(V, +, 0) が可換モノイドで、非負実数半体Pスカラー倍として作用しているとき、可換モノイド構造とP-スカラー倍の構造を一緒にして(P上の)半ベクトル空間〈semivector space〉と呼びます。

半ベクトル空間 (V, +, 0, ・) が、さらに次の条件を満たすとき錐体〈cone〉またはと呼びます。

  1. u, v, w∈V として、u + w = v + w ならば u = v (消約律〈cancellation law〉)
  2. u, v∈V として、u + v = 0 ならば u = v = 0 (厳密非負性〈strictly non-negative〉)

厳密非負性は、u に対する -u は存在しないと言っています。錐は、片方向にしか広がってません。

錐 (V, +, 0, ・) では、u ≦ v :⇔ ∃w∈V.(u + w = v) として順序を定義できます。この順序も一緒に考えることにします。つまり、錐は常に順序集合です。錐が順序集合であることを示すには、消約律と厳密非負性を使います(練習問題)。

錐のノルムは、ベクトル空間のノルムと同様に定義します。ひとつだけ追加する公理は、順序との関係で、次が成立するとします。(以下で、|u| は“uのノルム”。)

  • u ≦ v in V ならば |u| ≦ |v| in P

錐のノルムは順序と整合します。(順序と整合した)ノルムを持つ錐をノルム錐〈normed cone〉といいます。

ノルムに関して有界な可算増加列(正確には非減少列)*1 (ui)i∈N が常に(順序に関する)最小上界〈least upper bound〉を持ち、最小上界のノルムがノルムの最小上界になる(下の等式)とき、ノルム錐はω完備〈ω-complete〉といいます。

  • |lubi∈N(ui)| = lubi∈N(|ui|)

ω完備なノルム錐をωバナッハ錐〈ω-Banach cone〉と呼びます。

錐に対して内積を定義できます。これもベクトル空間の場合と同様です。内積を備えた錐を内積〈inner product cone〉と呼びます。内積からノルムが誘導されます; |u| := sqrt(u | u) 。したがって、内積錐はノルム錐とみなせます。ノルム錐としてω完備な内積錐をωヒルベルト〈ω-Hilbert cone〉と呼びます。

V = (V, +, 0, ・, |-|) と W = (W, +, 0, ・, |-|) (記号の乱用)を2つのωバナッハ錐として、台集合のあいだの写像 f:V → W が、足し算とスカラー倍、ωチェーンの極限(最小上界)を保つときω連続線形写像〈ω-continuous linear map〉と呼びます。すべてのωバナッハ錐とω連続線形写像は、圏 ω-BanC を構成します。これはωバナッハ錐の圏〈category of ω-Banach cones〉です。

同様に、すべてのωヒルベルト錐とω連続線形写像は、圏 ω-HilbC を構成します。これはωヒルベルト錐の圏〈category of ω-Hilbert cones〉です。忘却関手 U:ω-HilbCω-BanC in CAT は充満忠実な関手になります。

続く

統計的反転の定式化のためのセットアップはまだ途中です。冒頭にも挙げましたが、次のような話題が残っています。ωバナッハ錐のω双対性、p-ルベーグ錐のω双対性、ルベーグ錐と測度錐の等張同型、ω双対ペアに関する随伴。

*1:列が増加するという仮定はなくてもかまいませんが、実際に使うのはたいてい増加列です。