確率的独立性再論 - 檜山正幸のキマイラ飼育記 (はてなBlog)

確率的独立性〈統計的独立性〉が難しい理由のひとつは、「‥‥は独立である」「独立な‥‥」というときの「‥‥」の部分がハッキリしないことでしょう。述語としての「独立」の主語、形容詞（修飾語）としての「独立」の被修飾語がハッキリしないのです。確率変数が主語・被修飾語として扱われることが多いでしょうが、そもそも「確率変数」が意味不明な多義語です。確率分布、確率空間、シグマ代数などが「独立」の主語・被修飾語になることもあります。ウーム、色々ありすぎ。

確定的独立性の定義と法則を統制するような枠組みはないのでしょうか。シンプソン〈Alex Simpson〉は、確率的独立性に限らず、広い範囲の“独立性”を定義するための抽象的・公理的アプローチを提唱しました（「統計的独立性と線形独立性を共通に語ることは出来るのか？」参照）。一方、フランツ〈Uwe Franz〉は、射影付きモノイド圏に基づき、確率的独立性に特化した独立性概念*1を定義しています（「フランツによる統計的独立性の定義」参照）。

シンプソンの独立性は、汎用的でスッキリしてますが、確率的独立性のためには一般的・抽象的過ぎる気がします。ここでは、シンプソンのアイディアに沿いながら、フランツの定義も取り入れて確率的独立性を定義してみます。マルコフ圏との親和性を高めるために、射影付きモノイド圏の代わりに半デカルト圏を使います。

この記事で述べる定式化では、「独立」の主語・被修飾語は余復射〈comultimorphism〉になります。

内容：

半デカルト圏
復圏と余復圏
半デカルト圏から余復圏へ
余復圏上のシンプソン独立構造
確率空間の圏における独立性
記法と用語法
半グラフォイド条件

半デカルト圏

C = (C, $`\otimes`$, 1, σ) を対称モノイド圏とします。記号の乱用〈abuse of notation〉をしているし、モノイド圏の構造射〈律子〉α, λ, ρ は省略しています。σは対称射〈symmetry | swap〉です。

対称モノイド圏Cが半デカルト圏〈semicartesian category〉であるとは、単位対象 1 が終対象になっていることです。1 が終対象なので、対象 A∈|C| に対して 1 への唯一の射が存在します。それを !_A:A → 1 と書きます。

マルコフ圏（「マルコフ圏 A First Look -- 圏論的確率論の最良の定式化」参照）は、定義より半デカルト圏です -- マルコフ圏の定義の一部として半デカルト性を要請しています。マルコフ圏から作られた確率空間の圏（射は確率保存射）は、マルコフ圏にはなりませんが、半デカルト圏にはなります。

Cが半デカルト圏のとき、π¹_A,B := (id_A$`\otimes`$!_B);ρ_A,B : A$`\otimes`$B → A と定義して、π²_A,B も同様に定義すると、これらは、フランツの意味での射影になります。つまり、半デカルト圏は射影付き圏なので、フランツの議論は半デカルト圏に対して適用できます。

復圏と余復圏

復圏〈multicategory〉とは、複数の入力を許すが出力はひとつ〈n-in 1-out〉な関数を抽象化した“復射”から構成される圏類似構造です。圏と同様に、復圏Mも対象〈基本対象〉の集合 Obj(M) を持ちます。復射のプロファイルは、入力側が対象のリストになります。例えば、f:(A, B, C) → D in M 。同じプロファイルを持つ復射達はホムセット M((A, B, C), D) を構成します。

今回使用するのは、復圏の双対的構造である余復圏〈comuliticategory〉です。ひとつの入力に対して複数の出力を許す〈1-in n-out〉関数を抽象化した“余復射”から構成される圏類似構造です。余復射のプロファイルとホムセットは、f:A → (B, C, D), M(A, (B, C, D)) のように、出力側が対象のリストになります。

復圏／余復圏の結合は接ぎ木結合〈grafting〉と呼ばれる結合方式で、一例を挙げれば次のようです。

$`\newcommand{\Comma}{ \xymatrix{{}\\{}\\ {,}} }%
\mbox{before}\\
\xymatrix {
{} & {}\ar[d]_{A} & {} \\
{} & *++[o][F]{f} \ar[dl]_{B} \ar[d]_{C} \ar[dr]^{A} & {} \\
{} & {} & {}
}\\
\:\\
\xymatrix {
{}\ar[d]_{B} \\
*++[o][F]{g} \ar[d]_{B}\\
{}
} \Comma\quad
\xymatrix {
{}\ar[d]_{C} \\
*++[o][F]{h} \ar[d]_{D}\\
{}
} \Comma\quad
\xymatrix {
{} & {}\ar[d]_{A} & {} \\
{} & *++[o][F]{f} \ar[dl]_{B} \ar[d]_{C} \ar[dr]^{A} & {} \\
{} & {} & {}
}\\
\:\\
\mbox{after}\\
\xymatrix {
{} & {}\ar[d]_{A} & {} \\
{} & *++[o][F]{f} \ar[dl]_{B} \ar[d]_{C} \ar[drr]^{A} & {} \\
*[.]{}\ar[d]_{B} & *[.]{}\ar[d]_{C} & *[.]{} & *[.]{}\ar[d]^{A}\\
*++[o][F]{g} \ar[d]_{B} & *++[o][F]{h} \ar[d]_{D} & {} & *++[o][F]{f} \ar[dl]_{B} \ar[d]_{C} \ar[dr]^{A} & {} \\
{} & {} & {} & {} & {} \\
}
`$

この例では、結合〈接ぎ木〉前、図の上段では次の4つ（うち2つは同一）の複射があります。

f:A → (B, C, A)
g:B → (B)
h:C → (D)
f:A → (B, C, A)

f と (g, h, f) を結合して f;(g, h, f) = (g, h, f)$`\circ`$f を作っています。結合後（図の下段）の余復射のプロファイルは：

f;(g, h, f):A → (B, D, B, C, A)

半デカルト圏から余復圏へ

任意のモノイド圏Cに対して、Cから規準的〈canonical〉に余復圏を作ることができます。これから構成する余復圏をMとしましょう。余復圏Mの対象集合はモノイド圏Cのそれと同じです； Obj(M) := Obj(C) 。Mのホムセットは次のように作ります*2。

M(A, (B₁, ..., B_n)) := C(A, B₁$`\otimes`$ ...$`\otimes`$B_n)

接ぎ木結合も、Cのモノイド積を使って構成できます。接ぎ木結合の構成を細部まで詰めようとすると意外と面倒ですが、直感的には自然な操作で、ストリング図で分かりやすく表現できます。

モノイド圏Cが半デカルト圏で、対称射 σ_A,B:A$`\otimes`$B → B$`\otimes`$A in C と終射 !_A:A → 1 in C を備えているとします。このとき、余復圏Mの余復射に対して置換〈permutation〉と選出〈selection〉という操作を定義できます。

ψ:{1, ..., n} → {1, ..., n} in Set が全単射〈双射〉のとき、ψを置換といいます。ψが置換のとき、余復射 f:A → (B₁, ..., B_n) in M に対して、f^ψ:A → (B_ψ(1), ..., B_ψ(n)) を定義できます。ψが、iとjの互換〈transposition〉 ψ(i) = j, ψ(j) = i のときは、f と σ_{A_ψ(i),A_ψ(j)}:A_ψ(i)$`\otimes`$A_ψ(j) → A_ψ(j)$`\otimes`$A_ψ(i) in C を組み合わせて f^ψ を作ります。一般の置換ψに対しては、互換に分解して定義できます。f^ψ の構成の詳細は割愛しますが、これも自然な操作だと思います。

f^ψ を、ψによるfの置換〈permutation〉と呼びます。ψも f^ψ もどちらも「置換」と呼ぶので注意してください。f^ψ;φ = (f^ψ)^φ などの等式は成立していて、ホムセット M(A, (B₁, ..., B_n)) にはn次対称群〈置換群〉が作用することになります。

0 ≦ k ≦ n だとして、ψ:{1, ..., k} → {1, ..., n} in Set が単射かつ単調〈増大的〉のとき、k-選出と呼ぶことにします。{1, ..., n} のk-選出は、{1, ..., n} のk元部分集合と1：1に対応します。ψがk-選出のとき、余復射 f:A → (B₁, ..., B_n) in M に対して、f^ψ:A → (B_ψ(1), ..., B_ψ(k)) を定義できます。{1, ..., n} の要素（番号）で、ψで選ばれなかった i∈{1, ..., n} に対しては、!_{B_i}:B_i → 1 in C を使って出力を捨ててしまいます。

f^ψ を、ψによるfの選出〈selection〉と呼びます。ψも f^ψ もどちらも「選出」と呼ぶので注意してください。fの置換と選出に同じ記号を使っていますが、選出と置換を組み合わせた写像 ψ:{1, ..., k} → {1, ..., n} in Set に対しても f^ψ を定義できます。fの選出置換、または置換選出とでも呼べばいいでしょう。

以上により、半デカルト圏Cから構成された余復圏Mでは、余復射に対する置換と選出、それらを組み合わせた操作が可能なことが分かりました。

余復圏上のシンプソン独立構造

半デカルト圏Cから規準的に構成された余復圏M上に、シンプソン独立構造を定義しましょう。

余復圏Mの部分余復圏〈subcomulticategory〉は、Obj(M) の部分集合と、復射の集合 Multimor(M) の部分集合で、もとの接ぎ木結合に関して再び余復圏をなすものです。ここでは、対象と対象のリストはもとの余復圏と変わらない広い部分余復圏〈{wide | broad} subcomulticategory〉だけを考えます。

M上のシンプソン独立構造〈Simpson independence structure〉とは、Mの部分余復圏Lであって、次の性質を持つものです。

f:A → (B₁, ..., B_n) in L で、ψ:{1, ..., n} → {1, ..., n} が置換のとき、f^ψ もLの復射になる。
f:A → (B₁, ..., B_n) in L で、ψ:{1, ..., k} → {1, ..., n} がk-選出のとき、f^ψ もLの復射になる。
f:A → B in C のとき、f:A → (B) in M はLの復射になる。
f:A → (B₁, ..., B_n) in L のとき、実体は同じでプロファイルを変えた f:A → (B₁, ..., B_n-1$`\otimes`$B_n) もLの復射になる。また逆に、f:A → (B₁, ..., B_n-1$`\otimes`$B_n) in L なら f:A → (B₁, ..., B_n) in L となる。

一番目の条件を置換に関する安定性〈stability〉、二番目の条件を選出に関する安定性、三番目の条件はシングルトン条件と呼びます。四番目の条件はシンプソンは挙げてません（モノイド積を考えてないので）が、モノイド積がある状況では当然な要請なので入れておきます -- 再編成〈realignment〉に関する安定性と呼んでおきましょう。すると、M上のシンプソン独立構造とは、置換と選出と再配置に関して安定な、シングルトン条件を満たす部分余復圏となります。

余復圏Mは半デカルト圏Cから作られており、LはMの部分余復圏なので、ちゃんとすべて書くなら、(C, M, L) がシンプソン独立構造です。Mの復射 f がLに入っているとき「独立である」と言い、そうでないときは「独立ではない」ことになります。

確率空間の圏における独立性

確率に関連した状況で、独立性を定義してみます。

Dをマルコフ圏だとして、PS(D) をD内の確率空間の圏だとします。PS(D) の対象と射は次のようです。

PS(D) の対象は、Dの対象Aと、射 α:1 → A in D の組 (A, α)。
PS(D) の射 (A, α) → (B, β) in PS(D) は、Dの射 f:A → B in D で、α;f = β on D(1, B) であるもの。

Dが具体的な確率的圏Stoc（可測空間とマルコフ核の圏）のときは、PS(Stoc) の対象は具体的な確率空間のことであり、PS(Stoc) の射は、確率測度を保存するマルコフ核です。

以下、マルコフ圏Dを固定して、C := PS(D) と置きます。CはDから受け継いだ対象モノイド構造に関して半デカルト圏になります。したがって、前節のシンプソン流の独立性フレームワークが使えます。半デカルト圏Cから作られた余復圏 M := Comulti(C) = Comulti(PS(D)) の適切な部分余復圏Lを指定すれば、シンプソン独立構造が定義できます。

f:A → (B₁, ..., B_n) in M が独立である（Lに入る）ことを次のように定義します。

fの実体であるCの射 f:A → B₁$`\otimes`$...$`\otimes`$B_n in C が、適当な ω₁:A → B₁, ..., ω_n:A → B_n in D を使って f ～_α Δⁿ_A;(ω₁$`\otimes`$...$`\otimes`$ω_n) in D と書ける。

「in C」と「in D」が混じっていることに注意してください。f:A → (B₁, ..., B_n) in M は、実体として f:A → B₁$`\otimes`$...$`\otimes`$B_n in C ですが、さらには f:A → B₁$`\otimes`$...$`\otimes`$B_n in D とも考えられます。アンダーラインは、確率空間の台対象です。M = Comulti(C), C = PS(D), D のあいだを行ったり来たりしながら考えるところがややこしい。

上記定義内の～_α は、確率測度αに関する射のASE〈almost surely equal〉関係です。f ～_α g in D を等式で書くなら：

α;Δ_A;(id_A$`\otimes`$f) = α;Δ_A;g :A → A$`\otimes`$B in D

また、Δⁿ_A は、二分岐の対角射〈コピー射〉Δ_A:A → A$`\otimes`$A in D をn-分岐に拡張した射です。

以上で、余復圏Mの余復射が独立か否かは判断できます。独立な余復射を集めれば余復射の集合Lができます。が、Lが部分余復圏になっていて、シンプソン独立構造の4つの条件〈公理〉を満たすかどうかは自明ではありませんが、比較的容易に確認できます。

記法と用語法

記法や用語法のせいで誤解したり混乱したりはよくあることなので注意しておきます。

復圏／余復圏の復射／余復射のプロファイルの括弧は通常は省略されます。f:A → (B, C, A) は f:A → B, C, A と書き、g:B → (B) は g:B → B です。括弧を省略すると、Dの射とMの余復射が区別できなくなります。区別できない射／復射／余復射は同一視するのが普通ですが、混同はよくありません。いったん区別してから同一視しましょう。

空のリストを使ったプロファイル k:A → () は単に k:A → と書かれることがあります。が、分かりくく混乱のもとなのでやめたほうがいいでしょう。明示的に k:A → () または k:A → ε と書けばいいだけです。わずかな手間を惜しんで分かりにくく書くのはやめたい！

L ⊆ M がシンプソン独立構造のとき、f:A → (B₁, ..., B_n) in L であることを「in L」ではなくて、特別な記号を使って示すのが普通です。その書き方は：

f:A → B₁ ⊥ ... ⊥ B_n

矢印を逆にした場合は次の形です。

f:B₁ ⊥ ... ⊥ B_n ← A

逆矢印の代わりに縦棒を使う記法が一般的です。

f:B₁ ⊥ ... ⊥ B_n ｜ A

A = 1（単位対象かつ終対象）のときは、空白にするか縦棒ごと省略するので：

f:B₁ ⊥ ... ⊥ B_n ｜
f:B₁ ⊥ ... ⊥ B_n

⊥ より目立つ記号を使うと：

$`\newcommand {\indep} {\mathop {\perp \!\!\! \perp} }f:B_1 \indep \cdots \indep B_n \mid A`$

fを省略してしまうことが多いですが、fの省略が冒頭で指摘した「主語・被修飾語がハッキリしない」原因でしょう。「独立である」の主語は余復射なので、余復射fを省略してしまうと当然にワケワカラナクなります。

A = 1 のときは絶対的独立性で、Aが任意のときは相対的独立性または条件付き独立性〈conditional independence〉です。

半グラフォイド条件

独立性の概念の定式化として、グラフォイド〈graphoid〉が知られています。圏論的独立性とグラフォイド（半グラフォイド）との関係に触れておきます（触れるだけ）。

グラフォイドの条件〈公理〉は通常5つ挙げられますが、実際には自明独立性条件〈trivial independence condition〉を入れて6つです。共通部分条件〈intersection condition〉を除いた5つを満たす構造を半グラフォイド〈semigraphoid〉と呼びます。

半グラフォイド条件を圏論的に書き換えると、シンプソンの3つの条件は半グラフォイド条件（のうちの3つ）に対応します。

置換に関する安定性 ←→ 対称〈symmetry〉条件
選出に関する安定性 ←→ 分解〈decomposition〉条件
シングルトン条件 ←→ 自明依存性〈trivial independence〉条件

残る2つのグラフォイド条件を前節の記法で書くと次のようになります。

f:X → A ⊥ B$`\otimes`$Y ならば、g:X$`\otimes`$Y → A ⊥ B となるgが存在する（構成できる）。
f:X → A ⊥ B かつ g:X$`\otimes`$B → A ⊥ C ならば、h:X → A ⊥ B$`\otimes`$C となるgが存在する（構成できる）。

上の一番目を弱合併〈weak union〉条件、二番目を縮約〈contraction〉条件と呼びます。

マルコフ圏に対して定義した独立性が、半グラフォイド条件を満たすことは次の論文の25ページに書いてあります。

Title: Disintegration and Bayesian Inversion via String Diagrams
Authors: Kenta Cho, Bart Jacobs
Submitted: 8 Feb 2019 (v3)
Pages: 39p
URL: https://arxiv.org/abs/1709.00322

以下のフリッツの論文の第12節（p.56から） "Conditional independence and the semigraphoid properties" も条件付き独立性と半グラフォイド条件を扱っています。ただし、フリッツの条件付き独立性の定義は、この記事で提示した定義（長／ジェイコブスの定義）とは違います。

Title: A synthetic approach to Markov kernels, conditional independence and theorems on sufficient statistics
Author: Tobias Fritz
Submitted: 31 May 2020 (v8)
Pages: 98p
URL: https://arxiv.org/abs/1908.07021

独立性には様々な定義があり、それらの相互関係をきちんと調べるのはなかなかに手間です。出発点として、「独立である」の主語を余復圏の余復射であると考えるのは良いように思えます。

*1:「特化した」とはいいながら、その適用範囲は相当に広いです。

*2:圏Cのホムセットは、|C|×|C| → Set になりますが、余復圏Mのホムセットは |M|×List(|M|) → Set となります。