このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

参照用 記事

確率的独立性 再論

確率的独立性〈統計的独立性〉が難しい理由のひとつは、「‥‥は独立である」「独立な‥‥」というときの「‥‥」の部分がハッキリしないことでしょう。述語としての「独立」の主語、形容詞(修飾語)としての「独立」の被修飾語がハッキリしないのです。確率変数が主語・被修飾語として扱われることが多いでしょうが、そもそも「確率変数」が意味不明な多義語です。確率分布、確率空間、シグマ代数などが「独立」の主語・被修飾語になることもあります。ウーム、色々ありすぎ。

確定的独立性の定義と法則を統制するような枠組みはないのでしょうか。シンプソン〈Alex Simpson〉は、確率的独立性に限らず、広い範囲の“独立性”を定義するための抽象的・公理的アプローチを提唱しました(「統計的独立性と線形独立性を共通に語ることは出来るのか?」参照)。一方、フランツ〈Uwe Franz〉は、射影付きモノイド圏に基づき、確率的独立性に特化した独立性概念*1を定義しています(「フランツによる統計的独立性の定義」参照)。

シンプソンの独立性は、汎用的でスッキリしてますが、確率的独立性のためには一般的・抽象的過ぎる気がします。ここでは、シンプソンのアイディアに沿いながら、フランツの定義も取り入れて確率的独立性を定義してみます。マルコフ圏との親和性を高めるために、射影付きモノイド圏の代わりに半デカルト圏を使います。

この記事で述べる定式化では、「独立」の主語・被修飾語は余復射〈comultimorphism〉になります。

内容:

デカルト

C = (C, \otimes, 1, σ) を対称モノイド圏とします。記号の乱用〈abuse of notation〉をしているし、モノイド圏の構造射〈律子〉α, λ, ρ は省略しています。σは対称射〈symmetry | swap〉です。

対称モノイド圏Cデカルト〈semicartesian category〉であるとは、単位対象 1 が終対象になっていることです。1 が終対象なので、対象 A∈|C| に対して 1 への唯一の射が存在します。それを !A:A → 1 と書きます。

マルコフ圏(「マルコフ圏 A First Look -- 圏論的確率論の最良の定式化」参照)は、定義より半デカルト圏です -- マルコフ圏の定義の一部として半デカルト性を要請しています。マルコフ圏から作られた確率空間の圏(射は確率保存射)は、マルコフ圏にはなりませんが、半デカルト圏にはなります。

Cが半デカルト圏のとき、π1A,B := (idA\otimes!B);ρA,B : A\otimesB → A と定義して、π2A,B も同様に定義すると、これらは、フランツの意味での射影になります。つまり、半デカルト圏は射影付き圏なので、フランツの議論は半デカルト圏に対して適用できます。

復圏と余復圏

復圏〈multicategory〉とは、複数の入力を許すが出力はひとつ〈n-in 1-out〉な関数を抽象化した“復射”から構成される圏類似構造です。圏と同様に、復圏Mも対象〈基本対象〉の集合 Obj(M) を持ちます。復射のプロファイルは、入力側が対象のリストになります。例えば、f:(A, B, C) → D in M 。同じプロファイルを持つ復射達はホムセット M(​(A, B, C), D) を構成します。

今回使用するのは、復圏の双対的構造である余復圏〈comuliticategory〉です。ひとつの入力に対して複数の出力を許す〈1-in n-out〉関数を抽象化した“余復射”から構成される圏類似構造です。余復射のプロファイルとホムセットは、f:A → (B, C, D), M(A, (B, C, D)) のように、出力側が対象のリストになります。

復圏/余復圏の結合は接ぎ木結合〈grafting〉と呼ばれる結合方式で、一例を挙げれば次のようです。

\newcommand{\Comma}{ \xymatrix{{}\\{}\\ {,}} }%
\mbox{before}\\
\xymatrix {
 {} & {}\ar[d]_{A} & {} \\
 {} & *++[o][F]{f} \ar[dl]_{B} \ar[d]_{C} \ar[dr]^{A} & {} \\
 {} & {} & {}
}\\
\:\\
\xymatrix {
 {}\ar[d]_{B} \\
 *++[o][F]{g} \ar[d]_{B}\\
 {}
} \Comma\quad
\xymatrix {
 {}\ar[d]_{C} \\
 *++[o][F]{h} \ar[d]_{D}\\
 {}
} \Comma\quad
\xymatrix {
 {} & {}\ar[d]_{A} & {} \\
 {} & *++[o][F]{f} \ar[dl]_{B} \ar[d]_{C} \ar[dr]^{A} & {} \\
 {} & {} & {}
}\\
\:\\
\mbox{after}\\
\xymatrix {
 {} & {}\ar[d]_{A} & {} \\
 {} & *++[o][F]{f} \ar[dl]_{B} \ar[d]_{C} \ar[drr]^{A} & {} \\
 *[.]{}\ar[d]_{B}  & *[.]{}\ar[d]_{C} & *[.]{} & *[.]{}\ar[d]^{A}\\
  *++[o][F]{g} \ar[d]_{B} &  *++[o][F]{h} \ar[d]_{D} & {} & *++[o][F]{f} \ar[dl]_{B} \ar[d]_{C} \ar[dr]^{A} & {} \\
 {} & {} & {} & {} & {} \\
}

この例では、結合〈接ぎ木〉前、図の上段では次の4つ(うち2つは同一)の複射があります。

  1. f:A → (B, C, A)
  2. g:B → (B)
  3. h:C → (D)
  4. f:A → (B, C, A)

f と (g, h, f) を結合して f;(g, h, f) = (g, h, f)\circf を作っています。結合後(図の下段)の余復射のプロファイルは:

  • f;(g, h, f):A → (B, D, B, C, A)

デカルト圏から余復圏へ

任意のモノイド圏Cに対して、Cから規準的〈canonical〉に余復圏を作ることができます。これから構成する余復圏をMとしましょう。余復圏Mの対象集合はモノイド圏Cのそれと同じです; Obj(M) := Obj(C) 。Mのホムセットは次のように作ります*2

  • M(A, (B1, ..., Bn)) := C(A, B1\otimes ...\otimesBn)

接ぎ木結合も、Cのモノイド積を使って構成できます。接ぎ木結合の構成を細部まで詰めようとすると意外と面倒ですが、直感的には自然な操作で、ストリング図で分かりやすく表現できます。

モノイド圏Cが半デカルト圏で、対称射 σA,B:A\otimesB → B\otimesA in C と終射 !A:A → 1 in C を備えているとします。このとき、余復圏Mの余復射に対して置換〈permutation〉と選出〈selection〉という操作を定義できます。

ψ:{1, ..., n} → {1, ..., n} in Set全単射〈双射〉のとき、ψを置換といいます。ψが置換のとき、余復射 f:A → (B1, ..., Bn) in M に対して、fψ:A → (Bψ(1), ..., Bψ(n)) を定義できます。ψが、iとjの互換〈transposition〉 ψ(i) = j, ψ(j) = i のときは、f と σAψ(i),Aψ(j):Aψ(i)\otimesAψ(j) → Aψ(j)\otimesAψ(i) in C を組み合わせて fψ を作ります。一般の置換ψに対しては、互換に分解して定義できます。fψ の構成の詳細は割愛しますが、これも自然な操作だと思います。

fψ を、ψによるfの置換〈permutation〉と呼びます。ψも fψ もどちらも「置換」と呼ぶので注意してください。fψ;φ = (fψ)φ などの等式は成立していて、ホムセット M(A, (B1, ..., Bn)) にはn次対称群〈置換群〉が作用することになります。

0 ≦ k ≦ n だとして、ψ:{1, ..., k} → {1, ..., n} in Set単射かつ単調〈増大的〉のとき、k-選出と呼ぶことにします。{1, ..., n} のk-選出は、{1, ..., n} のk元部分集合と1:1に対応します。ψがk-選出のとき、余復射 f:A → (B1, ..., Bn) in M に対して、fψ:A → (Bψ(1), ..., Bψ(k)) を定義できます。{1, ..., n} の要素(番号)で、ψで選ばれなかった i∈{1, ..., n} に対しては、!Bi:Bi1 in C を使って出力を捨ててしまいます。

fψ を、ψによるfの選出〈selection〉と呼びます。ψも fψ もどちらも「選出」と呼ぶので注意してください。fの置換と選出に同じ記号を使っていますが、選出と置換を組み合わせた写像 ψ:{1, ..., k} → {1, ..., n} in Set に対しても fψ を定義できます。fの選出置換、または置換選出とでも呼べばいいでしょう。

以上により、半デカルトCから構成された余復圏Mでは、余復射に対する置換と選出、それらを組み合わせた操作が可能なことが分かりました。

余復圏上のシンプソン独立構造

デカルトCから規準的に構成された余復圏M上に、シンプソン独立構造を定義しましょう。

余復圏M部分余復圏〈subcomulticategory〉は、Obj(M) の部分集合と、復射の集合 Multimor(M) の部分集合で、もとの接ぎ木結合に関して再び余復圏をなすものです。ここでは、対象と対象のリストはもとの余復圏と変わらない広い部分余復圏〈{wide | broad} subcomulticategory〉だけを考えます。

M上のシンプソン独立構造〈Simpson independence structure〉とは、Mの部分余復圏Lであって、次の性質を持つものです。

  1. f:A → (B1, ..., Bn) in L で、ψ:{1, ..., n} → {1, ..., n} が置換のとき、fψLの復射になる。
  2. f:A → (B1, ..., Bn) in L で、ψ:{1, ..., k} → {1, ..., n} がk-選出のとき、fψLの復射になる。
  3. f:A → B in C のとき、f:A → (B) in MLの復射になる。
  4. f:A → (B1, ..., Bn) in L のとき、実体は同じでプロファイルを変えた f:A → (B1, ..., Bn-1\otimesBn) もLの復射になる。また逆に、f:A → (B1, ..., Bn-1\otimesBn) in L なら f:A → (B1, ..., Bn) in L となる。

一番目の条件を置換に関する安定性〈stability〉、二番目の条件を選出に関する安定性、三番目の条件はシングルトン条件と呼びます。四番目の条件はシンプソンは挙げてません(モノイド積を考えてないので)が、モノイド積がある状況では当然な要請なので入れておきます -- 再編成〈realignment〉に関する安定性と呼んでおきましょう。すると、M上のシンプソン独立構造とは、置換と選出と再配置に関して安定な、シングルトン条件を満たす部分余復圏となります。

余復圏Mは半デカルトCから作られており、LMの部分余復圏なので、ちゃんとすべて書くなら、(C, M, L) がシンプソン独立構造です。Mの復射 f がLに入っているとき「独立である」と言い、そうでないときは「独立ではない」ことになります。

確率空間の圏における独立性

確率に関連した状況で、独立性を定義してみます。

Dをマルコフ圏だとして、PS(D) をD内の確率空間の圏だとします。PS(D) の対象と射は次のようです。

  • PS(D) の対象は、D対象Aと、射 α:1 → A in D の組 (A, α)。
  • PS(D) の射 (A, α) → (B, β) in PS(D) は、Dの射 f:A → B in D で、α;f = β on D(1, B) であるもの。

Dが具体的な確率的圏Stoc(可測空間とマルコフ核の圏)のときは、PS(Stoc) の対象は具体的な確率空間のことであり、PS(Stoc) の射は、確率測度を保存するマルコフ核です。

以下、マルコフ圏Dを固定して、C := PS(D) と置きます。CDから受け継いだ対象モノイド構造に関して半デカルト圏になります。したがって、前節のシンプソン流の独立性フレームワークが使えます。半デカルトCから作られた余復圏 M := Comulti(C) = Comulti(PS(D)) の適切な部分余復圏Lを指定すれば、シンプソン独立構造が定義できます。

f:A → (B1, ..., Bn) in M が独立である(Lに入る)ことを次のように定義します。

  • fの実体であるCの射 f:A → B1\otimes...\otimesBn in C が、適当な ω1:A → B1, ..., ωn:A → Bn in D を使って f ~α ΔnA;(ω1\otimes...\otimesωn) in D と書ける。

「in C」と「in D」が混じっていることに注意してください。f:A → (B1, ..., Bn) in M は、実体として f:A → B1\otimes...\otimesBn in C ですが、さらには f:AB1\otimes...\otimesBn in D とも考えられます。アンダーラインは、確率空間の台対象です。M = Comulti(C), C = PS(D), D のあいだを行ったり来たりしながら考えるところがややこしい

上記定義内の ~α は、確率測度αに関する射のASE〈almost surely equal〉関係です。f ~α g in D を等式で書くなら:

  • α;ΔA;(idA\otimesf) = α;ΔA;g :A → A\otimesB in D

また、ΔnA は、二分岐の対角射〈コピー射〉ΔA:A → A\otimesA in D をn-分岐に拡張した射です。

以上で、余復圏Mの余復射が独立か否かは判断できます。独立な余復射を集めれば余復射の集合Lができます。が、Lが部分余復圏になっていて、シンプソン独立構造の4つの条件〈公理〉を満たすかどうかは自明ではありませんが、比較的容易に確認できます。

記法と用語法

記法や用語法のせいで誤解したり混乱したりはよくあることなので注意しておきます。

復圏/余復圏の復射/余復射のプロファイルの括弧は通常は省略されます。f:A → (B, C, A) は f:A → B, C, A と書き、g:B → (B) は g:B → B です。括弧を省略すると、Dの射とMの余復射が区別できなくなります。区別できない射/復射/余復射は同一視するのが普通ですが、混同はよくありません。いったん区別してから同一視しましょう。

空のリストを使ったプロファイル k:A → () は 単に k:A → と書かれることがあります。が、分かりくく混乱のもとなのでやめたほうがいいでしょう。明示的に k:A → () または k:A → ε と書けばいいだけです。わずかな手間を惜しんで分かりにくく書くのはやめたい!

LM がシンプソン独立構造のとき、f:A → (B1, ..., Bn) in L であることを「in L」ではなくて、特別な記号を使って示すのが普通です。その書き方は:

  • f:A → B1 ⊥ ... ⊥ Bn

矢印を逆にした場合は次の形です。

  • f:B1 ⊥ ... ⊥ Bn ← A

逆矢印の代わりに縦棒を使う記法が一般的です。

  • f:B1 ⊥ ... ⊥ Bn | A

A = 1(単位対象かつ終対象)のときは、空白にするか縦棒ごと省略するので:

  • f:B1 ⊥ ... ⊥ Bn
  • f:B1 ⊥ ... ⊥ Bn

⊥ より目立つ記号を使うと:

  • \newcommand {\indep} {\mathop {\perp \!\!\! \perp} }f:B_1 \indep \cdots \indep B_n \mid A

fを省略してしまうことが多いですが、fの省略が冒頭で指摘した「主語・被修飾語がハッキリしない」原因でしょう。「独立である」の主語は余復射なので、余復射fを省略してしまうと当然にワケワカラナクなります。

A = 1 のときは絶対的独立性で、Aが任意のときは相対的独立性または条件付き独立性〈conditional independence〉です。

半グラフォイド条件

独立性の概念の定式化として、グラフォイド〈graphoid〉が知られています。圏論的独立性とグラフォイド(半グラフォイド)との関係に触れておきます(触れるだけ)。

グラフォイドの条件〈公理〉は通常5つ挙げられますが、実際には自明独立性条件〈trivial independence condition〉を入れて6つです。共通部分条件〈intersection condition〉を除いた5つを満たす構造を半グラフォイド〈semigraphoid〉と呼びます。

半グラフォイド条件を圏論的に書き換えると、シンプソンの3つの条件は半グラフォイド条件(のうちの3つ)に対応します。

  1. 置換に関する安定性 ←→ 対称〈symmetry〉条件
  2. 選出に関する安定性 ←→ 分解〈decomposition〉条件
  3. シングルトン条件 ←→ 自明依存性〈trivial independence〉条件

残る2つのグラフォイド条件を前節の記法で書くと次のようになります。

  1. f:X → A ⊥ B\otimesY ならば、g:X\otimesY → A ⊥ B となるgが存在する(構成できる)。
  2. f:X → A ⊥ B かつ g:X\otimesB → A ⊥ C ならば、h:X → A ⊥ B\otimesC となるgが存在する(構成できる)。

上の一番目を弱合併〈weak union〉条件、二番目を縮約〈contraction〉条件と呼びます。

マルコフ圏に対して定義した独立性が、半グラフォイド条件を満たすことは次の論文の25ページに書いてあります。

  • Title: Disintegration and Bayesian Inversion via String Diagrams
  • Authors: Kenta Cho, Bart Jacobs
  • Submitted: 8 Feb 2019 (v3)
  • Pages: 39p
  • URL: https://arxiv.org/abs/1709.00322

以下のフリッツの論文の第12節(p.56から) "Conditional independence and the semigraphoid properties" も条件付き独立性と半グラフォイド条件を扱っています。ただし、フリッツの条件付き独立性の定義は、この記事で提示した定義(長/ジェイコブスの定義)とは違います。

  • Title: A synthetic approach to Markov kernels, conditional independence and theorems on sufficient statistics
  • Author: Tobias Fritz
  • Submitted: 31 May 2020 (v8)
  • Pages: 98p
  • URL: https://arxiv.org/abs/1908.07021

独立性には様々な定義があり、それらの相互関係をきちんと調べるのはなかなかに手間です。出発点として、「独立である」の主語を余復圏の余復射であると考えるのは良いように思えます。

*1:「特化した」とはいいながら、その適用範囲は相当に広いです。

*2:Cのホムセットは、|C|×|C| → Set になりますが、余復圏Mのホムセットは |M|×List(|M|) → Set となります。