このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

参照用 記事

因果セオリー論の語法・記法・図法(修正案付き)

因果セオリー論〈theory of causal theories〉という奇妙な言葉については直前の記事「フォングの“因果セオリー”の理論」を見てください。

直前の記事において、フォングのストリング図は「視認性が悪く、おすすめできませんね。」と否定的な言い方をしたのですが、あの図法で描くにはそれなりの理由があり、フォングのアイディアが潜んでいます。そのアイディアとメリットを説明せずに「視認性が悪い」で片付けるのはいかがなものか? と反省したので追加説明をします。

とはいえ、語法・記法・図法で、やっぱり直したほうがいいだろうと思う点はあるので、それは指摘します。

内容:

普通の言葉にしよう

まず最初に、フォングの独特の用語を、比較的に一般的(だと思われる)用語で代替しましょう。

フォングの用語 代替の用語
因果セオリー 厳密マルコフ圏
因果モデル グラフィカルモデル
因果構造 グラフィカルスキーマ
確率変数 頂点
因果関係
因果機序*1 固有生成射
コモノイド射 コモノイド射(同じ)

フォングの因果セオリー論、スピヴァックの関手データベース論、ローヴェアの代数セオリー論は、同じ手法を異なる分野に適用している例です。分野ごとに異なった固有の語法・記法・図法を採用したほうがいいこともあるでしょうが、共通化してもいいところは出来るだけ共通化する方針にします。

ローヴェアの用語「セオリー」を尊重したい気持ちは分かるんですが(ローヴェアは偉大なパイオニアですからね)、「セオリー」はやめよーよ。因果セオリーは、マルコフ圏にモノイド圏としての厳密性〈strictness〉を追加した構造なので、そのまんま厳密マルコフ圏〈strict Markov category〉とします。

因果モデルの代替語は、けっこう普通に使われているグラフィカルモデル〈graphical model〉。ベイズ・ネットワーク〈Bayesian Networks〉はグラフィカルモデルの同義語です(ニュアンスは知らん)。因果モデルは、通常のグラフィカルモデルよりずっと一般的だと言えますが、それを強調したいなら一般化グラフィカルモデル〈generalized graphical model〉とか形容詞付ければいいでしょう。

グラフィカルモデルの、有向グラフ(単なる図形)だけを抜き出しのがグラフィカルスキーマ〈graphical schema〉です。「スキーマ」はデータベース用語ですが、スピヴァックはデータベース用語をそのまま流用してます(分野がデータベースなので)。データベースのスキーマは、実際のデータを与える前の構造指定ですが、グラフィカルモデルのスキーマも確率的情報を与える前の構造指定(の絵)です。

因果構造〈グラフィカルスキーマ〉は、因果セオリー〈厳密マルコフ圏〉の生成系〈generator | generating system〉となりますが、もとの有向グラフの辺から作られる射が因果機序(固有生成射〈proper generating morphism〉で代替)で、コモノイド構造を与えるための射がコモノイド射〈comonoid morphism〉(対角射と終射)です。

グラフィカルスキーマ

さてここからは、フォングがなぜ次のような独特なストリング図を描いたかを説明しましょう。

上のストリング図のもとになっているのは、次のようなグラフィカルスキーマ〈因果構造〉です。ストリング図とグラフィカルスキーマは、まったく同じことを異なる図法で表現しています。

グラフィカルスキーマでは、矢印〈有向辺〉の根本を〈parent〉、先頭を〈child〉と呼びます。そう呼ぶのは習慣、必然性を持たない根拠なき選択です。

ひとつの頂点に、複数の親があるときは、それを並べますが、並べる順序を決めておきます。上の図で (1), (2) という番号は親の順番です。

  1. Cの親は A, B (B, Aではない)である。
  2. Eの親は D, C (C, Dではない)である。

数の子にも順番が必要ですが、図には書き込んでありません。

  1. Cの子は、D, E (E, Dではない)である。
  2. Dの子は、D(コピー), E (E, Dではない)である。

頂点に入る/頂点から出る辺に順番が付いているグラフをファットグラフ〈fat graph〉(またはリボングラフ〈ribbon graph〉)と呼びます。グラフィカルスキーマはファットグラフである必要があります。

フォングの定義では、グラフィカルスキーマ〈因果構造〉がファットグラフであることを要求していません。グラフィカルモデル〈ベイズ・ネットワーク〉のグラフでは、辺の順番(ファット構造)を考えることがないからでしょう。しかし、辺の順番を与えるのはたいした手間じゃないし、後々の扱いが分かりやすくなります。

文字通りグラフィカル〈視覚的〉に与えられたグラフィカルスキーマを、テキストで書き下します。とりあえず、頂点を集合、辺を関数〈写像〉だと思って、関数の名前とプロファイル(域と余域)を並べていきます。関数の名前とプロファイルを並べたものを指標〈signature〉と呼ぶので、グラフィカルスキーマを指標として書き下すことになります。

signature Sample {
 operation e:I→A
 operation f:A,B→C
 operation g:C→D
 operation h:D,C→E
 operation i:D→D
}

幾つかの注意事項:

  1. 図の小さい黒丸の頂点は I とする。Iからの関数は図では点線矢印。
  2. 関数(operation と書いてある)に、図にはない名前を付ける。ここでは e, f, g, h, i 。
  3. 複数の親からひとつの子に向かう矢印達は、まとめてひとつの関数〈operation〉とする。f:A,B→C と h:D,C→E はその例
  4. 図の太い矢印は恒等関数を表す。i:D→D は idD:D→D のこと。

グラフィカルスキーマのままでは圏論的解釈がしにくいので、ストリング図に描き変えていきます。絵図を変形するスキル(習えば小学生でも出来ること*2)が必要になります(「双対や随伴に強くなるためのトレーニング」参照)。

ストリング図への描き換え

圏論的確率論の多数派は「下から上」なので、まず図の上下をひっくり返します。

次にポアンカレ双対*3をとります; これは、辺を頂点〈ノード〉に、頂点を辺〈ワイヤー〉に置き換えることです。実際にその作業をしているときのスキャン画像は次のようです。

グラフィカルスキーマでは分かりにくかった枝分かれがハッキリしました。i は恒等 idD を意味するので描く必要はありません。ノードのアイコンを三角や四角にするのは好みの問題/約束の問題です。

でき上がったストリング図は、トポロジカルに(繋がり具合として)は、フォングのストリング図と同じことは分かるでしょう。しかし、フォングは“謎のラベリング”をしています。これは何なのでしょう?

フォングのラベリング

もう一度、グラフィカルスキーマに対応する指標を見てみます。

signature Sample {
 operation e:I→A
 operation f:A,B→C
 operation g:C→D
 operation h:D,C→E
 operation i:D→D
}

このなかで、i は idD と書けばいいし、ストリング図ではどうせ省略するので、まーどうでもいいです。残りのオペレーション(関数みたいなもの、実は圏の射)には名前を与えています。しかし、有向グラフが単純な場合、両端を決めればオペレーションが決まってしまうので、あえて名前を付ける必要はありません

オペレーションの名前の代わりに、両端を [子|親の並び] の形で書きます。この記法を使って指標を書き換えると:

signature Sample {
 operation [A|I]:I→A
 operation [C|A,B]:A,B→C
 operation [D|C]:C→D
 operation [E|D,C]:D,C→E
 operation [D|D]:D→D
}

ノードへのラベルをこの書き方にします。フォングはさらに、親の並びのカンマも省略しています、[C|A,B] = [C|AB] のように。また、[A|I] = [A|] = [A] という略記も使います。ノードに入るワイヤー/出るワイヤーの情報もラベルに含まれるので、ワイヤーへのラベルが不要になります。フォングのストリング図を再掲:

条件付き確率の記法に合わせたのだ

これでもまだ、フォングのラベリングの動機が分かりません。実は、フォングのラベリングは、同時確率分布、周辺確率分布、条件付き確率などの記法に合わせているのです。

伝統的な確率論では、同時確率、周辺確率、条件付き確率などにすべて同じ文字(例えば'P')を割り当てます。初学者にはとても分かりにくく難儀しますが、便利なのも確かです。例えば、P(B) = P(B|A)P(A) とか。フォングのラベリングは、この等式を、関手Pに関する等式 P([B]) = P([B|A])\circP([A]) と解釈する道具なのです。

グラフィカルスキーマから作られた厳密マルコフ圏〈因果セオリー〉の射は、スキーマに現れた(id以外の)射 [A|I] = [A|] = [A], [C|A,B], [D|C], [E|D,C] と、ΔX(Xの対角射、枝分かれ)と !X(Xの終射、破棄)を組み合わせて作れます。それらの射に、確率的な概念(同時確率分布、周辺確率分布、条件付き確率など)を対応させる関手がグラフィカルモデル〈因果モデル〉で、それを'P'などの1文字で表すわけです。

これは見事なトリックだと思います。が、僕は習慣的記法に合わせる意義を感じません。言い換えれば、習慣的記法に価値があるとは思えないのです。なので、フォングのラベリングは見にくいだけ、と思ってしまいます(ゴメンね)。

私見はさておき、フォングの独特なストリング図には、ちゃんとした理由と巧みなアイディアがあったのだ、ということです。

オマケ: Graphvizのdotソースコード

この記事内のグラフは、「データをURLに保存する: GraphvizOnlineの方法」で紹介したGraphvizOnlineで描いています。

digraph G {
    I [shape=point]
    A [label="(1) A"]
    B [label="(2) B"]
    C [label="(2) C"]
    D [label="(1) D"]
    D2 [label="D"]
    E
    I -> A [style=dotted]
    A -> C
    B -> C
    C -> D
    D -> E
    C -> E
    D -> D2 [style=bold]
}
digraph G {
    graph[rankdir=BT]
    I [shape=point]
    A [label="(1) A"]
    B [label="(2) B"]
    C [label="(2) C"]
    D [label="(1) D"]
    D2 [label="D"]
    E
    I -> A [style=dotted]
    A -> C
    B -> C
    C -> D
    D -> E
    C -> E
    D -> D2 [style=bold]
}

ポアンカレ双対をとった後はこんな(↓)かな。


digraph G {
    graph[rankdir=BT]
    I_A [label="[A|]"]
    AB_C [label="[C|AB]"]
    C_D [label="[D|C]"]
    DC_E [label="[E|DC]"]
    B[shape=none, label=""]
    D[shape=none, label=""]
    E[shape=none, label=""]
    I_A -> AB_C [label="A"]
    B -> AB_C [label="B"]
    AB_C -> C_D [label="C"]
    C_D -> DC_E [label="D"]
    AB_C -> DC_E [label="C"]
    DC_E -> E [label=E]
    C_D -> D[label=D]
}

*1:causal mechanism

*2:僕〈檜山〉は、子供の頃から(つまり先天的に)絵図の認識や変形が不得意で、苦労しました。そのため、絵図スキルの重要性を過度に強調しているかも知れません。

*3:ホモロジーの意味のポアンカレ双対そのものではありません。ペースティング図とストリング/サーフェイス図の相互変換のことです。

フォングの“因果セオリー”の理論

次の論文は、2012年に書かれたフォング〈Brendan Fong〉の修士論文です*1

タイトルが「因果の理論」だし、ベイジアンという形容詞も出てくるので、統計的因果推論の話だと思うでしょうが、そうじゃないです。フォングの志としては、統計的因果推論方面への応用を目指しているのかも知れませんが、この論文の内容がそっち方面だと思うと理解に苦しむことになります。

その他にも、誤解を生みそうな表現(悪意のないレッドヘリング)が含まれているので、この記事で注意をしておきます。たまたま最近、マルコフ圏を知ったので、マルコフ圏からの観点を織り交ぜます。

内容:

セオリーと因果

フォング論文は次の5章から構成されます。

  1. モノイド圏に関する準備〈Preliminaries on Monoidal Categories〉
  2. 圏論的確率論〈Categorical Probability Theory〉
  3. ベイズ・ネットワーク〈Bayesian Networks〉
  4. 因果セオリー〈Causal Theories〉
  5. 確率因果モデルの構造〈The Structure of Stochastic Causal Models〉

1章、2章で、圏論的確率論をザッと説明しています。2020年の今ならマルコフ圏ベースの定式化で語りたい内容です。3章は、章タイトルであるベイズ・ネットワークの話もしてますが、ごく簡略で、どっちかというと条件付き確率と独立性の説明です。

4章と5章がフォングのオリジナルな部分です。4章のタイトルを「因果セオリー」とカタカナの「セオリー」にしたのは理由があります。地の文で使う国語辞書的意味の「理論」とはまったく違う意味だからです(Theoriesと複数形なことにも注意)。

“セオリー〈theory〉”の普通ではない使い方は、ローヴェア〈William Lawvere〉に由来します。ローヴェアは鋭い洞察力と豊富なアイディアを持った圏論の大家ですが、人を悩ます奇妙なネーミングをします。その例を挙げれば:

ローヴェアの代数理論(現在は"Lawvere theory"と呼ばれることが多い)は、代数学の理論という意味ではありません。とある条件を満たす圏のことを代数理論と呼ぶのです。僕は、少しでも混乱を避けるために代数セオリー(またはローヴェア・セオリー)とカタカナの「セオリー」を使います。

フォングの因果セオリーも、とある条件を満たす圏のことです。そのような圏はたくさんあるので、通常は複数形 theories を使います。群に関する理論を群論〈theory of groups | group theory〉と呼ぶのと同じ言葉づかいをするなら、フォングが研究した分野は因果セオリー論〈theory of causal theories | causal theory theory〉です。

「因果」という言葉も、必ずしも「原因があって結果が起きる」ことを意味してません。AとBのあいだに何らかの関係性があるとき、それに向きをつけたもの(例えば、B→A の向き)を因果関係〈causal relationship〉と呼んでいるだけです。フォングの意味の因果関係が、現実世界の因果関係をモデル化している保証はありません。国語辞書的な「因果」の意味は忘れて、単なるテクニカルタームとして扱いましょう。

フォングは、強い印象を喚起する言葉をテクニカルタームに採用するのが好きみたいです*3が、国語辞書的意味が強すぎると言霊問題を引き起こします。テクニカルタームの定義は書いてあるので、ドライに(連想を働かせずに)形式的定義だけで了解しましょう。

因果セオリーと呼ばれる圏

我々は、圏とその上の付加構造を分類して、デカルト圏、モノイド圏、コンパクト閉圏のような名前を付けています。因果セオリーも、圏のタイプに付けた名前です。マルコフ圏の概念を使えば、因果セオリーは簡潔に記述できます(後述)。

まず、因果構造を定義しておきます。因果構造〈causal structure〉とは、サイクルを持たない有向グラフで、次の条件を満たすものです。

  • 2つの頂点を結ぶ有向辺は高々1本である。

有向グラフの頂点を確率変数〈random variable〉(あるいは単に変数〈variable〉)と呼びます。確率変数とは頂点のことです。それ以上の意味を勝手に想定しないでください。あなたが既に知っている確率変数のことは、ここでは忘れてください。有向グラフの頂点が確率変数です。

有向グラフの辺を因果関係〈causal relationships〉と呼びます。繰り返します; 有向グラフの辺が因果関係です。テクニカルタームとして、今はそう呼ぶ、それだけ。

フォングの定義では、圏の種別としての因果セオリーと、圏を作り出す手段としての因果セオリーがイマイチ不明瞭なので、ここではそれらを区別しましょう。圏の種別としての因果セオリーは、小さな厳密対称厳密マルコフ圏〈small strictly-symmetric strict Markov category〉です*4。と言っても、あまりにもケンロン・ケンロンしていて意味不明でしょうが、ともかくも圏論内部で定義できる圏論的概念なのです。この時点では、確率や統計とは(形式上は)何の関係もありません。

因果構造(有向グラフのことでした)があると、因果構造から因果セオリー(圏のことでした)を作ることができます。因果構造Gを含む最小の因果セオリーを \mathscr{C}_G としましょう*5 G \mapsto \mathscr{C}_G という対応は、因果構造の圏から因果セオリーの圏への関手になります*6。フォングは、関手 \mathscr{C} のことも因果セオリーと呼んでますが、これは因果セオリー生成関手〈causal theory generating functor〉とか呼んだほうがいいでしょう。

因果モデルと呼ばれる関手

Gを因果構造とすると、 \mathscr{C}_G は因果セオリーになります。因果セオリーの理論が扱う対象物である因果セオリーは、生成系として因果構造を持つような因果セオリーです(それが理由で、因果セオリー生成関手と因果セオリーをあまり区別しないのでしょう)。

Dがマルコフ圏であるとき、因果セオリー  \mathscr{C}_G からDへのマルコフ圏構造を保つタイト・モノイド関手(いわばマルコフ関手)を因果モデル〈causal model〉と呼びます(モノイド関手については「図式思考の例として、ラックス・モノイド関手について考えてみる」参照)。こういう定式化も、ローヴェアの代数セオリーの理論を踏襲しています。ローヴェア流なんです。スピヴァックのデータベース理論もローヴェア流です。結果的に、スピヴァックとフォングの理論構成はとても似ています。そして、スピヴァックとフォングは、MITのオンラインコース"Applied Category Theory"を一緒に担当しています。

集合圏Setはマルコフ圏なので、因果モデル \mathscr{C}_G \to {\bf Set} を考えることができます。因果モデルにより、確率変数(有向グラフの頂点)に集合が割り当てられ、因果関係(有向グラフの辺)の束に写像が割り当てられます。

因果セオリーや因果モデルの目的からすると、集合圏をターゲット圏にしてもあまり面白くありません。確率的な現象を記述するための圏である“ジリィモナドのクライスリ圏”をターゲット圏にするときが本領発揮です。フォングが採用している確率的なターゲット圏はCGStoc(とそれから派生した圏)です。CGStocは扱いやすい可測空間(countably generated measurable space)を対象とした“ジリィモナドのクライスリ圏”です。奇しくも、ジリィモナドの発案者もローヴェアです(「分布から拡散へ: ミシェル・ジリィを巡って」参照)。

ストリング図の描き方

最後に、フォングのストリング図の描き方で気になったところがあるので注意しておきます。例えば、次の左はフォングのストリング図です。下から上の向きで読みます(「双対や随伴に強くなるためのトレーニング」参照)。右は僕が手描きした絵で、同じ内容を表します。

フォングの絵は、ワイヤーに関する情報(対象の名前)をノードに書き込んでいます。例えば、下にある四角形は A\otimesB→C という射を表しますが、射のプロファイル(域と余域)を C|AB というテキストにして押し込めています。その代わりワイヤーにはラベルを付けません。

[追記]フォングがこのような描画法を使うには理由があります。なので、視認性だけで一概に判断するのはよくないですね。このことについては:

[/追記]

テキスト記法に合わせるために、このような方式で描いているのですが、視認性が悪く、おすすめできませんね。絵は普通に描いて、絵とテキストの翻訳規則を明示すればいいのではないかと思います。

おわりに

フォングの論文は、用語法・記法・描画法が変わっていて、読みやすいとは言えません。曰く有りげな言葉を使っていますが、やっていることは圏論的な議論なので、言霊に惑わされないでドライに読めば、内容に変なところはありません。

フォングの言葉づかいをそのまま使うことは、混乱と誤解のリスクが高すぎて出来ないでしょうし、今ならマルコフ圏を使って整理したい感じもします。が、ベイズ・ネットワーク〈グラフィカル・モデル〉に、シッカリとした圏論的意味論を与えた点は評価できます。

*1:この記事を書いた理由は、この論文を読む人がいそうなので、読むときの注意を述べるためです。

*2:http://www.cs.ox.ac.uk/bob.coecke/Brendan_Fong.pdf も同じです。

*3:[追記]この憶測は間違いだと思います。「フォングは何故「確率変数」と呼んだのか」参照。[/追記]

*4:厳密対称性の仮定は要らない、むしろ邪魔な気がします。

*5:フォングの論文では、\mathscr{C}_G ではなくて \mathcal{C}_G

*6:僕は、グラフのような図形から圏を生成するオペレータを、右肩ダイヤモンドで表します。\mathscr{C}_G =  G^\diamond です。

経験分布って、なんだそれ?

一週間ほど前に、「経験分布」という言葉を聞いたのですが、これがよく分からない。経験分布は標本に対して定義されるらしいのですが、「標本」と「分布」といえば、“意味不明な用語の四天王”のなかの二つじゃないですか。こりゃ意味不明になるわな。

 a_1, \cdots, a_n がn個の標本のとき、その経験分布〈empirical distribution〉は、ディラックデルタ関数を用いて、

{\displaystyle \frac{1}{n}\sum_{i = 1}^n  \delta(x - a_i) }

と定義できる -- -- -- って、サッパリ定義されてねーよ。

まず、X = (X, ΣX) を可測空間とします。ここで既に記号の乱用をしてますが、文字'X'は可測空間とその台集合〈underlying set〉の意味にオーバーロードします。X上の確率測度の全体からなる集合を G(X) とします。文字'G'を使ったのは、X \mapsto G(X) が、ジリィモナド〈Giry monad〉の台関手になるからです。

ちなみに、集合 G(X) の要素を何と呼ぶかというと(正規表現使って):

  1. {確率的}?状態
  2. 確率{測度}?
  3. {確率}?分布
  4. ランダム{要素 | 元 | 点 | etc.}

曰く言い難しのニュアンスを無視すれば、これらは完全に同義語です。

Xがベクトル空間とは限らないので、 \delta(x - a_i) の引き算は意味ないです。 \delta(x - a) という書き方で、台〈support〉が点aであるデルタ関数を表しているだけです。なので、台が点aであるデルタ関数は引き算なしで  \delta_a と書き直します。それでも、そもそもデルタ関数の定義が難しいので、デルタ測度〈ディラック測度〉として解釈します。


\mbox{For given } A \in \Sigma_X, \\
\:\: \delta_a(A) := (\mbox{if } a\in A \mbox{ then } 1 \mbox{ else } 0)

次に、意味不明語「標本」の解釈。 a_1, \cdots, a_n がn個の“標本”と言われても何のことだか分かりません。ひとつの解釈は、 a_1, \cdots, a_n がIID〈independent and identically distributed〉な確率変数の列だと思うことですが、僕が聞いたときの文脈ではそうではありませんでした。 a_1, \cdots, a_n \in X です。

 a_1, \cdots, a_n \in X なら話は簡単、紛れなく意味はクリア -- と思うでしょ。「標本」という言葉を使われちゃうと、そうでもない、まだよく分からない。

 a_1, \cdots, a_n が、集合Xから選んだ“サイズnの有限コレクション”なのは確かでしょう。よく使われる有限コレクションには次の三種があります。

  1. Xの要素を項目とする長さ有限のリスト
  2. Xの要素を項目とする有限バッグ〈マルチセット〉
  3. Xの有限部分集合

コレクションの種類によって、後々の議論が違ってきたりします(大差ないこともあるけど)。今の場合、選んだ要素〈項目〉の順番は関係ないけど、重複は関係ある状況なので、 a_1, \cdots, a_n は有限バッグと解釈するのが妥当そうです。

Xの要素を項目とする有限バッグ全体の集合を Bag(X) とし、今のこの文脈では、Bag(X) の要素を「標本」と呼びます。G(X) の要素は「分布」です。このローカル・セッティングのもとで、標本にその経験分布を対応させる写像を ε:Bag(X)→G(X) とすると:


\mbox{For given }a\in \mathrm{Bag}(X), \\
\:\: {\displaystyle \varepsilon(a) := \frac{1}{n}\sum_{i = 1}^n  \delta_{a_i} }
\:\: \mbox{where } n = \mathrm{length}(a)

ん? 今気づいたのですが、 \delta_{a_i} って、添字の添字になって見にくいですね。だから引き算にしたのかな? 下付き添字をブラケットで代用することはよくあるから、 \delta[a_i] とすればいいでしょう。

マルコフ圏、ベイズの定理、陰関数定理

マルコフ圏に出会って10日くらいですが、だいぶ気に入ってます。

フリッツ〈Tobias Fritz〉がマルコフ圏という俯瞰図を与えてくれたおかげで、圏論的確率論の地勢がだいぶスッキリと見えるようになりました。

マルコフ圏の枠組みから眺めると、ベイズの定理と陰関数定理はだいたい同じものです。これは、少なくとも僕にとっては、思いも寄らなかったことで、「おー、やるなぁ、マルコフ圏」とテンション上がる事態です。

内容:

マルコフ圏におけるベイズの定理

マルコフ圏 A First Look -- 圏論的確率論の最良の定式化」にて:

マルコフ圏の公理だけでは、条件付き確率の議論が出来ません。が、現状では、条件付き確率の公理化をどうすべきかの確たる方針がないので、条件付き確率を公理化するのは時期尚早です。マルコフ圏の上に条件付き確率らしきものを載せてトライアルをすべきです。

ベイズの定理は条件付き確率*1に関わる命題なので、これを記述するには、マルコフ圏に「条件付き確率らしきもの」を載せる必要があります。フリッツは、ベイズの定理(に相当する命題)を公理として要請して、“ベイズの定理が成り立つマルコフ圏”(特に名前は付いてない)のなかで条件付き確率を云々〈うんぬん〉しています。

ベイズの定理というと、次のような等式を思い浮かべる人が多いでしょう。

  • [等式 A] P(A∩B) = P(B|A)P(A)

この等式は、なんだかワケワカランですね。フリッツの論文の39ページにあるベイズの定理(相当命題)は、次の図([図 B] とします)です。

えっ、もっとワケワカランって? そんなことありません。ストリング図を約束に従って解釈すれば、この絵図等式は極めて明確な意味を持ちます。ちなみに、下から上の向きなのでそれは注意してください(「双対や随伴に強くなるためのトレーニング」参照)。

[図 B]のψやψ|Xをマルコフ核*2(測度論的な積分核)だと思って、dx, dy記法(「ライプニッツの微分記法とアインシュタインの総和規約を測度に使ってみる」参照)を使ってベイズの定理を書けば:

  • [等式 C] {\displaystyle \psi(dx, dy) = \int_{t\in X} \delta_t(dx)(\psi_{|X}(dy | t) ) \,\psi(dt, Y) }

今日のところは、[図 B]、[等式 C]の説明は割愛しますが、出てきた記号の意味だけは書いておきます。一般的なマルコフ圏ではなくて、たちの良い可測空間とマルコフ核の圏で解釈しています。

  1. X, Y は、たちの良い可測空間です。
  2.  \psi(dx, dy) は、X\times Y上の同時確率分布です。
  3.  \psi(dt, Y) は、 \psi(dx, dy)から作った周辺確率分布です。
  4.  \psi_{|X}(dy | t) は、 同時確率分布 \psi(dx, dy)に対応する条件付き確率です。
  5.  \delta_t(dx) は、点tに台を持つディラック測度です。

ちょっと記法の準備

モノイド圏の話をするときは、ストリング図を描くのがいちばんいいのですが、チャッチャとストリング図を描く手段がないのでテキスト表現します。フリッツの論文から引用した前節の図に出てくる射をテキストで書けば:

  1. 絵図等式の左辺: ψ:1→X\otimesY (1は単位対象でもあり終対象でもある対象、\otimes はモノイド積)
  2. 絵図等式の右辺の下側の三角形、右ワイヤーが途切れてるヤツ: (idX\otimes!Y)\circψ (!Xは、Xから1への唯一の射)
  3. 絵図等式の右辺の中段の三又: ΔX:X→X\otimesX (対角写像
  4. 絵図には現れない: ρX:X\otimes1→X (モノイド圏の右単位律子〈right unitor〉)

以上のように約束すると、[図 B]は次のようにテキスト表現できます*3

  •  \psi = (\mbox{id}_X \otimes \psi_{|X})\circ \Delta_X \circ \psi^{!Y} : {\bf 1} \to X\otimes Y
  •  \psi^{!Y} := \rho_{X} \circ (\mbox{id}_X \otimes !_Y)\circ \psi : {\bf 1} \to X

この等式は、圏に、\otimes(モノイド積)、1(単位対象兼終対象)、ΔX(対角射)、!X(終対象への射)があれば意味を持ちます。しかし、この等式を成立させる ψ|X の存在は一般には保証されません。存在を主張したいなら、証明するか、または公理として要請します。

多様体と非決定性写像の圏

マルコフ圏って、いいんじゃないのコレ」において、計算科学でしばしば使われる圏としてNonDet(集合と非決定性写像の圏)を出しました。NonDetの射である非決定性写像 F:X→Y とは次のようなものです。

  • x∈X に対して、F(x) はYの部分集合である対応

Yのベキ集合を Pow(Y) として、F(x)∈Pow(Y) なので、F:X→Pow(Y) という写像だともいえます。通常の写像の値が単一要素だったのを、部分集合を許すようにしたのが非決定性写像です。

さてここで、なめらかな多様体となめらかな写像の圏をManとして、次の“比例式”を考えます。

  • Set : NonDetMan : ?

疑問符のところには何が入るでしょうか? 答は、「対象は多様体だけど、射として非決定性写像を許すような圏」ですよね。って、多様体のあいだの非決定性写像ォー、はーっ、ワケワカラン!

ワケワカランのですが、そんな圏が在りそうな気がします。ここは楽観的に在ると信じて、当該の圏をNonDetManとしましょう。|NonDetMan| = |Man| = (すべての多様体) で、Manは、NonDetManに自然に埋め込めます。

X, Y が多様体として、非決定性写像〈non-deterministic map〉(そんなものが在るとする) F:X→Y の値 F(x) はYの部分多様体になります。Yのすべての部分多様体からなる集合を Subman(Y) とすると、F:X→Subman(Y) と考えてもかまいません。Subman(Y) は通常の意味の多様体にはなりませんが、なんらかの意味で“なめらか構造”を持つとして、F:X→Subman(Y) は“なめらか”とします。

a, b∈X に対して、F(a)∈Subman(Y) と F(b)∈Subman(Y) の次元が違うと扱いにくそうなので、とりあえずは F(x) の次元はxによらず一定を仮定してもいいでしょう*4。xによらず dim(F(x)) = k であるような非決定性写像k次元の非決定性写像〈non-deterministic map of dimension k〉と呼ぶことにします。π:Y→X がファイバー次元kのファイバーバンドルのとき、逆向きの対応 X→Subman(Y) は、k次元の非決定性写像の良い例になるでしょう。古典的な線織面は、次元1(値が直線)の非決定性写像になります。

非決定性写像 F:X→Y in NonDetMan に対する形容詞 全域〈total〉、全射〈surjective〉、単葉〈univalent〉などは、NonDetと同じ定義です。

任意の x∈X に対して、

  • F(x) が連結部分多様体ならば、F は連結値非決定性写像〈connected-value non-deterministic map〉
  • F(x) がコンパクト部分多様体ならば、F はコンパクト値非決定性写像〈compact-value non-deterministic map〉
  • F(x) が開集合ならば、F は開値非決定性写像〈open-value non-deterministic map〉

と呼ぶことにします。

一点多様体1からの非決定性写像 1→X は、Xの部分多様体と同じです。0次元の連結値非決定性写像は、決定性写像と同じです。0次元のコンパクト値非決定性写像は、一点が有限分散〈有限分岐〉する非決定性写像です。Iを0次元離散多様体として、F:I→X が全射的開値非決定性写像なら、FはXの開被覆です。

実際のところNonDetManは正体不明ですが、発見的方法の手段として使うくらいは許してちょうだい。

多様体に関するベイズの定理

仮にNonDetManが存在したとして(思考実験)、NonDetManベイズの定理は成立するでしょうか? -- 全然成立しません(オイッ!)。NonDetManは、フリッツが条件付き確率が扱える圏として定義した“ベイズの定理が成立するマルコフ圏”からは遠く離れた存在です。

しかし、特別に扱いやすい状況では、NonDetManでもベイズの定理が成立します。稀〈まれ〉に成立する“多様体に関するベイズの定理”が、実は陰関数定理だと僕は言いたいのです。ポイントは、うまくいく稀〈まれ〉なる状況をキチンと記述することです。

アナロジーが分かりやすいように、確率の話と多様体の話で同じ記号を使い、用語も出来るだけ揃えましょう(揃ってないモノもあります)。

記号 確率の話 多様体の話
X, Y 可測空間 多様体
X×Y 直積可測空間 直積多様体*5
F:X→Y マルコフ核 非決定性写像
1 = {0} 一点可測空間 一点多様体
ψ 同時確率分布 同時部分多様体
!Y 写像 写像
ΔY 対角写像 対角写像
ψ!Y 周辺確率分布 周辺部分多様体
ψ|X 条件付き確率 陽関数

さて、“特別に扱いやすい状況”を記述しましょう。もとになる同時部分多様体(直積多様体の部分多様体)ψ:1→X×Y in NonDetMan は次のような性質を持つとします。

  • ψ(0) = Z ⊆ X×Y とすると、Zは通常の部分多様体
  • 第一射影 π1:X×Y→X を、Z上に制限したものを同じ記号で π1:Z→X と書く。
  • π1:Z→X は、写像として全射であり、局所微分同相写像(同じことだが、可微分エタール写像)である。局所部分同相であることから、dim(Z) = dim(X) 。

この前提が満たされるなら、ベイズの定理は成立します。 \psi = (\mbox{id}_X \otimes \psi_{|X})\circ \Delta_X \circ \psi^{!Y} : {\bf 1} \to X\otimes Y となるような  \psi_{|X}:X \to Y が存在するのです。

ただし、命題の逆は言ってません。ベイズの定理が成立しても、この前提が満たされない状況はあるでしょう。が、ベイズの定理と同値になる条件が何であるかは僕はよく分かりません。

今述べた形のベイズの定理が、陰関数定理(少し一般化している)と同じことを、次節でもう少し説明します。

陰関数定理

陰関数定理を、多様体に関して述べてみます。オーソドックスな陰関数定理と少し違い、陰関数を定義する方程式が出てこないで、方程式で定義される部分多様体をいきなり出しています。方程式から部分多様体を作るステップを省略していると思ってください。

M, N は多様体として、L⊆M×N を部分多様体とします。p∈L に対して、pのM×Nにおける開近傍を取りたいのですが、開集合 X⊆M と Y⊆N を選んで、p∈X×Y をpの開近傍とします。Z := L∩(X×Y) と置きます。陰関数定理の主張は次のようになります。

  • うまく選んだ X, Y に対して前節の条件が成立するならば、適当な写像 f:X→Y があって、Zはfのグラフと一致する。

絵に描くと次のよう。

部分多様体Z(あるいはもとになった L⊆M×N)を陰関数〈implicit function〉と呼び、f:X→Y を対応する陽関数〈explicit function〉といいます。ここでの陽関数は、非決定性写像ではなくて、決定性写像です。

前節のベイズの定理は、上記陰関数定理をわずかに一般化していて、  \psi_{|X}:X \to Y が決定性であることを要求していません。とはいえ、0次元非決定性しか出てこないので、  \psi_{|X}:X \to Y はいわゆる多価関数〈多葉関数〉です。

絵に描くと次のようです。

おわりに

マルコフ圏の枠組みがなければ、ベイズの定理と陰関数定理が同一のステートメントを共有していることは気が付きにくいでしょう。これは、マルコフ圏の公理系がよくできていることへのささやかな傍証です。

謎の圏NonDetManにおいては、特別な条件がない限りはベイズの定理=陰関数定理は成立しません。それでも陰関数定理は役に立ちます。ということは、ベイズの定理が完全には成立しない圏において、稀〈まれ〉に成立するベイズの定理でも十分に役立つ可能性があります。

なにかと妄想が捗って、マルコフ圏、いいんじゃないのコレ

*1:「条件付き確率」は、文脈により幾つかの異なった意味を持つ多義語です。相当に違った意味で同じ語が使われるので注意してください。

*2:マルコフ核の同義語が山のようにあることは、「ベイズ確率論、ジェイコブス達の新しい風 // チャンネルについてもう少し」を参照。

*3:[追記]二番目の等式に (\rho_X)^{-1} とありましたが、\rho_X の間違いでした。訂正しました。[/追記]

*4:応用上は、この仮定は邪魔になりそうです。様々な次元の部分多様体が値になるようなケースが出てくるでしょうから。

*5:常に直積を可能とするには、境界なし多様体だけを考えるか、角付き多様体を考えます。

マルコフ圏って、いいんじゃないのコレ

マルコフ圏 A First Look -- 圏論的確率論の最良の定式化」で紹介したマルコフ圏は、比較的に新しい概念です。

  • フリッツ〈Tobias Fritz〉が公理化して、新しい名前を付けた。
  • アイディアは新しくはなく、過去に同様な試みがあり、大量の実例もある。

フリッツのネーミングは戦略的で、公理化のセンスも素晴らしいです。公理系が強過ぎないように、つまり適用範囲が狭くならないように注意深く設計されています。例えば、マルコフ圏の公理だけでは、条件付き確率の議論が出来ません。が、現状では、条件付き確率の公理化をどうすべきかの確たる方針がないので、条件付き確率を公理化するのは時期尚早です。マルコフ圏の上に条件付き確率らしきものを載せてトライアルをすべきです。

マルコフ圏の公理系が適度に弱いことから、確率論とは無関係なところにもマルコフ圏論を適用できそうです。例えば、集合圏Setもマルコフ圏になっています(この例はあまり面白くないけど)。プログラム理論やオートマトン理論の背景圏として使うPartial(集合と部分写像の圏)、NonDet(集合と非決定性写像の圏)もマルコフ圏です。

SetPartialNonDet という包含系列もマルコフ圏の立場からうまく説明できます。非決定性写像の圏NonDetは、ベキ集合モナドのクライスリ圏になっていて、関係圏Relと同型な(同値より強く似てる)圏です。集合の直積をモノイド積として、対角射 ΔA:A→A×A と一点に潰す写像 !A:A→1 を使って、NonDet(あるいはRel)上に余可換コモノイド・モダリティを定義できます。これにより、NonDetはマルコフ圏になります。Partialはコモノイド余単位を保つ写像からなるNonDetの部分圏、Setはコモノイド余単位とコモノイド余乗法を保つ写像からなるPartialの部分圏となります。

NonDetは確率論と直接的な関係はないですが、“不確定さ”を扱うという点では確率論的な圏、例えばジリィモナドのクライスリ圏Stocと薄っすらと似ています。この“薄っすらと似た感じ”を、「どちらもマルコフ圏である」という事実で説明できます。また、似てるけど違う点を、マルコフ圏に上部構造を載せて議論できます。例えば、先ほど言った条件付き確率の公理候補を、NonDetで考えたりすると、確率論に特有な概念か、不確定さ一般に通用する概念かを判断できます。

NonDetは計算科学でよく利用されてきました。マルコフ圏という共通の枠組みがあることから、確率論の概念の一部をNonDetに移入できるかも知れません。あるいは逆に、計算科学でお馴染みの概念・手法を、確率論側へと移出できる可能性もあります。

マルコフ圏という概念は、かなり広範囲に使える基盤構造を提供するし、抽象的な概念自体、例えばマルコフ圏のあいだの射(いうなればマルコフ関手)は何か? なども興味深いトピックだと思います。-- いいんじゃないのコレ。

オンライン茶話会〈Cha話会〉

新型コロナウィルス禍は、誰にとっても酷い厄災なのですが、そのなかでポジティブな変化を探すなら、オンライン・ナントカが一般化したことでしょう。「オンラインではどうにもならない」ことも多いですが、「オンラインでもなんとかなるな」と発見した人もいることでしょう。

自粛期間中にオンライン飲み会が開催されていましたが、けっこうメンドクサイ面があります。

  • 断り方が分からない、断るのが難しい。
  • プライベートな空間を晒すのがイヤ。
  • 終わるタイミングがうまく取れず、ダラダラ続ける。
  • それでも、退出しづらい。
  • 飲み物・食べ物を準備するのが手間。
  • お店の雰囲気や美味しい料理が楽しみなのに。
  • そもそも飲み会好きじゃないし。

負担を少なくするには:

  • 参加圧力をかけず、事前に決めた人数が集まらないなら開催しない。
  • 音声のみ参加でもよい。
  • 事前に終了時間を決めておく。無料Zoomだと40分で切れるので、「切れたらオシマイ」とか。
  • 終了時間にならなくても、沈黙が訪れたら閉会。
  • ゆるくていいから話すテーマを決めておく。
  • 飲食物は原則無しだが、禁止もしない。十六茶*1うまい棒とか。
  • オフライン飲み会の代替を目的にしない。

こんなオンライン・イベントを「オンライン茶話会」と呼ぶのはどうでしょう? せっかく人類のオンライン・リテラシーが高まったのだから、今後もそれを利用するのは悪いことじゃないでしょう。

ところで「茶話会」を調べたら、

えっ、そんな意味あったの。んじゃ、発音を「ちゃわかい」にしよう。Chat(本来の意味は「くつろいで親しげに交わす雑談、おしゃべり」)にかけて「Cha話会」がいいかな。

ユークリッド空間に埋め込まれた向き付き多様体の向きの表現法

追記あります。

ジョニー(a.k.a. id:hiroki_f @hiroki_f*1が、twitterで「埋め込まれた多様体の向き」のことをつぶやいていたのですが、最初、意味がよく分かりませんでした(ツイートなので致し方ない)。2,3度やり取りして、だいたい納得しました。

n次元多様体N(最近は、次元と多様体の名前を同じ文字で揃えたい)には向きが決まっているとします。m次元ユークリッド空間Rmにも標準的な向きが決まっています。Rm上の標準的な微分形式  dx^1, \cdots, dx^m は、この順で、余接ベクトルバンドルの正のフレーム〈向きと同調した順序基底〉になっています*2

ジョニーのツイートは、埋め込み f:N→Rm (n < m)があるとき、Nの(あるいは埋め込み像 f(N)⊆Rm の)向きを  dx^1, \cdots, dx^m を使って書き表したい、ということだろうと理解しました。

埋め込み像 f(N) の外の点( x\in \mathbf{R}^m, \: x \notin f(N) な点)で何らかの量を考えてもしょうがなさそうなので、f(N) あるいはもとの N 上の量を  dx^1, \cdots, dx^m で書き表す、ということでしょう、たぶん。

必ずしもユークリッド空間とは限らないm次元多様体Mを埋め込み先として考えることにして、f:N→M が埋め込みだとします。fの接写像を取ると、Tf:TN→TM 、TMをfでN上に引き戻したベクトルバンドルを f#TM として、Tf に対応するN上のバンドル射を Df とします。次の可換図式があります。

\require{AMScd}
\begin{CD}
TN       @>Df>>  f^\# TM \\
@V{\pi}VV        @VV{\pi}V \\
N        @=      N \\
\end{CD}

ファイバーごとに空間も写像も双対を取ります*3

\require{AMScd}
\begin{CD}
(f^\# TM)^\ast  @>{Df^\ast}>>  (TN)^\ast \\
@V{\pi}VV                      @VV{\pi}V \\
N               @=             N \\
\end{CD}

外積の意味でn乗します*4

\require{AMScd}
\begin{CD}
\bigwedge^n( (f^\# TM)^\ast ) @>{\bigwedge^n(Df^\ast)}>> \bigwedge^n( (TN)^\ast) \\
@V{\pi}VV                                            @VV{\pi}V \\
N                           @=                       N \\
\end{CD}

ここで、 \bigwedge^n( (TN)^\ast) はファイバー次元1のバンドル(直線バンドル)で、ゼロを取り除くと、ファイバーは2つの連結成分に別れます。どっちか片方の連結成分を大域的に選ぶことがNに向きを与えることです*5

線形代数準同型定理(のベクトルバンドル版)から、次の同型が言えます。

  \bigwedge^n( (f^\# TM)^\ast )/Ker(\bigwedge^n(Df^\ast) ) \cong \bigwedge^n( (TN)^\ast) as vector bundles over  N

両辺のファイバーごとの次元を比較すると、核バンドル  Ker(\bigwedge^n(Df^\ast)) は、余次元1の部分バンドル、つまり  \bigwedge^n( (f^\# TM)^\ast ) 内の超平面バンドルです。超平面  Ker(\bigwedge^n(Df^\ast)) を取り除くと、 \bigwedge^n( (f^\# TM)^\ast ) のファイバーは2つの連結成分(半空間)に別れます。どっちか片方の連結成分を大域的に選ぶことがNに向きを与えることです。

Nの向きの指定は、 \bigwedge^n( (f^\# TM)^\ast )  \setminus Ker(\bigwedge^n(Df^\ast)) \setminus は集合の差)のファイバー連結成分の指定になったわけですが、そのためには、超平面  Ker(\bigwedge^n(Df^\ast)) への法ベクトルを使えばいいでしょう。もし、 \bigwedge^n( (f^\# TM)^\ast )内積ベクトルバンドルの構造を持てば、超平面  Ker(\bigwedge^n(Df^\ast)) に直交する単位ベクトル(の場)を使えます。

M = Rm の場合、 \bigwedge^n( (f^\# TM)^\ast ) = \bigwedge^n( (f^\# T{\bf R}^m)^\ast ) はN上の自明バンドルになり、標準的フレーム〈順序基底〉は、 dx^1, \cdots, dx^m 達からn個選んで外積したn次形式達として具体的に列挙できます。また、外積空間に内積も入ります。したがって、超平面  Ker(\bigwedge^n(Df^\ast)) への直交単位ベクトル(の場)も、 dx^1, \cdots, dx^m 達の外積と1次結合で書き下せます。ただし  dx^1, \cdots, dx^m 達はRmからNに引き戻されたものです。

これで一応、埋め込まれたNの向きを  dx^1, \cdots, dx^m 達で書き表せたことにはなるのだけど、カッコイイかどうかは分からない。どっちかというとウザイ表示な気がする。


[追記 date="翌日"]

面白い例は作れないのですが、特別に簡単な例を紹介しましょう。引き続き dim(N) = n, dim(M) = m 、n < m で、f:N→M は埋め込みだと仮定します。n + 1 = m 、つまり余次元1の埋め込みは話が簡単になります。特に、n = 2, m = 3, M = R3 のケースは伝統的かつ直感的です。

N = S2 を、外の空間なしで与えられた球面(2次元多様体)として、その埋め込み像 f(S2)⊆R3 は原点中心半径10の球面だとします。半径をデカめに取っているのは、単位法ベクトル場との絵的バランスの関係です。

S2が(内在的に)持つ向きは、R3に埋め込まれた f(S2) の各点に単位法ベクトルを立てれば表現できます。外向き法ベクトル場か、内向き法ベクトル場のどちらかです。(下の絵はS1の絵だけど。)

まず、引き戻しバンドル  f^\# (T{\bf R}^3) \mbox{ over } S^2 がどんなものか説明します。これは、自明ベクトルバンドルで、S2 の各点ごとにR3(正確に言えば、TR3のファイバー)を1個ずつひっ付けたものです。各R3は標準フレームを備えているので、それを  X_1, X_2, X_3 としましょう。 X_1, X_2, X_3 は3つのベクトル場(S2接ベクトル場ではない!)とみなせます。また、各点pごとにフレーム  (X_1(p), X_2(p), X_3(p)) がひっ付いていると見れば、大域フレーム場(フレームバンドルの大域セクション)とも言えます。

双対なベクトルバンドル  (f^\# ( T{\bf R}^3) )^\ast \cong f^\# ( (T{\bf R}^3)^\ast) = f^\# (T^\ast{\bf R}^3) \mbox{ over } S^2 は、 dx^1, dx^2, dx^3 で張られる自明ベクトルバンドルです*6。双対ペアリング〈スカラー積〉を  \langle \mbox{-} \mid \mbox{-} \rangle とすると:

 \mbox{For-all }p\in S^2,\; \langle dx^i \mid X_j \rangle_p = \delta^i_j \mbox{ where }i, j = 1, 2, 3

R3ではなくてS2に引き戻して(あるいは、f(S)に制限して)考えていることに注意してください。

S2に局所座標〈チャート〉(U, s) を取りましょう。 s^1, s^2:S^2 \supseteq U \to {\bf R} を座標関数とします。 S_1 = \frac{\partial}{\partial s^1}, S_2 = \frac{\partial}{\partial s^2} ds^1, ds^2 はそれぞれ、 TS^2, T^\ast S^2 の局所フレームになり、互いに相反〈双対〉なフレームです。

 s^1, s^2, x^1, x^2, x^3, S_1, S_2, X_1, X_2, X_3, ds^1, ds^2, dx^1, dx^2, dx^3 を使えば、諸々の量を露骨に〈explicitly〉局所表示可能です(やらないけどね)。でも、露骨な表示(ヤコビアン)だと、 Df:TN \to f^\# (T{\bf R}^3)  Tf:TN \to T{\bf R}^3 は区別できません。また、双対  Df^\ast = (Df)^\ast : (f^\#  (T{\bf R}^3) )^\ast \to (TN)^\ast も同じ行列(ときに転置行列)で表現できるので区別しにくいですね。ここらへんが座標を使った計算の嫌なところです。

肝心のS2の向きですが、局所的には  ds^1 \wedge ds^2 を選ぶか、それとも  ds^2 \wedge ds^1 = - ds^1 \wedge ds^2 を選ぶかで向きが決まります。局所的な選択をうまく繋げば大域的な向きの指定になります。これは、ファイバー1次元の外積ベクトルバンドル  \bigwedge^2( T^\ast S^2) の零点を持たない大域セクションの指定に他なりません。

本文(追記前の記事)の処方箋に従うと、 Df^\ast: f^\# (T^\ast{\bf R}^3) \to T^\ast N *7を、2階外積ベクトルバンドルに持ち上げて  \bigwedge^2(Df^\ast): \bigwedge^2(f^\# (T^\ast{\bf R}^3)) \to \bigwedge^2( T^\ast N) を作るのでした。ここで、 \bigwedge^2(f^\# (T^\ast{\bf R}^3)) は、フレーム  dx^1\wedge dx^2,\; dx^2\wedge dx^3,\; dx^3\wedge dx^1 で張られるファイバー3次元のベクトルバンドルです。

ベクトルバンドル写像の核ベクトルバンドル  Ker(Df^\ast) は、ファイバー3次元のベクトルバンドル  \bigwedge^2(f^\# (T^\ast{\bf R}^3) ) 内のファイバー2次元の部分ベクトルバンドルです。2次元部分ベクトル空間は、3次元ベクトル空間を二つに分断します。分断されたどっち側かを指定することは、 Ker(Df^\ast) の補ベクトル場〈complementary vector field〉(超平面の補空間を張るベクトル場)を指定するのと同じです。ベクトルバンドル内積を持つなら、補ベクトル場として単位法ベクトル場(長さ1で超平面に直交するベクトルの場)を選べます。

というわけで、S2上のファイバー3次元のベクトルバンドル  \bigwedge^2(f^\# (T^\ast{\bf R}^3) ) の適切なベクトル場〈セクション〉がS2の向きを表現することになります。ホッジ双対により、 \bigwedge^2(f^\# (T^\ast{\bf R}^3)) \bigwedge^1(f^\# (T^\ast{\bf R}^3) ) = f^\# (T^\ast{\bf R}^3) と同型であり、内積により  f^\# (T^\ast{\bf R}^3) \cong f^\# (T{\bf R}^3) です。ベクトルバンドルが同型ならセクション空間も同型になるので:


\:\:\:\: \Gamma(\bigwedge^2(f^\# (T^\ast{\bf R}^3) ) ) \\
\cong \Gamma(f^\# (T^\ast{\bf R}^3) ) \\
\cong \Gamma(f^\# (T{\bf R}^3))

本来、S2の向きは  \bigwedge^2(f^\# (T^\ast{\bf R}^3) ) のベクトル場〈セクション〉で表現されますが、我々は  f^\# (T{\bf R}^3) のベクトル場〈セクション〉として捉えます(そのほうが分かりやすいので)。さらに、抽象的な多様体S2ではなくて、目に見える図形 f(S2)⊆R3 を想定して、逆立った毛〈法ベクトル〉が生えた球面の絵を描くわけです(皆さん、描いてください)。

以上で、球面の外向き/内向き法ベクトル場で向き〈orientation〉を指定する方法が、本文の一般論の特殊事例であることが分かりました。それにしても、(ベクトルバンドルの)線形代数を使いまくってますね。もうひとつツイートを引用しておきます。

*1:ジョニーと呼んでいるのは僕だけかも知れない。

*2:関数可換環 C(Rm) 上の加群の順序基底と言ったほうがいいかも知れません。

*3: T^\ast N という書き方をしないで、(TN)^\ast のように書いています。

*4:[追記]表示を見て気付いたのだけど、MathJax AMScd において、図式内の式はディスプレイスタイルでレンダリングされるんですね。nが楔の真上に乗っている。[/追記]

*5:局所的なら必ず選べます。大域的には選べないときがあり、そのときは向きが付けられません。

*6: dx^1, dx^2, dx^3 は、ベクトルバンドルのフレームでもあり、微分形式の加群の順序基底でもあります。

*7: (f^\# (T{\bf R}^3) )^\ast \cong f^\# ( (T{\bf R}^3)^\ast ) = f^\# (T^\ast{\bf R}^3) が成立します。

マルコフ圏 A First Look -- 圏論的確率論の最良の定式化

比較的最近、フリッツ〈Tobias Fritz〉は、確率と統計を圏論的かつ統合的〈synthetic〉*1に扱うための枠組みとして、マルコフ圏〈Markov category〉を提案しています。僕が知る限り、次の論文がマルコフ圏に関するいちばん詳しい資料です。

  • Title: A synthetic approach to Markov kernels, conditional independence and theorems on sufficient statistics
  • Author: Tobias Fritz
  • Pages: 98 pages.
  • URL: https://arxiv.org/abs/1908.07021

最初のバージョンの投稿は去年〈2019年〉の夏ですが、それ以降もこまめにメンテナンスされています。

[v1] Mon, 19 Aug 2019 18:54:09 UTC (101 KB)
[v2] Sun, 1 Sep 2019 02:57:58 UTC (102 KB)
[v3] Wed, 11 Sep 2019 17:25:47 UTC (104 KB)
[v4] Sun, 20 Oct 2019 22:37:03 UTC (107 KB)
[v5] Mon, 24 Feb 2020 01:17:05 UTC (108 KB)
[v6] Tue, 31 Mar 2020 16:16:30 UTC (108 KB)
[v7] Tue, 28 Apr 2020 17:14:02 UTC (110 KB)
[v8] Sun, 31 May 2020 18:29:36 UTC (110 KB)

このフリッツ論文をネタ元として、マルコフ圏について大雑把な紹介をします。

内容:

ゴルブツォフ、長/ジェイコブス、そしてフリッツ

マルコフ圏は、フリッツのオリジナルというわけではなくて、「ベイズ確率論、ジェイコブス達の新しい風」で紹介した、ジェイコブス達のチャンネル方式〈the channel perspective, the channel approach〉に含まれる概念です。チャンネル方式の構築にあたって、長健太〈Kenta Cho〉さんが重要な役割を果たしているので、長/ジェイコブス方式と呼んでもいいかも知れません。

長/ジェイコブス方式においてアフィンCD圏〈affine CD-category〉と呼ばれていた圏を、フリッツは「マルコフ圏」と呼び替えました。その理由を次のように説明しています。太字強調は檜山によります。

Cho and Jacobs call them affine CD-categories, where “CD” stands for “Copy/Discard”, describing the interpretation of the structure morphisms (2.1). Due to the central role that these categories seem to play in probability and statistics, we introduce a catchier term which hints at the idea that the morphisms in the categories under consideration behave like Markov kernels


長とジェイコブスは、それらの圏をアフィンCD圏と呼んでいる。ここで、“CD”は“Copy/Discard”を表し、圏が持つ構造射(2.1参照)の解釈に由来する。この種の圏は、確率・統計で中心的な役割を果たすのだから、よりキャッチーな用語である「マルコフ圏」を導入したい。この言葉は、その種の圏の射がマルコフ核のように振る舞うことを示唆する。

「名前を変えただけかい」と思われるでしょうが、ネーミングはプロモーション上は極めて重要です。フリッツのネーミング戦略は成功するように思います。形容詞としての「マルコフ」がとても使い勝手が良いのです。マルコフ圏は、デカルト圏と深く関係しますが、デカルトとマルコフという人名を「デカルト≒非確率的、マルコフ≒確率的」という対比の文脈における形容詞として使えます。

形容詞「マルコフ」は、マルコフ過程とかマルコフ・トレース(結び目理論)とか既に使われているので、用語の衝突〈conflict | clash〉の危険はありますが、それを補って余りあるメリットがあります。

マルコフ圏のアイディアは長/ジェイコブスに由来すると言いましたが、さらに先駆者がいたようです。1990年代に既に、ロシアのゴルブツォフ*2〈Peter Golubtsov〉がマルコフ圏(と同様な圏)を考案し、応用を展開していました(とのこと)。論文がロシア語で書かれていたので、広く認知はされなかったようです(2000年以降は英語でも発表しています)。ゴルブツォフと長/ジェイコブスは独立に同様なアイディアに到達したが、時間的にはゴルブツォフが先行していた、という事情です。

マルコフ圏の感触

マルコフ圏がどんな圏であるかを、ごく手みじかに説明します。ローヴェア/ジリィ〈William Lawvere, Michèle Giry〉以来、圏論的に確率的な不確定性を扱うときは次のようにします(「分布から拡散へ: ミシェル・ジリィを巡って」参照)。

  • 基礎となる圏C上に、確率的な不確定性を表すモナド G:CC, η::IdC⇒G:CC, μ::G*G⇒G:CC *3を定義し、Gの(正確には (G, η, μ) の)クライスリ圏上で確率に関する議論をする。

Gのクライスリ圏をDとしましょう。もとの圏Cは、標準的な方法でDに埋め込めます。この標準埋め込みにより、CDの部分圏(CD)とみなせます。圏Dとその部分圏Cが確率的な議論の舞台となります。

D(と部分圏C)には、その作り方/作った過程が刻み込まれていますが、モナドによって作られたという由来を忘れて公理的な特徴付けをしたものがマルコフ圏です。マルコフ圏の定義には、単に圏の構造だけではなくてモノイド構造が必須です。つまり、マルコフ圏は、モノイド圏論のなかで位置付けられます。

マルコフ圏ではさらに、各対象に余可換コモノイド構造*4が割り当てられています。僕はこのような割り当てを余可換コモノイド・モダリティ〈cocommutative comonoid modality〉と呼んでますが、フリッツはモダリティという言い方はしていません。

マルコフ圏のなかの非確率的〈確定的 | 決定性〉な射の部分圏を定義するには、余可換コモノイド構造が使われます。そして、特定された非確率的な射の部分圏はデカルト・モノイド圏になります。別な言い方をすると、マルコフ圏はデカルト圏を拡張した形をしています。

僕は、フリッツ(もとはゴルブツォフと長/ジェイコブス)の公理化には割と納得感があったのですが、それは、以前(2017年)偶発的に、余可換コモノイド・モダリティを使った経験があったからです。

マルコフ圏における計算にはストリング図をヘビーに使いますが、ストリング図の利用についても似たことをやってました。

マルコフ圏において、独立性の概念を定義できます。これは、独立性の圏論的定式化になりますが、独立性の圏論的定式化はフランツ〈Uwe Franz〉とシンプソン〈Alex Simpson〉が既に行っています。

フランツ方式、シンプソン方式、そしてフリッツ方式(マルコフ圏方式)の独立性の定義を比較すると、独立性に関するより良い理解が得られるでしょう。フリッツ論文に、3つの独立性の関連性が書いてあります。

マルコフ圏は何が良いのか

フリッツは、マルコフ圏を使った確率論を"probability theory without measure theory"〈測度論なしの確率論〉と言っています。ボブ・クック〈Bob Coecke〉が、“ヒルベルト空間論なしの量子力学”と言っていた(例えば「ボブ・クックの「お絵描き大好き 量子絵図主義」」参照)のとよく似ています。クック(だったかお仲間だったか)は、機械語プログラミングと高級言語プログラミングの例え話をしていましたが、フリッツも同じ例えを使っています。ブラケット内は檜山の注記です。

If using the standard ones is analogous to programming a computer in machine code, then using the high-level ones is analogous to programming a computer in a language which provides higher abstraction.


標準の定式化[測度論をベースとする定式化]を使用することを、機械語でコンピューター・プログラミングすることに例えるなら、高水準の定式化[マルコフ圏をベースとする定式化]を使用することは、より高い抽象性を提供する言語でプログラミングすることに類似している。

クックの「絵図主義」と「幼稚園児向け計算」を、確率論において実現したのがフリッツのマルコフ圏方式だと言えるでしょう。「幼稚園児」は kidding だとしても、ケンロニストにとってはマルコフ圏はとても使いやすい計算デバイスです。

マルコフ圏はデカルト圏の拡張になるので、デカルト圏からのアナロジーがある程度は通用します。例えば、デカルト閉圏に対応するマルコフ閉圏があるのではないかと僕は期待しています(そう期待する心情的背景は「僕の偏見としてのデカルト閉圏」参照)。

単一のマルコフ圏を固定するのではなくて、すべてのマルコフ圏からなる“圏の圏”(自然変換まで入れれば2-圏)を考えれば、さまざまな確率論の比較ができるでしょう。また、指標*5に対するモデルをマルコフ圏内に作ることは、確率統計の諸々の概念の明確化に役立ち、非確率的概念の確率化にも使えるでしょう。

マルコフ圏が、圏論的確率論の決定版だと断言はできませんが、現状においては、最良の定式化のように思えます。

*1:統合的〈synthetic〉が何を意味するかを短く説明するのは難しいので、機会があれば別な記事にします。

*2:カタカナ書きは https://www.youtube.com/watch?v=Z3Gps7VjJ88 をもとにしました。

*3:アスタリスク'*'は、関手の図式順結合記号です。

*4:フリッツは、余可換〈cocommutative〉ではなくて単に可換〈commutative〉と呼んでいます。

*5:例えば、「指標のパラメータ化とグロタンディーク構成」参照。

僕の偏見としてのデカルト閉圏

ふと思ったのですが、僕は「デカルト閉圏」に拘り過ぎかも。とある圏Cデカルト閉圏でないと、それを理由に「Cは使いにくい」と僕は言うわけですが、これは偏見です。偏見とは「そう信じているが、その根拠を合理的に説明できない」拘りや思い込みです。

「なぜデカルト閉圏に拘るのか?」と聞かれれば、「ラムダ計算が出来るから」と答えるでしょうが「なぜラムダ計算に拘るのか?」と聞かれると「便利だと思う」とか「けっこう好き」くらいしか思いつきません。

「便利だ/好き」の範囲はデカルト閉圏よりもう少し広くて、モノイド閉圏まで許容です。モノイド閉圏でもラムダ計算は出来ますからね。そして、欲を言えば、デカルト閉圏であり、局所デカルト閉〈locally cartesian closed〉でもあるとさらに使いやすいです。

さて、デカルト閉圏じゃないので使いにくいと思う圏の事例ですが、まず(なめらかな)多様体の圏ManManに境界付き多様体を含めると、具合のいい直積は作れません。境界無しに制限するか、角付き多様体〈manifold with corners〉にまで拡張すれば直積は確保できます -- 直積でモノイド圏になります。が、指数 [M→N] *1がうまく作れない。

なめらかな写像の空間 [M→N] がもし多様体になるとするなら、特殊な例外を除いて無限次元多様体です。無限次元多様体は難しい。有限次元多様体と同様に、「局所的にナントカ空間(なんらかの無限次元ベクトル空間)と同相」という定義はできます。実際に、バナッハ多様体やフレシェ多様体という概念がありますが、難しい。

もちろん、難しいけど頑張る道はあるのですけど、別な方向に進むってテもあります。「局所的にナントカ空間と同相」とは別なアプローチとして、集合または位相空間に含まれる“なめらかな曲線”や“なめらかな曲面”、あるいは空間上の“なめらかな関数”の集まりによって多様体類似構造を定義する方法があります。このアプローチを漠然と総称して“なめらか学”〈smootheology*2〉的なアプローチといいます。

なめらか学的アプローチで定義されるなめらか空間〈smooth space〉には色々な種類があります。色々あり過ぎかも。次の論文が、様々ななめらか学/なめらか空間を比較しています。

なめらか空間の圏(色々あるが)はデカルト閉圏になります。その意味ではハッピーですが、接空間や余接空間、ベクトル場や微分形式の構成が容易かというとそうでもありません。そんなにうまい話は転がってないですね。

もうひとつ「デカルト閉じゃなくてイヤだなー」と思っている圏があります。それは可測空間の圏Measです。確率的議論をするときの基礎となる(はずの)圏なのに、デカルト閉じゃないので、なにかと使いにくい。… と、この話はまた別な機会にします。

*1:内部ホムと指数を区別する人もいますが、僕は特に区別してないです、内部ホム = 指数。内部ホムは、hom(X, Y), [X, Y], [X→Y], YX などと書きます。

*2:'e'が抜けがち。

団塊の世代とメディア

12年前に「きょうび、雑誌に投稿する人は」というエントリーを書いたのですが、短いので全文引用します。

週刊朝日」2008 8/8号(07/25発行)に、水木しげる先生と次女の水木悦子さんの親子対談が載っているので買いました。「お便りクラブ」という読者投稿欄があるのですが、この号は5人の投稿が掲載されています。投稿者のプロフィール:

  1. 会社員57歳
  2. 無職86歳
  3. 無職75歳
  4. 無職82歳
  5. 無職75歳

えっ。メールでも投稿できるんだけど、これ、どういうこと?

「どういうこと?」と疑問文で書いてますが、週刊誌は(当時すでに)高齢者しか読まないメディアであることを示唆しています。

最近(2020年6月です)読んだ記事「EXIT兼近の「物言い」でわかった 中年芸人で成り立つバラエティの重大危機」の2ページ目に:

「地上波テレビの主な視聴者層は60~70代の高齢者。最も世代別人口が多い団塊の世代も含まれます。...[snip]...」

テレビ(当該記事の主題はバラエティ番組ですが)も高齢者メディアということでしょうか。団塊の世代は、そのボリューム〈人口〉により社会的な影響力を持っていたわけですが、年齢がシフトしてもボリュームを保っている(死なない)ので、今でも影響力を持ち続けているということでしょう。

需要がないと仕事にならないので、ボリュームのあるターゲット層に合わせるのも仕事のやり方としてはアリでしょうが、メディアとしては健全じゃないな。と言ったところで、伝統メディアが変われるとも思えないので、ボリュームのある世代(僕も含まれる)とともに伝統メディアも死滅するのが自然で望ましい成り行きです。