マルコフ圏 A First Look -- 圏論的確率論の最良の定式化 - 檜山正幸のキマイラ飼育記 (はてなBlog)

比較的最近、フリッツ〈Tobias Fritz〉は、確率と統計を圏論的かつ統合的〈synthetic〉*1に扱うための枠組みとして、マルコフ圏〈Markov category〉を提案しています。僕が知る限り、次の論文がマルコフ圏に関するいちばん詳しい資料です。

Title: A synthetic approach to Markov kernels, conditional independence and theorems on sufficient statistics
Author: Tobias Fritz
Pages: 98 pages.
URL: https://arxiv.org/abs/1908.07021

最初のバージョンの投稿は去年〈2019年〉の夏ですが、それ以降もこまめにメンテナンスされています。

[v1] Mon, 19 Aug 2019 18:54:09 UTC (101 KB)
[v2] Sun, 1 Sep 2019 02:57:58 UTC (102 KB)
[v3] Wed, 11 Sep 2019 17:25:47 UTC (104 KB)
[v4] Sun, 20 Oct 2019 22:37:03 UTC (107 KB)
[v5] Mon, 24 Feb 2020 01:17:05 UTC (108 KB)
[v6] Tue, 31 Mar 2020 16:16:30 UTC (108 KB)
[v7] Tue, 28 Apr 2020 17:14:02 UTC (110 KB)
[v8] Sun, 31 May 2020 18:29:36 UTC (110 KB)

このフリッツ論文をネタ元として、マルコフ圏について大雑把な紹介をします。

内容：

ゴルブツォフ、長／ジェイコブス、そしてフリッツ
マルコフ圏の感触
マルコフ圏は何が良いのか

[追記]関連する記事（時間順）：

[/追記]

ゴルブツォフ、長／ジェイコブス、そしてフリッツ

マルコフ圏は、フリッツのオリジナルというわけではなくて、「ベイズ確率論、ジェイコブス達の新しい風」で紹介した、ジェイコブス達のチャンネル方式〈the channel perspective, the channel approach〉に含まれる概念です。チャンネル方式の構築にあたって、長健太〈Kenta Cho〉さんが重要な役割を果たしているので、長／ジェイコブス方式と呼んでもいいかも知れません。

長／ジェイコブス方式においてアフィンCD圏〈affine CD-category〉と呼ばれていた圏を、フリッツは「マルコフ圏」と呼び替えました。その理由を次のように説明しています。太字強調は檜山によります。

Cho and Jacobs call them affine CD-categories, where “CD” stands for “Copy/Discard”, describing the interpretation of the structure morphisms (2.1). Due to the central role that these categories seem to play in probability and statistics, we introduce a catchier term which hints at the idea that the morphisms in the categories under consideration behave like Markov kernels
長とジェイコブスは、それらの圏をアフィンCD圏と呼んでいる。ここで、“CD”は“Copy/Discard”を表し、圏が持つ構造射（2.1参照）の解釈に由来する。この種の圏は、確率・統計で中心的な役割を果たすのだから、よりキャッチーな用語である「マルコフ圏」を導入したい。この言葉は、その種の圏の射がマルコフ核のように振る舞うことを示唆する。

「名前を変えただけかい」と思われるでしょうが、ネーミングはプロモーション上は極めて重要です。フリッツのネーミング戦略は成功するように思います。形容詞としての「マルコフ」がとても使い勝手が良いのです。マルコフ圏は、デカルト圏と深く関係しますが、デカルトとマルコフという人名を「デカルト≒非確率的、マルコフ≒確率的」という対比の文脈における形容詞として使えます。

形容詞「マルコフ」は、マルコフ過程とかマルコフ・トレース（結び目理論）とか既に使われているので、用語の衝突〈conflict | clash〉の危険はありますが、それを補って余りあるメリットがあります。

マルコフ圏のアイディアは長／ジェイコブスに由来すると言いましたが、さらに先駆者がいたようです。1990年代に既に、ロシアのゴルブツォフ*2〈Peter Golubtsov〉がマルコフ圏（と同様な圏）を考案し、応用を展開していました（とのこと）。論文がロシア語で書かれていたので、広く認知はされなかったようです（2000年以降は英語でも発表しています）。ゴルブツォフと長／ジェイコブスは独立に同様なアイディアに到達したが、時間的にはゴルブツォフが先行していた、という事情です。

マルコフ圏の感触

マルコフ圏がどんな圏であるかを、ごく手みじかに説明します。ローヴェア／ジリィ〈William Lawvere, Michèle Giry〉以来、圏論的に確率的な不確定性を扱うときは次のようにします（「分布から拡散へ：ミシェル・ジリィを巡って」参照）。

基礎となる圏C上に、確率的な不確定性を表すモナド G:C→C, η::Id_C⇒G:C→C, μ::G＊G⇒G:C→C *3を定義し、Gの（正確には (G, η, μ) の）クライスリ圏上で確率に関する議論をする。

Gのクライスリ圏をDとしましょう。もとの圏Cは、標準的な方法でDに埋め込めます。この標準埋め込みにより、CはDの部分圏（C⊆D）とみなせます。圏Dとその部分圏Cが確率的な議論の舞台となります。

圏D（と部分圏C）には、その作り方／作った過程が刻み込まれていますが、モナドによって作られたという由来を忘れて公理的な特徴付けをしたものがマルコフ圏です。マルコフ圏の定義には、単に圏の構造だけではなくてモノイド構造が必須です。つまり、マルコフ圏は、モノイド圏論のなかで位置付けられます。

マルコフ圏ではさらに、各対象に余可換コモノイド構造*4が割り当てられています。僕はこのような割り当てを余可換コモノイド・モダリティ〈cocommutative comonoid modality〉と呼んでますが、フリッツはモダリティという言い方はしていません。

マルコフ圏のなかの非確率的〈確定的 | 決定性〉な射の部分圏を定義するには、余可換コモノイド構造が使われます。そして、特定された非確率的な射の部分圏はデカルト・モノイド圏になります。別な言い方をすると、マルコフ圏はデカルト圏を拡張した形をしています。

僕は、フリッツ（もとはゴルブツォフと長／ジェイコブス）の公理化には割と納得感があったのですが、それは、以前（2017年）偶発的に、余可換コモノイド・モダリティを使った経験があったからです。

余可換コモノイド・モダリティ事件の解説

マルコフ圏における計算にはストリング図をヘビーに使いますが、ストリング図の利用についても似たことをやってました。

確率的推論・判断の計算法：マルコフ・テンソル絵算

マルコフ圏において、独立性の概念を定義できます。これは、独立性の圏論的定式化になりますが、独立性の圏論的定式化はフランツ〈Uwe Franz〉とシンプソン〈Alex Simpson〉が既に行っています。

フランツ方式、シンプソン方式、そしてフリッツ方式（マルコフ圏方式）の独立性の定義を比較すると、独立性に関するより良い理解が得られるでしょう。フリッツ論文に、3つの独立性の関連性が書いてあります*5。

マルコフ圏は何が良いのか

フリッツは、マルコフ圏を使った確率論を"probability theory without measure theory"〈測度論なしの確率論〉と言っています。ボブ・クック〈Bob Coecke〉が、“ヒルベルト空間論なしの量子力学”と言っていた（例えば「ボブ・クックの「お絵描き大好き量子絵図主義」」参照）のとよく似ています。クック（だったかお仲間だったか）は、機械語プログラミングと高級言語プログラミングの例え話をしていましたが、フリッツも同じ例えを使っています。ブラケット内は檜山の注記です。

If using the standard ones is analogous to programming a computer in machine code, then using the high-level ones is analogous to programming a computer in a language which provides higher abstraction.
標準の定式化[測度論をベースとする定式化]を使用することを、機械語でコンピューター・プログラミングすることに例えるなら、高水準の定式化[マルコフ圏をベースとする定式化]を使用することは、より高い抽象性を提供する言語でプログラミングすることに類似している。

クックの「絵図主義」と「幼稚園児向け計算」を、確率論において実現したのがフリッツのマルコフ圏方式だと言えるでしょう。「幼稚園児」は kidding だとしても、ケンロニストにとってはマルコフ圏はとても使いやすい計算デバイスです。

マルコフ圏はデカルト圏の拡張になるので、デカルト圏からのアナロジーがある程度は通用します。例えば、デカルト閉圏に対応するマルコフ閉圏があるのではないかと僕は期待しています（そう期待する心情的背景は「僕の偏見としてのデカルト閉圏」参照）。

単一のマルコフ圏を固定するのではなくて、すべてのマルコフ圏からなる“圏の圏”（自然変換まで入れれば2-圏）を考えれば、さまざまな確率論の比較ができるでしょう。また、指標*6に対するモデルをマルコフ圏内に作ることは、確率統計の諸々の概念の明確化に役立ち、非確率的概念の確率化にも使えるでしょう。

マルコフ圏が、圏論的確率論の決定版だと断言はできませんが、現状においては、最良の定式化のように思えます。

*1:統合的〈synthetic〉が何を意味するかを短く説明するのは難しいので、機会があれば別な記事にします。[追記]「圏論的確率論におけるCタイプとAタイプ」に書きました。[/追記]

*2:カタカナ書きは https://www.youtube.com/watch?v=Z3Gps7VjJ88 をもとにしました。

*3:アスタリスク'＊'は、関手の図式順結合記号です。

*4:フリッツは、余可換〈cocommutative〉ではなくて単に可換〈commutative〉と呼んでいます。

*5:シンプソン方式に関する詳しい分析は今後の課題になってますが。

*6:例えば、「指標のパラメータ化とグロタンディーク構成」参照。