このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

参照用 記事

マルコフ圏の一族から典型例を7つ

マルコフ圏の一族(昨日の記事「マルコフ圏の一族」参照)から、典型例となる圏をいくつかピックアップしましょう。

まずは、確率論で使うマルコフ圏を3つ。

  1. SBorelStock : 標準ボレル空間〈standard Borel space〉を対象として、マルコフ核を射とするマルコフ圏です。
  2. FinStock : 有限集合を台とする可測空間を対象として、マルコフ核を射とするマルコフ圏です。
  3. FinDiscStock : 有限集合を台としてベキ集合をシグマ集合代数とする可測空間を対象として、マルコフ核を射とするマルコフ圏です。(「有限離散マルコフ核に関する注意」参照。)

確率論とは別な分野からの例を3つ。

  1. Set : 集合圏もマルコフ圏です。
  2. NonDet : 集合を対象として、非決定性写像〈多値写像〉を射とする準マルコフ圏です(マルコフ圏にはなりません)。
  3. BasFdVect : 基底付きのベクトル空間を対象として、線形写像を射とする準マルコフ圏です(マルコフ圏にはなりません)。

それぞれ、素朴集合論、プログラム理論やオートマトン理論、線形代数で扱う圏です。

それと、変わった例をもうひとつ。

  • CMonAny : 可換モノイドを対象として、任意の写像(モノイド構造を保存する必要はない)を射とするマルコフ圏です。

これは、通常の可換モノイドの圏CMonとは違います。射はなんでもいいので。

以上の典型例のめぼしい特徴をまとめておきます。

番号 モノイド積 単位対象 始対象 終対象 真偽対象
1 SBorelStock 直積 1 なし 1 2
2 FinStock 直積 1 なし 1 2
3 FinDiscStock 直積 1 なし 1 2
4 Set 直積 1 0 1 2
5 NonDet 直積 1 0 0 1 または 2
6 BasFdVect テンソル R 0 0 R
7 CMonAny 直積 1 1 1 2

真偽対象は、述語〈predicate〉に相当する射を考えたいときの余域のことです。

これらの典型例を調べることで、マルコフ圏一族の状況がある程度は分かるでしょう。

マルコフ圏の一族

ひと月ほど前(6月初旬)にマルコフ圏を知って以来、いくつかのブログエントリーを書きました。

「マルコフ圏って、いいんじゃないのコレ」にて:

フリッツのネーミングは戦略的で、公理化のセンスも素晴らしいです。公理系が強過ぎないように、つまり適用範囲が狭くならないように注意深く設計されています。
...[snip]...
マルコフ圏の公理系が適度に弱いことから、確率論とは無関係なところにもマルコフ圏論を適用できそうです。

フリッツ〈Tobias Fritz〉によって命名された(概念は以前からある)マルコフ圏は、圏論的確率論の基礎としての役割を持ちますが、公理系自体に確率概念が入っているわけではなく、広い範囲に適用可能です。マルコフ圏の公理系を弱くしたり、公理を追加して条件を強くしたりすると、様々なマルコフ圏の変種が作れます。これらの変種達まで含めたマルコフ圏一族を考えると、さらに応用が拡がります。

マルコフ圏が応用できそうな分野には、データベース理論、形式言語理論、オートマトン理論、プログラム意味論などがあります。これらはたまたま僕が少し知っている分野で、他にも物理や工学などに応用可能ではないかと思います。

内容:

準マルコフ圏

マルコフ圏Cの定義は次のとおりです。

  1. Cは対称モノイド圏である。
  2. Cは半デカルト圏〈semiCartesian category〉である。
  3. Cは余可換コモノイド・モダリティを備えている。

モノイド圏が半デカルトであるとは、モノイド単位対象が終対象になっていることです。余可換コモノイド・モダリティが在ることを前提に、半デカルト性は次のように言い換えられます。

  • 余可換コモノイド・モダリティの余単位割り当ては自然変換になっている。

この条件を「余単位の自然性」といいます。

マルコフ圏の公理系から“半デカルト性=余単位の自然性”を取り除いた公理系を満たす圏を準マルコフ圏〈quasi-Markov category〉と呼ぶことにしましょう。

なぜ公理系を弱めるかというと、例えば関係の圏Relが半デカルトにならないからです。確率に関係する圏でも、確率測度とは限らない有界測度〈有限測度〉まで含めたジリィ型モナドのクライスリ圏は半デカルト性を持ちません。基底を指定した有限次元ベクトル空間(テンソル積がモノイド積)も半デカルトではありません。これらの圏はすべて準マルコフ圏なのです。

準マルコフ圏という概念が必要だと思われる幾つかの状況証拠があります。まず、余可換コモノイド・モダリティを備えた対称モノイド圏Cを考えた場合、次が成立します。

  1. Cの余可換コモノイド・モダリティの余単位割り当てが自然変換になっていれば、Cは(定義より)マルコフ圏である。
  2. Cの余可換コモノイド・モダリティの余単位割り当てと余乗法割り当てが自然変換になっていれば、Cデカルト圏である。

余可換コモノイド・モダリティを備えた対称モノイド圏の文脈では、準マルコフ圏 → マルコフ圏 → デカルト圏 という系列が自然に現れるのです。

1999年の論文でセリンガーは、対角付きモノイド圏〈monoidal category with diagonals〉という概念を導入しています。

セリンガーの対角付きモノイド圏は準マルコフ圏と同じものです。対角とはコモノイドの余乗法のことです。Cのコモノイド余単位とコモノイド余乗法を使って、セリンガーはコピー可能射〈copyable morphism〉と破棄可能射〈discardable morphism〉を定義しました。Cのコピー可能射の全体も破棄可能射の全体もCの部分圏となりますが、次が成立します。

  • Cの破棄可能射からなる部分圏はマルコフ圏である。
  • Cの破棄可能かつコピー可能な射からなる部分圏はデカルト圏である。

セリンガーは20世紀(ギリギリですが)に準マルコフ圏を調べていたのですが、これは確率とは関係ありません。プログラム理論の話です。

やはりプログラム理論を話題にした、デュマ/デュヴァル/レノの論文があります。

  • Title: Cartesian effect categories are Freyd-categories
  • Authors: Jean-Guillaume Dumas, Dominique Duval, Jean-Claude Reynaud
  • Pages: 23p
  • URL: https://arxiv.org/abs/0903.3311

これについてはこのブログで話題にしたことがあります。

デュマ/デュヴァル/レノ論文に出てくる、純終対象〈pure terminal object〉、純終射〈pure terminal morphism〉(純終対象への唯一の純射)、無作用射〈effect-free morphism〉などは、準マルコフ圏〈対角付きモノイド圏〉の単位対象、準終射(セリンガーは弱終射と呼んでます)、破棄可能射と極めて類似しています。

余可換コモノイド・モダリティを持った圏、つまり準マルコフ圏は、計算とプログラムの記述と分析においても役に立ちそうです。

様々な装備圏

マルコフ圏の定義の一部に「余可換コモノイド・モダリティ」という言葉を使っています。「(圏論的な)モダリティ」はちらほら使われる言葉です。次の記事で触れています。

フォングとスピヴァックは、モダリティ概念の一部に対して非常にスッキリした定義を与えています。

フォング/スピヴァックは、モダリティではなくて "supply" という新しい言葉を使っています。「供給」はピンとこないので、「装備」と呼ぶことにします。プロアロー装備〈proarrow equippment | 2-category equipped with proarrows〉を単に装備〈equippment〉と呼ぶと衝突しますが、まーいいとしましょう。

適当な代数系(例えば余可換コモノイド)の装備〈supply〉を持ったモノイド圏を装備圏〈supplied category〉と呼びましょう。余可換コモノイド装備圏は、準マルコフ圏に他なりません。装備は自然変換とは限りませんが、余可換コモノイド装備が自然変換で与えられる装備圏がデカルト圏〈デカルト・モノイド圏〉です。

モノイド圏に装備される代数系には次のようなものが考えられます。

  1. 余可換コモノイド
  2. 可換モノイド
  3. 双可換双モノイド
  4. 可換フロベニウス・モノイド
  5. 特殊可換フロベニウス・モノイド

装備圏や装備の自然性条件を加えた圏には、既に知られた圏もあります。

  1. 準マルコフ圏 = 余可換コモノイド装備圏
  2. マルコフ圏 = 余可換コモノイド装備圏+余単位自然性
  3. デカルト圏 = 余可換コモノイド装備圏+余単位自然性+余乗法自然性
  4. 準余マルコフ圏 = 可換モノイド装備圏
  5. 余マルコフ圏 = 可換モノイド装備圏+単位自然性
  6. デカルト圏 = 可換モノイド装備圏+単位自然性+乗法自然性
  7. ハイパーグラフ圏 = 特殊可換フロベニウス・モノイド装備圏

ハイパーグラフ圏については、同じ二人組フォング/スピヴァックの次の論文を見てください。

基底を持ったベクトル空間達の圏もなんらかの装備圏のように思えます。

正則論理〈regular logic〉と対応する圏に対して装備を利用した話があります。これもフォング/スピヴァック

  • Title: Regular and relational categories: Revisiting 'Cartesian bicategories I'
  • Authors: Brendan Fong, David I Spivak
  • Pages: 31p
  • URL: https://arxiv.org/abs/1909.00069

レレバンス論理〈{relevance | relevant} logic〉と対応する圏にも装備を利用できないでしょうか?

装備を持った対称モノイド圏は、マルコフ圏の一族と言っていいでしょう。装備以外の構造としては、豊饒化〈enrichment〉、コンパクト閉構造〈コンパクト構造〉、ダガー構造などを混ぜることがあります。確率に由来する追加の公理としては、条件化可能公理〈conditionalizable axiom | 条件化可能性〉、反転可能公理〈convertible axiom | 反転可能性〉など*1があります。

マルコフ圏の一族、つまり装備を持った対称モノイド圏達は、けっこう大きな部族になるようです。

*1:条件化可能性/反転可能性は、通常ベイズの定理と呼ばれるものです。どこまでがベイズの定理なのかハッキリしないので、2つの命題に分けました。

マルコフ核と確率密度関数

確率統計の理解のために、僕がジリィモナド、マルコフ核、マルコフ圏などをおすすめするのは、見通しがよくなり、必要な概念が実は少数なことが分かるからです。少数の概念に対する膨大な呼び名(同義語、類義語、曖昧語)が無節操にとっ散らかっています。

必要な少数な概念が測度論ベースなので、そこのハードルが高いのは事実です。測度論を避ける手段として、確率測度の代わりに確率密度関数を使う方法があります。確率密度関数をベースにするアプローチには、次の制限があります。

  1. 可測空間に測度(確率測度とは限らない)を割り当てないと議論ができない。
  2. すべてのマルコフ核が、確率密度関数で表せるわけではない。
  3. 確率密度関数ベースで、圏と類似の構造を作れるが、ほんとの圏にはならない*1

学習(お勉強)の観点からの確率密度関数の問題点は、確率密度関数と確率測度を同一視する悪い癖が付いてしまうことです。特に、有限離散の場合は、関数と測度が区別できなくなります。

制限や問題点はありますが、現実に確率密度関数が必須なことはあるので、確率密度関数の説明をします。でも、「測度論を避けるために確率密度関数」という発想ではありません。測度論から見て確率密度関数を理解する方針です。なので、やっぱり測度論のハードルは存在します、あしからず。

必要に応じて「マルコフ核: 確率計算のモダンな体系」を参照してください。

内容:

パラメータ付き確率密度関数

測度空間 (X, Σ, Λ) を考えます。ここで、

  • Xは集合
  • Σは、X上のシグマ集合代数
  • Λは、可測空間 (X, Σ) 上の測度

Λは確率測度である必要はありませんが、σ-有限性とか、ある程度はいい性質を仮定します。X = (X, ΣX, ΛX) と記号の乱用をします。ΛX の下付きXはときに省略します*2

(X, ΣX, ΛX), (Y, ΣY, ΛY) が(よい性質を持つ)測度空間として、可測関数 f:X×Y→R≧0 が次を満たすときパラメータ付き確率密度関数〈parameterized probability density function〉と呼ぶことにします。

  • x∈X に対して、 {\displaystyle \int_{y\in Y}f(x, y)\Lambda(dy) = 1}

確率密度核〈probability density kernel〉と呼んだりもしますが、ここではパラメータ付き確率密度関数としておきます。名前が長すぎると思ったら、「PPDF」と略称してください。

f:X×Y→R≧0 がパラメータ付き確率密度関数のとき、fに対応するマルコフ核を次のように定義します。

  •  \mbox{For } x \in X, B\in \Sigma Y,\\ \hat{f}(B \mid x) := {\displaystyle \int_{y\in B\subseteq Y}f(y \mid x)\Lambda(dy)}

  \hat{f} が、(X, ΣX)→* (Y, ΣY) というマルコフ核になることはすぐ分かるでしょう。マルコフ核を定義する際に、Y上の測度 Λ = ΛY が必要なことに注意。

半圏PPDF

圏の公理から、恒等射の存在と単位律を除いて定義される構造を半圏〈semi-category〉といいます。測度空間とパラメータ付き確率密度関数の全体は半圏になります。その半圏をPPDFとして、以下に定義します。

  • |PPDF| = Obj(PPDF) = (よい性質を持つ(って、曖昧だけど)測度空間の全体)
  • ホムセット: PPDF((X, ΣX, ΛX), (Y, ΣY, ΛY)) := (パラメータ付き確率密度関数 f:X×Y→R≧0 の全体)

X = (X, ΣX, ΛX), Y = (Y, ΣY, ΛY) と記号の乱用をして、f∈PPDF(X, Y) であることを f:X→Y in PPDF と書きます。f:X→Y, g:Y→Z in PPDF に対して、結合は次のように定義します(\bullet が結合の反図式順記号)。

  •  \mbox{For } x\in X, z\in Z,\\ (g\bullet f)(z \mid x) := {\displaystyle \int_{y\in Y} g(z \mid y)f(y \mid x)\Lambda_{Y}(dy)}

\bullet”の結合律  h\bullet (g\bullet f) = (h\bullet g)\bullet f はフビニの定理から出ます。恒等射と単位律は考えません。

半圏PPDFを、マルコフ核の圏へ埋め込む

Sは可測空間とマルコフ核の圏で次の条件を満たすとします。

  • (X, ΣX, ΛX)∈|PPDF| ならば、(X, ΣX)∈|S|

半関手〈semi-functor〉 MK:PPDFS を定義します。半圏のあいだの半関手は、結合などの半圏の構造を保つ対応です。圏Sは半圏とみなすことができます。

  •  MK( (X, \Sigma X, \Lambda_X) ) := (X, \Sigma X)
  •  MK(f) := \hat{f}

半関手であるためには、次の等式が必要です。

  •  MK(g\bullet f) = MK(g)\odot MK(f)

同じことですが:

  •  \widehat{g\bullet f}= \hat{g}\odot \hat{f}

積分計算をしてみてください。

半関手MKの存在が、マルコフ核の代わりに密度関数を使ってもいい根拠です。しかし、すべてのマルコフ核Fに、 F = \hat{f} となるパラメータ付き確率密度関数fが存在するわけではありません*3。冒頭に述べたとおり、マルコフ核をパラメータ付き確率密度関数で代替は出来ないのです。

有限離散の場合(「有限離散マルコフ核に関する注意」参照)は、パラメータ付き確率密度関数は確率遷移行列になります。有限離散の場合のマルコフ核とパラメータ付き確率密度関数は同一視できますが、連続の場合との一貫性のためには区別したほうがいいと思います。

*1:さほど深刻な欠点ではありません。たいてい近似的な恒等射は作れるし、形式的に恒等射を追加してしまうこともできます。

*2:X = R のとき、Xの標準的な測度と言えばルベーグ測度です。ルベーグの'L'に対応するギリシャ文字が'Λ'です。

*3:ラドン/ニコディムの定理を参照。

線形代数の発展を一枚の絵にしてみた

扱う対象が、より一般的で複雑になっていきます。

*1

対象 備考
ベクトル空間 K-Vect Kは体
ベクトルバンドル K-VectBdl[X] Kは体、Xは底空間
加群 R-Mod Rは可換環
加群 Φ-Mod-Sh[X] Xは空間、Φは空間X上の可換環

モナドを使って多線形写像の圏を作る

多ベクトル空間〈poly-vector space〉と多線形写像〈poly-linear map〉の圏PLを作りましょう。テンソル計算をモダンにやりたいとき、PLが必要になります。また、PLを作る過程で、ちょっと変わったモナドが現れます。

内容:

CMLの定義

R上の*1有限次元ベクトル空間の圏をFdVectとします。FdVectの別名として一文字の名前Lも使います。

多ベクトル空間と多線形写像の圏PLの構成のために、複線形写像を射とする圏を考えます。複線形写像の全体は複圏〈multicategory〉(オペラッド〈operad〉ともいう)と考えるのが普通ですが、ここではCMLという圏として定義します。CMLは clumsy multi-linear の頭文字です。なぜ clumsy〈不格好〉かは後の定義を見れば分かります。

(有限次元の)ベクトル空間のリストを V, W のように下線を引いた文字で表すことにします。V = (V1, ..., Vm), W = (W1, ..., Wn)。リストの長さを length(V) とします。

  • length(V) = length((V1, ..., Vm)) = m

空リスト、ひとつのベクトル空間だけからなるリストも認めます。

  • length(()) = 0
  • length((V)) = 1

CMLの対象類とホムセットは次のように定義します。

  • |CML| = Obj(CML) = (ベクトル空間のリストの全体)
  • CML(V, W) は:
    • length(W) = 1, W = (W) のときは、CML(V, (W)) = (V1×...×Vm→W という複線形写像の全体)
    • 特に、length(W) = 1, V = W = (V) のときは、CML(V, W) = CML(V, V) = CML((V), (V)) = L(V, V)
    • length(W) ≠ 1 で V = W のときは、CML(V, (W)) = CML(V, V) = {idV}
    • length(W) ≠ 1 のときは、CML(V, W) = 空集合

この定義はなんだか変な感じがしませんか? きれいな圏ができるとはとうてい思えないですよね、だから clumsy です。

さて、結合の定義です。f:UV, g:VW が結合可能な射だとします。2つのケースがあります。

  1. length(V) = 1, V = (V)
  2. length(V) ≠ 1, U = V

ケース1のときは、f:U→(V), g:(V)→(W) の形です。このときの結合は、複線形写像と線形写像の結合 f;g で、複線形写像 U1×...×U→W になります。なお、length(U) = ℓ = 0 のときは、U1×...×URのことだとします。

ケース2のときは、f = idV なので、f;g = g となります。

場合分けによる clumsy な定義なので、結合律と単位律の確認が多少面倒ですが、結合律/単位律は成立しているので確かにCMLは圏になります。

CML上の線形化モナドの定義

CML上のモナドを定義します。自己関手圏のモノイドとして定義するのではなくて、クライスリ・トリプル (T, τ, (-)L) として定義します。

  • Tは、T:|CML|→|CML| というコンストラクタ。
  • τは、V∈|CML| ごとに、τV:V→T(V) in CML を割り当てるオペレータ。
  • (-)L は、f:V→T(W) in CML という形の射に、fL:T(V)→T(W) を割り当てるオペレータ。

ここで出てきた言葉「コンストラクタ/オペレータ」については、気になるなら「圏論的コンストラクタと圏論的オペレータ: 関手性・自然性の呪縛からの脱却」を参照してください。(-)L は、(モナドの)クライスリ拡張オペレータ〈Kleisli extension operator〉と呼ばれます。

(T, τ, (-)L) はモナドとしての条件(後述)を満たす必要がありますが、とりあえず3つの構成素を定義します。

まず、T:|CML|→|CML| を定義します。また場合分けです。対象 V = (V1, ..., Vm) に対して T(V) は:

  • length(V) = 0 のとき: T(V) = T(()) := (R)
  • length(V) = 1 のとき: T(V) = T((V)) := (V) (もとと変わらず)
  • length(V) = m ≧ 2 のとき: T(V) = T((V1, ..., Vm)) := (V1\otimes...\otimesVm) (すべてのベクトル空間をテンソル積したベクトル空間だけからなるリスト)

Vが何であっても、length(T(V)) = 1 になります。つまり、T(V) はリストではありますが、単一のベクトル空間を丸括弧で包んだものです。

次に、τV:V→T(V) の定義。τV は、V1×...×V1→V1\otimes...\otimesV1 という複線形写像ですが、これはテンソル積の定義から自動的に(規準的に)決まります。リストの長さが短いときは次のようです。

  • length(V) = 0, V = () のとき: τ() = idR :RR
  • length(V) = 1, V = (V) のとき: τ(V) = idV :V→V
  • length(V) = 2, V = (V1, V2) のとき: τ(V1, V2) :V1×V2→V1\otimesV2

そして、f:V→T(W) に対する fL:T(V)→T(W)を定義します。t(W) := W1\otimes...\otimesWn とすれば、T(W) = (t(W)) と書けます。fは複線形写像 f:V1×...×Vm→t(W) ですが、fL:t(V)→t(W) は複線形写像の線形化〈linearization〉とします。

以上に定義した (T, τ, (-)L) がモナドになるためには次を満たす必要があります。

  1. f:UV, g:VW に対して、(f;gL)L = (f;g)L :T(U)→T(W)
  2. V)L = idT(V) :T(V)→T(V)
  3. f:VW に対して、τV;fL = f

これは、定義と突き合わせながら確認してみてください。

以上のように定義されたモナド線形化モナド〈linearization monado〉と呼びましょう。もちろん、自己関手圏内のモノイドとしても定義できます。今回は、クライスリ・トリプルのほうが分かりやすい気がしたのです(気がしただけ)。

多ベクトル空間と多線形写像の圏

モナドがあれば、そのクライスリ圏を作れます。圏CML上の線形化モナドのクライスリ圏がPLです。|PL| = |CML| なので、PLの対象はベクトル空間のリストです。PLの対象とみなしたリストを多ベクトル空間〈poly-vector space〉と呼びます。PLの射(クライスリ射)を多線形写像〈poly-linear map〉と呼びます。

これで、多ベクトル空間と多線形写像の圏のでき上がりです。途中で使った圏CMLが奇妙で使いにくそうな圏なのに、でき上がった圏PLは驚くほど使いやすい素敵な圏です。なんか不思議だ。

具体例や応用はまたいずれ。

*1:係数体〈基礎体 | スカラー体〉は何でもかまいません。

ストリング図と因子グラフ

f:X×Y→Z という関数〈写像〉をストリング図で表すと、次のようになります。描画方向は上から下で、関数のノードは四角です。

*1

とあるコミュニティーでは、次のような図を因子グラフ〈factor graph〉と呼ぶようです。ストリング図と同様、描画方向を前もって決めて矢印を省略することもあります。

*2

丸いノードは無駄だと思うんですが、丸のなかに変数宣言を書けば:

*3

これは次の2つの情報を一度に表しています。

  1. f:X×Y→Z
  2. z = f(x, y)

二番目のほうは関数の古典的な表し方です。引数変数と戻り値変数と等号を使うこの表し方は、マズイ点(例えば、アルファ変換で破綻する)もあるのですが根強く使われています。因子グラフは、古典的な記法の図式表現ということなのでしょう。

有限離散マルコフ核に関する注意

マルコフ核: 確率計算のモダンな体系」にて:

積分記号 \int と“微分”記号  dx を使って書いてますが、離散の場合でも通用する話なので、離散の場合は和分記号〈総和記号〉 \sum と“差分”記号 \delta x または \Delta x に書き換えてください。

これを実行するときの注意を幾つか述べておきます。

内容:

有限離散確率圏

最初に、集合圏Setを可測空間の圏Measに埋め込む関手 Disc:SetMeas を定義します。

  • For A∈|Set|, Disc(A) := (A, Pow(A))

ここで、Pow(A) はAのベキ集合をシグマ集合代数とみなしたものです。(A, Pow(A)) の形の可測空間を、台集合がAである離散可測空間〈discrete measurable space〉と呼びます。任意の写像 f:A→B in Set は、離散可測空間のあいだの写像 f:Disc(A)→Disc(B) in Meas とみなせるので、Disc(f) = f と定義することで、関手 Disc:SetMeas が得られます。

有限集合の圏をFinSet、台集合が有限集合である可測空間の圏をFinMeasとします。当然に FinMeasMeas。関手DiscをFinSet上に制限した関手を同じ記号で Disc:FinSetFinMeas と書きます。

Discは埋め込み関手なので、Disc(FinSet) は FinMeas の部分圏になりますが、広い部分圏〈wide subcategory〉にはなりません。例えば、可測空間 ({1, 2}, {{}, {1, 2}}) は、Discの像(つまり離散可測空間)にはなりません。

FinMeasの“広くはない”部分圏 Disc(FinMeas) を有限離散可測空間〈finite discrete measurable space〉と呼び、FinDiscMeas := Disc(FinMeas) と置きます。

Meas上に作ったジリィ確率圏(ジリィモナドのクライスリ圏)をStockとして、対象を|FinDiscMeas|に制限したStockの充満部分圏を、FinDiscStockとします。

FinDiscStockの射はマルコフ核ですが、対象が有限離散可測空間なので、通常の行列・テンソルの計算で処理できます。行列・テンソルのサイズが小さいなら手計算も可能です。

有限離散の場合の書き方

マルコフ核とその被積分形式〈integrand form〉を同一視はしませんが、名前のオーバーロードはします。つまり:

  •  F = \lambda (x, B)\in X\times \Sigma Y. {\displaystyle \int_{y \in B\subseteq Y} F(dy \mid x)}

もう一度言います。 F = F(dy \mid x) と書いたり考えたりはしません -- 安易な同一視は事故のもと。

一般論では積分記号と被積分形式を使いますが、有限離散の場合は和分記号〈総和記号〉と被和分形式〈summand form〉を使うのが自然でしょう。

一般の場合 有限離散の場合
変数 x, y 変数  i, j
積分形式 F(dy \mid x) 被和分形式  F(\delta j \mid i)
積分形式 F(dz \mid x, y) 被和分形式  F(\delta k \mid i, j)
積分 \int_{x\in X} 和分 \sum_{i \in I}
一部分での積分 \int_{x\in A\subseteq X} 一部分での和分 \sum_{i \in A\subseteq I}

これは常識的な記号の運用ルールだと思いますが、僕は、集合(可測空間)の名前や変数名は、一般の場合も有限離散の場合も区別していません。別な名前に分けようとすると、アルファベット文字をすぐ消費してしまうので。

有限離散の場合で変更しているのは、積分記号→和文記号、d→δ だけです。

  •  F = \lambda (x, B)\in X\times \Sigma Y. {\displaystyle \sum_{y \in B\subseteq Y} F(\delta y \mid x)}

[補足]
 \delta x でδを使ってしまうと、ディラックのデルタやクロネッカーのデルタとの記号衝突が置きます。Δにすると、今度は対角射の記号と衝突します。ディラッククロネッカーのデルタも対角射もめちゃくちゃよく使うので困ります。が、どうやっても記号衝突は避けられないので、「しょうがない」と諦めるしかありません。

和分も積分の一種なので、いっそのこと有限離散を特別扱いしないで、 \int, \; dx だけで押し通すのも良いと思います。
[/補足]

点引数と事象引数

dx に対応する書き方 \delta x を使ってますが、この書き方は見かけないでしょう。しかし、マルコフ核を有限離散で考えているときは、是非使ってください。そうでないと、測度と関数の区別が付かずに混乱と誤解の原因になります。

積分形式に現れる dx の直感的解釈は無限小事象で、ほんとのところ意味不明です(とりあえずは記号的存在物と考える)。しかし、有限離散の場合の  \delta x は実体として意味付け可能です。

有限離散可測空間 (X, ΣX) において、ΣX = Pow(X) でした。単元集合〈singleton set〉の集合を Σ1X とします。例えば、X = {1, 2} のとき Σ1X = {{1}, {2}} です。 \delta x は、Σ1X 上を走る変数と解釈します。X = {1, 2} だとして:

  • 変数 x の取る値は、x = 1 または x = 2
  • 変数 δx の取る値は、δx = {1} または δx = {2}

大事なことは、点(集合の要素)と単元集合(ベキ集合の要素)を同一視しないことです。変数の運用法は:

  • 変数 x は、Xの点を表す。
  • 変数 δx は、Σ1X の要素=基本事象 を表す。
  • 変数 A は、ΣX の要素=事象 を表す。

δx の意味は無限小事象じゃなくて基本事象〈根本事象〉なので、ハッキリとした実体があります。

被和分形式  F(\delta y \mid x) では、 \delta y が基本事象引数、x が点引数です。基本事象とは限らない事象を引数に入れてもよくて、その場合は:

  •  F(B \mid x) = {\displaystyle \sum_{y \in B \subset Y} F(\delta y \mid x) }

テンソル計算の上下添字を使いたいなら、点引数を下付き、事象引数を上付きにします。

  •  F^B_x = {\displaystyle \sum_{y \in B \subset Y} F^{\delta y}_x }

チャップマン/コルモゴロフ結合は:

  •  (G\odot F)^C_x = {\displaystyle \sum_{y \in Y} G^C_y F^{\delta y}_x }

基本事象 \delta z に関してなら:

  •  (G\odot F)^{\delta z}_x = {\displaystyle \sum_{y \in Y} G^{\delta z}_y F^{\delta y}_x }

対角線位置に y と δy が出現したら和分〈総和〉するという“アインシュタインの規則”を採用するなら:

  •  (G\odot F)^{\delta z}_x =  G^{\delta z}_y F^{\delta y}_x

アインシュタインの規則は便利ですが、混乱もしますからホドホドに。

圏論的確率論におけるCタイプとAタイプ

マルコフ圏 A First Look -- 圏論的確率論の最良の定式化」にて:

比較的最近、フリッツ〈Tobias Fritz〉は、確率と統計を圏論的かつ統合的〈synthetic〉に扱うための枠組みとして、マルコフ圏〈Markov category〉を提案しています。

...[sinp]...

統合的〈synthetic〉が何を意味するかを短く説明するのは難しいので、機会があれば別な記事にします。

今日のこの記事で、統合的〈synthetic〉が何を意味するかを説明します。さらに、話題をもう少し広くして、圏論的確率論〈categorical probability theory〉を、2つのタイプに分ける話をします。

内容:

CタイプとAタイプ

一口に圏論的確率論といっても、多くの理論が発表されています。それらの categorical probability theories を、二種類に分類してみます。ひとつめは Constructive/Concrete な圏論的確率論、ふたつめは Axiomatic/Abstract な圏論的確率論です。前者をCタイプの圏論的確率論、後者をAタイプの圏論的確率論と呼ぶことにします。

Cタイプの圏論的確率論では、具体的に構成された確率的圏〈stochastic category〉を相手にして理論を展開します。確率的圏が何であるか、厳密な定義はありません。今までに提案された幾つかの圏を総称して確率的な圏と呼んでいるだけです。

誰かが新しく圏を定義したとき、それが確率的圏かどうかを判断する正確な基準はありません。が、ゆるい合意はあります。確率的圏の作り方には処方箋があって; 可測空間の圏(これにも色々ある)上にジリィモナドを構成し、そのジリィモナドのクライスリ圏が確率的圏です。場合により、部分圏をとることもあります。そうやって作った確率的圏の実例を挙げましょう。

可測空間の圏 確率的圏
Meas Stock
SBorel SBorelStock
CGMeas CGStock
FinMeas FinStock

他にも確率的圏はありますが、この4つがよく出てくる確率的圏です。Stockは、ジリィ自身が定義したオリジナルの確率的圏です。現在知られているほとんどの確率的圏は、Stockに部分圏として埋め込めます*1。大ざっぱで多少不正確ですが、Stockの部分圏が確率的圏だと言ってもいいでしょう、だいたいは。

もう一方のAタイプの圏論的確率論では、具体的な圏達が主題ではありません。先ほど「確率的圏が何であるか、厳密な定義はありません。」と言いましたが、確率的圏の厳密な定義を与えることがAタイプの圏論的確率論の目標(のひとつ)になります。「マルコフ圏 A First Look -- 圏論的確率論の最良の定式化」で紹介したマルコフ圏は、確率的圏の厳密な定義への第一歩と言えるでしょう。最終的には、「確率的圏とは、コレコレこういう性質を持つ(公理を満たす)圏だ」と規定したいのですが、おそらく「確率的圏とは、マルコフ圏であり、それに加えてコレコレこういう性質を持つ(公理を満たす)圏だ」となるでしょう。

Aタイプの圏論的確率論は、ゴルブツォフが1990年代に先鞭をつけたとはいえ、まだ新しく、理論自体も応用もまだこれからです。現時点の状況は、フリッツの論説でだいたい押さえることができます。

測度論との関わり

フリッツのキャッチフレーズ"probability theory without measure theory"〈測度論なしの確率論〉は、Aタイプの圏論的確率論の特徴を端的に表現しています。確率的圏(の候補)は、圏論の言葉だけで定義されます。例えば、マルコフ圏Cは次のように定義されます。

  1. Cは対称モノイド圏である。
  2. Cのモノイド単位対象は終対象になっている。
  3. Cには、余可換コモノイド・モダリティ*2が備わっている。

これらの特徴は、代数的な(等式的な)公理系で記述されます。測度論は一切出てきません。驚くことに、"almost surely"のような測度論固有と思われる概念も等式的に定義しています。

Cタイプの確率的圏論では、ベースとなる圏が可測空間の圏です。ジリィモナドは、“確率測度全体の空間”により定義されます。測度論なしでは何もできません。しかも、だいぶ難しい測度論が必要です。“確率測度の全体の空間上に載る確率測度”のような高階の測度論的概念や、測度の disintegration〈崩壊? 脱積分? よく分からない〉のようなあまり聞いたことがない概念も出てきます。

Aタイプの確率的圏論でも、具体例では測度論を使います。具体例はCタイプで定義されるものですから。また、公理的に定義した圏が存在することを示すには、具体例を構成せざるを得ません。構成の過程では、難しい測度論的議論をするかも知れません。Cタイプの圏論的確率論により実例が担保されない限り、Aタイプの理論は虚しい理論になってしまいます。

統合的 vs. 分析的

今までの話をまとめると次のようになります。

Aタイプ Cタイプ
公理的(A) 構成的(C)
抽象的(A) 具象的(C)
代数(A)ベース 測度論(Mだった)ベース

代数ベースとは代数演算を含む等式的計算が主体ということです。実際には、テキスト等式ではなくてストリング図と絵算が使われます。測度論ベースでは、積分計算が主体になります。

フリッツは、Aタイプのアプローチを統合的〈synthetic〉とも呼んでいます。分析的〈analytic〉の対義語ですね。個別の対象物を分析するよりは、対象物全体の特徴を俯瞰的に捉えようとするアプローチだからです。そしておそらく、"analytic"を解析的と解釈して対義語でもあるのでしょう -- 測度論・積分論は解析に含まれますから。統合的アプローチは解析学を使わないのです。

ところで、統合確率論〈synthetic probability theory〉を標榜している人が(フリッツ以外に)もう一人います。シンプソン〈Alex Simpson〉です。シンプソンの名前は何度か出したことがあります。

シンプソンはあまり論文を書かない人で、統合確率論に関して口頭発表のスライドしかありません。

フリッツとは違って、トポスを使ったアプローチのようです。おそらく、以前からシンプソンが言っている確率層〈probability sheaf〉をモデルにした層トポスを扱うのでしょう。スライドだけ見ても謎ですけど。

僕のタイプはAタイプ

Cタイプの圏論的確率論が対象とする圏はほんとにイッパイあります。可測空間の圏や可測空間類似物の圏が色々あり、ジリィモノイドの変種もイッパイあります。あんな圏やこんな圏を渡り歩いたり比べてみたりと、博物学・地理学的な様相を呈します。

博物学・地理学は苦手だなー。他にも、Aタイプの圏論的確率論には僕の苦手なものが現れます。

  1. 博物学・地理学的な記憶力がない。
  2. 測度論は難しいし、積分計算は苦手。
  3. 有限離散の場合の算術的・組み合わせ的計算も苦手。

一方:

  1. 公理的アプローチには割と慣れている。
  2. ストリング図と絵算は好き。
  3. 手っ取り早く応用したいなら、むしろ公理的・代数的なほうがありがたい。

というわけで、檜山はAタイプ指向〈志向 | 嗜好〉です。

*1:例外もあって、準ボレル空間の圏上に作った確率的圏であるQBorelStockStockを含むより大きな圏のようです。"A Convenient Category for Higher-Order Probability Theory"参照。

*2:最近、フォング〈Brendan Fong〉とスピヴァック〈David I. Spivak〉は、モダリティをサプライという名で再定義しています。"Supplying bells and whistles in symmetric monoidal categories"参照。

マルコフ核: 確率計算のモダンな体系

この記事は、5年前(2015-06-04)に書いた次の記事を再整理・敷衍したものです。もとの過去記事を参照する必要はありません*1

まず、「マルコフ核」の同義語が山のように(少なくとも20個は)あることは、次の記事を参照:

同義語が何十個もあるということは、歴史的に何度も再発見・再認識されていることを示唆します。それだけ重要な概念なのです。にも関わらず、今でも名前はバラバラのままで、まとまった情報源も少ないようです。

確率の計算は、離散の場合も連続の場合も、マルコフ核の計算だと言えます。マルコフ核の計算が出来れば、たいてい間に合います。すげー便利よ、マルコフ核。

この記事は、マルコフ核のちゃんとした解説ではなくて、チートシート、公式集という位置付けです。短い節から構成されるので目次は長いですが、それに比べて全体の分量は少ないです(ブログ記事としては長いけど) -- 説明が雑だからね。現時点〈2020-06-24〉では書き残しがあります、「To Be Described」参照。

積分記号 \int と“微分”記号  dx を使って書いてますが、離散の場合でも通用する話なので、離散の場合は和分記号〈総和記号〉 \sum と“差分”記号 \delta x または \Delta x *2に書き換えてください。

使っている文字修飾の凡例:

  • 重要語: 定義した用語、または定義はしてないが初出の重要語
  • 既出の語: 既に定義している、または出現している用語 (この修飾の使用は全然徹底してなくてイイカゲンです。後で見直したい。)
  • 強調: その他の強調

内容:

予備知識

測度論的積分の知識が必要です。が、定義と概念をザッと知ってるくらいでも大丈夫です。この節で言葉と記法の確認をしますが、定義はだいたい省略してます。この「予備知識」節に書いてあることを知らないとマルコフ核の計算ができないわけではありません。より詳しいことは、必要に応じて、Wikipediaや次のようなサイトを手がかりに調べることができます。

可測空間と可測写像

可測空間〈measurable space〉は (X, ΣX) のように書きます。Xは台集合〈uderlying set〉で、ΣXシグマ集合代数sigma algebra of subsets〉です。記号の乱用で X = (X, ΣX) とも書きます。X が可測空間なのか、それとも台集合なのかは文脈で判断してください。Xのシグマ集合代数 ΣX を、Σ(X) または ΣX とも書きます*3

ΣX の要素は可測集合〈measurable {set | subset}〉ですが、事象〈event〉とも呼びます。「事象とはなんぞや」とか考え込まないで、単に可測集合(ΣX の要素)の同義語だと割り切りましょう。いつでも「事象←→可測集合」と交換可能〈interchangeable〉です*4

可測空間と可測写像〈measurable map〉の圏をMeasと書きます。Measには、扱いにくい可測空間も含まれるので、“たちの良い”可測空間だけに制限しましょう。たちの良い可測空間の圏として、次の2つが考えられます(他にもあるかも知れないが*5)。

  1. 標準ボレル空間〈standard Borel spaces〉と可測写像の圏 SBorel
  2. 可算生成可測空間〈countably generated measurable spaces〉と可測写像の圏 CGMeas

この記事では、Measを使うことはなく、SBorelCGMeasのどちらかを使います。以下、Mは、SBorelCGMeasのどちらかを表す記号とします -- Mは変数記号ですが、任意の圏を表すわけではありません。

有界可測関数環/半環

R(可測空間とみなす)に値を持つ可測関数 f:X→R in M有界(絶対値が有界)なもの全体からなる集合を Φ(X) とします。Φ(X) を L(X) と書く人もいますが、Lp記法は p = ∞ 以外では意味がない(Xに標準測度が載ってない)ので、ここでは L(X) は使いません。

Rが持っている順序と代数演算から、Φ(X) も順序可換環の構造を持ちます。Φ(X) は、(必要に応じて)順序可換環とみなすことにします。また、最大値ノルムを取れるので、(必要に応じて)可換ノルム環ともみなします*6。適宜、必要となった構造を付与したΦ(X)を有界可測関数環〈bounded measurable function ring〉と呼ぶことにします(ちょっと曖昧な言葉です)。Φ(X) を ΦX とも書きます。

f∈ΦX で、∀x∈X.(0 ≦ f(x)) を満たすもの全体を Φ≧0(X) = Φ≧0X と書きます。Φ≧0(X) はR上のベクトル空間にはなりませんが、ベクトル錐〈vector cone〉にはなります。順序可換半環R≧0を係数半環とする可換半環構造を持ちます。

適当な構造を付与したΦ≧0(X)を非負値有界可測関数半環〈non-negative-valued bounded measurable function semiring〉と呼ぶことにします。今回は、だいたいΦXを使ってますが、ΦXよりΦ≧0Xを考えたほうが相応しい状況もあります。

ファジー述語代数

f∈ΦX で、∀x∈X.(0 ≦ f(x) ≦ 1) を満たすもの全体を Φ[0, 1](X) = Φ[0, 1]X と書きます。Φ[0, 1]X の要素をファジー述語〈fuzzy predicate〉と呼びます。

ファジー述語の集合 Φ[0, 1]X では、掛け算と部分演算としての足し算以外に、∧(小さいほう), ∨(大きいほう), ¬(1との差)により論理演算を導入できます。

Φ[0, 1]X は、効果代数effect algebra〉の構造も持ちます。が、効果代数の標準的な記法では、∨ が制限された足し算(部分演算)なので、記号の意味・運用には注意してください。今回は、効果代数に関する議論は出てきません、紹介しただけ。

論理代数、または効果代数としての構造を備えた Φ[0, 1]X をファジー述語代数〈fuzzy predicate algebra〉と呼ぶことにします。これも、代数構造をハッキリとは指定してないので曖昧な言葉です(ファジーだけに -- って、違うわい)。

値が0か1に限られる(中間の値を取らない)ファジー述語を{決定性 | シャープ | クリスプ}述語〈{deterministic | sharp | crisp} predicate〉と呼びます。古典論理で使っている述語はこのタイプの述語です。決定性述語の全体を Φ{0, 1}X と書きます。下付きの [0, 1] と {0, 1} は判読しにくいのでご注意(別な記法にしろってハナシはある)。

指示関数=指示述語

A∈ΣX に対して、χA:X→R指示関数〈indicator function | characteristic function | 特性関数〉とします(文字'χ'はギリシャ文字カイ)。確率論では、別な意味の特性関数があるので、「指示関数」のほうを使いましょう。χA を χ[A] とも書きます。

(A \mapsto χ[A]) は、ΣX→ΦX という写像を定義しますが、χ[A] の値は0か1なので、決定性述語です。したがって、χ:ΣX→Φ{0, 1}X とみなせます。指示関数は指示述語〈indicator predicate〉でもあります。「事象は決定性述語なり」と言えます。

ラムダ記法

ラムダ計算/ラムダ記法〈lambda calculus / lambda notation〉については、このブログ内にいっぱい記事がありますが、例えば、次の記事から幾つか参照されています。

ここで使うことは; 写像 f:X→Y in Set に対して次のように書けることです。

  • f = λx∈X.f(x)

二変数〈ニ引数〉関数 f:X×Y→Z in Set ならば、次のように書けます。

  • f = λ(x, y)∈X×Y.f(x, y)

変数を含む(含まなくてもいいのだけど)式 E から λx∈X.E のような“関数を表す式”を作ることをラムダ抽象〈lambda abstraction〉といいます。

カリー化、反カリー化

f:X×Y→Z in Set に対して、X∋x \mapsto λy∈Y.f(x, y) で定義される関数〈写像〉をfのカリー化〈currying〉と呼びます*7。fのカリー化のプロファイル(域と余域)は X→[Y→Z] です。ここで、[Y→Z] は Set(Y, Z) をSetの対象(つまり集合)とみなしたものです*8

f:X×Y→Z のカリー化を f:X→[Y→Z] と書きます。f と書くこともあります。ハット()もキャップ()も帽子なので、「カリー化は帽子をかぶる」と憶えましょう。帽子は頭にかぶるので上付きです。

g:X→[Y→Z] に対して、λ(x, y)∈X×Y.g(x)(y) で定義される X×Y→Z という関数〈写像〉を、gの反カリー化〈uncurrying〉と呼びます。gの反カリー化は g または g と書きます。「反カリー化は帽子を脱ぐ」と憶えましょう。脱いだ帽子は逆さまにして足元に置きます。

カリー化/反カリー化の操作それ自体は、Curry:[X×Y→Z]→[X→[Y→Z]], Uncurry:[X→[Y→Z]]→[X×Y→Z] という関数になります*9。カリー化と反カリー化は互いに逆な関数です。つまり、(f) = f, (g) = g *10

SetではなくてMでも同様にカリー化/反カリー化を定義できます。ただし、[X→Y] が可測空間になる必要がありますが、いつでもうまく [X→Y] が作れるとは限りません*11。うまくいく範囲でやりくりします。

書字順記法と反書字順記法

射の結合の書き方には、図式順記法(例えば f;g)と反図式順記法(例えば g\circf)があります。引数渡しも同じく図式順記法(例えば x.f)と反図式順記法(例えば f(x))があります。

複数の引数を渡すときは、引数達をリストにしますが、引数の順番を書いたまま(左から右)に解釈する場合は書字順記法〈script order notation〉、書いた順と逆順(右から左)に見る場合は反書字順記法〈anti-script order notation〉と呼ぶことにします。

反書字順記法には、引数区切り記号に縦棒を使うことにします。例えば:

  • f(y | x) = f(x, y)
  • g(z | y | x) = g(x, y, z)

書字順記法と反書字順記法を混ぜることもあります。

  • f(z | x, y) = f((x, y), z)
  • g(y, z | x) = g(x, (y, z))
ジリィ関手

X∈|M| に対して、Giry(X) = {P | PはX上の確率測度} と定義します。確率測度〈probability measure〉とは、P(X) = 1 である測度です。

可測写像 f:X→Y in M に対して、Giry(f):Giry(X)→Giry(Y) を次のように定義します。

  • For given P∈Giry(X), Giry(f)(P) := λB∈ΣY.P(f-1(B))

ここで、'λ'はラムダ計算のラムダで、f-1 は(逆写像ではなくて!)逆像です。

Giryは、とりあえず MSet という関手になります。がんばってゴニョゴニョすると、Giry(X)に可測空間の構造を入れられるので、Giry:MM という自己関手とみなせます。この自己関手をジリィ関手〈Giry functor〉と呼びます。

ジリィ関手は、ジリィモナド〈Giry monad〉の台関手〈underlying functor〉ですが、今回、そのことは気にしなくていいです。

記号のだいたいの約束

  • X, Y, Z など: 可測空間
  • f, g, h など: 可測写像
  • A, B, C など: 事象〈可測集合〉
  • F, G, H など: マルコフ核
  • P, Q, R など: ランダム要素〈確率測度〉
  • φ, ψ, ρ など: 実数値、または非負実数値有界可測関数
  • α, β, γ など: ファジー述語(今回使ってないな)
  • M : 可測空間と可測写像の圏、M = SBorel または M = CGMeas
  • S : 可測空間とマルコフ核の圏、S = SBorelStock または S = CGMeasStock

マルコフ核の定義

マルコフ核の直感的な意味は、「分布から拡散へ: ミシェル・ジリィを巡って // 分布を寄せ集めると」で説明しています。拡散する粒子に例えています。以下にフォーマルな定義。

X, Y∈|M| として、XからYへのマルコフ核〈Markov kernel from X to Y〉とは、F:X×ΣY→[0, 1] という写像で、次を満たすものです。

  1. x∈X を固定すると、ΣY∋B \mapsto F(x, B)∈[0, 1] は、Y上の確率測度になる。
  2. B∈ΣY を固定すると、X∋x \mapsto F(x, B)∈[0, 1] は、X→[0, 1] の可測写像になる。

FがXからYへのマルコフ核のとき、F:X →* Y と書きます。ただし、後でマルコフ核は圏MStockSBorelStockまたはCGMeasStock)の射だとわかるので、F:X→Y in MStock普通の矢印で書かれることも多いです。この記事では、なるべく「→*」を使います。

マルコフ核の一番目の条件から、マルコフ核Fをカリー化すると、F:X→Giry(Y) という写像になります。二番目の条件を考慮すると、Fは、可測構造を備えたGiry(Y)への可測写像になります。つまり、

  • F:X→Giry(Y) in M

マルコフ核のラムダ記法表示

ラムダ記法の一般的規則から、マルコフ核を次のように書けます。

  • F = λ(x, B)∈X×ΣY.F(x, B) : X×ΣY→[0, 1]

Fのカリー化は次のようです。

  • F = λx∈X.λB∈ΣY.F(x, B) : X→Giry(Y)

xとBという2つの引数渡しを反書字順記法で書くと:

  • F = λ(x, B)∈X×ΣY.F(B | x) : X×ΣY→[0, 1]
  • F = λx∈X.λB∈ΣY.F(B | x) : X→Giry(Y)

xとBの順番はどうであれ:

  • xをマルコフ核の点引数〈point argument〉と呼びます。(xは空間Xの点だから。)
  • Bをマルコフ核の事象引数〈event argument〉と呼びます。(Bは空間Y上の事象だから。)

マルコフ核は、域側の点引数と余域側の事象引数を持ちます。

積分表示と被積分形式

マルコフ核 F:X →* Y の、x∈X, B∈ΣY に対する値 F(x, B) = F(B | x) = F(x)(B) を次のように積分表示〈integral representation〉します。

{\displaystyle
F(B | x) = \int_{y\in B \subseteq Y} F(dy | x) = \int_{y\in Y} \chi[B](y)F(dy | x)
}

F(dy | x) を、マルコフ核Fの積分形式〈integrand form〉と呼ぶことにします。もともと「マルコフ核」の「核」は積分核に由来しますが、現在のオフィシャルな定義は既に述べたとおりです。よって、「マルコフ核の積分核」でも意味的には問題ないのですが、同語反復の印象があるので、「被積分形式」とします。

積分形式に出てくる“微分”dy は、直感的には無限小事象を表します。ある範囲の無限小事象に渡って無限小量が積分されて有限量が出てくるわけです。

積分記号/積分表示は、F(B | x) に対する単なる便宜的な記法ではなく、Y上の関数 1 (値が1な定数関数)や χ[B] を、Y上の測度 F(- | x) によりほんとに積分しています。

ラムダ記法積分表示を組み合わせると次のようになります。


{\displaystyle
F = \lambda\,(x, B)\in X\times\Sigma Y.\int_{y\in B \subseteq Y} F(dy | x)
}\\{\displaystyle
F^\wedge = \lambda\, x\in X.\lambda\, B \in \Sigma Y.\int_{y\in B \subseteq Y} F(dy | x) \\
}

積分記号とラムダ抽象を外した裸の被積分形式 F(dy|x) を、マルコフ核Fと同一視することもありますが、安易な同一視は混乱のもとなので当面はやめたほうがいいです(慣れたらやってもいいけど*12)。

ランダム要素

集合 1 = {0} に対して、Σ1 = {{}, {0}} とした可測空間 (1, Σ1) を再び1と書きます(記号の乱用)。1からXへのマルコフ核を、Xのランダム要素〈random element〉と呼びます。

ランダム要素はランダム点〈random point〉とも呼びます。Xがベクトル空間なら、Xのランダム要素はランダム・ベクトル、Xが関数の集合なら、Xのランダム要素はランダム関数です。ただし、ランダム関数〈ランダム写像〉はランダム性を持つ関数、つまりマルコフ核の意味で使われる可能性があります、要注意。

マルコフ核の定義から、1からXへのマルコフ核Pは、ΣX∋A \mapsto P(A|0) で決まります。P(A|0) を単に P(A) と書けば、マルコフ核PはX上の確率測度と同一視できます。この同一視により、次は同義語になります。

  1. Xのランダム要素
  2. X上の{確率的}?状態(「ベイズ確率論、ジェイコブス達の新しい風」参照)
  3. X上の確率測度
  4. X上の確率分布
  5. Xを台可測空間〈underlying measurable space〉とする確率空間

意味不明な語「確率変数」(「「確率変数」と言うのはやめよう」参照)も、しばしばランダム要素の意味で使われます。

ランダム要素の事象への所属度

a∈X と A⊆X に対して、命題(単なる文でホントかどうかはわからない)"a∈A" の真偽値を 〚a∈A〛 と書くことにします。

  • 実際に a∈A ならば、〚a∈A〛 = 1
  • そうでないならば、〚a∈A〛 = 0

通常の要素 a に対する所属度は0か1の二値ですが、ランダム要素の所属度〈membership value〉は中間の値をとります。次のように定義します。

  • 〚P∈A〛 := P(A)

F:X →* Y がマルコフ核のとき、F(x) はYのランダム要素〈確率測度〉なので、〚F(x)∈B〛 = F(B|x) と書けます。

  • F(B|-) = λx∈X.〚F(x)∈B〛

から、Bを固定してxを動かした関数 F(B|-) は、値であるランダム要素 F(x) のBへの所属度を表すX上のファジー述語になります。

「ランダム要素Pの事象Aへの所属度」と「事象Aの確率測度Pによる確率」は同じことです。言い回しが違うだけです。

ディラック測度

a∈X に対して、ディラック測度Dirac measure〉 δa は次のように定義します。

  • For given A∈ΣX, δa(A) := (if a∈A then 1 else 0)

δaは、X上のランダム要素〈確率測度〉になります。δaは、ランダム要素のなかで特殊なもの、すなわち{決定性 | シャープ}ランダム要素〈{deterministic | sharp} random element〉です。「決定性ランダム」は、語感としては矛盾した形容詞ですが、定義の上からは何も矛盾していません。

ランダム要素としての δa の事象への所属度は、単なる要素 a の所属度に一致します。

  • 〚δa∈A〛 = 〚a∈A〛

言い方を換えれば:

  • δa(A) = 1 ⇔ a∈A

ディラック測度 δa を δ[a] とも書きます。下付き添字とブラケット引数は同義とみなす場合が多いです(χA と χ[A] もそう)。

実数値関数 φ∈ΦX のディラック測度による積分は次のようになります。


{\displaystyle \int_{x\in X} \phi(x) (\delta[a](dx)) = \phi(a) }

これは、測度による関数の積分の定義から出ますが、見てナルホドと思えればOK。

ディラック測度と指示関数のあいだに次の関係があります。


{\displaystyle \int_{t\in A\subseteq X} \delta[x] (dt) = \chi[A](x) }

チャップマン/コルモゴロフ結合

マルコフ核に関する最も重要な概念はチャップマン/コルモゴロフ結合です。F:X →* Y, G:Y →* Z が2つのマルコフ核のとき、新しいマルコフ核 G\odotF:X →* Z を作る演算(反図式順中置演算子記号を \odot とした)がチャップマン/コルモゴロフ結合です。

FとGのチャップマン/コルモゴロフ結合〈Chapman-Kolmogorov composition〉 G\odotF は、積分表示により次のように書けます。


\mbox{For given }x\in X, C\in \Sigma Z, \\
\:\: (G\odot F)(C|x) :=
{\displaystyle \int_{y\in Y} G(C | y)F(dy | x) }

定義の右辺の積分は通常の積分です。例えば、 \psi(y) := G(C|y) ,\; Q(dy) := F(dy|x) と置くと、マルコフ核の条件から、ψは可測関数(ファジー述語)、Qは確率測度になります。定義の右辺は次の積分です。

\:\: {\displaystyle \int_{y\in Y} \psi(y)Q(dy) }

チャップマン/コルモゴロフ結合を定義する等式をチャップマン/コルモゴロフ方程式〈Chapman-Kolmogorov equation〉と呼びます*13

可測空間Xに対してマルコフ核 IdX:X →* X を、被積分形式 δ[x](dt) で定義します。


\mbox{For given }x\in X, A\in \Sigma X, \\
\:\: \mathrm{Id}_X(A|x) :=
{\displaystyle \int_{t\in A\subseteq X} \delta[x](dt) } =
{\displaystyle \int_{t\in X} (\chi[A](t)) (\delta[x](dt)) }

チャップマン/コルモゴロフ結合とIdに関して次が成立します。

  1.  F \odot \mathrm{Id}_X = F
  2.  \mathrm{Id}_Y \odot F = F

これは、チャップマン/コルモゴロフ結合の定義とディラック測度の性質から直ちに示せます(練習問題)。

チャップマン/コルモゴロフ結合の結合律  H\odot (G\odot F) = (H\odot G)\odot F は後で話題にしますが、結論を言えば成立します。結局、マルコフ核を射とする圏が構成できます。その圏をSとすると:

  1. |S| = |M|
  2. Sの射はマルコフ核
  3. dom(F:X →* Y) = X, cod(F:X →* Y) = Y
  4. Xの恒等射は IdX:X →* X
  5. Sの結合はチャップマン/コルモゴロフ結合

SMM = SBorel または M = CGMeas)から決まるので MStock とも書きます(S = SBorelStock または S = CGMeasStock*14)。

デルタ関手

f:X→Y in M を可測写像とします。fに対応するマルコフ核 δ[f]:X →* Y を次のように定義します。


\mbox{For given }x\in X, B\in \Sigma Y, \\
\:\: \delta[f](B | x) := \delta[f(x)](B)

δ[f] を定義するために、Y上のディラック測度 δ[f(x)]:ΣY→[0, 1] を使っています。

f:X→Y, g:Y→Z in M に関して次が成立します(練習問題)。

  1.  \delta[g\circ f] = \delta[g]\odot \delta[f]
  2.  \delta[\mathrm{id}_X] = \mathrm{Id}_X

これは、δが圏Mから圏Sへの関手であることです。関手としてのδをデルタ関手〈Delta functor〉と呼ぶことにします。

デルタ関手 δ:MS により、MSに埋め込まれます。F = δ[f] と書けるマルコフ核Fを、{決定性 | シャープ}マルコフ核〈{deterministic | sharp} Markov kernel〉と呼びます。

暗黙のデルタ

デルタ関手 δ:MS は、対象を変えない〈identity-on-objects〉忠実関手です。δによる像圏を δ(M) = δM とします。δMSの広い部分圏〈wide subcategory〉になります。

しばしば、MとδMを同一視します。その場合、Mの射(可測写像) f:X→Y をSの射(マルコフ核) f:X →* Y とみなします。このときは、fを包む δ[-] が省略されている、あるいは暗黙のデルタ〈implicit delta〉があると考えられます。

  • 例: f\odotg は、δ[f\circg] = δ[f]\odotδ[g] のδが省略されている。
  • 例: f\odotP は、δ[f]\odotP のδが省略されている。

別な考え方として、最初から MS と定義します。部分圏としてのMを特定する〈分出する〉条件は後述のシャープネス定理で与えられます。最初から MS とするなら、暗黙のデルタという略記法や概念はありません。

ペアリング記法

X上の測度で、どんな可測集合 A⊆ Xに対しても L(A) < ∞ である測度を有界測度有限測度 | finite measure〉といいます。P(A) := L(A)/L(X) とすると確率測度Pが得られる*15ので、有界測度は確率測度と大差ありません。X上の有界測度の全体を Π(X) とします。

非負実数値有界可測関数 φ∈Φ≧0(X) と任意の有界測度(確率測度でなくてもよい)L ∈Π(X) に対して、関数φの測度Lによる積分\newcommand{\la}{\langle}\newcommand{\ra}{\rangle} \la \phi \mid L\ra_X と書きます。


{\displaystyle \la \phi \mid L\ra_X = \int_{x\in X}\phi(x)L(dx) }

この書き方の縦棒は、半書字順記法の縦棒とは何の関係もありません。スカラー積を表す伝統的記法です。用語・記号の衝突は避けられないことです。

 \la \mbox{-} \mid \mbox{-} \ra_X : \Phi_{\ge 0}(X)\times \Pi(X) \to {\bf R}_{\ge 0} は、2つの引数を持ちますが、R≧0係数で双線形(半双線形というのが正確)になります。測度の足し算や非負実数倍が許されるのは、右側引数を確率測度に限定してないからです。

確率測度の制限を外した場合の積分を、 \la \mbox{-} \mid \mbox{-} \ra_X を使って書く記法をペアリング記法〈pairing notation〉と呼びます。もちろん、右側引数に確率測度を入れてもかまいません。

ペアリング記法を使うと、積分に関する命題が見やすくコンパクトに記述できます。

測度の前送り -- 写像の場合

X上の有界測度(確率測度に限らない)L∈Π(X) と、可測写像 f:X→Y in M に対して、Lのfによる前送り〈pushforward〉f*(L) を、次のように定義します。


\mbox{For }B\in \Sigma Y, \\
\:\: f_\ast(L)(B) := (f_\ast L)(B) := L(f^{-1}(B))

なお、逆写像と逆像を区別したいときは、 f^\dashv TeX で "f^\dashv")と書くのがおすすめです。

X上の確率測度 P の場合、確率測度とマルコフ核(ランダム要素) 1 →* X を同一視した場合に次が成立します。

  •  f_\ast(P) = \delta[f]\odot P

暗黙のデルタを使えば:

  •  f_\ast(P) = f\odot P

fによる前送りは、チャップマン/コルモゴロフ結合に関するfの後結合〈post-composition〉操作です。

関数の引き戻し -- 写像の場合

Y上の非負実数値有界関数ψと、可測写像 f:X→Y in M に対して、ψのfによる引き戻し〈pullback〉f*(ψ) を、次のように定義します。


\mbox{For }x\in X, \\
\:\: f^\ast(\psi)(x) = (f^\ast \psi)(x) := \psi(f(x)) = (\psi\circ f)(x)

fによる引き戻しは、写像の結合に関するfの前結合〈pre-composition〉操作です。

随伴公式 -- 写像の場合

可測写像 f:X→Y in M による“測度の前送り”と“関数の引き戻し”のあいだには次の関係があります。


\la f^\ast \psi \mid L \ra_X = \la \psi \mid f_\ast L \ra_Y

これは、“測度の前送り”f* と“関数の引き戻し”f* が、ペアリングに関して随伴になっていることを主張しています。なのでこれを随伴公式〈adjunction formula〉と呼びます*16

積分記号を使って書けば:


{\displaystyle \int_{x\in X} \psi(f(x)) L(dx) = \int_{y\in Y} \psi(y) (f_\ast L)(dy) }

こう書くと、積分の変数変換公式〈change-of-variable formula〉です。証明は積分論の教科書を参照。

測度の前送り -- マルコフ核の場合

X上の有界測度(確率測度に限らない)Lと、マルコフ核 F:X →* Y in S に対して、LのFによる前送り〈pushforward〉f*(L) を、次のように定義します。

  •  F_\ast(L) := F \odot L

チャップマン/コルモゴロフ結合 \odot は、確率測度以外でも定義可能です。積分を使って書けば:


\mbox{For }B\in \Sigma Y, \\
\:\: F_\ast(L)(B) :=
{\displaystyle \int_{x\in X} F(B | x)L(dx)}

これは、F = δ[f] の場合と形式上は同じ定義で、Fによる前送りは、チャップマン/コルモゴロフ結合に関するFの後結合〈post-composition〉操作です。

実は、マルコフ核(値が確率測度)でなくても、一般的な測度的積分核でも前送り/引き戻し/随伴公式は定義/証明可能です。が、ここではマルコフ核について記述します*17

関数の引き戻し -- マルコフ核の場合

Y上の非負実数値有界関数 ψ∈Φ≧0(X) と、マルコフ核 F:X →* Y in S に対して、ψのFによる引き戻し〈pullback〉F*(ψ) を、次のように定義します。


\mbox{For }x\in X, \\
\:\: F^\ast(\psi)(x) := {\displaystyle \int_{y\in Y} \psi(y) F(dy|x) }

随伴公式 -- マルコフ核の場合

マルコフ核 F:X →* Y in S による“測度の前送り”と“関数の引き戻し”のあいだには次の関係があります。


\la F^\ast \psi \mid L \ra_X = \la \psi \mid F_\ast L \ra_Y

これは、“測度の前送り”F* と“関数の引き戻し”F* が、ペアリングに関して随伴になっていることを主張しています。なのでこれを随伴公式〈adjunction formula〉と呼びます。

積分記号を使って書けば:


{\displaystyle
\int_{x\in X} \left(\int_{y\in Y} \psi(y)F(dy|x) \right)L(dx)
=
\int_{y\in Y} \psi(y) \left(\int_{x\in X} F(dy|x)L(dx) \right)
}

式の形の上では自明に見えますが、等式の厳密な証明には測度論的議論が必要です。

F = δ[f] と置くと、写像の場合の随伴公式が出てきます(練習問題)。

テンソル

テンソル積についてまず言いたいことは「テンソル積を使え」です。例えば、可測空間とマルコフ核のテンソル積をちゃんと使えば、IID〈 independent and identically distributed〉な確率変数列のようなワケのわからない技工は不要になります。

可測空間 (X, ΣX) と (Y, ΣY) のテンソルtensor product〉は (X×Y, ΣX\otimesΣY) と書きます。シグマ集合代数 ΣX\otimesΣY は、集合 X×Y 上のシグマ集合代数で、A∈ΣX, B∈ΣY に対する A×B⊆X×Y をすべて含む最小のシグマ集合代数です。

X = (X, ΣX), Y = (Y, ΣY) と記号の乱用をするとして、XとYのテンソル積はどう書くべきでしょうか?

  1. X×Y = (X×Y, ΣX\otimesΣY)
  2. X\otimesY = (X×Y, ΣX\otimesΣY)

以前は一番の書き方してましたが、最近は二番のほうがしっくり来ます。好みの問題ですけどね。いずれにしても、Σ(X×Y) = ΣX\otimesΣY または Σ(X\otimesY) = ΣX\otimesΣY が成立します。

次に、2つのマルコフ核 F:X→* Y, G:Z→* W in Sテンソルを定義します。F\otimesG:X\otimesZ→* Y\otimesW in S となります。最初の定義に戻って、

  • F\otimesG:(X×Z)×Σ(Y\otimesW)→R≧0

の形で定義します。Σ(Y\otimesW) = ΣY\otimesΣW は、B×D⊆Y×W where B∈ΣY, D∈ΣW で生成されるので、生成元での値だけ定義すれば十分です。その定義は:

  • F\otimesG((x, z), B×D) := F(x, B)G(z, D)

これを、習慣により次のようにも書きます。

  • F\otimesG(B, D | x, z) := F(B | x)G(D | z)

積分形式による表現は:

  •  (F\otimes G)( (x, z), dy \times dw) := F(x, dy)G(z, dw)
  •  (F\otimes G)(dy, dw \mid x, z) := F(dy \mid x)G(dw \mid z) (習慣的)

習慣的・伝統的な書き方は不正確で好ましくありませんが、習慣的・伝統記法はだいたい腐っているものなので諦めましょう。

テンソル積に関する法則が幾つかありますが、それらは、可測空間とマルコフ核の圏がテンソル積により対称モノイド圏〈symmetric monoidal category〉になることを主張するものです

To Be Described

予定していた記述項目で、残ってしまったものが幾つかあります。「これも書いてから」とかいうと、投稿が一週間後、一ヶ月後、あるいは忘れて投稿しない事態*18が想定されるので、とりあえずここで投稿します。

残りの項目が多いわけではないので、気が向いたときに書き足します。

測度前送り関手と関数引き戻し関手
  • X \mapsto Π(X) と f \mapsto f* が、共変関手 SSet を定義する。
  • X \mapsto Φ≧0(X) と f \mapsto f* が、反変関手 SSet を定義する。
チャップマン/コルモゴロフ結合の結合律

Sが圏になるためには必要。

テンソル積 済み

書きました(Sat Jul 4 2020)。

シャープネス定理

SのなかでδMを特徴づける条件。

*1:過去記事を読み返して誤字脱字を発見したので、後で直します(忘れなければ)。

*2:'δ'を使うとディラック測度と混同しがちだし、'Δ'を使うと対角射と混同しがちです。どうにもなりません。

*3:Σは、関手 Measσ-Alg になります。σ-Algは、抽象的に定義されたシグマ代数の圏です。

*4:ちなみに檜山は、漢字4文字の「可測集合」より漢字2文字の「事象」のほうが短くてよい、という理由で「事象」を使います。

*5:準ボレル空間〈quasi-Borel space〉は、たちが良く、しかも可測空間の拡張になっている空間のクラスです。有望だと思います。

*6:連続とは限らない可測関数に対してノルムが役立つ気があまりしないのですけど、何かのはずみで使うかも知れません。

*7:右カリー化〈right currying〉と呼んだほうが正確だけど、直積は対称だから、左右をあまり区別しなくてもいいでしょう。左カリー化は f または f と書きます。

*8:内部ホム、または指数と呼ばれ、[Y→Z] 以外に、[Y, Z], hom(Y, Z), ZY とも書かれます。

*9:さらには、自然変換になります。

*10:この等式には絵図的な意味があって、ニョロニョロを引き伸ばすことになります。「絵算の威力をお見せしよう」参照

*11:準ボレル空間の圏では、常に [X→Y] が作れるようです。

*12:積分記号を省略する書き方については「ライプニッツの微分記法とアインシュタインの総和規約を測度に使ってみる」参照。

*13:[追記]コルモゴロフの発音で噛んでしまうので、口頭では「チャップマン結合」でもいいとしましょう。[/追記]

*14:フリッツ〈Tobias Fritz〉はSBorelStockBorelStock、フォング〈Brendan Fong〉はCGMeasStockCGStockと短く書いています。

*15:L(X) ≠ 0 の場合

*16:随伴性を表す等式の意味ですが、その意味だと、色々な分野/色々な状況で随伴公式があります。

*17:マルコフ核とは限らない測度的積分核の一般論をしてから、マルコフ核を定義するほうがスッキリするかも知れません。

*18:僕の場合、そういうことがよくあります。いきなり気力が萎えてしまい捨て置き。

フォングは何故「確率変数」と呼んだのか

あっ、そうか! そういうことか。

昨日・一昨日と、フォングの因果セオリー論〈theory of causal theories〉を紹介しました。フォング論文で使われている語法・記法・図法が混乱・誤解をまねく〈confusing / misleading〉ものなので、「どうなの? コレ」と疑問を呈したりもしました。あえてそんな語法・記法・図法を採用する動機が不明でした。

フォングの“因果セオリー”の理論」にて:

フォングは、強い印象を喚起する言葉をテクニカルタームに採用するのが好きみたいですが、...[snip]...

この憶測は間違いだったと思います。彼は、自分の好みや主義で奇妙な語法・記法・図法を使っているわけではないと(今は)思います。むしろ逆です、逆!

僕は、「因果セオリー論の語法・記法・図法(修正案付き)」で次のことを指摘しました。

  1. ローヴェアの用語法に合わせるために、誤解をまねく言葉「セオリー」を使ったのだろう。
  2. 確率論の習慣的な記法に合わせるために、分かりにくく視認性が悪いストリング図を描いたのだろう。

ポイントは「合わせるために」です。フォングは先達をリスペクトし、コミュニティのジャーゴンを尊重して語法・記法・図法を選んだのでしょう。そう考えれば辻褄が合います。

因果セオリー論の語法・記法・図法(修正案付き)」の、分かりにくい言葉のリストを再掲します。

フォングの用語 代替の用語
因果セオリー 厳密マルコフ圏
因果モデル グラフィカルモデル
因果構造 グラフィカルスキーマ
確率変数 頂点
因果関係
因果機序 固有生成射

頻出する「因果」ですが、どうもグラフィカルモデルのコミュニティでは、「原因があり、それが結果を引き起こす」という意味ではなく「因果」を使っているようです。「方向付きの関連性」くらいの意味です。「セオリー」はローヴェア由来です。

となると、「確率変数」もコミュニティの既存用語法を尊重してるのでは、と推測できます。実際そのようです。グラフィカルモデルの有向グラフが表現するものは「確率変数間の因果関係である」と説明されるのです。つまり:

  • 有向グラフの頂点を「確率変数」と呼ぶ。
  • 有向グラフの辺を「因果関係」と呼ぶ。

フォングは自分独自の用語法を使っていたわけじゃないのでした。それどころか、ジャーゴンとしての「確率変数」の使用法を、忠実に定式化しています。僕は、ジャーゴンとしての「確率変数」の意味・運用を知らなかったので、フォングの定義を見て「なんで、こんな奇妙な定義を採用するのだろう?」と訝〈いぶか〉しく思ったのです。

グラフィカルモデルの文脈では、「確率変数」は次のように使うようです。

  • 有向グラフにおいては、頂点を確率変数と呼ぶ。
  • 有向グラフを確率的構造として解釈したときは、頂点に対応する可測空間を確率変数と呼ぶ

可測空間が有限離散なら、単なる集合とみなしていいので、その場合は:

  • 集合を確率変数と呼ぶ。

フォングは、この意味・運用に合わせて、理論を構成しています。例えば、2つの確率変数 X, Y の独立性は、2つの集合 X, Y の独立性として定義しています。「確率変数 = 集合〈可測空間〉」なのですから、そう定義することになります。

もちろん、勝手な集合 X, Y に対して独立もヘッタクレもありません。直積集合 X×Y に確率分布〈確率測度〉p が暗黙に載っているとして、

  • pが、X上への周辺化分布 pX と、Y上への周辺化分布 pYテンソル積になっているとき(i.e. p = pX\otimespY)、XとYは独立だという。

「集合を確率変数と呼び、暗黙に背後の確率分布を想定する」が、おそらく、ジャーゴンの意味・運用をうまく定式化しているのでしょう。巧みな定式化なのは確かです。

しかし、ウーン、どうなのかな? そこまでする必要ある??

グラフの頂点や集合〈可測空間〉を「確率変数」と呼び、肝心の確率分布〈確率測度〉の存在は言わずとも察してもらう -- と、そんなコミュニケーション形態を尊重する必要ある?? -- 僕は「そんな必要はない」と思うけどね。


[追記 date="2020-06-22"]
普通に考えたら誤用・乱用なんだけど、あるコミュニティ内では誤用・乱用が標準的な正用として定着してしまうことはままあります。程度の差こそあれ、たぶん避けられない現象だろうとは思っています(実例があまりにも多いので)。

そうなると、学習者は辻褄が合わない誤用・乱用を学ばなくてはなりません。致し方ないとはいえ、「間違い方を勉強する」って不毛すぎないかー? 虚しくないかー? 僕はイヤだなー、ほんとに嫌い。

と、文句を言ったところで、誤用・乱用を正すことは現実的には不可能です。対策としては、理解のための内的言語と、他人とコミュニケーションするための外的言語を分けて、内的言語は整合的に、外的言語は習慣に従い運用する、とか。

今回の例なら、内的言語では「頂点」「可測空間」「周辺化確率測度」などを使い、外的言語ではどれも(積空間上の確率測度を暗黙に前提して)「確率変数」と呼ぶことになります。

二種の言語の使い分けは、それはそれで手間ではあるけど、全体としての学習・理解のコストは下がるような気がします。
[/追記]