このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

参照用 記事

確率的圏における同一視・オーバーロード

細かい差異をいちいち区別していると煩雑でやってられないし、かといって、味噌もクソも一緒にしてしまうとグッチャングッチャンで意味不明になるし。良いバランスの妥協点を探すのは難しいですね。

内容:

同一視されがちな概念

確率的圏〈stochastic category〉とは、具体的に構成されたマルコフ圏(マルコフ圏 A First Look -- 圏論的確率論の最良の定式化」参照)のことです。確率的圏の形式的な定義は「統計的反転の圏論的セットアップ 1/2 // 確率的圏と準確率的圏」に書いてあります。確率的圏はマルコフ圏の構造を持ちますが、その対象は可測空間とみなせ、その射はマルコフ核(「マルコフ核: 確率計算のモダンな体系」参照)とみなせます。

可測空間Xに対して、Xの上の確率測度の集合に適切な可測構造(シグマ集合代数)を載せた可測空間を(Xの)ジリィ空間〈Giry space〉と呼ぶことにします。ジリィ空間は単なる集合ではなくて可測空間です。もちろん、ジリィ関手(ジリィ・モナドの台関手である自己関手)による値がジリィ空間です。

確率的圏のなかで、同一視すべきか区別すべきか悩む概念が幾つかあります。

  1. マルコフ核と、ジリィ空間への可測写像
  2. 分布マルコフ核と、ジリィ空間の要素である確率測度
  3. 述語マルコフ核と、述語関数
  4. 確率測度と、確率密度関数

これらは、厳密に言えば違う概念ですが、しばしば同一視され、同じ記号・名前で表記されます(記号・名前のオーバーロードという)。どこまで同一視すべきかはケースバイケースですから、この記事では「同一視する/できるメカニズム」を見ていくことにします。

マルコフ核と、ジリィ空間への可測写像

モナドとクライスリ圏の一般的な話をします。(F, μ, η)/C が基礎圏C上のモナドとして、K := Kl(​(F, μ, η)/C) をそのクライスリ圏とします。

クライスリ圏の射 f:X → Y in K と、対応する基礎圏の射 f:X → F(X) in Cほんとに同じものです。なぜなら、クライスリ圏の定義をするときに、次の等式(による定義)を使うからです。

  • K(X, Y) := C(X, F(X))

したがって、クライスリ圏の射 f:X → Y in K と基礎圏の射 f:X → F(X) in C は、同一視もなにも、そもそもが同一物。

しかし、圏論では実体が同じならば等しいとは言えません。f:X → Y in K と f:X → F(X) in C は、違う圏に所属する(生息地が異なる)射なのだから違う、とも言えます。異なる圏のホムセットを結び付けているのは随伴によるホムセット同型です。

  • K(J(X), Y) \cong C(X, T(Y)) in Set

ここで、J:CK in CAT は、基礎圏をクライスリ圏に埋め込む関手です。対象パートは恒等なので J(X) = X です。T:KC in CAT は次のように定義される関手です。

  • T(X) := F(X) for X∈|K|
  • T(f:X → Y in K) := (f#:T(X) → T(Y) in C)

f#モナドに付随するクライスリ拡張です。

f:X → Y in K と f:X → F(X) in C を別物として扱い、上記のホムセット同型による“行ったり来たり”を明示的に書く、という選択肢もありますが。通常その必要はないでしょう。

確率的圏Dにおいても、Dの射であるマルコフ核 F:X → Y in D と、対応する可測写像 f:X → Giry(Y) in Meas を区別する必要は通常ありません。実体としては同じでもあるし、同じ記号・名前で表していいと思います。

分布マルコフ核と、ジリィ空間の要素である確率測度

D を確率的圏としましょう。D の対象は具体的な可測空間(とみなせるもの)です。特に、単位対象1は単元集合を台とする離散可測空間です。他に二元集合を台とする離散可測空間2があるとします。便宜上、1 = ({0}, Pow({0})), 2 = ({0, 1}, Pow({0, 1})) とします。

マルコフ圏の射で、dom(f) = 1 である射を、ジェイコブス〈Bart Jacobs〉は状態〈state〉、フリッツ〈Tobias Fritz〉は分布〈distribution〉と呼んでいます。ここでは、フリッツにならって分布を使います。「分布=域が単位対象である射」という意味しかなくて、それ以上でもそれ以下でもありません。この文脈での「分布」に余計な意味を混入させないように注意しましょう。

確率的圏Dの射はマルコフ核(とみなせる)なので、分布を分布マルコフ核〈distribution Markov kernel〉と呼んで紛れないようにします。

さて、分布マルコフ核 S:1X in D をジリィ空間への可測写像とみなすと S:1 → Giry(X) in Meas です(前節参照)。S(0) ∈Giry(X) は、ジリィ空間の点〈要素〉なので、X上の確率測度です。逆に、σ∈Giry(X) があると、σをポイントするポインティング写像 (0 \mapsto σ) はマルコフ核とみなせます。

実際には、確率的圏Dを作り出すもとになっているモナドFがTHE・ジリィ・モナドGiryそのものとは限らないので、F(X) ⊆ Giry(X) として、次の同型を考えます。

  • F(X) \cong D(1, X) in Set (F(X) の可測構造は忘却)

確率測度σのポインティング写像を σ~:1 → X in D とすると、(-)~:F(X) → D(1, X) in Set となります。分布マルコフ核 (S:1 → X in D) = (S:1 → F(X) in Meas) の値を ~S = S(0) ∈F(X) とすると、~(-):D(1, X) → F(X) in Set となります。

ポインティング写像を作ることと、値を求めることは互いに逆なので:

  • ~~) = σ on F(X)
  • (~S)~ = S on D(1, X)

これが、分布マルコフ核と確率測度を同一視するメカニズムです。

述語マルコフ核と、述語関数

確率的圏Dにおける述語〈predicate〉とは、プロファイルが X → 2 in D である射です。述語もマルコフ核なので、そのことを強調して述語マルコフ核〈predicate Markov kernel〉とも呼ぶことにします。

一方で、可測関数 p:X → [0, 1] in Meas も述語(正確にはファジー述語)と呼びます。こちらは述語関数〈predicate function〉と呼ぶことにします。

述語マルコフ核と述語関数もしばしば同一視されます。同一視を実現する可逆写像をハッキリと定義しておきましょう。

  • (-):D(X, 2) → Meas(X, [0, 1])
    • For Q∈D(X, 2)
    • Q(x) := Q({1} | x)
  • (-):Meas(X, [0, 1]) → D(X, 2)
    • For q∈Meas(X, [0, 1])
    • q({1} | x) := q(x)
    • q({0} | x) := 1 - q(x)

(-)(-) は互いに逆なので:

  • (Q) = Q on D(X, 2)
  • (q) = q on Meas(X, [0, 1])

これが、述語マルコフ核と述語関数を同一視するメカニズムです。

確率測度と、確率密度関数

確率測度と確率密度関数は、一般的には同一視できません。確率測度が確率密度関数を持つとは限らないからです。しかし、確率密度関数を持つ確率測度だけを考えるとか、有限離散可測空間だけを考えるとか、制限を付けると1:1対応します。

可測空間Xに、確率測度とは限らない基準となる測度Λ(例えば、ユークリッド空間の標準ルベーグ測度)が載っていて、Λに対して絶対連続な確率測度だけを考えるとしましょう。

τがΛに対して絶対連続な確率測度だとして、そのラドン/ニコディム導関数を τ とします。被積分形式の等式として次が成立します。

  • τ(dx) = τ(x)Λ(dx)

逆に、Λ-積分可能な可測関数 t:X → R≧0 in Meas で、積分値が1のものがあると、次のようにして測度 t・Λ が定義できます。

  •  \mbox{For }A\in \Sigma X,\,(s\cdot \Lambda)(A) := {\displaystyle \int_{x\in A} t(x)\Lambda(dx)}

(t \mapsto t・Λ) は、(Λに関する)ラドン/ニコディム微分の逆操作になります(いわば“ラドン/ニコディム積分”)。t := t・Λ と定義すると、次が成立します。

  • ) = τ on (X上のΛ-絶対連続な確率測度)
  • (t) = t on (X上のΛ-積分値が1の可測関数)

確率測度/確率密度関数だけでなく、マルコフ核/確率密度核についても同様な1:1対応を考えましょう。確率密度核〈probability density kernel〉については「マルコフ核と確率密度関数」を参照してください。

F:X → Y in D が、確率的圏Dの射(マルコフ核)として、Y上には測度Λが載っているとします。Fを F:X → Giry(Y) in Meas と考えて、すべての x∈X で F(x) がΛ-絶対連続だとします。このときは、確率密度核 F を次のように定義できます。

  • \mbox{For }x\in X, y\in Y,\, F^\bullet(x)(y) := (F(x)^\bullet)(y)

逆に、f:X → Meas(Y, R≧0) が確率密度核になっているとき、対応するマルコフ核を次のように定義できます。

  • \mbox{For }x\in X, B\in \Sigma Y,\, ({}^\bullet f)(x)(B) := ({}^\bullet( f(x)))(B) = {\displaystyle \int_{y \in B}f(x)(y)\Lambda(dy)}

これらも互いに逆な写像なので:

  • (F) = F on (絶対連続なマルコフ核の集合)
  • (f) = f on (確率密度核の集合)

おわりに

今まで述べたような、1:1で対応する概念を同一視するのはかまわないし、区別して扱うのは煩雑過ぎるので同一視は必要だと言ってもいいでしょう。しかし、暗黙になんとなく同一視してしまうのはよろしくありません。同一視するときは、どのようなメカニズムで同一視する/されるのかを確認しましょう。