情報幾何の入り口：雑感と補遺 - 檜山正幸のキマイラ飼育記 (はてなBlog)

情報幾何に関係する2つの記事を書きました。

ここしばらく情報幾何に興味が湧いた（そして気分が沸いた）のですが、一過性のマイブームで終わるかも知れません。でも、マイブームは時を経てぶり返すことがあります。いつか参考になる事があるかも知れないので、現時点で分かったこと／思っていることをメモしておきます。続きはないと思いますが、もし間違いがあれば、訂正は追記します。

内容：

幾何的情報幾何と統計的情報幾何
様々な多様体達
ラウリッツィン統計多様体と黒瀬の対称性条件
情報コントラスト幾何
プライマル接続とパートナー接続
期待多様体再論
情報幾何の源泉である事例

幾何的情報幾何と統計的情報幾何

情報幾何を勉強する上でのネックのひとつは、歴史的発展の経緯と現時点で整理された姿にけっこうな乖離があることでしょう。

動機や背景を知りたい、先人の悪戦苦闘を追体験したいということであれば、歴史的発展に沿って学習するのがいいでしょう。しかし、できるだけショートカットをしたいなら、モダンに整理された体系を学ぶほうがいいでしょう。

どちらの方法も問題があります。歴史の追体験では、混乱した紆余曲折の道を辿らなくてはならず労力が大変です。一方の整理された体系は天下りになりがちで実感が湧かず、「はっ？それなに？それがどうした」という気分に陥るでしょう。

現在の情報幾何では、リーマン幾何の延長として、純粋に幾何的な議論だけで済ませられる部門があります。幾何的情報幾何と仮に呼んでおきましょう。それに対して、確率・統計的な意味付けを伴う情報幾何を統計的情報幾何と呼びましょう。

歴史の追体験方式は、統計的直感を頼りに統計的情報幾何に飛び込むことになります。整理された体系方式は、まずは幾何的情報幾何を身につけることになります。先に述べたとおり一長一短ですが、僕の感想としては、この2つの方式は思いの外に隔たっています。

僕自身は、統計的情報幾何が入り口だったのですが、統計的直感・経験がまったく不足しているので、ほぼ何も分からずモヤモヤしていただけでした。後で幾何的情報幾何の存在を知りました。たまたま幾何のほうが多少の馴染みがあったので、個人的には幾何的情報幾何の入り口が入りやすかったです。

入りやすさの感覚は個人差がありますが、幾つかの入り口があることは知っておいたほうがいいでしょう。自分に向いた入り口を選びましょう。

様々な多様体達

現時点でも情報幾何の用語法・記法は安定してないので、なにか基準が必要です。「前回記事への訂正・補足：情報多様体の幾何」で紹介したニールセンのテキスト "An elementary introduction to information geometry" の用語法・記法を基準とします。

情報幾何で扱う多様体を総称的に情報多様体〈information manifold〉と呼ぶとして、それらを分類すると次のような多様体があります（「前回記事への訂正・補足：情報多様体の幾何」参照）。

リーマン多様体〈Riemannian manifold〉
共役接続多様体〈conjugate connection manifold〉
共役接続多様体の1パラメータ族〈1-parameter family of conjugate connection manifolds〉
ラウリッツィン統計多様体〈Lauritzen statistical manifold〉
ダイバージェンス多様体〈divergence manifold〉

他に、期待多様体〈expected manifold〉という種別があります。が、期待多様体とは確率・統計的な文脈で登場する情報多様体のことです。「期待〈expected〉」という形容詞は、幾何的分類とは独立に付けることができます。つまり、次のような期待多様体がありえます。

期待リーマン多様体〈expected Riemannian manifold〉
期待共役接続多様体〈expected conjugate connection manifold〉
期待共役接続多様体の1パラメータ族〈expected 1-parameter family of conjugate connection manifolds〉
期待ラウリッツィン統計多様体〈expected Lauritzen statistical manifold〉
期待ダイバージェンス多様体〈expected divergence manifold〉

形容詞「期待」の意味は、多様体に載るリーマン計量／接続／ダイバージェンスなどが、確率・統計の期待値を使って定義されることです。例えば、期待値を使って定義されるフィッシャー情報計量を備えた多様体は期待リーマン多様体です。ただし、リーマン計量だけでは面白くないので、実際には期待共役接続多様体などが対象物になります。

ラウリッツィン統計多様体と黒瀬の対称性条件

ラウリッツィン統計多様体は、リーマン多様体 (M, g) に対して、全対称な共変3階テンソル〈totally symmetric covariant cubic tensor〉Cを添えた構造 (M, g, C) です。共変3階テンソルは、3つのベクトル場 X, Y, Z を引数にしてスカラー場（関数）を値にする複線形写像 *1 (X, Y, Z) $\mapsto$ C(X, Y, X) とみなせます。それが全対称とは、X, Y, Z の任意の入れ替え（全部で6通り）に対して値が不変なことです。微分形式は交代テンソルでしたが、Cは対称テンソルです。対称テンソルCを、甘利／チェンソフ・テンソル〈Amari-Chentsov tensor〉と呼びます。

ラウリッツィン統計多様体 (M g, C) から共役接続多様体が構成できる（「前回記事への訂正・補足：情報多様体の幾何」参照）ので、ラウリッツィン統計多様体と共役接続多様体は同じモノとみなしてかまいません。

ラウリッツィン統計多様体の定義には、甘利／チェンソフ・テンソル以外の定式化があります。リーマン多様体 (M, g) に、（レヴィ・チビタとは限らない）捩れ無し接続〈torsion-free connection〉∇を付けた構造 (M, g, ∇) を考えます。接続∇は、本来はベクトル場の微分ですが、任意のテンソル場に拡張できて、同じ記号∇で表します。

さて、捩れ無し接続∇に、次の条件を課します。

$(\nabla_{X}g)(Y, Z) = (\nabla_{Y}g)(X, Z)$

$(\nabla_{X}g)(Y, Z)$ を $(\nabla g)(X, Y, Z)$ と3引数で書けば、上の条件は ∇g が X, Y に関して対称性を持つことを意味しています。この条件は、黒瀬（黒瀬俊〈くろせ・たかし〉さん）により提案された*2ので、黒瀬の対称性条件〈Kurose's symmetry condition〉と呼ぶことにします。

捩れ無し接続付きリーマン多様体 (M, g, ∇) が黒瀬の対称性条件を満たせば、甘利／チェンソフ・テンソルを構成できます。逆に、甘利／チェンソフ・テンソルCから定義された接続（共変微分）∇は、黒瀬の対称性条件を満たします。よって、次の2つは、どちらもラウリッツィン統計多様体を定義します。

甘利／チェンソフ・テンソルCを備えたリーマン多様体 (M, g, C)
黒瀬の対称性条件を満たす捩れ無し接続∇を備えたリーマン多様体 (M, g, ∇)

情報コントラスト幾何

ニールセンによる情報多様体の分類のなかに、ダイバージェンス多様体がありました。ダイバージェンスは、多様体の2点に対して値をとる実数値関数です。ダイバージェンスは非対称な距離（の二乗）のような役割を果たし、ダイバージェンスから共役接続ペアを構成できます。

江口（江口真透〈えぐち・しんとう〉さん）は、ダイバージェンスをベースにした情報幾何を、情報ダイバージェンス幾何〈information divergence geometry〉と呼んでいます。さらに、ダイバージェンスの一般化であるコントラスト関数〈contrast function〉というものを定義しています*3。コントラスト関数をベースにした情報幾何は、情報コントラスト幾何〈information contrast geometry〉といえるでしょう。もっとも、コントラスト関数＝一般化されたダイバージェンスを改めてダイバージェンスと定義することも多いようですが。

リーマン多様体 (M, g) のコントラスト関数とは、直積多様体 M×M の対角線 {(p, q)∈M×M | p = q} の開近傍*4で定義された実数値2点関数（多様体の点を一個の変数とみなしての2変数関数）で、ある条件を満たすものです。この条件を記述するために、独特の記法の準備が必要です。この独特の記法、僕には分かりくかったので、別に話題にするかも知れません。

コントラスト関数の定義は割愛しますが、リーマン多様体上のコントラスト関数があると、それから共役接続ペアを定義できます。その逆に、共役接続ペアから（一意的ではないけど）コントラスト関数が構成できるそうです（どうやるかは知らない）。ということは、コントラスト関数付きリーマン多様体と共役接続多様体は、ほぼ同じものだとみなせます。しかし、情報コントラスト幾何では、コントラスト関数を中心にものごとを見ていくことになります。

プライマル接続とパートナー接続

情報多様体を特徴づける著しい性質は、2つの捩れ無し接続を持つことでしょう。共役接続ペアですね。ここで、ペアについてちょっと考えます。

なにかのペアの例として：線形代数の「ベクトル空間の双対ペア」、圏論の「関手の随伴ペア」、そして情報幾何の「接続の共役ペア」などがあります。ここで出てきた「双対」「随伴」「共役」には、これといった使い分けはなく、テキトーに使われています。実際、情報幾何の「共役」を「双対」と呼ぶこともあります（「双対」のほうが多いかも）。

これらのペアにおいては、どちらがエライとかはなくて、ペアの成員は対等・対称な関係にあります。しかし、ニ者を識別する必要があるので、便宜上・仮にどちらか一方をプライマル〈primal〉と呼びます。そして、プライマルでないほうを（指定したプライマルの）パートナー〈partner〉と呼ぶことにします。

共役接続ペアのときは、∇がプライマル接続で、∇^*がパートナー接続です。このケースでは、右肩のアスタリスクは、特定したプライマル接続にパートナー接続を対応させる演算子とみなせます。

なぜなら、∇と∇^*が互いに共役であること、

$D_{X}g(Y, X) = g(\nabla_{X} Y, Z) + g(Y, \nabla^{*}_{X} Z)$

は、∇から∇^*を定義する定義式とみなせるからです。

$\mbox{For any Y,}\:\: g(Y, \nabla^{*}_{X} Z) := D_{X}g(Y, X) - g(\nabla_{X} Y, Z)$

この定義式から、対応 (∇ $\mapsto$ ∇^*) を二度繰り返すともとに戻ることが分かります。

(∇^*)^* = ∇

∇が捩れ無しでも∇^*も捩れ無しとは限りません。∇と∇^*が共に捩れ無しになる条件が黒瀬の対称性条件です。

リーマン計量のレヴィ・チビタ接続は、捩れ無しで自己共役条件 ∇^* = ∇ を満たす唯一の接続です。別な言い方をすると、捩れ無し接続の空間に制限した、パートナー接続を対応させる作用素 (-)^* に対する不動点がレヴィ・チビタ接続になっています。

期待多様体再論

期待多様体とは、統計的文脈で登場する情報多様体、つまり統計的情報幾何で扱う対象物です。「期待」という形容詞はニールセンによりますが、「期待値が絡んでいる」ことを示唆しています。

期待値の値（実数値）より、期待値を対応させる作用素が問題になるので、この話を先にします。状況設定は次のよう： (X, Σ_X, Λ) を測度空間とします。測度Λは確率測度とは限りません。記号の乱用で X = (X, Σ_X, Λ) と略記します。また、測度Λを抜いた可測空間 (X, Σ_X) も単にXと略記します。さらに、次の記号の約束をします。

IF(X) = IF(X, Σ_X, Λ) ：測度空間 (X, Σ_X, Λ) の、測度Λに関して積分可能な実数値関数〈Integrable Function〉の全体。必要があれば、追加の条件を付けて扱う関数を絞ってもよい。
PM(X) = PM(X, Σ_X) ：可測空間 (X, Σ_X) 上の確率測度〈Probability Measure〉の全体。
PDF(X) = PDF(X, Σ_X, Λ) ：測度空間 (X, Σ_X, Λ) の、測度Λに関する確率密度関数〈Probability Density Function〉の全体。値は非負で積分値が1の積分可能関数の全体。PDF(X)⊆IF(X) 。

確率密度関数 f∈PDF(X) があると、E_f:IF(X)→R を次のように定義します。

$E_f := \lambda g\in IF(X).( \int_{x \in X} g(x)f(x)\Lambda(dx) )$

右辺冒頭のλは、ラムダ記法のλです。Λ(dx) を単に dx と書いてアロー記法（ラムダ記法の変種）で書くなら、

$E_f := (IF(X) \ni g \mapsto ( \int_{x \in X} g(x)f(x)\,dx ) )$

E_f を、確率密度関数fに対する期待値作用素〈expected-value operator〉または期待値汎関数〈expected-value functional〉と呼ぶことにします。期待値作用素は、fで重み付けした積分のことです。(PDF(X)∋f $\mapsto$ E_f∈Map(IF(X), R)) という対応は、確率密度関数に期待値作用素を割り当てます。

次に、確率密度関数の空間PDF(X)に値を取るパラメトリック統計モデルを考えます。パラメトリック統計モデルは、ユークリッド空間Rⁿの開集合ΘからPDF(X)への写像 p:Θ→PDF(X) で、正則性（非特異性）の条件を満たすものです（正則性条件については割愛）。

p:Θ→PDF(X), E:PDF(X)→Map(IF(X), R) を結合すると、E $\circ$ p:Θ→Map(IF(X), R) ができます。θ∈Θ に対する E_p(θ) を、（pは了解されているものとして）E_θ と略記します。パラメータθごとの期待値作用素 E_θ が、期待多様体の定義に使われます。

もうひとつの記号μ_θも定義しておくと便利かも知れません。θ∈Θ に対する確率密度関数 p(θ)∈PDF(X) は、自然に確率測度とみなせるので、それをμ_θと書きます。具体的には：

$\mu_{\theta} := \lambda A\in \Sigma_X .(\int_{x \in A} p(\theta)(x) \,dx)$

これは、事象Aの確率を求める通常の定義です。集合Aの指示関数〈indicator function | 特性関数〉を χ_A とすると、次が成立します。

μ_θ(A) = E_θ(χ_A)

記号の乱用により、同じ記号pに対して幾つかの書き方を使います。

p(θ)(x) = p_θ(x) = p(x, θ)

pを2変数とみなすとき、p(θ, x) ではなくて p(x, θ) なのは単なる習慣です。なんかぎこちない書き方ですが、習慣なので…。p(x, θ) を p(x; θ), p(x|θ) などと書く習慣もありますが、ここでは使いません。

パラメトリック統計モデル p:Θ→PDF(X), 期待値作用素 E_θ を実際に使う事例は次節で述べます。

情報幾何の源泉である事例

前節の状況設定で期待多様体を考えます。期待多様体Mは、点集合としては空間PDF(X)の部分集合だとします。

M⊆PDF(X)

点集合Mには、なんらかの方法により多様体としての位相が入っているとします。Mの点uは、関数でもあるので、x∈X に対して値 u(x)∈R を持ちます。これは、純粋に幾何的状況（点は点であって、点以外の何物でもない状況）とは異なる設定です。

さらに、p:Θ→M⊆PDF(X) であるパラメトリック統計モデル（のパラメータ付け）pを考えます。pの像集合 P(Θ) をUと置き、次の仮定をします。

UはMの開集合である。
UとΘは、pにより1：1に対応する。
したがって、pの逆写像 φ:U→Θ が存在する。
(U, φ) は多様体Mの局所座標〈チャート〉になる。

この仮定により、「確率密度関数のパラメトリック統計モデル＝期待多様体の局所座標」という解釈ができます。期待多様体の議論では、特定の局所座標＝パラメトリック統計モデルに強く依存してしまい、座標独立〈coordinate-free〉な方法は難しいようです。局所座標（パラメータ付け）も多様体構造の一部と考えるのがいいのかも知れません。

一般に、情報多様体を構成する幾何的構造には次のものがあります。

リーマン計量
コントラスト関数〈一般化ダイバージェンス〉
共役接続ペアのプライマル接続
共役接続ペアのパートナー接続

今述べた状況設定における典型的な期待多様体の場合では、これらは次の表のようになります。これらは、勝手に選べるものではなくて相互に強く関連しています。

一般の情報多様体	期待多様体の典型例
リーマン計量	フィッシャー情報計量
コントラスト関数	カルバック／ライブラー・ダイバージェンス
共役接続ペアのプライマル接続	e-接続
共役接続ペアのパートナー接続	m-接続

フィッシャー情報計量〈Fisher information metric〉の定義を具体的に見てみましょう。その準備として、n個のスコア関数〈score function〉s_i:X×Θ→R (i = 1, 2, ..., n) を次のように定義します。

$s_i := \lambda(x, \theta)\in X \times \Theta.([\frac{\partial}{\partial \xi_i} \log p(x, \xi)]_{\xi = \theta} )$

第iスコア関数 s_i は、「データxの、確率分布（密度関数）p_θに対する対数尤度関数」を、パラメータのi番目の方向に偏微分した量です。スコア関数 s_i は2変数関数ですが、パラメータ付けpと同様に、次の書き方を許します。

s_i(x, θ) = s_i,θ(x) = s_i(θ)(x)

s_i達を、縦に並べた1列行列をsとします。その転置行列s^Tとの行列積 s(s^T) は n×n 行列になります*5。この行列をGとして行列のi行j列成分を書けば：

$G_{ij}(x, \theta) = s_i(x, \theta)s_j(x, \theta)$

行列の各成分は、2変数の関数です。E_θ(λx∈X.G_ij(x, θ)) と期待値作用素を作用させると、変数xは消えてしまい、変数θだけが残ります。

$\Theta \ni \theta \mapsto E_{\theta}(\lambda x\in X.G_{ij}(x, \theta))$

変数θだけを含んだ行列 g_ij を、

$g_{ij} := \lambda \theta \in \Theta.E_{\theta}(\lambda x\in X.G_{ij}(x, \theta))$

と定義すれば、これはΘ上の計量行列（計量テンソル）になります。

期待多様体Mの開集合Uは、ユークリッド空間の開集合Θと1：1に対応しているので、Θ上のリーマン計量gを、局所座標写像φにより引き戻せば、U上の計量が得られます。

期待多様体Mの開集合Uに計量が入りましたが、天下りの定義をしただけで、統計的な意味には触れてません（僕はよく分かってないです）。歴史的には、統計のなかでフィッシャー情報行列やカルバック／ライブラー・ダイバージェンスが現れ、後になって幾何的意味が与えられたはずです。

以上、さわり（計量の導入）だけ述べた事例は、統計的情報幾何の典型的かつ重要な事例です。幾何的定義だけではなくて、その統計的な意味も調べるとよいでしょう（って、僕は調べてないけど(苦笑)）。

*1:実数係数に対して複線形なだけではなくて、なめらかな関数を係数としても複線形です。

*2:Kurose, T. (1994). On the divergences of 1 conformally flat statistical manifolds, Tohoku Math J46 , 427-433.

*3:Eguchi, S. (1992). Geometry of minimum contrast, Hiroshima Math J22 , 631-647.

*4:Mはハウスドルフ空間なので、対角線は直積位相で閉集合になります。

*5:この行列は、線形写像の表現ではなくて、二次形式の表現とみなすべきです。