このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

参照用 記事

前回記事への訂正・補足: 情報多様体の幾何

前回(2019-08-02)書いた記事「多様体と確率・統計: 情報幾何の入り口まで」は、情報幾何の入り口としてはあまり適切じゃない点があるので、それを訂正・補足します。

訂正内容を一言でいえば:

補足内容を一言でいえば:

  • 情報幾何に登場する多様体ってイッパイあるわ、紹介しとくね。

です。

内容:

ことの発端と経緯

以下の三つの記事は一連のものです。

  1. 今井健男さんの「計算機科学から見たディープラーニング」
  2. ディープラーニングの論理:: シャープネスと外延化
  3. 多様体と確率・統計: 情報幾何の入り口まで

三番目の記事はディープラーニングとは別な話題のようですが、ディープラーニング絡みと言えるのです。もう去年のことですが、id:bonotakeさんとのあいだで情報幾何の話題がちょっと出ました。それで僕は「機械学習ディープラーニングと情報幾何はなんか関係あるらしい」と知ったのです。

しかし、情報幾何の教科書を読む気はなかったので(今でもない(苦笑))、短い入門的解説を読んで:

そもそも何を扱っているのか分かりませんでした。「各点が確率分布である多様体」とだけ言われても、「各点」や「確率分布」の意味が曖昧だと、確実な幾何的対象物が把握できません。

という状況だったんですね。そのことを思い出して、三番目の記事を書いたのでした。

情報幾何で扱う対象物は、「各点が確率分布であるような多様体」であるという説明は割とよく見ると思います。例えば、僕が読んだ短い解説に次の一文がありました。

We consider each distribution as a point on a Riemannian manifold.


各確率分布をリーマン多様体の一点であると考えよう。

こういう説明は曖昧なだけでなくミスリーディングかも知れません。bonotakeさんによれば、統計多様体は単に付加的構造が付いたリーマン多様体と理解したほうが良いとのことです。僕は、統計多様体の「各点が確率分布である」ことに主眼を置いていましたが、むしろ「各点が確率分布である」ことは忘れるべきだったようです。

テキストはニールセン論説

前回の記事にて:

ちゃんと探せばキチンとした定義があるんでしょうが、ザッと見たかぎりでは曖昧な定義しかなかったので、統計多様体の定義を書き下してみました。

短い入門的解説よりシッカリとしたテキストを探してみました。bonotakeさんの記事「情報幾何わかった気になった」で紹介されているコチラ:

これを斜め読みすることに。

このテキスト(解説論文)の著者であるニールセンさんは、現在は日本のソニーコンピュータサイエンス研究所にいらっしゃるようです。

微分幾何としての情報幾何

情報幾何の起源や歴史から言えば、「各点が確率分布である多様体」を扱っていたのは事実でしょう。しかし、情報幾何の動機・目的・経緯などをいったんは無視して、現在の視点から整理するなら、確率・統計的な概念をすべて抜き去った、純粋な幾何学としての情報幾何もありえます。例えば、統計多様体に関するニールセンの記述に:

although it bears the name "statistical manifold," it is a purely geometric construction that may be used outside of the field of Statistics.


「統計多様体」という名前ではあるが、統計の分野以外でも使える純粋に幾何的な構成物である。

確率・統計的な概念をすべて抜き去ったら、魂のない形骸しか残らないと思う人もいるでしょうが、概念の相互関係を整理するために「抜き去る」だけです。情報幾何が純粋な幾何だと言うつもりはありません

情報幾何で扱う幾何的対象物を、ニールセンは端的に「情報多様体〈information manifold〉」と呼んでいます。ただし、これが情報多様体だ、という定義があるわけではなく、いくつかの種類の多様体を総称的に情報多様体と呼びます。

  • 情報多様体〈information manifolds〉 = 情報幾何的多様体〈information-geometric manifolds〉

情報多様体は、リーマン多様体の延長線上にあるもので、リーマン多様体自身も特別な情報多様体として扱います。幾つかの情報多様体の種別を挙げれば:

  1. リーマン多様体〈Riemannian manifold〉
  2. 共役接続多様体〈conjugate connection manifold〉
  3. 共役接続多様体の1パラメータ族〈1-parameter family of conjugate connection manifolds〉
  4. ラウリッツィン統計多様体〈Lauritzen statistical manifold〉
  5. ダイバージェンス多様体〈divergence manifold〉

これらの分類はニールセンによるものですが、彼は「統計多様体」を狭い意味で使っているので、念のため人名「ラウリッツィン〈Stefan L. Lauritzen〉」を(檜山が)付けました。こういう分類や呼称は、まだ安定しているわけではないので、あくまで一例として捉えてください。

[補足]"An elementary introduction to information geometry"のなかでの統計多様体はラウリッツィン統計多様体ですが、ニールセンの別な論文(https://arxiv.org/abs/1905.11027)のなかでは:

The term “statistical manifold” refers to the space M = {p(X | Θ)} where each point corresponds to a probability distribution p(X | Θ).

と書いています。つまり、「各点が確率分布である多様体」を統計多様体と呼んでいます。これは後述の期待多様体のことです。同じ著者でも論文ごとに用語法を変えているくらいですから、「統計多様体」の広く合意された定義はありませんね。[/補足]

共役接続多様体とその1パラメータ族

前節で挙げた諸々の情報多様体のなかで、典型的・中心的なものをひとつ選べと言われれば、おそらくは共役接続多様体を選ぶべきでしょう。共役接続多様体は、共役な接続ペアを備えたリーマン多様体です。

多様体の接続(接バンドルの接続=アフィン接続)は、色々な(互いに同値な)定義の仕方があります。ニールセンのテキストでは次の2つの方法が使われています。

  1. 共変微分∇ : 2つのベクトル場 X, Y に対して第三のベクトル場を返す微分作用素 (X, Y) \mapstoXY
  2. 接ベクトルの平行移動 : 点pの接ベクトルvを、曲線cに沿って点qまで移動するメカニズム

ニールセンは、接続のプライマリな定義を共変微分∇として、∇から誘導される平行移動を Π と書いています。ちなみに、平行移動から共変微分を導く手順は次の記事に書いてあります(情報幾何とは無関係な記事です)。

微分幾何では通常、(計量があるとは限らない)多様体Mに対して単一の接続(共変微分)∇を考えて、接続付き多様体 (M, ∇) を扱います。リーマン多様体の場合は、計量gから自動的に決まるレヴィ・チヴィタ接続〈Levi-Civita connection〉LC∇ を考えて、(M, g, LC∇) を接続付きリーマン多様体とします。

情報幾何では、リーマン多様体複数の接続を同時に考えます。これは、(幾何としての)情報幾何に特有な発想でしょう。2つの接続(共変微分)を備えたリーマン多様体 (M, g, ∇, ∇*) が共役接続多様体〈conjugate connection manifold〉です。もちろん、まったく勝手な2つの接続なのではなくて、名前から察せられる共役性〈conjugacy〉の条件が付きます。

接続のペア ∇, ∇* が互いに共役であるとは、ペアでライプニッツ法則を満たすことです。準備としてライプニッツ法則の説明; 単一の∇が、計量gに対してライプニッツ法則(積の微分法則)を満たすとは、次の等式が成立することです。

 D_{X}g(Y, X) = g(\nabla_{X} Y, Z) + g(Y, \nabla_{X} Z)

X, Y, Z はベクトル場で、DXは関数のX方向への方向微分です。DXは単にXと書かれることが多いです。

さて、∇, ∇*共役〈conjugate〉だとは、∇, ∇*分担作業でライプニッツ法則が成立することですから、次の等式になります。

 D_{X}g(Y, X) = g(\nabla_{X} Y, Z) + g(Y, \nabla^{*}_{X} Z)

計量gのレヴィ・チヴィタ接続 LC∇ に対して、∇ := LC∇, ∇* := LC∇ と置けば、すぐ上の共役ライプニッツ法則を満たすので、(M, g, LC∇, LC∇) は共役接続多様体になります。これが、リーマン多様体も特別な(退化した)情報多様体とみなしていい理由です。

共役なペア ∇, ∇* から誘導される2つの平行移動 Π, Π* を一緒に使うと、ベクトルの内積は保存されます。これは、c:R⊇I → M (0∈I)を曲線(なめらかなパス)として、t∈I に対して次が成立することです。

 g_{c(0)}(u, v) =
      g_{c(t)}( \prod^{\nabla}_{c(0) \rightarrow c(t)}u\, ,
                \prod^{\nabla^{*}}_{c(0) \rightarrow c(t)} v)

実数でパラメータ付けられた共役接続多様体の族 (M, g, ∇, ∇α)α∈R を、共役接続多様体の1パラメータ族〈1-parameter family of conjugate connection manifolds〉といいます。任意の実数αに対して、∇, ∇α は共役な接続ペアになります。特に、∇-1, ∇1 は共役なペアです。

(M, g, ∇, ∇*) が共役接続多様体のとき、∇-1 = ∇, ∇1 = ∇* となるような1パラメータ族 (M, g, ∇α)α∈R が構成できます。このことから、単一の共役接続多様体と、共役接続多様体の1パラメータ族は、実質的には同じものとみなせます。

ラウリッツィン統計多様体ダイバージェンス多様体

「統計多様体」という言葉を最初に使った人はステファン・ラウリッツィン〈Stefan L. Lauritzen〉だったようです。ラウリッツィンによる統計多様体〈statistical manifold〉の定義は、甘利/チェンソフ・テンソル〈Amari-Chentsov tensor〉と呼ばれる共変3階テンソルCを備えたリーマン多様体 (M, g, C) です。共変3階テンソルCは、3つのベクトル場引数に対して、スカラー場(関数)を対応させる複線形写像で、3つの引数をどう交換しても値が不変なこと(全対称〈totally symmetric〉テンソルであること)を要求します。

用語「統計多様体」を、ラウリッツィンのオリジナルの意味で使っている人は少ないような気がします。「統計」+「多様体」という語の成り立ちから容易に拡大解釈が出来るので、今では多義語・曖昧語になってしまったようです。

共役接続多様体 (M, g, ∇, ∇*) があると、∇, ∇*微分作用素としての差をリーマン計量を通じて計った量を次のように定義できます*1

 C(X, Y, -) := g(\nabla_X Y - \nabla^{*}_X Y, -)

これにより、「共役接続多様体 → ラウリッツィン統計多様体」という対応が作れます。

一方で、「ラウリッツィン統計多様体 → 共役接続多様体の1パラメータ族」という対応は、次の定義で構成できます。

 g(\nabla^{\alpha}_X Y, Z) \,:=\, g(^{LC}\nabla_X Y, Z) + \frac{\alpha}{2}C(X, Y, Z)

ここで、LC∇ はレヴィ・チビタ接続、αは任意の実数です。

共役接続多様体の1パラメータ族と共役接続多様体は事実上同じものだったので、次の三者はあまり区別しなくてもよいことになります。

  1. 共役接続多様体
  2. 共役接続多様体の1パラメータ族
  3. ラウリッツィン統計多様体

共役接続多様体を構成する方法として、ダイバージェンス〈divergence〉と呼ばれる多様体上の非対称距離(リーマン計量とは違う概念)から接続を定義する方法があります。ダイバージェンスDを備えた多様体 (M, D) があると、それから共役接続多様体 (M, Dg, D∇, D*) が構成できます。したがって、共役接続多様体の1パラメータ族とラウリッツィン統計多様体も構成できます。

ダイバージェンスを備えた多様体 (M, D) 、またはそれから作られた共役接続多様体 (M, Dg, D∇, D*) がダイバージェンス多様体〈divergence manifold〉です。ダイバージェンス多様体は、共役接続構造以外にダイバージェンスという距離類似構造があるので、それを使った(非対称な)距離幾何学が出来ることになります。

期待多様体

期待多様体〈expected manifold〉とは、計量や接続の定義に、確率・統計の期待値〈expected value〉が使われるものです。期待多様体は、古典的な情報幾何の対象物、あるいは「各点が確率分布である多様体」のことです。

期待多様体のリーマン計量は、フィッシャー情報計量〈Fisher information metric〉になります。情報幾何の起源とも言える計量です。共役接続ペア(の族)を作る場合も期待値を使います。期待値が関与するということは、パラメトリック統計モデルの文脈のなかで期待多様体が登場することです。純粋な幾何的文脈では期待多様体を定義できません。

僕が、「多様体と確率・統計: 情報幾何の入り口まで」で“統計多様体”と呼んだものは、期待多様体の下部構造、つまり、期待多様体からフィッシャー計量と共役接続ペアを除いた(なめらかな)パラメトリック統計モデルです。

期待多様体という種別は、幾何構造としての種別ではなくて、共役接続多様体が実現される状況/構成の仕方に注目した種別です。多様体を、純幾何的文脈で捉えるか、確率・統計的文脈で捉えるかの違いは、混乱を避けるには必要な視点でしょう。

ニールセンは、ラウリッツィン統計多様体を単に統計多様体と呼んでいるので、「確率・統計的」の意味で「期待」を形容詞にしたのでしょう。「期待多様体」という言葉が普及定着するかどうかは分かりませんが、純幾何的文脈と確率・統計的文脈を区別する言葉は欲しいですね。

おわりに

僕は「統計多様体」という言葉を、情報幾何の中心からはだいぶ外れた意味で使ってしまったのですが、実際、「各点が確率分布である多様体」の意味で「統計多様体」を使う人もいます。また、純幾何的な共役接続多様体を「統計多様体」と呼ぶ人もいます。ニールセンの情報多様体のように、漠然とした意味で「統計多様体」を使う人もいるでしょう。コミュニケーションには注意が必要です。

確率・統計的文脈で情報幾何を使うにしても(たいていはそうでしょうが)、概念の整理のために、いったんは純幾何的文脈で考えてみるのは有効な気がします。

*1:[追記]  C(X, Y, -) := g(\nabla_X Y - \nabla^{*}_X Y, -) は分かりにくかったですね。右辺一番目の'-'は引き算で、左辺と右辺二番目の'-'は無名ラムダ変数を表すハイフンです。字形を区別できるように C(X, Y, \mbox{-}) := g(\nabla_X Y - \nabla^{*}_X Y, \mbox{-}) ならマシだったかも[/追記]