このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

多様体と確率・統計: 情報幾何の入り口まで

確率・統計の文脈で多様体が登場することがあります。最近、増えているような気がします(僕の印象では)。典型的な登場の仕方が二種類あります。ひとつは確率空間の台空間〈underlying space〉として、もうひとつは統計多様体〈statistical manifold〉としてです。統計多様体は情報幾何〈information geometry〉で扱う対象物です。

[追記]この記事における統計多様体の定義が適切ではないので、訂正・補足しました。

[/追記]

内容:

確率空間と確率変数の復習

確率空間〈probability space〉を (Ω, Σ, μ) と書きます。ここで:

  1. Ωは集合、確率空間の台集合〈underlying set〉と呼びましょう。Ωを「標本空間」とは呼ばない理由は「超曖昧語「母集団」「標本」にケリをつける // 補足」に書いてあります。
  2. Σは、Ω上のシグマ代数です。(Ω, Σ) は可測空間になります。
  3. μは、可測空間 (Ω, Σ) 上で定義された確率測度です。

A = (ΩA, ΣA, μA) が確率空間で、B = (ΩB, ΣB) が可測空間のとき、可測写像 f:ΩA→ΩB確率変数〈{random | stochastic} variable〉と呼びます。「確率変数」という呼び名は不適切ですが、まー致し方ない。気になる方は次の記事をどうぞ。

確率変数 f:ΩA→ΩB があると、(ΩB, ΣB) 上の確率測度 f*A) (前送り測度と呼ぶ)が誘導されます。μB := f*A) と置けば、(ΩB, ΣB, μB) は確率空間になります。

確率測度μBがfで誘導されたのではなくて、最初からμBがあったと考えると、fは、確率空間のあいだの測度を保存する可測写像となります。このことから、確率変数とは“確率空間のあいだの準同型写像”だと定義することもできます。

以下、確率空間/可測空間に関して、A = (A, ΣA, μA), B = (B, ΣB) のような記号の乱用も使います。

可測空間Xに対して、PM(X) をX上の確率測度全体からなる集合とします。可測写像 f:X→Y に対して、測度の前送り写像 f*:PM(X)→PM(Y) が定義できます。そこで、

  • PM(f) := f* : PM(X)→PM(Y)

とすると、PM:MeasSet は(共変)関手となります。ここで、Measは可測空間と可測写像の圏、Setは集合と写像の圏です。

PM(X)に可測空間の構造を入れることができて、それによりPMは圏Meas上の自己関手 PM:MeasMeas になります。さらには、自己関手PM上にモナドを構成することができます。このモナドリィモナド〈Giry monad〉と呼ばれます。ジリィモナドに関する記事は次の検索でリストできます。

可測空間X上の確率分布とは、確率測度のことなので、PM(X)の要素のことです。しかし、なにか(あまりハッキリしない)ニュアンスが付くことがあります。そのへんのことは次の記事を参照してください。

確率空間の台としての多様体

A = (A, ΣA, μA) が確率空間のとき、台集合A(記号の乱用で確率空間と同じ記号)が単なる集合ではなくてなんらかの構造を持っていることがあります。例えば、Aが位相空間であることは多いです。

Aが位相空間のとき、ΣAが位相と無関係では面白くないので、ΣAとして、Aの開集合全体から生成されたシグマ代数(ボレル代数)をとります。測度構造以外に位相構造もあるので、位相を使った議論ができるようになります。

さらに、Aが単なる位相空間ではなくて多様体の場合を考えることもできるでしょう。これが、確率・統計における「多様体の登場の仕方その一」です。以下、多様体っぽく'M'という文字を使って、M = (M, ΣM, μM) を多様体上の確率空間とします。

多様体Mは位相空間でもあるので、ΣMはMのボレル代数とします。確率測度μMは、密度関数を持つモノが扱いやすいでしょう。密度関数は、基準となる標準測度がないと定義できません。多様体M上の標準的な測度とは何でしょう?

Mにリーマン計量gがあれば、リーマン多様体 (M, g) の体積形式 vol(M, g) がとれます。vol(M, g)による関数pの積分は次のように書けます。

  •  \int_{x\in M} p(x)\,vol_{(M, g)}(dx)

pを密度関数だと思って、可測集合 S⊆M の測度は次のように定義できます。

  •  \mu_M(S) := \int_{x\in S} p(x)\,vol_{(M, g)}(dx)

このセッティングのもとで、“確率分布”を「体積形式に関する密度関数を持つ確率測度」の意味で使っても悪くはないでしょう。

A = (A, ΣA, μA) を(多様体とは限らない)一般的な確率空間として、(M, ΣM) は多様体M上の可測空間とします。確率変数 f:A→M を考えることができます。この場合、多様体は、確率変数が値をとる空間として使われます。

例えば、Pを(ある時点での)人類全体からなる母集団とします(母集団に関しては「超曖昧語「母集団」「標本」にケリをつける」参照)。地球を2次元球面 S2 でモデル化して、f:P→S2 を各人が住んでいる地球上の位置を対応させる写像とします。すると、fは多様体 S2 に値をとる確率変数(母集団Pの変量)となります。Pが有限集合なので、そのままではfは“有限離散分布”です。fによる分布(前送り測度)をなめらかな関数pで近似すれば、人口密度関数pによる積分は、S2 の確率測度=確率分布を与えます。この確率測度は、S2の事象=地域に対して、人がどの程度住んでいるかの比率を与えます。

統計多様体

前節の例では、多様体は確率測度を載せる台となる空間でした。それとは別に、情報幾何の文脈で出てくる多様体があります。「多様体の登場の仕方そのニ」ですね。情報幾何が対象とする多様体を統計多様体と呼びます。ただし、「統計多様体」の定義は人により違うようです。ここでは、次の方針を採用します。

  1. パラメータ付け(埋め込み写像)込みで統計多様体を定義する。
  2. パラメータ付けのなめらかさの定義には汎関数族を使う。
  3. リーマン計量や接続は、統計多様体の定義に含めない。

統計多様体とは何かを大雑把に一言でいえば:

  • 各点が確率分布であるような多様体

ここでまた、「確率分布とは何か?」が問題になります。前節では、「確率分布=密度関数を持つ確率測度」というセッティングを例に出しました。が、確率分布の定義はケースバイケースです。なんらかの定義による「X上の確率分布」の全体を PD(X) とすると、次は確実です。

  • PD(X)はPM(X)への埋め込み写像を持つ。

これは、次のように考えてもいいでしょう。

  • PD(X)⊆PM(X) 確率分布の全体は、確率測度の全体の部分集合になる

PD(X)に可測空間や位相空間の構造を持たせるかも知れません。が、これもケースバイケースでなんとも言えません。統計多様体の定義のために、確率分布の空間PD(X)上で定義された“なめらかな関数”の概念が欲しいのですが、どうしたものでしょう?

ここではかなり安易な方法をとります。φ:PD(X)→R の形の関数を統計汎関数〈statistical functional〉、あるいは(誤解の恐れがなければ)単に汎関数と呼びます。Φを汎関数の集合(族)だとします。

  • φ∈Φ ならば、φ:PD(X)→R

PD(X)に汎関数の族Φを添えた構造 (PD(X), Φ) を考えます。例えば、

  • Xが測度空間として、密度関数pを持つ確率測度の全体をPD(X)とする。
  • a∈X に対して、(密度関数p |→ p(a) ∈R) で決まる汎関数の全体をΦとする。

(PD(X), Φ) に関して、ψ:PD(X)→Rなめらかな{関数 | 汎関数}〈smooth {function | functional}〉だとは次のことだとします。

  • 有限個の汎関数 φ1, ..., φn ∈Φ と、(普通の)なめらかな関数 g:RnR があって、
    ψ(x) = g(φ1(x), ..., φn(x)) と書ける。

(PD(X), Φ)上のなめらかな関数の全体を C(PD(X), Φ) とします。

以上で準備ができました。統計多様体を定義しましょう。

「各点が確率分布である」ためには、統計多様体が確率分布の空間PD(X)の部分集合であればいいのですが、PD(X)の外部に多様体があっても、PD(X)内への埋め込み写像を持てばいいでしょう。そこで、統計多様体〈statistical manifold〉を (M, ι) として定義します。ここで:

  1. Mは普通の多様体である。
  2. ι:M→PD(X) は単射写像である。
  3. ιは“なめらか”である。

最後の“なめらか”の意味は:

  • ψ∈C(PD(X), Φ) ならば、ψ\circι:M→R は普通の意味でなめらか(無限階微分可能)である。

C(PD(X), Φ) はΦで生成されているので、次の条件でもかまいません。

  • ψ∈Φ ならば、ψ\circι:M→R は普通の意味でなめらかである。

統計多様体 (M, ι) において、Mをパラメータ{多様体 | 空間}〈parameter {manifold | space}〉、ιをパラメータ付け〈parametrization〉といいます。パラメータ多様体MがユークリッドRnの開集合 U⊆Rn のとき、ι:U→PD(X) は通常のパラメトリック統計モデルになります。その典型例はガウス・モデルです。

必要があれば(たいてい必要です)、パラメータ多様体Mにリーマン計量や接続を入れます。そのとき、Mだけではなくて、確率分布の空間PD(X)や埋め込み写像ιの性質を考慮したり使ったりします。

おわりに

「情報幾何って何だろう?」と調べたことがあるのですが、そもそも何を扱っているのか分かりませんでした。「各点が確率分布である多様体」とだけ言われても、「各点」や「確率分布」の意味が曖昧だと、確実な幾何的対象物が把握できません。

ちゃんと探せばキチンとした定義があるんでしょうが、ザッと見たかぎりでは曖昧な定義しかなかったので、統計多様体の定義を書き下してみました。C(PD(X), Φ) の定義は場当たり的ですが、とりあえずは間に合います。

[追記]この記事における統計多様体の定義が適切ではないので、訂正・補足しました。

[/追記]