このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

多変量正規分布 1: アフィン空間

確率モデルのひとつであるガウス/マルコフ・モデルを理解したいのですが、その前に、多変量〈多次元〉正規分布を理解しないといけないようです。なので、多変量正規分布を調べています。

多変量正規分布を理解するための予備知識を何回かに分けて書くつもりです。今回はアフィン空間の話しかしてないので、この記事単独でアフィン空間に関する記事として読めます。アフィン空間上に載る正規分布の話は(いつか分からないが)次回以降です。

内容:

はじめに

多変量正規分布は、たいていRn上の確率密度関数を使って定義します。「Rnを使う」ってことは、基底(あるいは座標)を固定していることになります。基底〈座標〉に依存するのが、なんかイヤだなー、って気がします。

多変量正規分布が載る空間は、通常、n次元のベクトル空間ですが、正規分布を平行移動しても正規分布なので、台空間はベクトル空間つうよりアフィン空間でしょう。アフィン空間をベクトル空間で代用しても特に問題はないですが、原点を固定して扱うのが若干気持ち悪い。

上記ニ点の「イヤだなー」「気持ち悪い」を解消するために、アフィン空間上で、基底〈座標〉によらないスタイルで多変量正規分布を定義したいと思います。以下、多変量のケースを扱うので、単に「正規分布」と言ってもそれは多変量正規分布を意味します。1変量〈1次元〉のときはその旨断ります。

目的は概念をハッキリさせることなので、「できるだけ少ない予備知識で」は諦めます。具体的に言えば、測度論の概念は使います。確率・統計的な概念がハッキリしない/モヤッとしている原因の相当な部分が「測度論を避ける」ことに起因してると思うので、ハッキリさせたいなら測度論的な議論は避けられないと思います。

基底〈座標〉を使った具体的な計算はしません。これは、主義主張とは無関係で、僕がそういう計算が苦手だから、という理由だけです。細かい議論が省略されていたら、それも僕がよく分かってないか、横着してるんだ、と思ってください。

アフィン空間

ベクトル空間は、R上の有限次元ベクトル空間だけを考えます。以下、単に「ベクトル空間」と言ったらR上の有限次元ベクトル空間です。

Xを集合、Vをベクトル空間(今したお約束で、R上に有限次元)とします。Xの要素を点、Vの要素をベクトルと呼び、x, y∈X, u, v∈V などの文字を使います。X, V と、写像 α:X×V→X を一緒にした (X, V, α) がアフィン空間〈affine space〉だとは、次の性質を持つことです*1

  1. αは、VのXへの作用〈action〉になっている*2。つまり:
    1. For x∈X, u, v∈V, α(x, u + v) = α(α(x, u), v)
    2. For x∈X, α(x, 0) = x
  2. For x, y∈X, α(x, v) = y となる v∈V が一意的に存在する。

α(x, v) を、足し算記号を流用して a + v と書くことにします。Vの足し算と演算子オーバーロード〈多義的使用〉になるので注意してください。オーバーロードされた足し算記号を使うと、上記の二つの等式は次のように書けます。

  • x + (u + v) = (x + u) + v
  • x + 0 = x

「α(x, v) = y となるv」は、引き算記号を流用して、v = y - x と書くことにします。オーバーロードされた引き算記号を使うと:

  • x + (y - x) = y
  • (y - x) + (z - y) = z - x
  • x - x = 0

などが成立します。

v∈V に対して、x \mapsto x + v : X→X という写像は、vによる平行移動〈parallel {translation | displacement | moving}〉*3といいます。一方、a∈X を選んで固定すると、v \mapsto (a + v) : V→X という写像が定義され、これは集合の同型〈全単射〉になります。この写像の逆写像は x \mapsto (x - a) : X→V です。

  • (a + v) - a = v
  • a + (x - a) = x

オーバーロードされていることに注意さえすれば、足し算記号/引き算記号はうまく働きます。

a∈X を選んで固定すると、XとVを同一視できることが、アフィン空間の代わりにベクトル空間Vだけを考えても差し支えない理由です。が、a(原点)を固定する時点で恣意的な選択が入ります。恣意性を構造に入れたくないなら、ベクトル空間ではなくてアフィン空間を使うことになります。

アフィン空間をAで表すとき、A = (XA, VA, αA) と書きます。例によって記号を乱用して A = (A, VA, αA) とも書きます。A = (A, V, α), B = (B, W, β) のような書き方も使います。

アフィン写像

A = (A, V, α), B = (B, W, β) を2つのアフィン空間とします。集合のあいだの写像 f:A→B と線形写像 ℓ:V→W の組 (f, ℓ) で、次を満たすものをアフィン線形写像〈affine linear map〉、または単にアフィン写像〈affine map〉といいます。

  • For x∈A, v∈V, f(α(x, v)) = β(f(x), ℓ(v))

足し算記号を使ったほうが分かりやすいでしょう。

  • For x∈A, v∈V, f(x + v) = f(x) + ℓ(v)

f:A→B は点のあいだの写像、ℓ:V→W はベクトルのあいだの写像で、平行移動を(ℓを通して)保存する性質を持ちます。

また記号の乱用で、アフィン写像 (f, ℓ) を、f = (f, ℓ) のように書きます。アフィン写像全体と点の写像をどちらもfで表します。ℓはアフィン写像fの一部なので、f = (f, ℓf) とも書きます。

f = (f, ℓf) :A→B, g = (g, ℓg) :B→C が2つのアフィン写像のとき、結合〈合成〉 f;g = (f;g, ℓf;ℓg) :A→ C も再びアフィン写像になります。また、idA = (idA, idVA) :A→A もアフィン写像です。

これらのことを一言でいえば、アフィン空間の全体と、それらのあいだのアフィン写像の全体は圏をなします。この圏をAffと置けば:

  • 圏の対象: |Aff| = Obj(Aff) := (すべてのアフィン空間のクラス)
  • 圏のホムセット: For A, B∈|Aff|, Aff(A, B) = (AからBへのアフィン写像の全体である集合)

アフィン枠とアフィン座標

Vがn次元ベクトル空間であるとき、Vの基底に順番を付けたリスト (v1, ..., vn) をベクトル空間の枠〈frame of a vector space〉、または線形枠〈linear frame〉といいます。A = (A, V, α) がアフィン空間のとき、Aの要素〈点〉aと、Vの線形枠 (v1, ..., vn) を一緒にした (a, v1, ..., vn) をアフィン線形枠〈affine linear frame〉またはアフィン枠〈affine frame〉といいます。

ベクトル空間の線形枠 v = (v1, ..., vn) があると、それに伴う線形同型写像 φ:Rn→V が誘導されます。

  • φ(ξ1, ..., ξn) := v1ξ1 + ... + vnξn

線形枠vと線形同型写像φは1:1に対応するので、あまり区別しないで、写像φのことも線形枠と呼びます写像としての線形枠 φ:Rn→V の逆写像 φ-1:V→Rn を、Vの線形座標〈linear {coordinates | coordinate system}〉と呼びます。

アフィン空間Aのアフィン枠 (a, v) に対しても、アフィン写像 f = (f, ℓf) が誘導されます。

  • f:Rn→A, f(ξ1, ..., ξn) := a + v1ξ1 + ... + vnξn
  • f:Rn→V, ℓf1, ..., ξn) := v1ξ1 + ... + vnξn

アフィン枠 (a, v) とアフィン写像 f = (f, ℓf) も1:1に対応するので、アフィン枠から誘導されるアフィン写像もアフィン枠と呼びます
写像としてのアフィン枠 f:Rn→V, ℓf:Rn→V の逆写像(の組) (f-1, (ℓf)-1) を、Aのアフィン座標〈affine {coordinates | coordinate system}〉と呼びます。

アフィン空間Aのアフィン枠(原点と線形枠)を固定すると、A = (A, V, α) は、Rn上の標準的アフィン構造 Rn = (Rn, Rn, (+)) と同一視できます。ここで、(+):Rn×RnRn は標準的な足し算です。

具体的な計算をしたいときは、アフィン枠を固定して、A = (A, V, α) を Rn = (Rn, Rn, (+)) で表現します。アフィン写像 f:A→B は、Aのアフィン枠 (a, v1, ..., vn) とBのアフィン枠 (b, w1, ..., wm) により、RnRm写像を定めます。fの線形パートℓfを表現するm行n列の行列と、f(a)∈B を表すm行縦ベクトル〈1列行列〉でfを表示できます。この行列と縦ベクトルは、当然にアフィン枠の取り方に依存して変わります。


今日はアフィン空間を定義しただけです。次回はたぶん、アフィン空間上の二次形式の話をします。二次形式は、正規分布の密度関数において“指数の肩に乗せる量”として必要です。

*1:ベクトル空間の加法群を一般の位相群Gにして、条件を若干ゆるめると、Gの等質空間〈homogeneous space〉という構造になります。

*2:正確には右作用です。ベクトルの足し算は可換なので、右作用でも左作用でも同じですが、右作用のほうが見やすいと思います。

*3:"parallel transport"というと、微分幾何における平行移動を意味するようです。