このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

参照用 記事

確率・統計の「分布」の意味と使用法

「確率変数」という言葉の意味と使用法が分からん! という話を長年(苦笑)していて、最近の記事「「確率変数」の正体は米田埋め込み」「「確率変数」の変種:測度に縛られない確率変数」で一応は納得したかな、という報告をしました。

「確率変数」の次にワケわからない言葉が「分布」です。「分布」についても、2015年の記事「「分布、測度、密度」は同じか違うか」で書いてるんですが、もう少し詳しい分析をしておきます。もし理屈っぽい話が面倒になったら飛ばして、最後の節を読んでください。

内容:

「確率分布」のオフィシャルな定義とニュアンス

「確率分布」のオフィシャルな定義は「確率分布=可測空間上の確率測度」でいいと思います。しかし、ではなぜ「確率測度」と言わずに「確率分布」を使うのか? という疑問が生じます。なにかしら暗黙のニュアンスがあるのでしょう。

「確率分布」の使用法をみると、確率変数(確率空間からの可測写像)による前送り測度(像測度、誘導測度)という意味合いがあるようです(僕の印象では)。ある空間V(例えば V = R)上に「確率分布ρがある」と言うとき、V上に最初からρがあるのではなくて、A = (ΩA, ΣA, μA) からの確率変数 X:ΩA→V により ρ = X*A) と書ける、と暗黙に想定しているのでしょう。

とはいえ、仮に「もとの確率空間では確率測度」「値の空間では確率分布」としても、用語「確率変数」の使用法の慣例として、背後の確率空間Aには言及しないので、結局はV上の確率分布ρだけが単独で出現することになり、こういう「確率測度」「確率分布」の使い分けはほぼ無意味(使い分ける側の自己満足)となります。

もうひとつのニュアンスとして、「分布」は測度そのものより、密度関数/累積分布関数/質量関数を表している感じがします。もちろん、密度関数/累積分布関数/質量関数は測度を定義するので、「確率分布」を「確率密度関数により定義される確率測度」「確率累積分布関数より定義される確率測度」「確率質量関数から定義される確率測度」と再解釈すれば、「確率分布=確率測度」は維持されます。しかしそれでも、「確率分布=確率測度」としたくない理由があるからこそ「確率分布」を使っているようにも思えます。その点を次節以降で述べます。

連続分布と離散分布

統計の文脈では、「連続分布」と「離散分布」という言葉が出てきます。この2つ以外の分類を聞いたことがないので、

  • 分布 = 連続分布 + 離散分布

と、(暗黙に)仮定しているのでしょう('+'の意味は後で明確にします)。もし、確率分布と確率測度が完全に同義だとすると、

  • 確率測度 = 連続確率測度 + 離散確率測度

となりますが、上記の分類は測度論の観点からはどうもあやしい。確率分布と確率測度を同じにしないほうが安全だ、といった配慮があるのかも知れません。

分布というのは、任意の測度を表すのではなくて、都合の良い密度関数/累積分布関数/質量関数から定義される測度に限定しているように思えます。このため、「分布」という言葉は第一義的に測度を意味するのではなくて、密度関数/累積分布関数/質量関数を指すのでしょう。

上記の各文の末尾が「かも知れません」「思えます」「でしょう」なのは、明白な記述を見たことがないので、想像でしかモノを言えないからです。

ユークリッド空間上の測度

実際的応用では、確率変数(確率空間からの可測写像)が値を取る領域は一般的な集合ではなくて、Rnであることがほとんどでしょう。Rn位相空間なので、ボレルσ集合代数Borel(Rn)が付随しています。また、ユークリッド構造から標準的な測度も決まっています。Rnの標準的な測度をνnと書くことにします。以下では、位相空間としてのRn、可測空間としての Rn = (Rn, Borel(Rn))、測度空間(確率空間ではない)としての Rn = (Rn, Borel(Rn), νn) を、いずれも単にRnと書くことがあります。

A = (ΩA, ΣA, μA) が確率空間で、X:A→Rn が確率変数として、Rn上の確率測度 μ = X*A) を考えるさいに、背後の確率空間Aには言及しない/考えないのが習慣なので、確率測度は最初からRn上にあったような扱いになります。この習慣に従うと、“Rn上の確率測度”が考える対象のすべてになります。

Rn上のすべての確率測度の集合をPM(Rn)とします。前段落で述べた事情により、PM(R), PM(R2), PM(R3), ... などが考える対象のすべてです。誤解されないように注意しておくと: あくまで「背後の確率空間を考えない」という習慣に従えば、の話です。それがいいと主張する気はまったくありません。むしろ、「背後の確率空間を考えない」のは好ましくない、と僕は思っています。

確率測度より広い範囲の測度達の集合も定義しておきましょう。

  • Rn上の測度の全体を、M(Rn)とする。
  • Rn上のσ-有限な測度の全体を、σFM(Rn)とする。
  • Rn上の有限な測度(μ(Rn) <∞ となる測度μ)の全体を、FM(Rn)とする。

PM(Rn) ⊂ FM(Rn) ⊂ σFM(Rn) ⊂ M(Rn) という包含の系列があります。標準測度νnはFM(Rn)には入りませんが、σFM(Rn)に入っています。

測度と“密度/質量分布”の関係

測度と密度の関係については、ルベーグの分解定理ラドン/ニコディムの定理が教えてくれます。これらの定理は、σFM(Rn)(Rn上のσ-有限な測度の全体)に対して適用できます。

ルベーグの分解定理により、μ∈σFM(Rn) を勝手に取ったとき、Rnの標準測度νnに関して、絶対連続部分と特異部分に分解できます。もう少し詳しく言うと:μ = μAC + μsing の形に書けて、次が成立します。

  1. μAC ≪ νn
  2. μsing ⊥ νn
  3. μAC ⊥ μsing
  4. この形の分解は一意的

'≪'は絶対連続性、'⊥'は互いに特異であることを示します。

ラドン/ニコディムの定理により、μACは、ラドン/ニコディム導関数 f = dμ/dνn を密度関数に持ちます。一方のμsingは、密度関数を持ちませんが、だからといって、離散質量分布スタイルの測度になるとも限りません。カントール分布のような奇妙な例もありますから。

さて、μが確率測度ならσ-有限な測度なので、上記の議論が適用できて、密度関数を持つμACと変な部分μsingに分解できます。しかし、カントール分布のようなホントに変なヤツは考えたくありません。また、密度関数もタチのよい関数に限定したいところです。

そこで、タチの良い確率密度関数の集合(用途に応じて決める)PDensity(Rn)と、有限個または可算無限個の質点をばらまいた形の離散質量分布(総質量 = 1)の集合PDiscrete(Rn)を決めます。そして、Integ:PDensity(Rn)→PM(Rn), Sum:PDiscrete(Rn)→PM(Rn) を次のように定義します。(SはRnのボレル可測集合。)

  • (Integ(f))(S) = 被積分関数fの、標準測度νnによるS上の積分
  • (Sum(φ))(S) = S内にある質点達の総質量

[追記]以下の「分布の自由凸空間が測度の空間に埋め込まれる」は間違いでした。とりあえず「埋め込まれる」を訂正します。後で補足説明を書きます。[/追記][さらに追記]心が安らぐ「分布の空間」を定義してみる」に、詳しいことを書きました。[/さらに追記]

s + t = 1 である非負実数 s, t∈R≧0 により、凸結合(重心結合) s(Integ(f)) + t(Sum(φ)) を作ると、これは確率測度になります。この方法で、PDensity(Rn) + PDiscrete(Rn) ('+'は集合の直和)から作った自由凸空間(任意個数の形式的凸結合の全体)は、PM(Rn)内に埋め込ま写像れます。こうして、PM(Rn)の都合のよいサブセットが定義できます。このサブセット内でルベーグ分解をすると、絶対連続部分のラドン/ニコディム導関数として確率密度関数が、特異部分として離散質量分布が再現されます。

「分布 = 連続分布 + 離散分布」の意味

μとμ'が確率測度のとき、s + t = 1 である非負実数による凸結合 sμ + tμ' も確率測度になります。その意味で、PM(Rn) は凸空間(convex space)になっています。Wを任意の集合として、写像 h:W→PM(Rn) があると、hは、Wから作った自由凸空間FreeConvex(W)からの写像 h#:FreeConvex(W)→PM(Rn) に一意に拡張できます。この性質を使って、FreeConvex(PDensity(Rn) + PDiscrete(Rn))→PM(Rn) を作りました。

「確率分布」という言葉が「確率測度」と完全に同義ではないだろう、と言ったのは、「確率分布の集合」がPM(Rn)を直接は意味してないようだからです。「確率分布の集合」は、PDensity(Rn) + PDiscrete(Rn)('+'は集合の直積)、または自由凸空間FreeConvex(PDensity(Rn) + PDiscrete(Rn))を指しているのでしょう。そう考えれば、「分布 = 連続分布 + 離散分布」のイコールやプラスを合理的に説明できます。

積分と質量総和を使った埋め込み写像で、FreeConvex(PDensity(Rn) + PDiscrete(Rn)) の計算は PM(Rn) 内の計算とみなせるので、この「みなし」を通じて間接的に「確率分布=確率測度」となるのでしょう。(「でしょう」ばかりなのは、想像でしかモノを言えないから。)

何故にこうも暗黙の前提やニュアンスが多いのだろうか

確率論はともかくとして、統計は実学的傾向が強い分野です。出来るだけ早く実務上の計算能力を習得するには、測度や確率空間に触れたくはないでしょう。そうだとすると、確率変数や分布の説明はどうなるでしょうか。

  1. 確率変数の実体が何であるかには言及せず(可測空間と確率空間が必要になるので)、直感に頼った描像で曖昧なままとする。
  2. 背後にある確率空間には言及せず(確率空間が必要になるので)、値の空間であるRn(主にR)上の分布を考える。
  3. 分布を測度とは言わずに(測度空間が必要になるので)、密度関数/累積分布関数/質量関数を意味することにする。
  4. タチの良い関数の範囲で考えれば、密度関数と累積分布関数は普通の積分微分で互いに移りあうので、どちらも連続分布の表現と考える。
  5. 質量関数は、離散分布の表現と考える。
  6. 事象の確率は、確率密度関数積分または確率質量関数の総和として定義する。背後にある確率空間には言及しないので、単にRn上の微積分の話になる。
  7. 以上の枠組では、実一変数または実多変数の実数値関数と質量関数(離散分布の表現)しか出現しない。測度も確率空間も不要である。

と、こんな感じでしょう。致し方ない面もあるとは思いますが、これでは実変数実数値関数をいじっているだけです。意味(セマンティクス)は幾つかの実例と曖昧な直感でしか与えられません(それはセマンティクスとは言わないよね)。語るに語れず、実変数実数値関数では表現しきれない意味の残滓が、用語法のニュアンスや暗黙の前提としてまとわりつくのでしょう。

「じゃあ、どうしたらいいの?」に明確な答を持ち合わせていませんが、「出来るだけ早く」のコース以外に、「幾つかの実例と曖昧な直感」に頼らず、「暗黙の前提」も使わないで、概念を明示的に定義していくコースもあったほうがいいなー、とは思います。コースは無理だけど、断片的ヒントくらいはこのブログに書く(幾つかは既に書いた)つもりです。