このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

参照用 記事

超曖昧語「母集団」「標本」にケリをつける

曖昧・多義的に使われている専門用語は全然珍しくありません。確率・統計の分野でも、たくさんの曖昧語・多義語が登場します。そのなかでも、特に曖昧性がひどく、意味不明の四天王だと僕が思っている言葉は、

  • 確率変数
  • 分布
  • 母集団
  • 標本

です。どれも手強くて、「四天王の中でも最弱」とか「最強」とかの順位付けは難しいです。

*1

「確率変数」については何度も話題にしています。2つだけ過去記事を選ぶなら:

「分布」に関しては:

今回この記事では、残る2つの超曖昧語「母集団」「標本」について、出来る限りの解明を試みます。中心的話題は、「標本」に対するまったくかけ離れた2つの定義を結びつけることです。2つの定義を結びつけるために、「独立ベキ測度の前送り定理」を紹介します。

内容:

続き「IIDな確率変数達はどこから来るのか」の内容:

  1. はじめに
  2. 準備:写像の一般論
  3. 準備:可測写像の独立性
  4. 準備:確率空間の独立積と独立ベキ
  5. 独立ベキ測度の前送り定理
  6. IID列を作る
  7. IID列の独立性
  8. おわりに

諸悪の根源: 構造と台集合の混同

曖昧語・多義語が生まれてしまう原因は色々あるでしょうが、広く浸透している悪習が原因となっていることがあります。そんな悪習のひとつに:

  • 構造と、その構造を載せている台集合を区別しない、意図的に混同する

という習慣があります。悪習なので弊害があります。しかし、広く浸透しているので、今さらどうにもならないものです。

例えば、すべての自然数からなる集合は N = {0, 1, 2, ...} と書かれます。Nは単なる集合です。N上に大小順序を考えれば、(N, ≦) は順序集合(順序構造を持った集合)となります。N上に足し算を考えれば、(N, +, 0) は可換モノイドになります。掛け算を考えても、(N, ×, 1) は可換モノイドです。足し算と掛け算の両方とも考えれば、(N, +, 0, ×, 1) は可換半環〈commutative semiring〉だし、それに順序もあわせると、(N, +, 0, ×, 1, ≦) は順序半環〈ordered semiring〉です*2

Nとだけ書いたときは、本来なら単なる集合のはずです。ところが、文脈により、順序集合としてのN、可換モノイドとしてのN、可換半環としてのN、順序半環としてのNなどの多様な意味で(つまり、曖昧・多義的に)Nが使われます。

曖昧性が多少は解消するように、あるいは、意図的に曖昧に書いていることを表明するために、次のような記法が使われます。

  • N = (N, ≦)
  • N = (N, +, 0)
  • N = (N, ×, 1)
  • N = (N, +, 0, ×, 1)
  • N = (N, +, 0, ×, 1, ≦)

ある特定の文脈で、けっこう複雑な構造を想定していても、台集合(集合だけでは何の構造もない)により、構造を代表させることがあるのです。そんなとき、文字通りに集合だと受け取ってはダメです。空気を読んで、集合上の構造を想定するのです。

このテの悪習に文句を言ってもはじまりません。やめさせることは絶対に不可能ですから。悪習が蔓延〈はびこ〉っている事実を認識して注意するだけです。

「母集団」の背後にある構造

「母集団」という言葉は、前節で述べた悪習にひどく蝕〈むしば〉まれた言葉です。表立っては集合として定義されますが、背後には複雑な構造があります。

例えば、日本人の成人男性全員からなる集合をAとしましょう。集合Aを母集団と呼ぶのは普通のことです。しかし、集合Aだけがあってもなんも面白くありません。A上で定義された関数が考察の対象になります。例えば、身長を考えましょう。身長は f:A→R という関数として定式化されます。とりあえず、集合Aと関数 f:A→R を組み合わせた構造 (A, f) が想定できました。

身長関数 f:A→R に誤差は考えないことにします。Aの各要素(日本人成人男性の個体)aに対して f(a) が実数として正確に定まると想定します。このfは確率変数です。変数ではないし、ランダム性(偶然による不定性/予測不可能性)はコレッポッチもありませんが、それでも確率変数です*3

単なる関数(正確には可測関数)を確率変数と呼ぶのはいいのですが(いや、良くないけど認めましょう)、「確率変数」という言葉を使うときのココロとして「関数の域〈domain〉には確率測度が載っている」という想定があります。つまり、集合A上に確率測度が必要です。

確率測度は測度に条件が付いたものです。測度概念(測度空間)を構成する材料は次のものです。

  1. 台集合
  2. σ代数〈σ集合代数 | 完全加法族〉
  3. 測度(測度関数)

台集合はA(日本人成人男性)と決まっているので、A上のσ代数と測度を定義しましょう。

  • σ代数は、Aのベキ集合 Pow(A) に通常の集合演算を考えたもの。これをΣ(総和記号じゃないよ!)と書く。
  • 測度(測度関数) ν:Σ→R を、S∈Σ に対して ν(S) = (Sの基数〈個数〉) とする。

Aは有限集合なので S⊆A も有限集合で、ν(S)は集合Sの個数(人数)を勘定した値です。

(A, Σ, ν) は測度空間になりますが、確率空間(確率測度を持った測度空間)にはなっていません。ν(A) = 1 ではないからです。そこで、新しい測度μを次のように定義します。

  • μ(S) := ν(S)/ν(A)

μは、正規化された基数測度です。(A, Σ, μ) は確率空間になります。確率空間 (A, Σ, μ) にも「偶然による不定性/予測不可能性」といった意味合いは(今のところ)見い出せません*4

以上に述べたように、母集団Aと言った場合、集合Aだけを意味しているのではなくて、構造 (A, Σ, μ, f) を想定しています。これを、広く浸透している悪習に従って書けば:

  • A = (A, Σ, μ, f)

イコールの左側のAは構造としての母集団、右側のAは台集合としての母集団です。

母集団に関する記法と概念

前節で述べたように、母集団の構造は (A, Σ, μ, f) のように書くことにします。

  • Aは母集団の台集合(狭義の母集団)
  • Σは母集団のσ代数
  • μは母集団の確率測度
  • fは母集団の変量〈variate〉

と呼ぶことにします。複数の母集団を考える場合は次のように書きます。

  • A = (A, ΣA, μA, fA)
  • B = (B, ΣB, μB, fB)

もし、構造と台集合をちゃんと区別したいなら、台集合をΩAのように書くことにします。また、変量fAの余域〈codomain〉はXAと書きましょう。この記法だと:

  • A = (ΩA, ΣA, μA, fAA→XA)

A, ΣA) は可測空間、(ΩA, ΣA, μA) は確率空間の構造であり、fAA→XA は確率変数(可測関数)です。ここから先では、fA と XA の下付きAは省略して、f, X と書きます(さすがにウザいからね)*5

ときに多変量〈multivariate〉の母集団を考えることがあります。例えば、身長 f:A→R と共に体重 g:A→R も考えるとかです。一般に、f1:A→X1, f2:A→X2, ..., fk:A→Xk がk個の変量のとき、

  • f(a) := (f1(a), f2(a), ..., fk(a))

と定義した

  • f:A→X1×X2×...×Xk

を考えれば、X1×X2×...×Xk に値をとるひとつの変量fがあるとみなすことが出来ます。よって、とりたてて多変量を扱うことはしません*6

僕の他の記事でも述べているように、「確率分布」は「確率測度」と同義語です。ときに、確率密度関数を確率分布とも呼びますが、確率密度関数から確率測度が決まるので、確率分布=確率測度 で大丈夫でしょう。

さて、母集団 A = (A, ΣA, μA, f:A→X) の分布と言った場合、もともとある確率測度μの意味ではなくて、μをfでX側に前送り〈push-forward〉した確率測度を意味することが多いようです。前送り測度(像測度ともいう) f*(μ) は次のように定義されます。

  • U∈ΣX に対して、(f*(μ))(U) := μ(f*(U)) ここで f*(U) := {a∈A | f(a)∈U}

変量が値をとる空間Xにもσ代数ΣXはあるとしています。多くの場合、X = R か X = Rk なので、X上には標準的なΣXがあります。

母集団からの標本

A = (A, ΣA, μA, f:A→X) を母集団とします。日本人成人男性の例は離れて、以下、一般論であることに注意してください。

母集団Aからの「標本」という言葉があります。この「標本」の意味が僕はサッパリ分かりませんでした。いくつかの定義(らしきもの)があるのですが、それらの定義(らしきもの)の相互関係が理解できないのです。そもそもが無関係の同音異義語って可能性もありますしね。

まず、確率空間の文脈で「標本空間」という言葉があります。これはまー、割とどうでもいいので、すぐ下の補足コラムにします。本文では、確率空間の標本空間じゃなくて、調査目的で抽出される標本を問題にします。

[補足]

A, ΣA, μA) が確率空間のとき、台集合ΩA標本空間〈sample space〉と呼びます。ΩAの要素を標本点〈sample point〉または単に標本〈sample〉とも呼びます。これは、「そう呼ぶよ」って約束なので、「はい、そうですか」ってだけの話です。

f:ΩA→X が確率変数(単なる可測関数)のとき、集合X上に前送り測度 f*(μ) を載せると、(X, ΣX, f*(μ)) は確率空間になり、できた確率空間の標本空間はXです。この状況で:

  1. ΩAを標本空間と呼び、Xは標本空間とは呼ばない。
  2. Xを標本空間と呼び、ΩAは標本空間とは呼ばない。
  3. ΩAもXも標本空間と呼ぶ。

という用法があります。もともとが確率空間の台集合を標本空間と呼ぶなら、「こっちを標本空間とは呼ばない」という判断は根拠がありません。一方で、確率空間の台集合をすべからく標本空間と呼ぶなら、確率・統計の文脈で出てくる集合は、たいてい標本空間となるわけで、あえて標本空間と呼ぶ意義があるか疑問です。

そして、今問題にしている「調査目的で抽出された標本」との混同・混乱も生じるので、確率空間の台集合を標本空間と呼ぶのはやめたほうがいいだろうと思います。

[/補足]

「標本」に対するよくある説明を見てみましょう。「基本統計量の算出」というWebページによれば、

  • 母集団: 分析が対象とするすべてのデータ.例えば,早稲田大学の学生全員.
  • 標本: 母集団からの一部のデータ.例えば,今日,教室にいる早大生諸君.

と説明されています。

ここでの「母集団」は、母集団構造の台集合のことでしょうから、集合としてのA(混乱を避けるならΩA)です。「一部のデータ」の意味は、事例「今日,教室にいる早大生諸君」を考慮すると、Aの部分集合のことのようです。つまり、次のように定義してよさそうです。

  • 母集団 A = (A, ΣA, μA, f:A→X) からの標本とは、集合としてのAの有限部分集合のことである。

Sが標本だとは、「S⊆A かつ Sは有限集合」という意味です。有限集合Sの基数(個数)を標本サイズ〈sample size〉と呼びます。

大数の法則中心極限定理でも“標本”を扱います。ここで登場する標本は母集団台集合の有限部分集合でしょうか? 中心極限定理の定式化などを見るに、まったく違ったものを標本と呼んでいるようです。

集合B(もとの集合Aとは限らない)から集合Xへの確率変数(単なる可測関数)の列 g1, g2, ..., gn独立同分布だとは、次のことです。[追記]今νと書いてあるところが以前はμでした。訂正しました。[/追記]

  • g1, g2, ..., gn は独立な確率変数である。
  • giによる前送り測度 (gi)*(ν) は、すべて等しい。つまり (g1)*(ν) = (g2)*(ν) = ... = (gn)*(ν) ここでνは、なんらかの確率測度。

独立同分布をIID〈independent and identically distributed〉と略称するので、独立同分布な確率変数の列をIID列と呼ぶことにします。中心極限定理などの文脈における標本とはIID列のことです。

  • 母集団 A = (A, ΣA, μA, f:A→X) からの標本とは、IID列 g1, g2, ..., gn : B→X であって、(gi)*(ν) = f*(μ) を満たすものである。ここで、Bはなんらかの集合で、νはB上のなんらかの確率測度。

nを標本サイズと呼ぶのは同じです。

しかし、それにしても、この2つの定義、あまりにも違いすぎませんか。こんだけ違うと同じ名前で呼ぶわけにもいかないので、先の定義による標本を標本部分集合〈sample subset〉と呼び、今の定義による標本を標本IID列〈sample IID sequence〉と呼ぶことにします。標本部分集合のサイズは基数(個数)のこと、標本IID列のサイズは列の長さのことです。

抽出法とコレクションデータ型

実際の調査作業として“標本”を選び出すとき、いくつかのやり方があるようです。それを(標本の)抽出法と呼びます。例えば、アンケート調査とかを思い描いてください。

  • 非復元抽出 : 一度選んだ個体(例えば人)は、もう選ばないようにする選び方
  • 復元抽出 : 一度選んだ個体でも、また選んでもよい選び方
  • 非順序抽出 : 選んだ順序は無視する(記録しない)選び方
  • 順序抽出 : 選んだ順序も記録する選び方

この分類は2×2のマトリックスとして理解したほうがいいでしょう。

復元 非復元
順序 順序復元抽出法 順序非復元抽出法
非順序 非順序復元抽出法 非順序非復元抽出法

これらの抽出法は、プログラミングにおける複合データ型構成と密接に関係します*7。いま、Zを何でもいいから集合(プログラミング的にはデータ型)としましょう。Zの要素を組み合わせて新しいデータ型を作ることができます。次のようなデータ型があります。

  1. Subset(Z) : Zの有限部分集合をデータ(インスタンス)とするデータ型
  2. List(Z) : Zの要素を並べたリストをデータとするデータ型
  3. UniqList(Z) : Zの要素のリストだが、同じ要素の重複出現を許さないリストをデータとするデータ型(Uniqは一意性を意味するuniqueから)
  4. Bag(Z) : Zの要素を集めたバッグをデータとするデータ型

バッグ〈bag〉とは、要素の並び順は考慮しないが、要素の重複出現回数は意味を持つデータです。これらのデータ型は、要素の集まり〈collection〉のデータ型なので、コレクションデータ型〈collection data type〉と呼びます*8

この節冒頭で説明した抽出法により選んだ結果のデータは、コレクションデータ型のデータ(インスタンス)になります。A = ΩA を母集団台集合として:

  1. 非順序非復元抽出法による抽出結果 → Subset(A)型のデータ
  2. 順序復元抽出法による抽出結果 → List(A)型のデータ
  3. 順序非復元抽出法による抽出結果 → UniqList(A)型のデータ
  4. 非順序復元抽出法による抽出結果 → Bag(A)型のデータ

前節で述べた標本部分集合は、抽出法として非順序非復元抽出法を採用した場合の抽出結果ですね。他の抽出法を排除する理由はないので、「標本」の意味を次のように変更したほうがいいでしょう。

  • 母集団 A = (A, ΣA, μA, f:A→X) からの標本とは、何らかの抽出法による抽出結果であるコレクションデータ型のデータである。

こうすると、標本は、抽出法(あるいはコレクションデータ型)に依存するので、次のように呼び分けるべきです。

  1. 標本部分集合
  2. 標本リスト、または標本タプル*9
  3. 標本一意リスト(重複を許さないリスト)
  4. 標本バッグ

これらを総称するときは、標本コレクション〈sample collection〉ということにします。標本コレクションの一般論もできます。しかし、採用する抽出法(コレクションデータ型)により、その後の議論が大きく変わるところもあります。なので、抽出法(コレクションデータ型)を明示しない曖昧な議論は好ましくありません。

理論的に扱いやすい抽出法(コレクションデータ型)は順序復元抽出法(リスト型)です。IID列としての定義に直接結びつくのは、“標本リスト=リスト型の標本データ”に限られます。なので、当初は「標本=標本部分集合」と定義されたにしても、どこかで「標本=標本リスト」に変更する必要があります。このような区別や切り替えを曖昧なままにすることがあるとすれば、それも悪習です。

抽出される確率と抽出の確率空間

確率というと、コイントス、サイコロふり、宝くじなどの博打のイメージがあるでしょう。しかし、日本人成人男性の身長のような例では、博打的要素はないように思えます。実は、博打的要素が入ってくるのは、標本抽出の時点なのです。

例えば、A = 日本人成人男性, f = 身長 の例で、何人かが標本として抽出されるとします。どんな人々が標本として抽出されるかには「偶然による不定性/予測不可能性」があります。いやむしろ、「偶然による不定性/予測不可能性」があるように選ぶべきなのです。

それぞれの標本部分集合や標本リストには、抽出される“可能性の度合い”が定まります。これは、抽出される確率の確率密度です。確率密度関数があるということは、確率空間の構造があるはずです。標本部分集合の場合、つまり、抽出法として非順序非復元抽出法を採用した場合なら次のようになります。

  • 台集合: Subset(ΩA) : もとの母集団の台集合ΩAの有限部分集合全体からなる集合
  • σ代数: Subset(ΩA) のベキ集合 Pow(Subset(ΩA)) の部分代数である“なんらかのσ代数”
  • 確率測度: すぐ上のσ代数上で定義された“なんらかの確率測度”。Subset(ΩA) 上に確率密度関数が定義できれば、それをもとに確率測度を構成できる。

抽出法として、順序復元抽出法を採用するならば、上記のSubsetをListに置き換えた定義になります。“なんらかのσ代数”と“なんらかの確率測度”は自動的に生じるものではなく、頑張って構成しなくてはなりません。

Subset(ΩA), List(ΩA) のように、抽出法により変わる「すべての標本データからなる集合」を総称して(抽象化して)、Sample(ΩA) と書くことにします。また、“なんらかのσ代数”と“なんらかの確率測度”をちゃんと決めて作った確率空間を Sample(A) とします。つまり、

  • Sample(A) = (Sample(ΩA), ΣSample(A), μSample(A))
  • Sample(ΩA) は、集合ΩAから作った「すべての標本データからなる集合」
  • ΣSample(A) は、頑張って構成した“なんらかのσ代数”
  • μSample(A) は、頑張って構成した“なんらかの確率測度”

“標本”という概念がとても難しい理由は、母集団Aから作った確率空間 Sample(A) = (Sample(ΩA), ΣSample(A), μSample(A)) を把握・理解するのが難しいからです。把握・理解せずにごまかして進むのも難しいです。もとの母集団Aと採用した抽出法に基づいて、台集合/σ代数/確率測度を具体的に構成してみるのが結局は近道なのかと思います。

次節以降で、抽出法を順序復元抽出法に限定して、確率空間 List(A) を構成してみます。

標本サイズごとに分けて考える

母集団 A = (ΩA, ΣA, μA, f:ΩA→X) に対して、標本リストの集合 List(ΩA) を台集合とする確率空間 List(A) = (List(ΩA), ΣList(A), μList(A)) を構成しましょう。この際、母集団の変量 f:ΩA→X は関係しないので、与えられた確率空間 (ΩA, ΣA, μA) から、新しい確率空間 (List(ΩA), ΣList(A), μList(A)) を構成する問題になります。

確率空間 (List(ΩA), ΣList(A), μList(A)) があるとは、標本リストの集合 S⊆ List(ΩA) に対して、Sが抽出される確率 μList(A)(S) が決まることです。ΩAが有限集合のときは、標本リスト(のインスタンス) s∈List(ΩA) ごとに μList(A)({s}) が決まれば抽出確率測度 μList(A) も決まりますが、一般的には μList(A)({s}) が意味を持つとは限りません(一点の確率は全部0かも)。

とりあえず、すべての標本リストの集合 List(ΩA) の上に確率測度を載せるのは難しそうなので、標本サイズ(リストの長さ)nを固定して考えましょう。

  • ListnA) := {s∈List(ΩA) | size(s) = n}

とします。List(ΩA) を全体として考えるのではなくて、nごとに ListnA) を考えて、nごとの確率空間を構成します。

  • Listn(A) = (ListnA), ΣListn(A), μListn(A))

ここで重要な事実は、n = 1 のとき、

  • List1(A) \stackrel{\sim}{=} A

であることです。この同型関係の意味は、まずは集合として List1A) \stackrel{\sim}{=} ΩA であり、この集合の同型に基づいて、σ代数の同型(可測空間としての同型)、確率測度の同型(確率空間としての同型)が言えるということです。

母集団の上に最初に与えられた確率空間構造は、サイズ1の標本(ひとつの個体)を抽出する際の抽出確率だったのです。ΩAが有限集合のとき、正規化された基数測度を母集団上の確率としたのは、「どの個体も公平に抽出される」ことの表現です。ΩAが有限でない場合でも、ΩA上に“なんらかの意味での一様確率測度”*10があれば、それが抽出の公平性の表現となるでしょう。与えられた確率測度μAが公平ではない、あるいは公平性の概念がないなら、それはそれで別にかまいません。μAが分かっている、あるいは想定できることが大事なのです。

List1(A) が何であるか分かったので、次に List2(A) を考えてみます。抽出法は順序抽出なので、1個目の標本データと2個目の標本データの区別があります。2個抽出に関して、次のことは仮定していいでしょう。

  1. 1個目の抽出結果が、2個目の抽出に影響を与えることはない。
  2. 1個目を抽出する際の抽出確率測度と、2個目を抽出する際の抽出確率測度は同じ。

このような仮定のもとで、確率空間 List2(A) (Listn(A) でも同様)を構成するには、独立積/独立ベキが使えます(次節)。

確率空間の独立積/独立ベキ

この節では、A, B などは(変量を持つ母集団ではなくて)単なる確率空間とします。アルファベットは有限個しかないので、使い回すしかないのですよ、かんべんしてね。

A = (ΩA, ΣA, μA) と B = (ΩB, ΣB, μB) に対して、AとBの独立積確率空間 A\otimesB を定義できます。独立積〈independent product〉に関しては、次の記事で説明しています*11

AとBの独立積 A\otimesB の構成要素は:

  • ΩA⊗B = ΩA×ΩB : 集合の直積
  • ΣA⊗B = ΣA\otimesΣB : σ代数の独立積(テンソル積)
  • μA⊗B = μA\otimesμB : 確率測度の独立積(テンソル積)

A = B の場合、A\otimesA = A⊗2 と書いて、独立積の意味での二乗と考えます。より一般には:

  • A⊗n := A\otimes... \otimesA (n個のAの独立積)

独立積の意味でのn乗を独立ベキ〈independent power | independent exponential〉と呼びます。

与えられた確率空間Aからの、サイズnの標本リスト抽出に関する確率空間 Listn(A) = (ListnA), ΣListn(A), μListn(A)) は、Aのn乗の独立ベキ A⊗n で与えられます。

  • ListnA) \stackrel{\sim}{=}A)n (集合の直積の意味でのn乗)
  • ΣListn(A) \stackrel{\sim}{=} ΣA⊗n = ΣA\otimes ... \otimesΣA = (ΣA)⊗n
  • μListn(A) \stackrel{\sim}{=} μA⊗n = μA\otimes ... \otimesμA = (μA)⊗n

このようにして与えられた、台集合 ListnA) \stackrel{\sim}{=}A)n 上の確率測度 μListn(A) \stackrel{\sim}{=} μA⊗n = (μA)⊗n が、順序復元抽出法(リストデータ型)に伴うサイズnの抽出確率測度〈sampling probability measure〉です。確率測度と確率分布(略して単に分布)は同義語なので、抽出分布〈sampling distribution〉と言っても同義だし、"sampling"を「標本」と訳せば、標本分布でも同じことです。ただし、「分布」というときのココロ=言葉のニュアンスから、変量の値の空間Xを登場させる必要があるかも知れません(すぐ後に記述)。

さて、確率測度が載ってない単なる可測空間 X = (ΩX, ΣX) と Y = (ΩY, ΣY) に対しても、確率空間の独立積と同じように、X\otimesY = (ΩX×ΩY, ΣX\otimesΣY) を定義できます。行きがかり上、これも可測空間の独立積と呼んでしまいましょう。独立ベキ X⊗n = X\otimes ... \otimesX も同様に定義します。

ここで、話を母集団 A = (ΩA, ΣA, μA, f:ΩX→X) に戻します。あっ、同じ文字'A'を使っていても、今度のAは母集団ね。母集団が単なる確率空間と違うのは、変量 f:ΩA→X を持つところです。確率空間や可測空間に独立ベキを定義できることは分かりました。変量fにも独立ベキを定義できるでしょうか? できます! 独立ベキとは言っても、単なる写像としての直積ベキですけどね。

f:ΩA→X に対して、

  • (f× ... ×f)(a1, ..., an) := (f(a1), ..., f(an))

として f× ... ×f:ΩA× ... ×ΩA→X× ... ×X を定義します。f× ... ×f をf×nと略記して:

  • f×n:(ΩA)n→Xn

今定義した f×n を確率空間の独立ベキに添えてあげると、母集団の独立ベキを定義できます。

  • A⊗n := ((ΩA)n, (ΣA)⊗n, (μA)⊗n, f×n:(ΩA)n→Xn)

これはまた、母集団Aに対する Listn(A) だと言ってもいいでしょう。

  • ListnA) \stackrel{\sim}{=}A)n
  • ListnA) \stackrel{\sim}{=}A)⊗n
  • ListnA) \stackrel{\sim}{=}A)⊗n
  • (Listn(f):ListnA)→Listn(X)) \stackrel{\sim}{=} (f×n:(ΩA)n→Xn)

こうして構成された母集団Aのn-独立ベキ A⊗n は、f×n:(ΩA)n→Xn を変量として持ちます。母集団台集合上に載る確率測度を、変量で前送りした確率測度を「分布」と呼びたがる傾向(言葉のニュアンス)があるので:

  • (f×n)*((μA)⊗n)

これが、皆さんお望みの標本確率分布〈抽出確率分布〉です。

母集団 A = (ΩA, ΣA, μA, f:ΩA→X) を調べる際にもっとも欲しいのは標本確率分布、つまりXn上の確率測度です。標本リストの空間 ListnA) \stackrel{\sim}{=}A)n は、標本確率分布構成の素材に過ぎないと言えます。Xn上の標本確率分布ができあがると、ΩAや (ΩA)n忘れ去られてしまうこともあります。さらに、(ΩA)n とXn同一視してしまうこともあります。これも悪習ですが、しょうがない。

IID列と独立ベキ測度の前送り定理

標本IID列がまだ出てきてませんね。標本IID列は、前節最後に登場した標本確率分布を構成する道具です。母集団の独立ベキを構成した上で、独立ベキ上の前送り測度として標本測度を構成する方法(前節)が、僕は自然だと思いますが、「独立ベキを採用したくない」という方針もあるでしょう。そんなときに使われる手法がIID列です。

[追記] f×nで前送りするのはいいけど、f<n> = <f, ..., f> による前送りはダメですね。像測度が対角集合に集中してしまって、独立積による測度と一致しません。<f, ..., f> という記号表現のf達が、「同じ名前でも互いに独立ならば」という変な前提で計算してしまったのですが、そんなワケない! 錯覚でした。

後日訂正をしますが、もとの文(間違い)も消し線付きで残しておきます。[/追記][続追記]この節の内容を大幅に敷衍した別記事を書きました。詳細は「IIDな確率変数達はどこから来るのか」をご覧ください。[/続追記]

まず、母集団の変量 f:ΩA→X に対して、関数fのn-タプルの意味でのベキを構成します。

  • <f, ..., f>(a) := (f(a), ..., f(a)) (すべての成分がf(a))

<f, ..., f>をf<n>と略記することにして、

  • f<n>A→Xn

集合の直積ベキXn上の可測空間構造は既に述べました。X⊗n = (Xn, (ΣX)⊗n) ですね。すると、f<n>によって、母集団台集合ΩAに載った確率測度μAを前送りできます。

  • (f<n>)*A)

この (f<n>)*A) はもちろん、集合Xn上の確率測度です。この確率測度を作る際に、<f, ..., f> じゃなくても、IID列 g1, ..., gn から作った <g1, ..., gn> を使っても同じ確率測度ができ上がります。これが標本IID列の使い方です。僕には、なんか技巧的な方便な感じがします。

[追記]ここから先はあってます。上の消し線のところを無視してもらえれば訂正になっているけど、たぶん間違った理由を説明します、後日。[/追記][続追記]この節の内容を大幅に敷衍した別記事を書きました。詳細は「IIDな確率変数達はどこから来るのか」をご覧ください。[/続追記]

前節で「標本確率分布」と呼んだ確率測度を作る際に、f×n = f× ... ×f じゃなくても、IID列 g1, ..., gn から作った <g1, ..., gn> を使っても同じ確率測度ができ上がります。これが標本IID列の使い方です。僕には、なんか技巧的な方便な感じがします。

さて、前節で作ったXn上の確率測度 (f×n)*((μA)⊗n) と、<g1, ..., ×gn> により作ったXn上の確率測度 <g1, ..., gn>*((μA)⊗n) が同じでないと困ります。同一性を保証する定理を「独立ベキ測度の前送り定理」と呼んでおきましょう。その主張は次の等式になります。

  • (f×n)*((μA)⊗n) = <g1, ..., gn>*((μA)⊗n) = (f*A))⊗n

2つの確率測度の定義を追いかけて、σ代数の生成系の上で測度が等しい値を取ることを確認すれば示せます。詳細は「IIDな確率変数達はどこから来るのか」に書きました。

おわりに

以上述べたようなストーリーをたどることにより、調査実務としての標本概念からIID列までをつなぐことができます。確率変数のIID列という道具は確かに便利なんですが、唐突な感じは否めません。IID列は、“確率空間/母集団”の“独立積/独立ベキ”という概念を省いてショートカットする道具という位置付けではないでしょうか。

抽出法としては順序復元抽出法(標本データがリスト型データ)だけを述べましたが、別な抽出法ならば、変量の値の空間は、Xn = Listn(X) ではなくなるし、標本確率分布(変量の値側の確率測度)の構成も変わります。難しくなります。

今日はもう述べませんが、標本の抽出法がコレクションデータ型と対応するという事実はなかなか面白くて、標本の抽出法も(コレクションデータ型がそうであるように)関手やモナドとしての記述を持ちます。

さて、この長い記事で、超曖昧語「母集団」「標本」を解明することが出来たでしょうか。出来ていたらいいけど。

*1:画像: https://www.ttrinity.jp/product/3196459 より

*2:もちろん、それぞれの構造が満たすべき法則(公理)も一緒に考えています。

*3:身長の測定に誤差が生じてしまう事態を考えることも当然にあります。そのときは、fは誤差の影響を受けるという意味で「確率的」と言えるでしょう。今回の話は、誤差なしの設定だ、ということです。

*4:後で、正規化された基数測度を、選ばれるチャンスが公平であることだと再解釈します。

*5:しかしそれでも、混乱の心配があれば fA, XA のように書くべきです。「めんどくさいから省略」を積み重ねると意味不明になるので。

*6:変量のあいだの関係を問題にする場合など、多変量を多変量のまま扱う必要性もあります。

*7:この関係に気付くと、標本抽出が、モナド的な構造を持つであろうことも予想できます。

*8:コンテナデータ型と呼ぶこともあります。

*9:コンピュータで扱うデータとしては、リストとタプルは区別されます。メモリーレイアウトや操作可能性が違うからです。しかし、要素を並べた列という意味でなら同義語とみなしていいでしょう。

*10:「一様」だと言えるには、平行移動のような異なった場所を重ねて比較するメカニズムが必要です。したがって、異なる場所を比較できない場合は、「一様」に意味を持たせることができません。[追記]別な「一様」の定義として、標準的な測度が事前にあって、その標準測度に関して確率密度関数が定数というのもありますね。でも、「標準測度は公平」の根拠は天下り[/追記]

*11:確率空間の凸結合と分割」で、続きがあるようなことを書いてますが、この記事は続きではありません。