このブログの更新は Twitterアカウント @m_hiyama で通知されます。
Follow @m_hiyama

メールでのご連絡は hiyama{at}chimaira{dot}org まで。

はじめてのメールはスパムと判定されることがあります。最初は、信頼されているドメインから差し障りのない文面を送っていただけると、スパムと判定されにくいと思います。

参照用 記事

フォングは何故「確率変数」と呼んだのか

あっ、そうか! そういうことか。

昨日・一昨日と、フォングの因果セオリー論〈theory of causal theories〉を紹介しました。フォング論文で使われている語法・記法・図法が混乱・誤解をまねく〈confusing / misleading〉ものなので、「どうなの? コレ」と疑問を呈したりもしました。あえてそんな語法・記法・図法を採用する動機が不明でした。

フォングの“因果セオリー”の理論」にて:

フォングは、強い印象を喚起する言葉をテクニカルタームに採用するのが好きみたいですが、...[snip]...

この憶測は間違いだったと思います。彼は、自分の好みや主義で奇妙な語法・記法・図法を使っているわけではないと(今は)思います。むしろ逆です、逆!

僕は、「因果セオリー論の語法・記法・図法(修正案付き)」で次のことを指摘しました。

  1. ローヴェアの用語法に合わせるために、誤解をまねく言葉「セオリー」を使ったのだろう。
  2. 確率論の習慣的な記法に合わせるために、分かりにくく視認性が悪いストリング図を描いたのだろう。

ポイントは「合わせるために」です。フォングは先達をリスペクトし、コミュニティのジャーゴンを尊重して語法・記法・図法を選んだのでしょう。そう考えれば辻褄が合います。

因果セオリー論の語法・記法・図法(修正案付き)」の、分かりにくい言葉のリストを再掲します。

フォングの用語 代替の用語
因果セオリー 厳密マルコフ圏
因果モデル グラフィカルモデル
因果構造 グラフィカルスキーマ
確率変数 頂点
因果関係
因果機序 固有生成射

頻出する「因果」ですが、どうもグラフィカルモデルのコミュニティでは、「原因があり、それが結果を引き起こす」という意味ではなく「因果」を使っているようです。「方向付きの関連性」くらいの意味です。「セオリー」はローヴェア由来です。

となると、「確率変数」もコミュニティの既存用語法を尊重してるのでは、と推測できます。実際そのようです。グラフィカルモデルの有向グラフが表現するものは「確率変数間の因果関係である」と説明されるのです。つまり:

  • 有向グラフの頂点を「確率変数」と呼ぶ。
  • 有向グラフの辺を「因果関係」と呼ぶ。

フォングは自分独自の用語法を使っていたわけじゃないのでした。それどころか、ジャーゴンとしての「確率変数」の使用法を、忠実に定式化しています。僕は、ジャーゴンとしての「確率変数」の意味・運用を知らなかったので、フォングの定義を見て「なんで、こんな奇妙な定義を採用するのだろう?」と訝〈いぶか〉しく思ったのです。

グラフィカルモデルの文脈では、「確率変数」は次のように使うようです。

  • 有向グラフにおいては、頂点を確率変数と呼ぶ。
  • 有向グラフを確率的構造として解釈したときは、頂点に対応する可測空間を確率変数と呼ぶ

可測空間が有限離散なら、単なる集合とみなしていいので、その場合は:

  • 集合を確率変数と呼ぶ。

フォングは、この意味・運用に合わせて、理論を構成しています。例えば、2つの確率変数 X, Y の独立性は、2つの集合 X, Y の独立性として定義しています。「確率変数 = 集合〈可測空間〉」なのですから、そう定義することになります。

もちろん、勝手な集合 X, Y に対して独立もヘッタクレもありません。直積集合 X×Y に確率分布〈確率測度〉p が暗黙に載っているとして、

  • pが、X上への周辺化分布 pX と、Y上への周辺化分布 pYテンソル積になっているとき(i.e. p = pX\otimespY)、XとYは独立だという。

「集合を確率変数と呼び、暗黙に背後の確率分布を想定する」が、おそらく、ジャーゴンの意味・運用をうまく定式化しているのでしょう。巧みな定式化なのは確かです。

しかし、ウーン、どうなのかな? そこまでする必要ある??

グラフの頂点や集合〈可測空間〉を「確率変数」と呼び、肝心の確率分布〈確率測度〉の存在は言わずとも察してもらう -- と、そんなコミュニケーション形態を尊重する必要ある?? -- 僕は「そんな必要はない」と思うけどね。


[追記 date="2020-06-22"]
普通に考えたら誤用・乱用なんだけど、あるコミュニティ内では誤用・乱用が標準的な正用として定着してしまうことはままあります。程度の差こそあれ、たぶん避けられない現象だろうとは思っています(実例があまりにも多いので)。

そうなると、学習者は辻褄が合わない誤用・乱用を学ばなくてはなりません。致し方ないとはいえ、「間違い方を勉強する」って不毛すぎないかー? 虚しくないかー? 僕はイヤだなー、ほんとに嫌い。

と、文句を言ったところで、誤用・乱用を正すことは現実的には不可能です。対策としては、理解のための内的言語と、他人とコミュニケーションするための外的言語を分けて、内的言語は整合的に、外的言語は習慣に従い運用する、とか。

今回の例なら、内的言語では「頂点」「可測空間」「周辺化確率測度」などを使い、外的言語ではどれも(積空間上の確率測度を暗黙に前提して)「確率変数」と呼ぶことになります。

二種の言語の使い分けは、それはそれで手間ではあるけど、全体としての学習・理解のコストは下がるような気がします。
[/追記]