Mastodon Mastodon

「自己相互情報量 PMI(x, y) って多変数に拡張できないんですか?」→「できます」

自然言語処理における共起頻度ベースのメカニズムでよく採用されるのが「PMI(自己相互情報量、Pointwise Mutual Information)」である。このPMIは、2つの文書や文の間に共起(co-occurence)する単語について、その共起性という情報を保持するものである。形式的に、PMIは次のように定義される。

 \text{PMI}(x, y) = \log \frac{p(x, y)}{p(x) p(y)}

条件付き確率を使えば、PMIは次のように書くことができる。つまりPMIは、単語 x が出現する確率と、単語 x が出現するという条件での単語 y が出現する確率の対数比を表現しているのである。

 \text{PMI}(x, y) = \log \frac{p(y \mid x)}{p(y)}

また、PMIの値は変数の順列に対しても不変であることに注意しよう。

 \text{PMI}(x, y) = \log \frac{p(x \mid y)}{p(x)}

自然言語処理の教科書には一般に載っていないが*1、このPMIは、別に2つの単語の共起だけではなく、一般に  n (> 2) 個の単語の共起の場合にも拡張できることが容易に分かる。つまり

 \operatorname{PMI}\left(x_1, x_2, \ldots, x_n\right)=\log \frac{p\left(x_1, x_2, \ldots, x_n\right)}{p\left(x_1\right) p\left(x_2\right) \ldots p\left(x_n\right)}

である。

すなわち多変数の場合のPMIは、単語  x_1, x_2, \dots, x_n が同時に共起する同時確率密度関数と、単語  x_1, x_2, \dots, x_n が独立に出現する確率分布の積との対数比なのである。

この多変数版のPMIが  \log \left( \frac{q(x)}{r(x)} \right) という形になっていることからも分かる通り、PMI を確率分布  p \left( x_1, x_2, \dots, x_n \right) のもとで積分(平均)を取ると、KL divergenceの形式に一致させることができる。つまり

  \displaystyle \mathbb{E}_{ p (\boldsymbol{x}) } [ \operatorname{PMI}(p( \boldsymbol{x} )) ] = \int p(\boldsymbol{x}) \log \frac{p\left(x_1, x_2, \ldots, x_n\right)}{p\left(x_1\right) p\left(x_2\right) \ldots p\left(x_n\right)} \mathrm{d} \boldsymbol{x} = D_{\mathrm{KL}}\left(P_{\boldsymbol{X}} \Biggl| \bigotimes_{X \in \boldsymbol{X}} P_X\right)

である。ただし、 p(\boldsymbol{x}) = p\left(x_1, x_2, \ldots, x_n\right)

そして、これこそが多変数版の相互情報量  I(\boldsymbol{X}) の定義に他ならない。つまり

 \displaystyle I(\boldsymbol{X}) = D_\mathrm{KL} \left(P_{\boldsymbol{X}} \Biggl| \bigotimes_{X \in \boldsymbol{X}} P_X\right)

である。この多変数に一般化された相互情報量を、total correlation (Watanabe 1960) や multi-information (Studený & Vejnarová 1999) と呼ぶ*2

つまり、本質的に相互情報量(total correlation)は、単語の同時確率分布と、周辺確率分布の積との統計的距離(statical distance)であるということだ。

さらに、この相互情報量(total correlation)の順列不変性(permutation invariance)は、ソシュールの言語の線条性といった旧来の言語論のテーゼに否定的な影響を与えると考えられる。この相互情報量の順列不変性に似た例として、自己注意機構(self-attention)の順列不変性*3が挙げられる。これは、自己注意自体は単語の並び順に対して無知であるという性質(順列という情報を与えているのは、位置埋め込み(positional encoding)である)のことである。このような、単語の線条性というテーゼを疑わしくするような大規模言語モデルの性質が、その線条性というテーゼにどれほどの影響を与えるのかは今後の言語論研究の課題であると思われる。

なお total correlation という語を開発した「Watanabe」とは、かの認識学で有名な「渡辺 慧」のことである。

こんなところに日本人!?という千原兄弟の気持ちが分かった気がした。

*1:単に私が見たことがないというくらいの意味。

*2:https://en.wikipedia.org/wiki/Total_correlation

*3:詳しくは、たとえばHow Transformers Encode Position and Order | Mediumなどを参照。

クリエイティブ・コモンズ・ライセンス
このブログのコンテンツは、クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0 国際 ライセンスの下に提供されています。