Mastodon Mastodon

【一味違う】余弦類似度と相関係数のグラフ上の関係

余弦類似度  \cos(x, y) は、Pearson の相関係数  r(x, y) \mathbb{E} [ x ] = \mathbb{E} [ y ] = 0 である特別な場合であることは有名だが、それらの表現であるグラフはそれぞれ非常に異なっているように見える。 おそらく我々が見てきた相関係数のグラフは次のようなものだろう。

引用: https://images.app.goo.gl/HVinRixD76cFc22S9

相関係数のグラフにおいて、基底が2つあることは相関係数の引数が2つの離散確率分布であることを、データ点数は点の数を表している。

また、よく見る余弦類似度のグラフは次のようなものである。

引用:https://images.app.goo.gl/ugAeF8M6Q8XwbFVR6

このグラフにおける各々のベクトル(点)の数と軸(基底)の数の意味は、先程の相関係数のグラフのものとは異なる。 余弦類似度のグラフにおけるベクトルの数は、相関係数のグラフにおける確率分布の数(2つ)に対応している。 余弦類似度の引数は2つのベクトルだからだ。 一方グラフの軸の数は、相関係数におけるデータ点数の個数に対応している。

このように軸の数とデータ点数の数が互いに逆の意味をもつ相関係数余弦類似度の各々のグラフの関係は、次のようにして理解できる。

まず、 n 次元ベクトルで表現されるデータが 2 つ( \boldsymbol{x}, \boldsymbol{y})あるとする。 行列はベクトルの列であるのだから、この2つのベクトルは  n \times 2 型行列として書ける。 つまり

 \displaystyle X = [\boldsymbol{x}, \boldsymbol{y} ]

余弦類似度のグラフは、この行列  X を単に2つの縦ベクトルとして見なしてグラフ表現したものと言える。 反対に相関係数のグラフは、  X を転置した  X^t を、2次元縦ベクトルを  n 個並べたものとして表現したものと言える。

このように相関係数余弦類似度の関係には、その表現であるグラフにおいて、行列の転置を介した関係があると言える。 これは【一味違う】というタイトルに適った主張ではないだろうか。

クリエイティブ・コモンズ・ライセンス
このブログのコンテンツは、クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0 国際 ライセンスの下に提供されています。