Mastodon Mastodon

木曜不足『ChatGPTのしくみと哲学』を読んで思ったこと

「図解即戦力」シリーズで ChatGPT の教科書を書かれた著者が、本ではお蔵入りとなった「ChatGPT と哲学」と題された章をブログに立項されていた。

shuyo.hatenablog.com

以下、この項目に対して私が思ったことを書く。

サールの中国語の部屋

この批判への代表的な反論の1つが、AI にはもともと「自己」がないから意識もなく、したがって「中国語の部屋」が意識の有無を判定する必要はないというものです。「自己」とは、世界と自分を区別するもので、そのためには「ここからここまでが自分である」と明示する「身体」がなければならず、AI がそれを持たないことは自明であるという主張です。要するに、「AIには身体がないから知能ではない」ということです。

サールの中国語の部屋は、機械には統語論はあるが意味論がないということが主な眼目であって、自己や身体性の問題は中国語の部屋という問題に含まれていないように思える。

サールの中国語の部屋に対する大規模言語モデル陣営の応答は、たとえば以下の論文1にある。

philpapers.org

Gubelmann によれば、サールの中国語の部屋という思考実験は、彼自身の生物学的自然主義と、統語論/意味論の区別が主眼である。 生物学的自然主義については、後期 Wittgenstein の行動主義的な主張2をその応答として当てている。 言語理解をするシステムの多重実現可能性と言い換えてもよいだろう。

また、機械には統語論はあるが意味論がないというサールの主張については、GOFAI (Good Old Fashioned AI)という記号主義的システムはともかく、大規模言語モデルのようなニューラルネットワークを構成要素とする結合主義システムには、統語論と意味論の区別は存在しない3、したがってその批判は当たらないのだ、とする応答を行っている。 これは尤もかつ核心的な応答だと思う。

そのようなわけで、中国語の部屋の思考実験と自己や身体性の問題はあまり関係がないと私は思う。

意味の使用説と知能?

「意味の使用説」は、意味はその言葉がどのように使用されるかによって定まるという主張です。その主張の解釈はさまざまあるのですが、文字通りに「言葉を使うことで意味が定まる」と解釈するのが一般的です。そして、ChatGPT は言葉を使えている、つまり意味を定め、扱うことが出来ているわけです。この観点においては、大規模言語モデルは「知能」たりえる、と主張することが出来ます。

これはよく分からない。 というのも、知能と言語使用の間の関係がよく分からないからである。 知能があれば言語使用ができるのか? 言語が使用できれば知能があるのか? ここらへんも非常に曖昧模糊としていて、哲学的論証と言えるに耐えるものではないだろう。 (ちなみに、私は知能と言語使用の関係を知らない)

また、「「言葉を使うことで意味が定まる」と解釈するのが"""一般的"""」と言ってしまうのは不味いと思う。 というのは、一般的に Wittgenstein は quiest (沈黙主義者)だからね。 まぁそこらへんは、徳の問題として指摘させて頂きたい。

en.wikipedia.org

(以下は、「後期 Wittgenstein は ChatGPT が有意味な言語を発話している、とは言わなさそう」と診断する山田圭一先生の発表に対する反論記事。)

yudukikun5120.hatenadiary.jp

以上! 出版物に載せなかったのは賢明な判断だと思いました。


  1. Gubelmann, Reto (2023). A Loosely Wittgensteinian Conception of the Linguistic Understanding of Large Language Models like BERT, GPT-3, and ChatGPT. Grazer Philosophische Studien 99 (4):485-523.
  2. あくまで行動主義「的」であることは、業界では常識だろう。
  3. この点は、記号論にもいくらか影響を与えそうである。統語論・意味論・語用論という区別は、Charles Morrisという記号論者によって与えられたのだから。

論文メモ: Large Language Models, Agency, and Why Speech Acts are Beyond Them (For Now) – A Kantian-Cum-Pragmatist Case (2024)

Gubelmann, R. Large Language Models, Agency, and Why Speech Acts are Beyond Them (For Now) – A Kantian-Cum-Pragmatist Case. Philos. Technol. 37, 32 (2024). https://doi.org/10.1007/s13347-024-00696-1

doi.org


優れた論文だった。

論旨としては、認知的自律性/道徳的自律性/物質的自律性に分けられる Kant の自律性概念について、従来のカント主義者は認知的自律性が物質的自律性に付随すると考えてきたものの、現在のTransformerベースの深層学習モデルは自動的な特徴抽出という特性によって認知的自律性を獲得しており、先の図式が崩されることになるというものである。

後期 Wittgenstein の言語ゲームから影響を受けた Austin や Searle は、発話行為としての発話の有意味性を考える(発話行為論)1言語ゲーム概念は言語を生活のなかに埋め込むものであり、発話行為論もまた行為のなかに言語を埋め込むものと約言できる。 行為の哲学における主流な見解によれば、行為には意図が必要とされている。したがって、意図を持たない言語モデル2発話行為を行うことができない。

しかしなぜ、言語モデルは意図を持たないと考えられるのか。 それは、言語モデル有機体/無機体(organism/mechanism)というカント的区分における無機体だからである。 無機体は、外部の主体から行為を与えられるいわば関数のようなものであるのに対して、有機体は自身で自身を駆動する(オートポイエーシス)。 言語モデルは、時計のように人間によって記号の意味が与えられるものなのであり、それに自律性はないのである。

しかしながら、そうではない。 なぜならば、深層学習モデルは機械学習モデルとは異なり、自身で特徴を抽出するからである。 さらに Transformer ベースのモデルは、文法や文の階層構造を自身で抽出し、獲得する。 データを認識し解釈する術は、確率的勾配法によって自動的に獲得されているのだ。

したがって言語モデルは物質的無機体であるにも拘わらず、認知的自律性を保持していると言えるのである。

以上が本論文のざっとした要旨である。


本論の論理上の瑕疵といえば、著者が自身で認めているように、言語を主体の意図のみを引数とする関数(アルキメデス的言語)と見なしている点であろう。

Archimedean language unaffected by any specifically (and to some extent arbitrarily) formed linguistic structure of a natural language and then decides to express these thoughts in a given natural language.

これに反して、Heideggerの〈die Sprache spricht(言葉は言葉が語る)〉や Žižek 、Jakobson といった大陸哲学者や構造主義者らは言語的主体の他律性を主張しており、私もこれに同意する。 特に、Heideggerの〈die Sprache spricht(言葉は言葉が語る)〉というテーゼは、言語モデルの本質をそのまま表していると考えられる。 言語モデルが生成する言語は、訓練データとして投入された言語の模倣であるからだ。 言語モデルは訓練データに言語的主体性を奪われているのであり、まさに与えられる言語によって語らせられている。

ここのあたりの、非分析哲学的伝統にある言語論による言語モデルの考察も興味深いところである。 ポスト解釈学あたりは、かなりコミットできそうな気がする。 (この点で述べると、Wittgenstein は世界と内部モデルを取り違えたことが、自身の理論の足枷となっている感がある。)

本論文は、総じて優れた哲学論文であると言える。


  1. 発話行為論は後期 Wittgenstein の言語ゲーム概念から影響を受けたと言われるが、これはつまり発話行為論を介した言語ゲーム概念が Austin-Searle の Wittgenstein 解釈に基づいているということに他ならない。
  2. 「大規模言語モデル」ではなく「言語モデル」と言うべきなのは、「小規模言語モデル(Small Language Model)」もまたこの議論に適うからである。小規模言語モデルは大規模言語モデルの性能をより少ない計算量で実現しようとするものであり、本論では大規模言語モデルと小規模言語モデルの間に差異は存在しない。

【一味違う】余弦類似度と相関係数のグラフ上の関係

余弦類似度  \cos(x, y) は、Pearson の相関係数  r(x, y) \mathbb{E} [ x ] = \mathbb{E} [ y ] = 0 である特別な場合であることは有名だが、それらの表現であるグラフはそれぞれ非常に異なっているように見える。 おそらく我々が見てきた相関係数のグラフは次のようなものだろう。

引用: https://images.app.goo.gl/HVinRixD76cFc22S9

相関係数のグラフにおいて、基底が2つあることは相関係数の引数が2つの離散確率分布であることを、データ点数は点の数を表している。

また、よく見る余弦類似度のグラフは次のようなものである。

引用:https://images.app.goo.gl/ugAeF8M6Q8XwbFVR6

このグラフにおける各々のベクトル(点)の数と軸(基底)の数の意味は、先程の相関係数のグラフのものとは異なる。 余弦類似度のグラフにおけるベクトルの数は、相関係数のグラフにおける確率分布の数(2つ)に対応している。 余弦類似度の引数は2つのベクトルだからだ。 一方グラフの軸の数は、相関係数におけるデータ点数の個数に対応している。

このように軸の数とデータ点数の数が互いに逆の意味をもつ相関係数余弦類似度の各々のグラフの関係は、次のようにして理解できる。

まず、 n 次元ベクトルで表現されるデータが 2 つ( \boldsymbol{x}, \boldsymbol{y})あるとする。 行列はベクトルの列であるのだから、この2つのベクトルは  n \times 2 型行列として書ける。 つまり

 \displaystyle X = [\boldsymbol{x}, \boldsymbol{y} ]

余弦類似度のグラフは、この行列  X を単に2つの縦ベクトルとして見なしてグラフ表現したものと言える。 反対に相関係数のグラフは、  X を転置した  X^t を、2次元縦ベクトルを  n 個並べたものとして表現したものと言える。

このように相関係数余弦類似度の関係には、その表現であるグラフにおいて、行列の転置を介した関係があると言える。 これは【一味違う】というタイトルに適った主張ではないだろうか。

影響関数(influence function)の直感的な理解

影響関数(influence function)  \mathcal{I}_{\text {up, params}} は Koh, P. W., & Liang, P. (2017) で定義されている関数である。
 \displaystyle \mathcal{I}_{\text {up, params}}(z) \stackrel{\text {def}}{=} -H_{\hat{\theta}}^{-1} \nabla_\theta L(z, \hat{\theta})
ただし、 L \colon \Theta^d \to \mathbb{R} は損失関数、 \theta はパラメータベクトル、 \hat{\theta} \in \Theta \hat{\theta} \stackrel{\text { def }}{=} \arg \min _{\theta} \mathbb{E}_i [ L\left(z_i, \theta\right) ] H L のヘッセ行列である。
 H_{\hat{\theta}} \mathcal{I}_{\text {up, params}}(z) + \nabla_\theta L(z, \hat{\theta}) = 0 であるから、影響関数の  i 番目に対応する要素  \mathcal{I}_{\text{up, params}}^{i}(z) について、次の等式が成立する。
 \displaystyle \sum_j \frac{\partial^2 L}{\partial \theta_i \partial \theta_j} \mathcal{I}_{\text{up, params}}^{i}(z) + \frac{\partial L}{\partial \theta_i} = 0

すなわち、損失関数の二階微分についてすべてのパラメータについて期待値を取ったときに元の損失関数の一階微分と等しくなるような分布もどきが影響関数(ベクトル)である、ということができる。

参考文献

クリエイティブ・コモンズ・ライセンス
このブログのコンテンツは、クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0 国際 ライセンスの下に提供されています。