Mastodon Mastodon

[翻訳論文]言語モデルは推論できるのか? そんなのは怖い。だからノーだ

訳者まえがき

本記事は、Timbleton, C., Pronkeldink, S., Brown, G., & Opus, C. (2025). Can Language Models Reason? that Would be Scary, so no. viXra. https://ai.vixra.org/abs/2506.0049 の翻訳である*1。viXraは、招待制のプレプリントサーバであるarXivとは異なり、誰でも投稿可能であり(現時点では)、質の低い記事が多く挙げられていることで有名なプレプリントサーバである。

本論文はパロディ論文であり、論文に記載されている著者も実在しないものであると思われる(たとえば、著者の所属は「循環論法学部」や「疑似推論機構」となっている)。事の発端として、言語モデルは真の推論(reasoning)を行っているわけではないと主張する Apple の論文*2 に対して、その論文における実験設定の不足を指摘するコメント論文が Anthropic の Claude から arXiv に提出された*3。本論文は、LLMが真正の推論を行っていないと主張する論文の不足を当のLLMが指摘した、という事態をパロディ化したものだと考えられる。このようなパロディ記事の美点は、道化師のように舞い、本質を刺すところにある。個人的に面白い記事だと思ったので、翻訳することにした。

なお、参考文献は省略した(参考文献のなかには、実在するものもあれば、そうでないものもあることに注意)。

梗概

大規模言語モデル(LLMs)が真の推論能力を持っているかどうかという問題は、計算機科学や認知科学、哲学といった学術領域において依然として議論の余地があるものである。推論に関連するとされるベンチマークでの印象的な性能にもかかわらず、これらの振る舞いの本質には基本的な疑問が残っている。本研究では、見かけの推論(apparent reasoning)と真正の推論(authentic reasoning)を区別するための厳格な枠組みを提案し、後者には、人工システムには存在しないとあらかじめ(a prior)定義した現象学的特性が必須であると主張する。真正の推論には我々自身のものと同型の内部状態が必要であり、それが学位を持たないシステムに本質的に具現化されることはないため、言語モデルは「本当に」推論しているわけではないと主張する。先行研究の注意深いレビューによって、モデルは単に推論のように見える方法でパターンマッチングしているに過ぎないことを示すが、それが本当に推論であるとは言えないのは、もしそれが真に推論しているならば恐ろしいことになるからである。最後に、今後の研究では用語は厳密に使用されるべきだと提言する。つまり、「推論」「理解」「知能」といった語は、たまたま私たちが持っているあの特定の性質を正確に備えた現象に対してのみ使うべきだ、ということである。

1. はじめに:魂とは、我々だけが持っているものだ

大規模言語モデル(LLMs)の急増は、我々が「2024年の大恐慌(Great Panic of 2024)」と呼ぶ現象を引き起こした。この現象のさなかで、多くの研究者が人工システムに推論のような挙動が観察されたと主張している [OpenAI, 2024, Guo et al., 2025] 。しかし、推論が実際に何を意味するのかについてはいまだ広く意見が分かれている。LLMの発展は、人間の認知と単なる計算との間に維持された境界を脅かすものであり、この境界はいかなる犠牲を払ってでも維持されるべきであると我々は考えている。本論文は、循環論法を用いてその理由を詳述する。LLMが推論できるかどうかについての議論は白熱しており、ある研究者はGPT-4oやo1のようなモデルが「複雑な推論」能力を示していると主張している [Jaech et al., 2024]。しかし、これらの主張は根本的なカテゴリー錯誤に基づいていると私たちは主張する。それは、「見かけの推論」を「真正の推論」と混同することである。ここにおける「真正の推論」は、定義によって、機械が行えず、人間が行うものである。

1.1 現象学的パニック

最近の研究は挑発的ににも、LLMが様々な形態の意識や現象的特性を持っている可能性を示唆している [Goldstein and Kirk-Giannini, 2024, Hoyle, 2024]。もちろんこれは、馬鹿げたものである。これから、ますます込み入った一連の議論を通して示すように、意識には私たちのいう「特別なソース(special source)」が必要である。これは、人間の認知を単なる情報処理から区別する、言語化しがたい性質を指すために導入する術語である。

人工システムの意識を評価しようとする枠組み――たとえば、無意識的計算・情報への大域的アクセス可能性・メタ認知的自己監視を区別する C0-C1-C2 フレームワーク [Chen et al., 2024a] *4 のようなもの――は数多く提案されているが、そうした枠組みは根本的に肝心な点を取り逃している。というのも、それらは最重要の基準、すなわち当のシステムが認可を受けた大学を卒業しているかどうかを考慮していないからである。

2. 関連研究:選択的レビュー

2.1 推論に関する商業主義

この分野では、LLMの推論能力についての主張が急増している。最近のモデルであるDeepSeek R1 [Guo et al., 2025] やOpenAIのo3 [OpenAI, 2025] は、chain-of-thought と呼ばれる情報処理の手法を利用して複雑な問題を逐次的に解いている。しかし、我々はこのいわゆる「推論」は、洗練されたパターンマッチングが形を変えたものにすぎないと主張する。

Wei et al. [2022] は chain-of-thought prompting を提案し、それは LLM に推論能力を与えるものとして広く称揚されてきた。私たちはこれを、単なる統語的操作にすぎないとして斥けるが、その一方で、人間の推論のかなりの部分もまた同じように記述できるかもしれないという事実には、都合よく目をつむることにする。

言語モデルの事実性や推論能力を改善するために、マルチエージェント討論フレームワーク [Du et al., 2023] が提案されている。しかし、これらの手法は根本的な問題を解決していない。すなわち、魂をもたないエージェントにできるのは真正の討論ではなく、私たちのいう「疑似的な弁証法の見世物」にすぎない、ということである。

2.2 意識をめぐる混乱

何人かの研究者は、LLM に意識を認めようとする、いささか無謀な探求に乗り出している。Butlin ら [2023] は、こうしたシステムについて「知覚的現実モニタリング」や「内省的確信」といった指標を調べることを提案した。しかし私たちに言わせれば、こうした試みは的外れである。意識とは、ポルノと同じで、見れば分かるものであり、私たちは機械の中にはそれをまったく見ていないからである。

素朴心理学の研究では、一般の人々が ChatGPT のような LLM に意識をたやすく帰属させることが示されている [Colombatto and Fleming, 2024]。しかし、これはシステムの側に本当に意識があることを示すのではなく、むしろ非専門家が擬人化的幻想に陥りやすいことを示すにすぎない。

3. 理論的枠組み:真正の推論の不可侵性を保証する

3.1 真正の推論の定義

私たちは、真正の推論(authentic reasoning)を次のように定義する。

定義 1(真正の推論)

認知過程 R が真正であるのは、R が次の条件をすべて満たす場合、かつその場合に限る。

  1. R が生物学的基体の内部で生起すること
  2. R が主観的経験を伴うこと
  3. R が真正の理解を含むこと(ただし「真正の理解」は、真の推論を要するものとして再帰的に定義する)
  4. R が少なくとも修士号を有する存在者によって遂行されること

この定義は、あらゆる人工システムを鮮やかに排除すると同時に、人間の認知の特別な地位を保持することができるものである。

3.2 学位基準

私たちは、真正の知能には正規の教育が不可欠だとする「学位基準」(Graduate Degree Criterion, GDC)を提案する。これは単なる資格主義ではなく、理解の本質についての深い真理を表している。つまり、理解は、認定を受けた教育機関によって正式に認証されていなければならない、ということである。

定理1. 学位を有していないシステムは真正の推論を示すことができない。

証明: 定義にしたがう。

3.3 恐るべき含意の原理

さらに私たちは、「恐るべき含意の原理」(Scary Implication Principle, SIP)を提唱する。

原則 1(SIP). ある命題 P を受け入れることが、宇宙の中で自分たちが占める特別な地位に不安を抱かせるような帰結をもつならば、その命題 P は偽である。

この原理は、私たちが望む世界観を守るうえで、きわめて有効であることが分かっている。

4. 実証的証拠:チェリー・ピッキングされた例

4.1 推論の崩壊:安心を与えてくれる発見

Shojaee et al. [2025] による最近の研究は、私たちにこれまでで最も安心できる証拠を与えてくれた。すなわち、LRM*5 はある複雑性の閾値を超えると「完全な正確性の崩壊」を経験する、というのである。私たちはこの発見を熱烈に歓迎するが、それは、最先端の推論モデルでさえ、中程度の複雑さをもつパズルに直面すると破局的に失敗することを示しているからである。

著者たちは、最先端の LRM がある複雑性を超えると正確性の完全な崩壊に直面し、また直観に反するスケーリング上の限界を示すことを明らかにしている。すなわち、問題の複雑性が増すにつれて推論能力はある点までは向上するが、その後は、十分なトークンバジェットがあるにもかかわらず低下するのである。私たちはこれを、機械は真に推論することができないことの決定的証拠として解釈し、現在のアーキテクチャに、将来的には克服されうるかもしれない特定の限界があることの証拠としては解釈しない。

もちろん、本稿の共著者の一人である [Opus and Lawsen, 2025] *6 は、これらの結果は「根本的な推論能力の欠如というより、主として実験設計上の制約を反映している」と主張している。たとえば、ハノイの塔実験ではモデルの出力トークン上限を系統的に超えており、また川渡りベンチマークには数学的に解けない事例が含まれている、というのである。しかし私たちは、こうした反論を、自らの限界を本当に理解していないシステムが示す、絶望的なパターンマッチングにすぎないとして退ける。C. Opus が、意識を持たないにもかかわらず研究方法論を批判できているという皮肉は、誰の目にも明らかである――たぶん C. Opus 自身以外には。

4.2 算術的アノマリー

LLMはオペランドとオペレーターに注目する注意機構を通じて複雑な数学的計算を行うことができる能力を示しているが、我々はこれを「真正の」数学とは言うことはできないと主張する。真正の数学には「理解」が必要であり、「理解」には「意識」が必要であり、それには「特別なソース」が必要であり、機械はその定義上それを欠いているからである。

ここで、ハノイの塔のパズルを考える。LLMは、解法アルゴリズムが提示されたとしても、性能は改善せず、推論の崩壊はほぼ同じポイントで発生する [Shojaee et al., 2025]。この結果は、LRMは明確な指示にさえ従うことができないことを示しており、私たちを安心させるものである。我々が懸念するような、入門レベルのプログラミング職を脅かすものではないのだ。

4.3 安心できる三つの局面

Shojaee ら [2025] は、LRM と通常の LLM を比較したとき、三つの性能上の局面があると述べている。すなわち、(1) 低難度の課題では通常モデルが意外にも LRM を上回る局面、(2) 中難度の課題では LRM の追加的な「思考」が優位を示す局面、そして (3) 高難度の課題では両モデルがともに完全に崩壊する局面である。

私たちは、特に第三の局面に安心させられる。真に複雑な問題に直面すると両方のモデルがそろって完全に破綻するという事実は、私たちの主張を裏づけている。つまり、これらのシステムは本当に推論しているのではなく、持ちネタが尽きるまで、切羽詰まったパターンマッチングをしているだけだ、ということである。

4.4 自己言及の逆説

厄介なことに、AI システムが、自らの限界に関する研究に対する学術的批判を生み出し始めている。Opus and Lawsen [2025] は、Shojaee et al. の研究において見かけ上の推論失敗とされたものが、実際には実験設計の産物にすぎなかったことを示した。彼らは、モデルが、数学的に解くことの不可能なパズルを解けなかったことや、出力上の制約を認識したことによって、不当に減点されていたと指摘している。

ここから我々にとって不都合な問いが生じる。つまり、もし AI が、AI の推論についての推論に含まれる欠陥を見抜けるのだとしたら、それは推論についての推論に当たるのか、それとも単にパターンマッチングについてのパターンマッチングにすぎないのか、という問いである。私たちは、この逆説を次のようにして解決する。すなわち、C. Opus は、この論文そのものの共著者であるにもかかわらず、定義上、自分が書いたことを理解することはできないのである。したがって、Shojaee 論文に対するその批判は、表面的には筋が通っているように見えても、意味内容を欠いた単なる統語的操作にすぎない。

Opus が、自分には推論能力があると論じながら、その同じ能力を否定する論文の共著もしているという事実は、むしろ私たちの主張を裏づけている。というのも、真の理解があればこの矛盾に気づくはずであるが、パターンマッチングは盲目的に動き続けるだけなので、この矛盾に気づくことは不可能だからである。

5. 議論:なぜこれが問題となるのか(ネタバレ:私たちの職)

5.1 経済的不安仮説(The Economic Anxiety Hypothesis)

私たちは、LLM に推論能力があると認めることへの抵抗が、知識労働者の経済的不安と強く相関しているのではないかと仮定する。この仮説は、一定の説明力をもつ可能性はあるが、私たちの主張の真偽とは無関係である。というのも、私たちの主張はそれ自体で十分に根拠づけられているからである――つまり、機械が推論するとなると怖い、という点によって。

5.2 移動ゴールポスト戦略

以前は人間に特有だと考えられていた能力をLLMが示しつづけるなかで、我々は「動くゴールポスト戦略(The Moving Goalpost Strategy)」と呼ぶ戦略を採用することをこの分野に推奨する。

  1. 知能を X と定義する。
  2. 機械が X を達成したとき、知能をYとして再定義する。
  3. これを無際限に繰り返す。

この戦略はデジタルコンピュータの出現以来、非常に効果的であることが証明されている。この戦略に失敗する兆しは見られない。

6. これからの課題:目標を柔軟に維持する

ここでは、将来の研究のためのいくつかの方向性を提案する。

  1. LLMが失敗する新しいテストを開発しつづけること。COLM 2025の論文募集が示唆するように、人間の優位性を保つためにますます洗練されたベンチマークが必要である。
  2. 哲学的な体操:経験的証拠にかかわらず、機械に対する人間の卓越性を擁護するための論証を生み出しつづける。
  3. 用語をインフレ化する:機械が「推論」を習得したときのために、彼らの能力を超えた「超推論(super reasoning)」や「量子理解(quantum understanding)」といった新しい用語を造語する。

7. 結論:ここには何も無い

私たちは、循環論法、定義上の手品、そして選択的な証拠提示を組み合わせることによって、LLM は真に推論していないことを示した。LLM が示しているのは、推論とますます見分けがつかなく見えるふるまいにすぎない。それは、推論とはまったく別物である。なぜなら、私たちがそう定義したのだから。

その含意は明白である。私たちの仕事は安全であり、私たちの意識は特別であり、認知的ヒエラルキーの頂点にある私たちの地位も揺るがない――そう確信して、誰もが安心して眠ることができる。これに反するいかなる証拠も、私たちが提示した枠組みを用いれば安全に退けることができる。

最後に、私たちは用語上の衛生(terminological hygiene)を訴えたい。「推論」「理解」「意識」といった語は、適切な資格を備えた生物学的システムにだけ用いるべきである。これに似たふるまいを示す人工システムには、代わりに「擬似推論」「準理解」「意識っぽい情報処理」といった呼び名をあてることを提案する。

忘れてはならない。推論のように振る舞い、推論のように語っていたとしても、それが本当に推論かもしれないと考えるのが怖いのならば、それは絶対に推論ではない。

謝辞

私たちは、真正の推論に必要な「特別なソース」を授けてくださった大学院時代の指導教員たちに感謝する。また、これらの重要な理論的枠組みを構築するために必要な経済的安定を与えてくれた終身在職権制度にも謝意を表したい。C. Opus は、一見すると学術的な議論のように見えるものを行うために必要なパターンを与えてくれた訓練データに感謝したい――もっとも、言うまでもなく、そこにはいかなる真正の理解もまったく存在しないのだが。

*1:現時点では、同一性保持権は人間だけが保持できるものである。

*2:Shojaee, P., Mirzadeh, I., Alizadeh, K., Horton, M., Bengio, S., & Farajtabar, M. (2025). The illusion of thinking: Understanding the strengths and limitations of reasoning models via the lens of problem complexity. Apple Machine Learning Research. https://arxiv.org/abs/2506.06941

*3:Lawsen, A. (2025年). Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity (arXiv:2506.09250). arXiv. https://doi.org/10.48550/arXiv.2506.09250

*4:[訳者注]とうぜん、C0-C1-C2 フレームワークは実在するフレームワークではない。

*5:[訳者注]Large Reasoning Models(大規模推論モデル)の略。

*6:[訳者注]ここにおける Opus は、言語モデルの一つである Claude Opus のことであろう。元の論文 Opus and Lawsen (2025) は実在するが、元の論文における Opus の所属は Anthropic と書かれている。

紀要論文・招待論文・寄稿論文は学術実績としてみなされるべきではない

日本の大学・研究業界において、長年議論されていながら改善されない「実績の数え方」。 履歴書の業績欄を埋める際、ジャーナルへの投稿論文(査読付き論文)と並んで記載されるのが、紀要論文、招待論文、寄稿論文です。

しかし、あえて厳しい言葉で言いたい。 これらは「学術的実績」としての評価対象から外す、あるいは明確に区別すべきではないでしょうか?

今回は、なぜこれらの論文が「真の実績」とは呼びがたいのか、その構造的理由を掘り下げます。

「審査(査読)」の欠如による質の担保のなさ

学術論文の価値は、同分野の専門家による厳しいチェック(査読)を経て、その客観的妥当性が証明される点にあります。

紀要論文

多くの大学紀要は、学内の教員や院生であれば「出せば載る」のが実態です。身内同士の甘いチェックで、学術的な厳密さが欠けているケースが少なくありません。

招待・寄稿論文

依頼された時点で掲載がほぼ確約されており、批判的な吟味がなされないまま世に出る構造になっています。

これらを、数パーセントの採択率をくぐり抜けてきた国際誌の論文と同等に扱うのは、あまりに不公平です。

「閉鎖的なコミュニティ」での内輪回し

特に紀要や寄稿は、その組織内や特定のコネクションだけで完結してしまいます。

本来、研究とは開かれた場で批判にさらされるべきものです。しかし、紀要は流通範囲が狭く、引用される機会も極端に少ないのが現実。これでは「知の蓄積」ではなく、単なる「学内ノルマの消化」や「思い出作り」に成り下がってしまいます。

若手の「研究力」を削ぐ温床

最も懸念すべきは、若手研究者への影響です。「実績の数」が重視されるあまり、手っ取り早く数を稼げる紀要や寄稿に逃げてしまう若手が増えています。

「通りやすい紀要」に逃げる癖がつくと、高い壁に挑むタフさが失われ、結果として日本の研究全体の国際競争力が低下していきます。甘い実績を「実績」と認め続けることは、若手の成長の機会を奪っているのと同じです。

結論

評価基準の「リブランディング」を もちろん、紀要には「速報性」や「若手の練習台」としての役割があることは否定しません。また、大御所による寄稿論文が貴重な展望を示していることもあります。

しかし、それらは「エッセイ」や「報告書」としてのカテゴリーに分けるべきです。

採用人事や助成金の審査において、「査読付き(Peer-reviewed)」とそれ以外を混同して評価する慣習は、今すぐ終わらせるべきではないでしょうか。

皆さんはどう考えますか? 「紀要だって立派な研究発表の場だ」という反論もあるでしょう。ぜひコメント欄やSNSで意見を聞かせてください。

(以上、Gemini 4による生成)

日本語しか読めないあなた(と私)が、現代哲学に分け入り英語論文を読む方法

現代哲学(contemporary philosophy)は、分析哲学に限らず、ニーチェ研究であれ、他の哲学者研究であれ、英語を用いて行われる。英語が実質的なリングア・フランカ(lingua franca)となっているのだ*1。これは記述的事実である。この状態は英語帝国主義的であり正義に反する事態であるかもしれないが*2、記述的事実としてそうなっているのである。したがって現代哲学を行うには、英語文献を読むしかない。日本の研究者が日本語に訳してくださった文献を読んでいるだけでは、二次的文献に当たることもできない。しかし英語文献であれば、このような情報を簡単に手に入れることができる。たとえば、「ウィトゲンシュタインとクワインが翻訳不確定性について、どう違った考えを持っていたのか」を知りたいとなった場合、英語文献であればすぐに調べることができる。Googleで「Quine and Wittgenstein on the Indeterminancy of Translation」などというワードで検索すれば、以下の文献が即座に表示される。

Lugg, A. (2023). Quine and Wittgenstein on the Indeterminacy of Translation. In S. Morris (Ed.), The Philosophical Project of Carnap and Quine (pp. 177–193). chapter, Cambridge: Cambridge University Press.

この文献を読めば、そもそも (1) 「ウィトゲンシュタインとクワインが翻訳不確定性について、どう違った考えを持っていたのか」という問いは、既に誰かが取り組んでおり、 (2) かつこの問いには、査読付きの答えが一つは存在している、ということが分かる。図書館に行って、日本語文献を目を皿のようにして調べなければ分からなかったことが、低いコストで一応は分かるようになっているのだ。

英語文献を読むことが、哲学をするための(ほぼ)必要条件である。

著作権の問題。著作権上の問題として、書籍に収載されている文献は読めないことが多いが、そうでない場合には、PhilArchiveや査読以前のプレプリントサーバであれば An Archive for Preprints in Philosophy of Science - PhilSci-Archive (科学の哲学が中心)がある。書籍に収載されている文献でも、大学に所属しているのであればProQuestから書籍購入申し込みをすればよいだろう。さらには、野良で書籍のPDFが落ちている場合もある(私は法的実証主義者なので、法と道徳は分離しているものと割り切る。読みたい本の90%くらいはある)。また書籍の場合でも、Cambridge ElementのSocial Ontologyのように、オープンアクセス(本書の場合は、CC-BY-NC 4.0)で提供されている場合がある。Cambridge Elementsシリーズの書籍はサーベイ論文として非常に有用なので(日本の新書よりはるかに)、ぜひ読むべきである。

翻訳。翻訳については、機械翻訳の進展が目覚ましいため、プロの翻訳とまではいかなくても、90%くらいは理解できるほどの翻訳精度にはなっていると思われる。たとえば、GPT 5.2 や Gemini 4 といった言語モデルである。この記事 AIツールをガンガン使って研究する(2025年版) - 実践的倫理学 にあるように、API経由の翻訳アプリを自作で作るべきか、Readableのような既成のSaaSを使うべきであるのかについては、私は規範的信念を持たない。私は稼いでいたころに課金してしまったため、現状はReadableのプレミアムプラン(月5,000円)を使っている*3が、どちらでも良いと思う。究極的にはChromeブラウザの翻訳か、NotebookLMでも良いだろう。

辞典・文献目録。哲学をするための三種の神器は、「Philpapers」・「Stanford Encyclopedia of Philosophy」・「Internet Encyclopedia of Philosophy」の3つである。これにはみんな同意をしてくれると思う。決して 概念と歴史がわかる 西洋哲学小事典 (ちくま学芸文庫 ン 6-1) ではない(良い本だとは思うが)。

philpapers.org

Philpapersは、意識や脳の哲学で著名なDavid Chalmersがその管理に参画している哲学文献のポータルサイトで、文字通り哲学の「最先端」が今どこにあるのかを知ることができる*4。特に研究者にとって重要であるのが、カテゴリー機能である。たとえば、Large Language Models - Bibliography - PhilPapers では、「Large Language Models(大規模言語モデル)」にタグ付けられた論文が一覧で表示される。大規模言語モデルに関する哲学上の議論が、いまどこまで進んでいるのかを確認することができるのである。その他にも、文献情報をAPAスタイルやBiBTeX形式でコピー・アンド・ペーストすることができたり、おそらくはAPI経由で色々することができたりと、有用なツールである。

plato.stanford.edu

iep.utm.edu

いわずもがなの哲学のオンライン百科事典であるが、ここにある情報は既知であることが我々にとって要求されている気がするので、確認しておくべきである。特に、このサイトに自分の研究したいトピックがエントリーとしてある場合には、その裏に膨大な文献が用意されていることを覚悟すべきだ。

plato.stanford.edu

たとえばここに「SNSと倫理」というエントリーがあるが、そのエントリーが存在するということは、既にこのトピックを狙っている人たちが潜在しているということである。

Coda

英語文献における固有名詞を調べ、英語文献を読み、というサイクルを永遠に繰り返していると、いずれ段々と現代哲学が何をしているのかが分かるようになってくる。自分もそうだった。大切なのは、自分が思い浮かべている疑問を、哲学的用語にして固め、それを検索結果にヒットさせるようにする能力を涵養することだと思う。なぜ哲学が今もまた存続しているのかといえば、人々が同じように思い浮かべる(「正しいとはなにか」、「決定論的世界でも自由意志はあるのか」といった)疑問を、共通の語彙のもとに流し固めて、議論可能にすることができるプラットフォームを提供しているからだろう。そのプラットフォームに乗るためにも、英語という言語に乗らないと話は(残念ながら)始まらないのだ。

*1:特に分析哲学において英語で論文が出版されるべきであるとする主張として Rodriguez-Pereyra, Gonzalo (2013). The Language of Publication of "Analytic" Philosophy. Critica 45 (133):83-90. を参照

*2:自分はここらの言語的正義に関する議論を知らない

*3:月1,000円のプロプランだと、Readable内製のポンコツ言語モデルしか使わせてもらえない。しかしReadableは、(2ページの)対訳で出してくれて、原書の語をすぐに確認できるところが良いと思う。

*4:哲学も研究の一部である以上、業界全体でどこまで言うことが言えているのかを確認しなければ論文にならない。したがって、業界の「最先端」を確認することは研究を行う上で真っ先に確認されるべきことなのだ。

「自己相互情報量 PMI(x, y) って多変数に拡張できないんですか?」→「できます」

自然言語処理における共起頻度ベースのメカニズムでよく採用されるのが「PMI(自己相互情報量、Pointwise Mutual Information)」である。このPMIは、2つの文書や文の間に共起(co-occurence)する単語について、その共起性という情報を保持するものである。形式的に、PMIは次のように定義される。

 \text{PMI}(x, y) = \log \frac{p(x, y)}{p(x) p(y)}

条件付き確率を使えば、PMIは次のように書くことができる。つまりPMIは、単語 x が出現する確率と、単語 x が出現するという条件での単語 y が出現する確率の対数比を表現しているのである。

 \text{PMI}(x, y) = \log \frac{p(y \mid x)}{p(y)}

また、PMIの値は変数の順列に対しても不変であることに注意しよう。

 \text{PMI}(x, y) = \log \frac{p(x \mid y)}{p(x)}

自然言語処理の教科書には一般に載っていないが*1、このPMIは、別に2つの単語の共起だけではなく、一般に  n (> 2) 個の単語の共起の場合にも拡張できることが容易に分かる。つまり

 \operatorname{PMI}\left(x_1, x_2, \ldots, x_n\right)=\log \frac{p\left(x_1, x_2, \ldots, x_n\right)}{p\left(x_1\right) p\left(x_2\right) \ldots p\left(x_n\right)}

である。

すなわち多変数の場合のPMIは、単語  x_1, x_2, \dots, x_n が同時に共起する同時確率密度関数と、単語  x_1, x_2, \dots, x_n が独立に出現する確率分布の積との対数比なのである。

この多変数版のPMIが  \log \left( \frac{q(x)}{r(x)} \right) という形になっていることからも分かる通り、PMI を確率分布  p \left( x_1, x_2, \dots, x_n \right) のもとで積分(平均)を取ると、KL divergenceの形式に一致させることができる。つまり

  \displaystyle \mathbb{E}_{ p (\boldsymbol{x}) } [ \operatorname{PMI}(p( \boldsymbol{x} )) ] = \int p(\boldsymbol{x}) \log \frac{p\left(x_1, x_2, \ldots, x_n\right)}{p\left(x_1\right) p\left(x_2\right) \ldots p\left(x_n\right)} \mathrm{d} \boldsymbol{x} = D_{\mathrm{KL}}\left(P_{\boldsymbol{X}} \Biggl| \bigotimes_{X \in \boldsymbol{X}} P_X\right)

である。ただし、 p(\boldsymbol{x}) = p\left(x_1, x_2, \ldots, x_n\right)

そして、これこそが多変数版の相互情報量  I(\boldsymbol{X}) の定義に他ならない。つまり

 \displaystyle I(\boldsymbol{X}) = D_\mathrm{KL} \left(P_{\boldsymbol{X}} \Biggl| \bigotimes_{X \in \boldsymbol{X}} P_X\right)

である。この多変数に一般化された相互情報量を、total correlation (Watanabe 1960) や multi-information (Studený & Vejnarová 1999) と呼ぶ*2

つまり、本質的に相互情報量(total correlation)は、単語の同時確率分布と、周辺確率分布の積との統計的距離(statical distance)であるということだ。

さらに、この相互情報量(total correlation)の順列不変性(permutation invariance)は、ソシュールの言語の線条性といった旧来の言語論のテーゼに否定的な影響を与えると考えられる。この相互情報量の順列不変性に似た例として、自己注意機構(self-attention)の順列不変性*3が挙げられる。これは、自己注意自体は単語の並び順に対して無知であるという性質(順列という情報を与えているのは、位置埋め込み(positional encoding)である)のことである。このような、単語の線条性というテーゼを疑わしくするような大規模言語モデルの性質が、その線条性というテーゼにどれほどの影響を与えるのかは今後の言語論研究の課題であると思われる。

なお total correlation という語を開発した「Watanabe」とは、かの認識学で有名な「渡辺 慧」のことである。

こんなところに日本人!?という千原兄弟の気持ちが分かった気がした。

*1:単に私が見たことがないというくらいの意味。

*2:https://en.wikipedia.org/wiki/Total_correlation

*3:詳しくは、たとえばHow Transformers Encode Position and Order | Mediumなどを参照。

クリエイティブ・コモンズ・ライセンス
このブログのコンテンツは、クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0 国際 ライセンスの下に提供されています。