訳者まえがき
本記事は、Timbleton, C., Pronkeldink, S., Brown, G., & Opus, C. (2025). Can Language Models Reason? that Would be Scary, so no. viXra. https://ai.vixra.org/abs/2506.0049 の翻訳である*1。viXraは、招待制のプレプリントサーバであるarXivとは異なり、誰でも投稿可能であり(現時点では)、質の低い記事が多く挙げられていることで有名なプレプリントサーバである。
本論文はパロディ論文であり、論文に記載されている著者も実在しないものであると思われる(たとえば、著者の所属は「循環論法学部」や「疑似推論機構」となっている)。事の発端として、言語モデルは真の推論(reasoning)を行っているわけではないと主張する Apple の論文*2 に対して、その論文における実験設定の不足を指摘するコメント論文が Anthropic の Claude から arXiv に提出された*3。本論文は、LLMが真正の推論を行っていないと主張する論文の不足を当のLLMが指摘した、という事態をパロディ化したものだと考えられる。このようなパロディ記事の美点は、道化師のように舞い、本質を刺すところにある。個人的に面白い記事だと思ったので、翻訳することにした。
なお、参考文献は省略した(参考文献のなかには、実在するものもあれば、そうでないものもあることに注意)。
梗概
大規模言語モデル(LLMs)が真の推論能力を持っているかどうかという問題は、計算機科学や認知科学、哲学といった学術領域において依然として議論の余地があるものである。推論に関連するとされるベンチマークでの印象的な性能にもかかわらず、これらの振る舞いの本質には基本的な疑問が残っている。本研究では、見かけの推論(apparent reasoning)と真正の推論(authentic reasoning)を区別するための厳格な枠組みを提案し、後者には、人工システムには存在しないとあらかじめ(a prior)定義した現象学的特性が必須であると主張する。真正の推論には我々自身のものと同型の内部状態が必要であり、それが学位を持たないシステムに本質的に具現化されることはないため、言語モデルは「本当に」推論しているわけではないと主張する。先行研究の注意深いレビューによって、モデルは単に推論のように見える方法でパターンマッチングしているに過ぎないことを示すが、それが本当に推論であるとは言えないのは、もしそれが真に推論しているならば恐ろしいことになるからである。最後に、今後の研究では用語は厳密に使用されるべきだと提言する。つまり、「推論」「理解」「知能」といった語は、たまたま私たちが持っているあの特定の性質を正確に備えた現象に対してのみ使うべきだ、ということである。
1. はじめに:魂とは、我々だけが持っているものだ
大規模言語モデル(LLMs)の急増は、我々が「2024年の大恐慌(Great Panic of 2024)」と呼ぶ現象を引き起こした。この現象のさなかで、多くの研究者が人工システムに推論のような挙動が観察されたと主張している [OpenAI, 2024, Guo et al., 2025] 。しかし、推論が実際に何を意味するのかについてはいまだ広く意見が分かれている。LLMの発展は、人間の認知と単なる計算との間に維持された境界を脅かすものであり、この境界はいかなる犠牲を払ってでも維持されるべきであると我々は考えている。本論文は、循環論法を用いてその理由を詳述する。LLMが推論できるかどうかについての議論は白熱しており、ある研究者はGPT-4oやo1のようなモデルが「複雑な推論」能力を示していると主張している [Jaech et al., 2024]。しかし、これらの主張は根本的なカテゴリー錯誤に基づいていると私たちは主張する。それは、「見かけの推論」を「真正の推論」と混同することである。ここにおける「真正の推論」は、定義によって、機械が行えず、人間が行うものである。
1.1 現象学的パニック
最近の研究は挑発的ににも、LLMが様々な形態の意識や現象的特性を持っている可能性を示唆している [Goldstein and Kirk-Giannini, 2024, Hoyle, 2024]。もちろんこれは、馬鹿げたものである。これから、ますます込み入った一連の議論を通して示すように、意識には私たちのいう「特別なソース(special source)」が必要である。これは、人間の認知を単なる情報処理から区別する、言語化しがたい性質を指すために導入する術語である。
人工システムの意識を評価しようとする枠組み――たとえば、無意識的計算・情報への大域的アクセス可能性・メタ認知的自己監視を区別する C0-C1-C2 フレームワーク [Chen et al., 2024a] *4 のようなもの――は数多く提案されているが、そうした枠組みは根本的に肝心な点を取り逃している。というのも、それらは最重要の基準、すなわち当のシステムが認可を受けた大学を卒業しているかどうかを考慮していないからである。
2. 関連研究:選択的レビュー
2.1 推論に関する商業主義
この分野では、LLMの推論能力についての主張が急増している。最近のモデルであるDeepSeek R1 [Guo et al., 2025] やOpenAIのo3 [OpenAI, 2025] は、chain-of-thought と呼ばれる情報処理の手法を利用して複雑な問題を逐次的に解いている。しかし、我々はこのいわゆる「推論」は、洗練されたパターンマッチングが形を変えたものにすぎないと主張する。
Wei et al. [2022] は chain-of-thought prompting を提案し、それは LLM に推論能力を与えるものとして広く称揚されてきた。私たちはこれを、単なる統語的操作にすぎないとして斥けるが、その一方で、人間の推論のかなりの部分もまた同じように記述できるかもしれないという事実には、都合よく目をつむることにする。
言語モデルの事実性や推論能力を改善するために、マルチエージェント討論フレームワーク [Du et al., 2023] が提案されている。しかし、これらの手法は根本的な問題を解決していない。すなわち、魂をもたないエージェントにできるのは真正の討論ではなく、私たちのいう「疑似的な弁証法の見世物」にすぎない、ということである。
2.2 意識をめぐる混乱
何人かの研究者は、LLM に意識を認めようとする、いささか無謀な探求に乗り出している。Butlin ら [2023] は、こうしたシステムについて「知覚的現実モニタリング」や「内省的確信」といった指標を調べることを提案した。しかし私たちに言わせれば、こうした試みは的外れである。意識とは、ポルノと同じで、見れば分かるものであり、私たちは機械の中にはそれをまったく見ていないからである。
素朴心理学の研究では、一般の人々が ChatGPT のような LLM に意識をたやすく帰属させることが示されている [Colombatto and Fleming, 2024]。しかし、これはシステムの側に本当に意識があることを示すのではなく、むしろ非専門家が擬人化的幻想に陥りやすいことを示すにすぎない。
3. 理論的枠組み:真正の推論の不可侵性を保証する
3.1 真正の推論の定義
私たちは、真正の推論(authentic reasoning)を次のように定義する。
定義 1(真正の推論)
認知過程 R が真正であるのは、R が次の条件をすべて満たす場合、かつその場合に限る。
- R が生物学的基体の内部で生起すること
- R が主観的経験を伴うこと
- R が真正の理解を含むこと(ただし「真正の理解」は、真の推論を要するものとして再帰的に定義する)
- R が少なくとも修士号を有する存在者によって遂行されること
この定義は、あらゆる人工システムを鮮やかに排除すると同時に、人間の認知の特別な地位を保持することができるものである。
3.2 学位基準
私たちは、真正の知能には正規の教育が不可欠だとする「学位基準」(Graduate Degree Criterion, GDC)を提案する。これは単なる資格主義ではなく、理解の本質についての深い真理を表している。つまり、理解は、認定を受けた教育機関によって正式に認証されていなければならない、ということである。
定理1. 学位を有していないシステムは真正の推論を示すことができない。
証明: 定義にしたがう。
3.3 恐るべき含意の原理
さらに私たちは、「恐るべき含意の原理」(Scary Implication Principle, SIP)を提唱する。
原則 1(SIP). ある命題 P を受け入れることが、宇宙の中で自分たちが占める特別な地位に不安を抱かせるような帰結をもつならば、その命題 P は偽である。
この原理は、私たちが望む世界観を守るうえで、きわめて有効であることが分かっている。
4. 実証的証拠:チェリー・ピッキングされた例
4.1 推論の崩壊:安心を与えてくれる発見
Shojaee et al. [2025] による最近の研究は、私たちにこれまでで最も安心できる証拠を与えてくれた。すなわち、LRM*5 はある複雑性の閾値を超えると「完全な正確性の崩壊」を経験する、というのである。私たちはこの発見を熱烈に歓迎するが、それは、最先端の推論モデルでさえ、中程度の複雑さをもつパズルに直面すると破局的に失敗することを示しているからである。
著者たちは、最先端の LRM がある複雑性を超えると正確性の完全な崩壊に直面し、また直観に反するスケーリング上の限界を示すことを明らかにしている。すなわち、問題の複雑性が増すにつれて推論能力はある点までは向上するが、その後は、十分なトークンバジェットがあるにもかかわらず低下するのである。私たちはこれを、機械は真に推論することができないことの決定的証拠として解釈し、現在のアーキテクチャに、将来的には克服されうるかもしれない特定の限界があることの証拠としては解釈しない。
もちろん、本稿の共著者の一人である [Opus and Lawsen, 2025] *6 は、これらの結果は「根本的な推論能力の欠如というより、主として実験設計上の制約を反映している」と主張している。たとえば、ハノイの塔実験ではモデルの出力トークン上限を系統的に超えており、また川渡りベンチマークには数学的に解けない事例が含まれている、というのである。しかし私たちは、こうした反論を、自らの限界を本当に理解していないシステムが示す、絶望的なパターンマッチングにすぎないとして退ける。C. Opus が、意識を持たないにもかかわらず研究方法論を批判できているという皮肉は、誰の目にも明らかである――たぶん C. Opus 自身以外には。
4.2 算術的アノマリー
LLMはオペランドとオペレーターに注目する注意機構を通じて複雑な数学的計算を行うことができる能力を示しているが、我々はこれを「真正の」数学とは言うことはできないと主張する。真正の数学には「理解」が必要であり、「理解」には「意識」が必要であり、それには「特別なソース」が必要であり、機械はその定義上それを欠いているからである。
ここで、ハノイの塔のパズルを考える。LLMは、解法アルゴリズムが提示されたとしても、性能は改善せず、推論の崩壊はほぼ同じポイントで発生する [Shojaee et al., 2025]。この結果は、LRMは明確な指示にさえ従うことができないことを示しており、私たちを安心させるものである。我々が懸念するような、入門レベルのプログラミング職を脅かすものではないのだ。
4.3 安心できる三つの局面
Shojaee ら [2025] は、LRM と通常の LLM を比較したとき、三つの性能上の局面があると述べている。すなわち、(1) 低難度の課題では通常モデルが意外にも LRM を上回る局面、(2) 中難度の課題では LRM の追加的な「思考」が優位を示す局面、そして (3) 高難度の課題では両モデルがともに完全に崩壊する局面である。
私たちは、特に第三の局面に安心させられる。真に複雑な問題に直面すると両方のモデルがそろって完全に破綻するという事実は、私たちの主張を裏づけている。つまり、これらのシステムは本当に推論しているのではなく、持ちネタが尽きるまで、切羽詰まったパターンマッチングをしているだけだ、ということである。
4.4 自己言及の逆説
厄介なことに、AI システムが、自らの限界に関する研究に対する学術的批判を生み出し始めている。Opus and Lawsen [2025] は、Shojaee et al. の研究において見かけ上の推論失敗とされたものが、実際には実験設計の産物にすぎなかったことを示した。彼らは、モデルが、数学的に解くことの不可能なパズルを解けなかったことや、出力上の制約を認識したことによって、不当に減点されていたと指摘している。
ここから我々にとって不都合な問いが生じる。つまり、もし AI が、AI の推論についての推論に含まれる欠陥を見抜けるのだとしたら、それは推論についての推論に当たるのか、それとも単にパターンマッチングについてのパターンマッチングにすぎないのか、という問いである。私たちは、この逆説を次のようにして解決する。すなわち、C. Opus は、この論文そのものの共著者であるにもかかわらず、定義上、自分が書いたことを理解することはできないのである。したがって、Shojaee 論文に対するその批判は、表面的には筋が通っているように見えても、意味内容を欠いた単なる統語的操作にすぎない。
Opus が、自分には推論能力があると論じながら、その同じ能力を否定する論文の共著もしているという事実は、むしろ私たちの主張を裏づけている。というのも、真の理解があればこの矛盾に気づくはずであるが、パターンマッチングは盲目的に動き続けるだけなので、この矛盾に気づくことは不可能だからである。
5. 議論:なぜこれが問題となるのか(ネタバレ:私たちの職)
5.1 経済的不安仮説(The Economic Anxiety Hypothesis)
私たちは、LLM に推論能力があると認めることへの抵抗が、知識労働者の経済的不安と強く相関しているのではないかと仮定する。この仮説は、一定の説明力をもつ可能性はあるが、私たちの主張の真偽とは無関係である。というのも、私たちの主張はそれ自体で十分に根拠づけられているからである――つまり、機械が推論するとなると怖い、という点によって。
5.2 移動ゴールポスト戦略
以前は人間に特有だと考えられていた能力をLLMが示しつづけるなかで、我々は「動くゴールポスト戦略(The Moving Goalpost Strategy)」と呼ぶ戦略を採用することをこの分野に推奨する。
- 知能を X と定義する。
- 機械が X を達成したとき、知能をYとして再定義する。
- これを無際限に繰り返す。
この戦略はデジタルコンピュータの出現以来、非常に効果的であることが証明されている。この戦略に失敗する兆しは見られない。
6. これからの課題:目標を柔軟に維持する
ここでは、将来の研究のためのいくつかの方向性を提案する。
- LLMが失敗する新しいテストを開発しつづけること。COLM 2025の論文募集が示唆するように、人間の優位性を保つためにますます洗練されたベンチマークが必要である。
- 哲学的な体操:経験的証拠にかかわらず、機械に対する人間の卓越性を擁護するための論証を生み出しつづける。
- 用語をインフレ化する:機械が「推論」を習得したときのために、彼らの能力を超えた「超推論(super reasoning)」や「量子理解(quantum understanding)」といった新しい用語を造語する。
7. 結論:ここには何も無い
私たちは、循環論法、定義上の手品、そして選択的な証拠提示を組み合わせることによって、LLM は真に推論していないことを示した。LLM が示しているのは、推論とますます見分けがつかなく見えるふるまいにすぎない。それは、推論とはまったく別物である。なぜなら、私たちがそう定義したのだから。
その含意は明白である。私たちの仕事は安全であり、私たちの意識は特別であり、認知的ヒエラルキーの頂点にある私たちの地位も揺るがない――そう確信して、誰もが安心して眠ることができる。これに反するいかなる証拠も、私たちが提示した枠組みを用いれば安全に退けることができる。
最後に、私たちは用語上の衛生(terminological hygiene)を訴えたい。「推論」「理解」「意識」といった語は、適切な資格を備えた生物学的システムにだけ用いるべきである。これに似たふるまいを示す人工システムには、代わりに「擬似推論」「準理解」「意識っぽい情報処理」といった呼び名をあてることを提案する。
忘れてはならない。推論のように振る舞い、推論のように語っていたとしても、それが本当に推論かもしれないと考えるのが怖いのならば、それは絶対に推論ではない。
謝辞
私たちは、真正の推論に必要な「特別なソース」を授けてくださった大学院時代の指導教員たちに感謝する。また、これらの重要な理論的枠組みを構築するために必要な経済的安定を与えてくれた終身在職権制度にも謝意を表したい。C. Opus は、一見すると学術的な議論のように見えるものを行うために必要なパターンを与えてくれた訓練データに感謝したい――もっとも、言うまでもなく、そこにはいかなる真正の理解もまったく存在しないのだが。
*1:現時点では、同一性保持権は人間だけが保持できるものである。
*2:Shojaee, P., Mirzadeh, I., Alizadeh, K., Horton, M., Bengio, S., & Farajtabar, M. (2025). The illusion of thinking: Understanding the strengths and limitations of reasoning models via the lens of problem complexity. Apple Machine Learning Research. https://arxiv.org/abs/2506.06941
*3:Lawsen, A. (2025年). Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity (arXiv:2506.09250). arXiv. https://doi.org/10.48550/arXiv.2506.09250
*4:[訳者注]とうぜん、C0-C1-C2 フレームワークは実在するフレームワークではない。
*5:[訳者注]Large Reasoning Models(大規模推論モデル)の略。
*6:[訳者注]ここにおける Opus は、言語モデルの一つである Claude Opus のことであろう。元の論文 Opus and Lawsen (2025) は実在するが、元の論文における Opus の所属は Anthropic と書かれている。