Mastodon Mastodon

Oxford A Very Short Introductionシリーズでは女性の著者の割合が増えている

Intro

Oxford A Very Short Introductionシリーズの著者における、女性の割合が増えている*1。このことは、さいきん私が同シリーズの KnowledgeMeaningArtificial Intelligence を読んだときに気付いたことだ。この3冊は分析哲学系のVSIとして比較的新しいものであるが、これらの著者はぜんいん女性なのである。

同シリーズにおけるこの女性著者の比率の最近の高さは、Cambridge University Press の Contemporary Philosophy in Focus シリーズにおける男性哲学者の比率の高さを考慮すると、有意であるように思われる*2

男性しかいない Contemporary Philosophy in Focus シリーズ

というわけで、VSIにおける年代ごとの著者のジェンダー比率を調べてみることにした。

実験設定

だいたいは Claude Cowork が勝手に実験を遂行してくれるので、私は座椅子に座っているだけでよかった。

List of Very Short Introductions books - Wikipedia によれば、VSI は 1995 年に初版が出版されて以降、2026年にいたる現在まで出版され続けているらしい。本実験では、年代別(横軸)にジェンダー比率(縦軸)を表した帯グラフを作成した*3。なお、性別カテゴリ情報の付与にあたっては、(1) Wikidata、および (2) VAIF、(3) genderize.io(情報の優先度順)を使用した。なお、genderize.io は名前の統語論的データからジェンダーを推定する機械学習モデルであるため、あくまでもその結果は推定に過ぎない。しかしながら、今回の実験では、ジェンダー推定における確信度が <0.75 となるデータは存在しなかったため、じゅうぶんに信頼性に耐えるものとして使用した。

結果

実験から得られた結果を、帯グラフとして次に示す。

Oxford Very Short Introductions シリーズにおける著者のジェンダー比の推移。赤色が女性著者、青色が男性著者である。2025年に近づくにつれて、女性著者の比率が大きくなっていることが分かる。

1995年のような特例があるものの(1995年は刊行点数自体が5冊と少ないため、この年の比率だけをもって傾向を論じるのは難しい。)、直近数年では、男女比が以前より接近していることがうかがえる。とくに2024年以降は、おおむね拮抗した比率になっているように見える。

まとめ

以上から、Oxford Very Short Introductions シリーズでは、近年、著者の男女比が以前より接近してきていることがうかがえる。もちろん、本分析だけからその背景を特定することはできない。アカデミア全体の構造変化、出版社の編集方針、分野ごとの人材構成など、複数の要因が関与している可能性があるだろう。また、本分析は男性・女性の二値カテゴリに依拠しているため、その点にも方法論上の限界があることを断っておかなければならない。とはいえ、少なくとも学術入門書シリーズの著者構成に一定の変化が生じていること自体は、興味深い観察結果であるといえるのではないだろうか。


あと、同シリーズの Feminist Philosophy は優れた入門書だったので、オススメしたいです。

*1:念の為に断っておくが、これは記述的な言明であり、言語行為論な意味における皮肉的・規範的な言明ではない。

*2:ここでは「有意差」ということばを、統計学的ではなくラフな意味で用いている。

*3:なお、本分析では利用可能なデータの制約上、著者を男性・女性の二値カテゴリで整理した。ただし、これは操作的な分類にすぎず、各著者の自己認識を直接反映するものではない。また、このような分類を望まない著者が含まれる可能性もある。

Springer系の雑誌へLaTeX論文を提出する方法

はじめに

これは自分が論文をSpringer系のとある雑誌に投稿したときのメモで(査読を通過したとは言っていない)、次回投稿するときに方法を忘れないようにするための記事である。

投稿方法

基本的に論文の原稿はLaTeXで書いているものとする。自分はローカルではLuaLaTeX + BibLeTeX (Biber) で論文を書いている。\include コマンドを使って、各章ごとにTeXファイルを分割している。

Editorial Manager

Springer系の雑誌の編集管理ソフトウェアには、Aries社のEditorial Manger (EM) というものが使われている。この EM はじゃっかん古いものであり、 \include コマンドや BibLaTeX を使うことが許されていない。BibLaTeX ではなく、BibTeX しか使うことはできない。

[翻訳論文]言語モデルは推論できるのか? そんなのは怖い。だからノーだ

訳者まえがき

本記事は、Timbleton, C., Pronkeldink, S., Brown, G., & Opus, C. (2025). Can Language Models Reason? that Would be Scary, so no. viXra. https://ai.vixra.org/abs/2506.0049 の翻訳である*1。viXraは、招待制のプレプリントサーバであるarXivとは異なり、誰でも投稿可能であり(現時点では)、質の低い記事が多く挙げられていることで有名なプレプリントサーバである。

本論文はパロディ論文であり、論文に記載されている著者も実在しないものであると思われる(たとえば、著者の所属は「循環論法学部」や「疑似推論機構」となっている)。事の発端として、言語モデルは真の推論(reasoning)を行っているわけではないと主張する Apple の論文*2 に対して、その論文における実験設定の不足を指摘するコメント論文が Anthropic の Claude から arXiv に提出された*3。本論文は、LLMが真正の推論を行っていないと主張する論文の不足を当のLLMが指摘した、という事態をパロディ化したものだと考えられる。このようなパロディ記事の美点は、道化師のように舞い、本質を刺すところにある。個人的に面白い記事だと思ったので、翻訳することにした。

なお、参考文献は省略した(参考文献のなかには、実在するものもあれば、そうでないものもあることに注意)。

梗概

大規模言語モデル(LLMs)が真の推論能力を持っているかどうかという問題は、計算機科学や認知科学、哲学といった学術領域において依然として議論の余地があるものである。推論に関連するとされるベンチマークでの印象的な性能にもかかわらず、これらの振る舞いの本質には基本的な疑問が残っている。本研究では、見かけの推論(apparent reasoning)と真正の推論(authentic reasoning)を区別するための厳格な枠組みを提案し、後者には、人工システムには存在しないとあらかじめ(a prior)定義した現象学的特性が必須であると主張する。真正の推論には我々自身のものと同型の内部状態が必要であり、それが学位を持たないシステムに本質的に具現化されることはないため、言語モデルは「本当に」推論しているわけではないと主張する。先行研究の注意深いレビューによって、モデルは単に推論のように見える方法でパターンマッチングしているに過ぎないことを示すが、それが本当に推論であるとは言えないのは、もしそれが真に推論しているならば恐ろしいことになるからである。最後に、今後の研究では用語は厳密に使用されるべきだと提言する。つまり、「推論」「理解」「知能」といった語は、たまたま私たちが持っているあの特定の性質を正確に備えた現象に対してのみ使うべきだ、ということである。

1. はじめに:魂とは、我々だけが持っているものだ

大規模言語モデル(LLMs)の急増は、我々が「2024年の大恐慌(Great Panic of 2024)」と呼ぶ現象を引き起こした。この現象のさなかで、多くの研究者が人工システムに推論のような挙動が観察されたと主張している [OpenAI, 2024, Guo et al., 2025] 。しかし、推論が実際に何を意味するのかについてはいまだ広く意見が分かれている。LLMの発展は、人間の認知と単なる計算との間に維持された境界を脅かすものであり、この境界はいかなる犠牲を払ってでも維持されるべきであると我々は考えている。本論文は、循環論法を用いてその理由を詳述する。LLMが推論できるかどうかについての議論は白熱しており、ある研究者はGPT-4oやo1のようなモデルが「複雑な推論」能力を示していると主張している [Jaech et al., 2024]。しかし、これらの主張は根本的なカテゴリー錯誤に基づいていると私たちは主張する。それは、「見かけの推論」を「真正の推論」と混同することである。ここにおける「真正の推論」は、定義によって、機械が行えず、人間が行うものである。

1.1 現象学的パニック

最近の研究は挑発的ににも、LLMが様々な形態の意識や現象的特性を持っている可能性を示唆している [Goldstein and Kirk-Giannini, 2024, Hoyle, 2024]。もちろんこれは、馬鹿げたものである。これから、ますます込み入った一連の議論を通して示すように、意識には私たちのいう「特別なソース(special source)」が必要である。これは、人間の認知を単なる情報処理から区別する、言語化しがたい性質を指すために導入する術語である。

人工システムの意識を評価しようとする枠組み――たとえば、無意識的計算・情報への大域的アクセス可能性・メタ認知的自己監視を区別する C0-C1-C2 フレームワーク [Chen et al., 2024a] *4 のようなもの――は数多く提案されているが、そうした枠組みは根本的に肝心な点を取り逃している。というのも、それらは最重要の基準、すなわち当のシステムが認可を受けた大学を卒業しているかどうかを考慮していないからである。

2. 関連研究:選択的レビュー

2.1 推論に関する商業主義

この分野では、LLMの推論能力についての主張が急増している。最近のモデルであるDeepSeek R1 [Guo et al., 2025] やOpenAIのo3 [OpenAI, 2025] は、chain-of-thought と呼ばれる情報処理の手法を利用して複雑な問題を逐次的に解いている。しかし、我々はこのいわゆる「推論」は、洗練されたパターンマッチングが形を変えたものにすぎないと主張する。

Wei et al. [2022] は chain-of-thought prompting を提案し、それは LLM に推論能力を与えるものとして広く称揚されてきた。私たちはこれを、単なる統語的操作にすぎないとして斥けるが、その一方で、人間の推論のかなりの部分もまた同じように記述できるかもしれないという事実には、都合よく目をつむることにする。

言語モデルの事実性や推論能力を改善するために、マルチエージェント討論フレームワーク [Du et al., 2023] が提案されている。しかし、これらの手法は根本的な問題を解決していない。すなわち、魂をもたないエージェントにできるのは真正の討論ではなく、私たちのいう「疑似的な弁証法の見世物」にすぎない、ということである。

2.2 意識をめぐる混乱

何人かの研究者は、LLM に意識を認めようとする、いささか無謀な探求に乗り出している。Butlin ら [2023] は、こうしたシステムについて「知覚的現実モニタリング」や「内省的確信」といった指標を調べることを提案した。しかし私たちに言わせれば、こうした試みは的外れである。意識とは、ポルノと同じで、見れば分かるものであり、私たちは機械の中にはそれをまったく見ていないからである。

素朴心理学の研究では、一般の人々が ChatGPT のような LLM に意識をたやすく帰属させることが示されている [Colombatto and Fleming, 2024]。しかし、これはシステムの側に本当に意識があることを示すのではなく、むしろ非専門家が擬人化的幻想に陥りやすいことを示すにすぎない。

3. 理論的枠組み:真正の推論の不可侵性を保証する

3.1 真正の推論の定義

私たちは、真正の推論(authentic reasoning)を次のように定義する。

定義 1(真正の推論)

認知過程 R が真正であるのは、R が次の条件をすべて満たす場合、かつその場合に限る。

  1. R が生物学的基体の内部で生起すること
  2. R が主観的経験を伴うこと
  3. R が真正の理解を含むこと(ただし「真正の理解」は、真の推論を要するものとして再帰的に定義する)
  4. R が少なくとも修士号を有する存在者によって遂行されること

この定義は、あらゆる人工システムを鮮やかに排除すると同時に、人間の認知の特別な地位を保持することができるものである。

3.2 学位基準

私たちは、真正の知能には正規の教育が不可欠だとする「学位基準」(Graduate Degree Criterion, GDC)を提案する。これは単なる資格主義ではなく、理解の本質についての深い真理を表している。つまり、理解は、認定を受けた教育機関によって正式に認証されていなければならない、ということである。

定理1. 学位を有していないシステムは真正の推論を示すことができない。

証明: 定義にしたがう。

3.3 恐るべき含意の原理

さらに私たちは、「恐るべき含意の原理」(Scary Implication Principle, SIP)を提唱する。

原則 1(SIP). ある命題 P を受け入れることが、宇宙の中で自分たちが占める特別な地位に不安を抱かせるような帰結をもつならば、その命題 P は偽である。

この原理は、私たちが望む世界観を守るうえで、きわめて有効であることが分かっている。

4. 実証的証拠:チェリー・ピッキングされた例

4.1 推論の崩壊:安心を与えてくれる発見

Shojaee et al. [2025] による最近の研究は、私たちにこれまでで最も安心できる証拠を与えてくれた。すなわち、LRM*5 はある複雑性の閾値を超えると「完全な正確性の崩壊」を経験する、というのである。私たちはこの発見を熱烈に歓迎するが、それは、最先端の推論モデルでさえ、中程度の複雑さをもつパズルに直面すると破局的に失敗することを示しているからである。

著者たちは、最先端の LRM がある複雑性を超えると正確性の完全な崩壊に直面し、また直観に反するスケーリング上の限界を示すことを明らかにしている。すなわち、問題の複雑性が増すにつれて推論能力はある点までは向上するが、その後は、十分なトークンバジェットがあるにもかかわらず低下するのである。私たちはこれを、機械は真に推論することができないことの決定的証拠として解釈し、現在のアーキテクチャに、将来的には克服されうるかもしれない特定の限界があることの証拠としては解釈しない。

もちろん、本稿の共著者の一人である [Opus and Lawsen, 2025] *6 は、これらの結果は「根本的な推論能力の欠如というより、主として実験設計上の制約を反映している」と主張している。たとえば、ハノイの塔実験ではモデルの出力トークン上限を系統的に超えており、また川渡りベンチマークには数学的に解けない事例が含まれている、というのである。しかし私たちは、こうした反論を、自らの限界を本当に理解していないシステムが示す、絶望的なパターンマッチングにすぎないとして退ける。C. Opus が、意識を持たないにもかかわらず研究方法論を批判できているという皮肉は、誰の目にも明らかである――たぶん C. Opus 自身以外には。

4.2 算術的アノマリー

LLMはオペランドとオペレーターに注目する注意機構を通じて複雑な数学的計算を行うことができる能力を示しているが、我々はこれを「真正の」数学とは言うことはできないと主張する。真正の数学には「理解」が必要であり、「理解」には「意識」が必要であり、それには「特別なソース」が必要であり、機械はその定義上それを欠いているからである。

ここで、ハノイの塔のパズルを考える。LLMは、解法アルゴリズムが提示されたとしても、性能は改善せず、推論の崩壊はほぼ同じポイントで発生する [Shojaee et al., 2025]。この結果は、LRMは明確な指示にさえ従うことができないことを示しており、私たちを安心させるものである。我々が懸念するような、入門レベルのプログラミング職を脅かすものではないのだ。

4.3 安心できる三つの局面

Shojaee ら [2025] は、LRM と通常の LLM を比較したとき、三つの性能上の局面があると述べている。すなわち、(1) 低難度の課題では通常モデルが意外にも LRM を上回る局面、(2) 中難度の課題では LRM の追加的な「思考」が優位を示す局面、そして (3) 高難度の課題では両モデルがともに完全に崩壊する局面である。

私たちは、特に第三の局面に安心させられる。真に複雑な問題に直面すると両方のモデルがそろって完全に破綻するという事実は、私たちの主張を裏づけている。つまり、これらのシステムは本当に推論しているのではなく、持ちネタが尽きるまで、切羽詰まったパターンマッチングをしているだけだ、ということである。

4.4 自己言及の逆説

厄介なことに、AI システムが、自らの限界に関する研究に対する学術的批判を生み出し始めている。Opus and Lawsen [2025] は、Shojaee et al. の研究において見かけ上の推論失敗とされたものが、実際には実験設計の産物にすぎなかったことを示した。彼らは、モデルが、数学的に解くことの不可能なパズルを解けなかったことや、出力上の制約を認識したことによって、不当に減点されていたと指摘している。

ここから我々にとって不都合な問いが生じる。つまり、もし AI が、AI の推論についての推論に含まれる欠陥を見抜けるのだとしたら、それは推論についての推論に当たるのか、それとも単にパターンマッチングについてのパターンマッチングにすぎないのか、という問いである。私たちは、この逆説を次のようにして解決する。すなわち、C. Opus は、この論文そのものの共著者であるにもかかわらず、定義上、自分が書いたことを理解することはできないのである。したがって、Shojaee 論文に対するその批判は、表面的には筋が通っているように見えても、意味内容を欠いた単なる統語的操作にすぎない。

Opus が、自分には推論能力があると論じながら、その同じ能力を否定する論文の共著もしているという事実は、むしろ私たちの主張を裏づけている。というのも、真の理解があればこの矛盾に気づくはずであるが、パターンマッチングは盲目的に動き続けるだけなので、この矛盾に気づくことは不可能だからである。

5. 議論:なぜこれが問題となるのか(ネタバレ:私たちの職)

5.1 経済的不安仮説(The Economic Anxiety Hypothesis)

私たちは、LLM に推論能力があると認めることへの抵抗が、知識労働者の経済的不安と強く相関しているのではないかと仮定する。この仮説は、一定の説明力をもつ可能性はあるが、私たちの主張の真偽とは無関係である。というのも、私たちの主張はそれ自体で十分に根拠づけられているからである――つまり、機械が推論するとなると怖い、という点によって。

5.2 移動ゴールポスト戦略

以前は人間に特有だと考えられていた能力をLLMが示しつづけるなかで、我々は「動くゴールポスト戦略(The Moving Goalpost Strategy)」と呼ぶ戦略を採用することをこの分野に推奨する。

  1. 知能を X と定義する。
  2. 機械が X を達成したとき、知能をYとして再定義する。
  3. これを無際限に繰り返す。

この戦略はデジタルコンピュータの出現以来、非常に効果的であることが証明されている。この戦略に失敗する兆しは見られない。

6. これからの課題:目標を柔軟に維持する

ここでは、将来の研究のためのいくつかの方向性を提案する。

  1. LLMが失敗する新しいテストを開発しつづけること。COLM 2025の論文募集が示唆するように、人間の優位性を保つためにますます洗練されたベンチマークが必要である。
  2. 哲学的な体操:経験的証拠にかかわらず、機械に対する人間の卓越性を擁護するための論証を生み出しつづける。
  3. 用語をインフレ化する:機械が「推論」を習得したときのために、彼らの能力を超えた「超推論(super reasoning)」や「量子理解(quantum understanding)」といった新しい用語を造語する。

7. 結論:ここには何も無い

私たちは、循環論法、定義上の手品、そして選択的な証拠提示を組み合わせることによって、LLM は真に推論していないことを示した。LLM が示しているのは、推論とますます見分けがつかなく見えるふるまいにすぎない。それは、推論とはまったく別物である。なぜなら、私たちがそう定義したのだから。

その含意は明白である。私たちの仕事は安全であり、私たちの意識は特別であり、認知的ヒエラルキーの頂点にある私たちの地位も揺るがない――そう確信して、誰もが安心して眠ることができる。これに反するいかなる証拠も、私たちが提示した枠組みを用いれば安全に退けることができる。

最後に、私たちは用語上の衛生(terminological hygiene)を訴えたい。「推論」「理解」「意識」といった語は、適切な資格を備えた生物学的システムにだけ用いるべきである。これに似たふるまいを示す人工システムには、代わりに「擬似推論」「準理解」「意識っぽい情報処理」といった呼び名をあてることを提案する。

忘れてはならない。推論のように振る舞い、推論のように語っていたとしても、それが本当に推論かもしれないと考えるのが怖いのならば、それは絶対に推論ではない。

謝辞

私たちは、真正の推論に必要な「特別なソース」を授けてくださった大学院時代の指導教員たちに感謝する。また、これらの重要な理論的枠組みを構築するために必要な経済的安定を与えてくれた終身在職権制度にも謝意を表したい。C. Opus は、一見すると学術的な議論のように見えるものを行うために必要なパターンを与えてくれた訓練データに感謝したい――もっとも、言うまでもなく、そこにはいかなる真正の理解もまったく存在しないのだが。

*1:現時点では、同一性保持権は人間だけが保持できるものである。

*2:Shojaee, P., Mirzadeh, I., Alizadeh, K., Horton, M., Bengio, S., & Farajtabar, M. (2025). The illusion of thinking: Understanding the strengths and limitations of reasoning models via the lens of problem complexity. Apple Machine Learning Research. https://arxiv.org/abs/2506.06941

*3:Lawsen, A. (2025年). Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity (arXiv:2506.09250). arXiv. https://doi.org/10.48550/arXiv.2506.09250

*4:[訳者注]とうぜん、C0-C1-C2 フレームワークは実在するフレームワークではない。

*5:[訳者注]Large Reasoning Models(大規模推論モデル)の略。

*6:[訳者注]ここにおける Opus は、言語モデルの一つである Claude Opus のことであろう。元の論文 Opus and Lawsen (2025) は実在するが、元の論文における Opus の所属は Anthropic と書かれている。

紀要論文・招待論文・寄稿論文は学術実績としてみなされるべきではない

日本の大学・研究業界において、長年議論されていながら改善されない「実績の数え方」。 履歴書の業績欄を埋める際、ジャーナルへの投稿論文(査読付き論文)と並んで記載されるのが、紀要論文、招待論文、寄稿論文です。

しかし、あえて厳しい言葉で言いたい。 これらは「学術的実績」としての評価対象から外す、あるいは明確に区別すべきではないでしょうか?

今回は、なぜこれらの論文が「真の実績」とは呼びがたいのか、その構造的理由を掘り下げます。

「審査(査読)」の欠如による質の担保のなさ

学術論文の価値は、同分野の専門家による厳しいチェック(査読)を経て、その客観的妥当性が証明される点にあります。

紀要論文

多くの大学紀要は、学内の教員や院生であれば「出せば載る」のが実態です。身内同士の甘いチェックで、学術的な厳密さが欠けているケースが少なくありません。

招待・寄稿論文

依頼された時点で掲載がほぼ確約されており、批判的な吟味がなされないまま世に出る構造になっています。

これらを、数パーセントの採択率をくぐり抜けてきた国際誌の論文と同等に扱うのは、あまりに不公平です。

「閉鎖的なコミュニティ」での内輪回し

特に紀要や寄稿は、その組織内や特定のコネクションだけで完結してしまいます。

本来、研究とは開かれた場で批判にさらされるべきものです。しかし、紀要は流通範囲が狭く、引用される機会も極端に少ないのが現実。これでは「知の蓄積」ではなく、単なる「学内ノルマの消化」や「思い出作り」に成り下がってしまいます。

若手の「研究力」を削ぐ温床

最も懸念すべきは、若手研究者への影響です。「実績の数」が重視されるあまり、手っ取り早く数を稼げる紀要や寄稿に逃げてしまう若手が増えています。

「通りやすい紀要」に逃げる癖がつくと、高い壁に挑むタフさが失われ、結果として日本の研究全体の国際競争力が低下していきます。甘い実績を「実績」と認め続けることは、若手の成長の機会を奪っているのと同じです。

結論

評価基準の「リブランディング」を もちろん、紀要には「速報性」や「若手の練習台」としての役割があることは否定しません。また、大御所による寄稿論文が貴重な展望を示していることもあります。

しかし、それらは「エッセイ」や「報告書」としてのカテゴリーに分けるべきです。

採用人事や助成金の審査において、「査読付き(Peer-reviewed)」とそれ以外を混同して評価する慣習は、今すぐ終わらせるべきではないでしょうか。

皆さんはどう考えますか? 「紀要だって立派な研究発表の場だ」という反論もあるでしょう。ぜひコメント欄やSNSで意見を聞かせてください。

(以上、Gemini 4による生成)

クリエイティブ・コモンズ・ライセンス
このブログのコンテンツは、クリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0 国際 ライセンスの下に提供されています。