大規模言語モデル(Large Language Models)とは、OpenAIのChatGPTやGoogle Gemini、AnthropicのClaudeといったTransformerベースの言語処理システムを指す*1。これを哲学するのが、大規模言語モデルの哲学である。Philpapersには「Large Language Models」というカテゴリがあり、多くの原稿が上がっている。
この記事では、大規模言語モデルを哲学するにあたって必要な書籍の紹介をしようと思う。この分野はあまり人がいない。というよりも、そもそも哲学界隈に人がいない。そのため、読書紹介記事を書き、少しでも間口を広めることで、興味を持つ人々を蝿瓶に吸い込もうという訳である。この記事を読めば、君もポケモンマスターになれる!!!!
入門(★)
日本語で書かれたものとしては、次の2冊+1記事を勧める。「入門」と題に付されていているので、入門程度の内容なのだろう。
著者の鈴木先生は、以前から深層学習等の神経科学・機械学習に対して哲学的に考察を続けられてきたらしい。
著者の次田先生は自然主義的意味論で博士論文を書かれていたはずだが、自然主義的意味論といっても、チョムスキー言語学との融和を指して自然主義と言っていたころの看板であるという印象がある。本書には、真理条件意味論で上手くいかなさそうという主張がある。
arxiv.org
arxiv.org
イケイケの人工知能の哲学者と言ったらBucknerとMillereだと思うが、その人達が書いている大規模言語モデルへの哲学的入門。Arxivに上がっているのが謎だが、じじつ上がっているので、無料で読むことができる。線形表象仮説*2はここで初めて知った。著者らは、BERTologyや線形プロービングといったモデル内への介入を、介入実在論と絡めて論じている。その他にも、エージェントシステムなど、色々機械・深層学習系のワードが知れる。オトクな論文である。
他には、以下がある。
VSIの『人工知能』である。本書は2018年に出版された。2018年といえば、ちょうど大規模言語モデルが流行り始めたくらいの時期である。したがって、本書はそれ以前のパラダイムに属した本であり、大規模言語モデルは取り上げられておらず、並列分散型アーキテクチャや現象学系サイバネティクスといった、認知科学に依拠した古く単発の研究プロジェクトが取り上げられている。現在の議論において重要であるMultihead-layer Transformerは取り上げられていない。また著者であるBodenは人工知能の創造性に関する論文を書いていることで(私の中では)有名であるが、その論文が人間讃歌のように思えるため、私はあまり興味がない*3。
www.cambridge.org
脱入門?(★★)
The MIT Press Essential Knowledgeシリーズで、2025年に出版された『大規模言語モデル』である。非常に構成が優れており、技術的な内容を数式を使わずに概念的に説明することに成功している。本書の意欲的な点として、物理学者であるDeutschが提唱した「コンストラクタ理論(constructor theory)*4」を用いて、大規模言語モデルの再帰性を解釈しようという章が存在することが挙げられる。大規模言語モデルの再帰性とは、自身が出力したトークンに基づいて次のトークンの出力(の標準単体)を決定し、さらにその決定された出力をもとにして、次のトークンに関する標準単体を決定していくという、一種の循環性である。このような発展的な内容は、いまだこの分野が開発の途上にあることを示すものだと思われる。
Cambridge Elements in Semanticsシリーズの一つで、深層学習と意味論との関連をいち早く扱った本。意味論的推論、構成性、記号接地問題(マルチモーダルLLM)を扱っている。が、構成性については根本的・哲学的な解決には至っていない。構成が優れた本。
分布意味論に関する自然言語処理の入門書である。分布意味論とは、源流をアメリカ構造主義言語学のFirthに持つ、統辞論の位相における単語の共起頻度によって、その意味を与える意味論である———というようなことが載っている。第一章は哲学・言語学史的に面白いことが書かれているので、読む価値がある本である。DSMやSkip-gramなど、色々なモデルが載っている。
オライリーの「ゼロから作るDeep Leaning」シリーズは「フレームワーク編」を除き、全巻読んだ方が良いと思う。第一巻では機械・深層学習の数学的基礎を、第二巻ではTransformer以後の自然言語処理、第四巻では強化学習、第五巻では生成(拡散)モデルの数学的基礎を学ぶことができる。これらのトピックを知らないことには、何も理解していないといって過言ではない。変分下界や
が何か説明できるようになっておかなければ、思わぬところで足を掬われるかもしれない。特に第二巻では、単語ベクトルの計算について、カウントベース手法とニューラルベース手法が数式的には根底で繋がっているということが書かれていたり、重要である。
そもそもPythonが分からない場合は、同じくオライリーの『Pythonチュートリアル』をお勧めする。安くて、短い。原著はオンラインにも上がっているはずである。しかし、今の高校生が情報科目でPythonを学ぶことを考えたら杞憂かもしれない。今の子のほうが、デジタルNATIVEであることは確かである。たしか、今の基本情報処理技術者試験には、選択科目にPythonがあるはずだ……
線形代数・微積分が分からない場合、その分からなさが高校数学に起因している可能性がある。しかし、それを理解しない限りは前に進むことができない。幸い大学の線形代数は高校までの2・3次元空間とは異なるから、入りやすいかもしれない。線形独立とはなにか、直交補空間とはなにか、dim(Ker f) + dim(Im f) = n 、勾配爆発と行列の固有値の関係がいかなるものか、などは、計算言語学や自然言語処理の論文を読む上では必須の知識であるため、新しいアイデアを思いつきたいのであれば、きちんと勉強すべきである(これらを知らない人の言うことは、薄い)。
自然言語処理界隈の重鎮(?)である黒橋先生の書いた自然言語処理の教科書である。さっさと読める。Transformerパラダイム以前の改訂版と以後の三訂版の間には、巨大な懸隔が存在し、それが改訂に現れている。TF-IDF法など、懐かしいと言われるであろう道具が載っている。比較は過去記事にも書いた。
yudukikun5120.hatenadiary.jp
この教科書はなんと学部生向けで、Transformer(注意機構)が載っている。学部生でこれを理解していれば凄いと思ってしまう。途中出てくる部分空間の図が変である(部分空間というよりも、領域のように見える)が、基本となる注意機構の仕組みが 線形射影 であることを理解できれば十分だと思う。深層学習モデルは、層から層へ「射影」しているのである。そして、これこそが言語モデルにおける情報の流れ(residual stream)を形づくっているのだ。
たとえば、画像埋め込み空間と言語的埋め込み空間が、プロクルステス的変換を掛けると一致するというような研究があったりするが、そういう論文を読むためにも、線形変換とアフィン変換の違いなど、基礎的な用語を確認しておくべきである。
transformer-circuits.pub
Transformer CircuitsというサイトはClaudeを作っているAnthropic社の技術ブログであり、最も最先端かつ優れた資料を提供している場所である。機械論的解釈可能性(Mechanical Interpretability)の研究が多い。「言語モデルってどういう仕組みなんだ?」と思ったら、まずここを参照しなければならない。
この本は学部生向けの教科書で、Transformer以後の自然言語処理の成果を一覧的に解説している。RNN や Transformer など、ニューラルモデル以降の技術要素に主眼がある点が特徴であり、マルコフモデルやトピックモデル、クラスタリング、語義曖昧性解消といった話題については扱われていない。数式やarxivのプレプリントがゴリゴリ出てくるので、情報学部生以外には向いていないかもしれない。それでも、学部生向けの教科書ではある。
この本は深層学習の数理的解析を専門とされている今泉先生の書いた一般向けの本であり、おもに大規模言語モデルの構成部分である深層学習(deep learning)の数理的側面に焦点を当てている。特に、高次元誤差空間の地形に関する記述は興味深いものである。「なぜ我々は、高次元空間を低次元空間に射影しなければその性質を理解できないのか」といった、従来の哲学では扱われてこなかった認識論的な疑問を提示してくれる文献として重要である。*5
この本は学部生向けの教科書である。例題や図、まとめ、具体的な例などによって、視覚的(イメージ的)にパターン認識を勉強できる。最尤推定と事後確率最大化推定、ベイズ推定など。「自由エネルギー原理」や「予測符号化理論」といった理論も基本的にはベイズ式の拡張であるため、ベイズ過程を知っておくことは重要である。個人的には、ソフトマックス関数が条件付き確率から導けることが興味深かった。
記号主義の王といえば論理学だと思うが、その教科書である。情報学科卒である自分は、一年次の授業でこの教科書を指定された記憶がある。本書で一番重要なことは、集合論と述語が(ある意味で)同一であるということであろう。フレーゲ主義的意味論の基礎もここにあるのかもしれない(フレーゲに適当に触れると痛い目を見るので、あまり触れたくない)。完全標準形という概念も重要である。
可能世界やクリプキ構造といった論理哲学を扱う上では基礎的な内容を扱っている。S4とかそういったワードが出てくる。コネクショニストには関係がないが、一応分析哲学が歩んできた歴史を知るためには重要だと思う。おそらく様相論と深層学習は独立であるため。
肝心の言語の哲学は?
大規模言語モデルを哲学するといっても、さまざまな角度のアプローチがあるだろう。別に言語の哲学からだけでなくとも研究テーマを考案することができるかもしれない。たとえば https://journals.ub.uni-koeln.de/index.php/phai を見てみると、色々なテーマがあることが分かるだろう。行為の哲学から攻めることも可能かもしれない。したがって、個別の哲学に入りすぎるとよくないと思い、これ以上は書かないことにする。
(追記)
とはいえ言語の哲学(philosophy of language)の入門書をここに示す方が、読者の便に寄与するかもしれない。言語の哲学に入る上で一番重要であるのは、言語分析によって哲学的問題にアプローチする、いわゆる言語による哲学(linguisticised philosophy*6)と、言語の哲学(philosophy of language)の違いである。つまり言語は、前者においては方法論的な道具であり、後者においては探究対象である。旧来の日本における言語哲学の入門書である『言語哲学大全』は、主として前者のパラダイムに属するものであると言ってよい。しかし現代の言語の哲学は必ずしも前者の方法論に則っているわけではなく、それを学ぶ人間が形式意味論を深くまで理解する必要は必ずしもない。言語による哲学は、メタ意味論(meta-semantics)の一種である真理条件意味論(truth-conditional semantics)と、言語の構成性(compositionality)という要件のもとで大きく発展してきたものであり、たとえば推論的意味論(inferential semantics)といったプラグマティズムに属するメタ意味論は、この「言語分析が哲学的問題を解消する」といったようなテーゼには必ずしも賛同しないのである。したがって言語の哲学を始めるには、数々のメタ意味論を俯瞰できるような入門書から入るべきだと思われる。
Very Short Introductionsシリーズから最近出版された本である。ChatGPTの出力が有意味であるか、無意味であるかといった話題が最初に載っている(しかし、解は示されていない)。ラッセル、フレーゲ、グライスの語用論、推論的意味論といった広いテーマが短く示されている。
まとめ
本稿の作成目的には、あまりにも適当に物事を話している人が多いという事態を牽制するということも含まれている。それは、AIハイプかもしれないし、還元主義かもしれない。言語モデルが単なる「確率的オウム」だとか、そういった特定の「像」(ウィトゲンシュタインの用語)にハマってしまう前に、一度言語モデルの仕組みをきちんと勉強してみるべきではないだろうか(「確率的」という語を乱用しないでほしい)。そういったまともな人が大規模言語モデルの哲学には必要だと思う。