2023/08/01

【読書メモ】 大規模言語モデルは新たな知能か

此度はコンピュータとネットワークと学習と予測能力について【読書メモ】を起こすこととする。

もとより文系は(とくにメディア人種は)、コンピュータにおける電磁上のさまざまな情報/データ/言語について、あたかも人間自身の思念と同様に’自生’しうると捉えがち ─ ではある。
だから、コンピュータが人類を滅ぼしうるといったメランコリックな悪夢すらも想定しうるのであろう。
尤も、文系出身の僕なりにもちょっと理系勘をはたらかせてハードボイルドに(唯物論的に)捉えなおしてみれば、いかなるコンピュータの活動もあくまで電磁上の物体運動と操作に如かず、だからこんなものに自生的意思などあるわけがない。
一方では人間自身もまたただの物質でしかないので、コンピュータが人間に敵意を抱く「わけ」がないのである。

しかしながら。
ここからが面白いのだが ─ いわゆるディープラーニング論などにおけるコンピュータの’機械学習’、そこでの入出力フィードバックなどなどをちらほらと眺めやってみれば、なるほど文系が連想するとおりコンピュータはしばしば自律的な意思に拠って駆動しているようにも見え、そう捉えなおしてみれば人間的な知性の体現とも映る。
またスケールメリットに注目してみれば、例えばモデルのスケールサイズと学習能力において’べき乗則’などのポジティヴな相乗効果が見られ、このスケール観こそすさまじいものの、どこか人間社会の在りようと親和的に映らなくもない。

(そもそもコンピュータ~ニューラルネットワークの構造自体が人間の脳神経を模したものでもあり、それゆえ、自律性やスケールメリットにおいて人間と親和しているようにすら見えてしまっても不可思議は無いのではなかろうか。)


…以上のようなことを考えさせられたきっかけの一冊がこれだ。
『大規模言語モデルは新たな知能か 岡野原大輔 岩波科学ライブラリー
サブタイトルは 『ChatGPTが変えた世界』である。

本書はp.92から始まる第6章をテクノロジー基礎論とふまえて是非とも読破し、その上でひとつ戻ってp.71からの第5章を概括論として読みぬくことを薦めたい。
その理由は、これら章立てこそがシステム上の大前提としてのニューラルネットワークおよび、学習~汎化能力向上、モデルサイズ論を段階的に概説しているためである。
なるほど日進月歩の分野ゆえのこと、例えばつい先日新たに発表された「GPT-5」モデルについては本書中では言及していないが、それでもモデルサイズ論の概要を了察する上では本書の第6章と第5章は有効であろう。

よって、此度の【読書メモ】でも概ね 第6章 → 第5章 に絞って、僕なりに以下のとおり要約してみた。




ニューラルネットワーク、汎化

・ニューラルネットワークは、階層的に並べられているさまざまな「計算ニューロン」と、それらを繋ぎ合わせているさまざまな「シナプス(接続部)」から成っている。
それぞれの階層の計算ニューロンによる計算結果が、それぞれの接続経路の’重み’を画定し続け、それらの’重み’が’パラメータ’としてそれぞれのシナプスに記憶され続ける構造。

ここで、それぞれの計算ニューロンにおける実数上の’活性値’が、シナプスに記憶の’重みパラメータ’と掛け合わされ、その出力があらためて計算ニューロンの’活性値’を為し、これがまたシナプス記憶の’重みパラメータ’と掛け合わされ…
この入出力の連続によって、或る計算ニューロンが’発火’するとシナプス接続を介しつつ他の計算ニューロンに伝わってゆく仕掛け。
これがさまざまな’活性化関数によって統制的に律されている。

どれだけ複雑な’活性化関数’を投入しようとも、ネットワークのモデリングを精密に近似化しうるはず ─ これが万能近似定理


・ニューラルネットワークを活かしつつ、或る文字列入力に応じて’次の単語’を精密に予測し出力する能力は、「予測確度計算」の能力に拠る

「予測確度計算」を高めるための具体的なプロセスとして;
或るニューラルネットワークにおいて、各計算ニューロンの’活性値’とその入出力の’活性化関数’をあらかじめ決める。
その上で、このニューラルネットワークにおいてなんらかの’試行データセット’の入出力を繰り返しつつ、それぞれのシナプスにおける’重みパラメータ’を変え続けていく
→ これがこのモデルによる’試行データの「学習」’である。
試行データ「学習」を繰り返すことによって、このニューラルネットワークの予測確度計算能力を徐々に高めてゆく。

ここで、それぞれのシナプスにおける’重みパラメータ’の設定量は膨大たりえ、ゆえにひとつひとつの微調整による試行の繰り返しも膨大な数となりうる。
それでも、数理上は’誤差逆伝播法’によってトータルな誤差をシナプスごとの誤差に逆に落としこみ、それぞれのシナプスの最適なパラメータを画定可能である。


・試行データ訓練を繰り返しつつも、シナプスによる’重みパラメータ’が多過ぎるために予測確度計算能力が高まらない状態を、そのニューラルネットワークの「過学習」段階とみなす。
パラメータ数を’正則化’することで、このニューラルネットワークは「過学習」を克服し、’予測確度計算’の能力を高めてゆくことが出来る。

かくて、このニューラルネットワークにては未知のデータをも予測する「汎化能力」もいずれは高まるはずである。
この汎化能力」こそが、’機械学習’の目標である。


=======================


<モデルサイズ・大規模言語モデル>

・ニューラルネットワークの「汎化」能力を高めまた追求してゆくために開発され続けている’訓練型’モデルが、いわゆる「大規模言語モデル」
オープンAIによる『GPT』シリーズが広く知られ、それらモデルサイズの訓練データ量≒処理文字トークン量およびパラメータ数は以下とされる ─ なるほど確かに’大規模’だ
※ ただし安全上および事業上の配慮から少なからず非公開に留め置かれてもいる。

GPT-3 (2020年) 
訓練データ量:  4000憶トークン
パラメータ数:  1750憶個
MMULスコア:  43.9~53.9 (%)

PaLM (2022年)
訓練データ量:  7800憶トークン
パラメータ数:  5400憶個
MMULスコア:  69.3~75.2 (%)

GPT-4 (2023年) 
訓練データ量:  1兆トークン超(推定値)
パラメータ数:  数千億~数兆個(推定値)
MMULスコア:  86.4 (%)

上の大規模言語モデルにて、’学習’に必要な投入計算量およびハードウェアはとてつもないスケールとなる。
たとえば、PaLMのモデルにおける1回の学習あたりの投入計算量は、スーパーコンピュータ富岳の全リソースを2か月間占有しつつ専用チップを充当するほどに相当する。

なお、GPT-3 (2020年) 以降の大規模言語モデルは、複数言語間における共通概念を対応的に学習し、プログラミング言語をもそのまま学習用に入力可能、さらに’プロンプトコマンド’の入力を即応的に(ゼロショットに)学習しタスク実行可能。

もちろん、これらモデルによる能力向上は「汎化能力」のみには留まらず、質問応答や推論パズルなどにおける「後続タスクの解決能力」もまた向上を見せている。

・さて一方では、モデルサイズの拡大を図ってゆくと、或る時点からとつぜん新たな問題解決能力を習得してしまうこともあり、これを’創発’と称している。
この’創発’能力が習得されてしまう理由は(おもしろいことに)完全には解明されておらず、じつは相応のニューラルネットワークの中に予め何らかの’創発’の種が仕込まれいるのか、あるいは入力される単語の構成要素(属性)までをも学習してしまうためではないか、といった仮説が学術的に呈されている。

・ともあれ、上に列記のGPT-3~GPT4までの仕様とスケールを一瞥してみればすぐに気づくが、訓練データ量もパラメータ数も投入計算量も世代ごとに著しく増大しており、いまのところ投資効率も良いことになっている。
よって、大規模言語モデルの進化においては、投資効果と相まっての’べき乗則’すらも見出すことが出来る。


=========================

以上、第6章→第5章の内容につき、僕なりに掻い摘んで要約してみた。

そもそも、何らかの入力単語学習から’次の単語’を予測する確度計算、そして未入力のものすらも予測する’汎化’能力の飛躍的向上が主たる論題ではあったはず。
しかしながら本書の本格的な面白さは ─ 上にも記したようにGPT-3以降の’べき乗則’的な能力向上における想像を絶するほどのスケール感、そして一方では人間にすら解明しきれぬ’創発’能力などなど、まさに我々自身の発想力さえをも縦横無尽に突き動かしてやまぬスリルングなコンピュータとネットワークの可能性(さらには未来像)に在るのではなかろうか。
学生諸君にも若手社会人諸君にも薦めておきたい知識教養本のひとつではある。

(※ なお、第4章におけるシャノンの情報理論がらみの箇所についても、同理論を一通り了察した上で一読すれば面白いかもしれぬが、但しここではデータの'分からなさ加減'/情報エントロピー量と機械学習テクノロジーとの連関がうやむやに過ぎるため、あまり奨められない。)

*******************************************


※ ちょっと注記しておく。
この『ずいひつ』ブログにては、これまでにも数多くの書籍を紹介してきたが、いずれの機会にても常に僕自身の知識や常識を並走させ、その上でしばしば対象概念の一般化や簡易化をも図ってきた。
それでこそ教育関係者たりえようと自負しているためである。
一方では、興に乗らぬ論題を俎上に置いたことはただの一度も無いし、訳の分からぬ書籍から用語をスキャニングし転記してきたことも無いが、こちらは僕なりの道義感覚による。

政治関係者やメディア関係者などからすればやや信じ難いスタンスかもしれないが、ともあれそういうことである。

****************