2023/08/29

英語学習についての私論 (2023)

① 僕はロンドンの郊外で生まれた。
せっかくのロンドンではあったが、もともと僕は言語勘が鈍いのか、あるいは英語との知的相性がよろしくないのか、ともあれ英語表現はけして巧みな子ではなかったという。
日本語でさえも発話能力はパッとしなかったようで、むしろボンヤリ少年に映っていたかのもしれぬ。

小学校にあがるころには東京都立川市に移り住んでいた。
以来、成人するまでずっと立川在住、だから故郷は立川ということにしているし、心の動きかたや動かしかたは立川でこそ培われてきたものと自覚もしている。
それでは英語能力はといえば、中学校でも高校でもパッとしない出来栄えだった。
大学は慶應だが、入学試験にては英語ではなく論説文の出来がかなり良かったのだ ─ といまでも信じている。
ちょいと付言すれば、もしも高校時代にもうちょっと数学と相性がよかったら一橋くらいには受かっていただろうと、これもいまだに信じている。


そんな僕でもとりあえずの英語「論」は有る。
これは幼少期以来の仲良しにしてライバルでもあったN子の影響が大きい。
このN子についてはしばしば別稿にて触れてきたが、ざっといえば彼女はニューヨーク居住経験も有るなかなかの英語通、しばしば小憎らしいほどのスーパー美少女であった。
これまで時おり記してきた英語まわりの蘊蓄も、じっさいのところ、高校時代に彼女がぎゃーぎゃーとやっかましく披露していたさまざまな英語講釈を、僕なりに下地に据えて焼き直してきたもの。
さらに、それらに拠りつつ、ずっと後になって東芝で海外営業にあたり、あるいは商社に出入りしつつブラッシュアップしたものが現時点での僕なりの英語論である
だからロンドン出生などはこの際どうでもいいんだ。


==================================


② さて、英語学習について僕なりの私論を展開してゆこう。

高校生諸君。
最も浅薄な勉強科目はいったい何か?
英語に決まっている。

英語そのものが浅薄な言語だなどと主張するつもりはない ─ 実社会における職業経験を踏まえて評するならば、むしろ英語は「実体」表現における学術性も精度も高く、論理のエッジもなかなか強固であり、皮肉のパンチも強烈だ。
しかし高校までの英語学習はつくづく浅薄である

なぜ学校の英語学習が浅薄なのかと言えば、理科や社会科といった実体そのものの学術知識と命題に’ちょっとだけ'便乗しつつも、あくまで表現ルールと技法ばかりに拘ったペラペラの情報スキル系に留められているためだ。
そのペラペラのかき集めによるお子様レベルの文面を、長いながい時間をかけてひたすら読まされ、さらには発話まで課されている。
だから浅薄きわまりない。

たとえば、以下の英文はどういう意味か?

Tachikawa is a big city.

立川は大都市でーすという解釈は無意味だ、そもそもこの英語表現そのものが無意味だ。
「大」都市とはなにかを説明していないじゃないか。
土地面積か、人口か、エネルギー消費量か、工業生産量か、カネまわしか…これら全てか。
いったいなにがbigなのか?
さらに、cityとはいったい何なのか?
社会科や理科であればこれらの「実体」考察からこそ理知的なスタディが始まるもの、しかし英語学習はここで思考が止まるんだ。


「言語」はどこまで「実体」を表現しきれるだろう?
こんな緻密な疑問に直截に答えることは僕には到底無理だ。
しかし、言語と実体の差異については一応は語ることができる。

「実体」の「実体」たるゆえんは、いったい何か?
それは、その「実体」の或る時点における仕事 (F・s = W) や運動量 (mv=P) をどれだけ微分的にデジタルに分析し運動方程式 (ma=F) にまで還元しても、それらをあらためて組み合わせて組み上げてみれば運動量や仕事を成すということだ。
うむ、そういうことなんだ。
リング上で展開しているボクシングの応戦は、ひとつひとつのアクションとして微分的に分析してみれば瞬時瞬時のジャブやフックやストレートパンチなどであるが、それらをあらためて組み合わせればやはりボクシングだ。
ピアノの旋律や楽曲は、鍵盤ひとつひとつによる独自の音符に還元できよう、しかしそれらをあらためて連綿と合成すればほ~ら流麗なる旋律となり楽曲を成すじゃないか。
油絵を為すさまざまな色は、パレットにおけるひとつひとつの絵の具に…

要するに、「実体」とは実在する「力」」であり「量」である。
あるものを寸分にバラしても、あらためて積み上げて束ねても、それら力と量の特性は変わらない。
しかし「言語」は、もとより思念であり論理でしかないので、なんらかのものについて何とでも言い換えが出来るし、とりわけそのものが物理的に実在するのかしないのか(リアリティなのか嘘っぱちなのか)を実証しきることが出来ない。

だから英語学習が無為だとまでは言わぬ、しかし「実体」についてさまざま学ばずして「言語」ばかりペラッペラに学んで何とするのか?
まずはここのところ、高校生諸君にはきっちり指摘しておきたいね。


高校生諸君は、まず体育、それから美術と音楽、これらが最重要科目だ。
なぜならこれらこそが身体をずずんと突き抜けて突き動かすリアリズムでありリアリティそのものだからだ!
その次に重要な科目が化学だ、なぜなら化学こそが新規物質の組み換えと創造をもたらす科学だからだ。
さらにその次に重要な科目が数学と物理、その次が地理と政治経済。
それでは古典は?伝統芸能は?となるが、それらは家庭で親子ともども学び続けるべきものではなかろうか。



==================================



③ そもそもだぜ。
学校における英語学習の目的はと問えば、まず返ってくる名目が「国際化」である。
へっ?「国際化」ってなんだ?
言語への依存を高めることか?それとも依存から脱却はかることか?

もしも国際化が言語依存強化を図っていくプロセスであるならば、国際化の進展とともに言語の種類がどんどん増えていくはずである。
産業や軍事によっても、市場活動によっても、学術によっても、法秩序によってもまた文化交流によっても、言語の種類が続々と増えていかなければならない。
そうであるのなら’万民共通の標準統一英語などありえず、ならば学校教育で英語のみに拘泥する意義が無い。
逆に、国際化があらゆる言語依存からの脱却を図り、あらゆる融合を深化してゆくプロセスであるのなら、数学や物理や化学など万民共通の記号化が進みこそすれ、学校での言語学習は不要となる一方ではないか?
これまた、学校教育で英語学習を義務化する意義が無い。

※ もちろん屁理屈っちゃぁ屁理屈ではある、しかしこんな程度の屁理屈すら理知的に反論出来ないんだから、言語マニアの国際的な知能程度などたかが知れている。


===================================


なんだからイジワルな思いつきの投稿に映ってしまうかもしれないが、そうだ、そのつもりだ。
次回以降はもっとワイルドな投稿を図ろうと思案中だ、イェーース。


(つづく)

2023/08/01

【読書メモ】 大規模言語モデルは新たな知能か

此度はコンピュータとネットワークと学習と予測能力について【読書メモ】を起こすこととする。

もとより文系は(とくにメディア人種は)、コンピュータにおける電磁上のさまざまな情報/データ/言語について、あたかも人間自身の思念と同様に’自生’しうると捉えがち ─ ではある。
だから、コンピュータが人類を滅ぼしうるといったメランコリックな悪夢すらも想定しうるのであろう。
尤も、文系出身の僕なりにもちょっと理系勘をはたらかせてハードボイルドに(唯物論的に)捉えなおしてみれば、いかなるコンピュータの活動もあくまで電磁上の物体運動と操作に如かず、だからこんなものに自生的意思などあるわけがない。
一方では人間自身もまたただの物質でしかないので、コンピュータが人間に敵意を抱く「わけ」がないのである。

しかしながら。
ここからが面白いのだが ─ いわゆるディープラーニング論などにおけるコンピュータの’機械学習’、そこでの入出力フィードバックなどなどをちらほらと眺めやってみれば、なるほど文系が連想するとおりコンピュータはしばしば自律的な意思に拠って駆動しているようにも見え、そう捉えなおしてみれば人間的な知性の体現とも映る。
またスケールメリットに注目してみれば、例えばモデルのスケールサイズと学習能力において’べき乗則’などのポジティヴな相乗効果が見られ、このスケール観こそすさまじいものの、どこか人間社会の在りようと親和的に映らなくもない。

(そもそもコンピュータ~ニューラルネットワークの構造自体が人間の脳神経を模したものでもあり、それゆえ、自律性やスケールメリットにおいて人間と親和しているようにすら見えてしまっても不可思議は無いのではなかろうか。)


…以上のようなことを考えさせられたきっかけの一冊がこれだ。
『大規模言語モデルは新たな知能か 岡野原大輔 岩波科学ライブラリー
サブタイトルは 『ChatGPTが変えた世界』である。

本書はp.92から始まる第6章をテクノロジー基礎論とふまえて是非とも読破し、その上でひとつ戻ってp.71からの第5章を概括論として読みぬくことを薦めたい。
その理由は、これら章立てこそがシステム上の大前提としてのニューラルネットワークおよび、学習~汎化能力向上、モデルサイズ論を段階的に概説しているためである。
なるほど日進月歩の分野ゆえのこと、例えばつい先日新たに発表された「GPT-5」モデルについては本書中では言及していないが、それでもモデルサイズ論の概要を了察する上では本書の第6章と第5章は有効であろう。

よって、此度の【読書メモ】でも概ね 第6章 → 第5章 に絞って、僕なりに以下のとおり要約してみた。




ニューラルネットワーク、汎化

・ニューラルネットワークは、階層的に並べられているさまざまな「計算ニューロン」と、それらを繋ぎ合わせているさまざまな「シナプス(接続部)」から成っている。
それぞれの階層の計算ニューロンによる計算結果が、それぞれの接続経路の’重み’を画定し続け、それらの’重み’が’パラメータ’としてそれぞれのシナプスに記憶され続ける構造。

ここで、それぞれの計算ニューロンにおける実数上の’活性値’が、シナプスに記憶の’重みパラメータ’と掛け合わされ、その出力があらためて計算ニューロンの’活性値’を為し、これがまたシナプス記憶の’重みパラメータ’と掛け合わされ…
この入出力の連続によって、或る計算ニューロンが’発火’するとシナプス接続を介しつつ他の計算ニューロンに伝わってゆく仕掛け。
これがさまざまな’活性化関数によって統制的に律されている。

どれだけ複雑な’活性化関数’を投入しようとも、ネットワークのモデリングを精密に近似化しうるはず ─ これが万能近似定理


・ニューラルネットワークを活かしつつ、或る文字列入力に応じて’次の単語’を精密に予測し出力する能力は、「予測確度計算」の能力に拠る

「予測確度計算」を高めるための具体的なプロセスとして;
或るニューラルネットワークにおいて、各計算ニューロンの’活性値’とその入出力の’活性化関数’をあらかじめ決める。
その上で、このニューラルネットワークにおいてなんらかの’試行データセット’の入出力を繰り返しつつ、それぞれのシナプスにおける’重みパラメータ’を変え続けていく
→ これがこのモデルによる’試行データの「学習」’である。
試行データ「学習」を繰り返すことによって、このニューラルネットワークの予測確度計算能力を徐々に高めてゆく。

ここで、それぞれのシナプスにおける’重みパラメータ’の設定量は膨大たりえ、ゆえにひとつひとつの微調整による試行の繰り返しも膨大な数となりうる。
それでも、数理上は’誤差逆伝播法’によってトータルな誤差をシナプスごとの誤差に逆に落としこみ、それぞれのシナプスの最適なパラメータを画定可能である。


・試行データ訓練を繰り返しつつも、シナプスによる’重みパラメータ’が多過ぎるために予測確度計算能力が高まらない状態を、そのニューラルネットワークの「過学習」段階とみなす。
パラメータ数を’正則化’することで、このニューラルネットワークは「過学習」を克服し、’予測確度計算’の能力を高めてゆくことが出来る。

かくて、このニューラルネットワークにては未知のデータをも予測する「汎化能力」もいずれは高まるはずである。
この汎化能力」こそが、’機械学習’の目標である。


=======================


<モデルサイズ・大規模言語モデル>

・ニューラルネットワークの「汎化」能力を高めまた追求してゆくために開発され続けている’訓練型’モデルが、いわゆる「大規模言語モデル」
オープンAIによる『GPT』シリーズが広く知られ、それらモデルサイズの訓練データ量≒処理文字トークン量およびパラメータ数は以下とされる ─ なるほど確かに’大規模’だ
※ ただし安全上および事業上の配慮から少なからず非公開に留め置かれてもいる。

GPT-3 (2020年) 
訓練データ量:  4000憶トークン
パラメータ数:  1750憶個
MMULスコア:  43.9~53.9 (%)

PaLM (2022年)
訓練データ量:  7800憶トークン
パラメータ数:  5400憶個
MMULスコア:  69.3~75.2 (%)

GPT-4 (2023年) 
訓練データ量:  1兆トークン超(推定値)
パラメータ数:  数千億~数兆個(推定値)
MMULスコア:  86.4 (%)

上の大規模言語モデルにて、’学習’に必要な投入計算量およびハードウェアはとてつもないスケールとなる。
たとえば、PaLMのモデルにおける1回の学習あたりの投入計算量は、スーパーコンピュータ富岳の全リソースを2か月間占有しつつ専用チップを充当するほどに相当する。

なお、GPT-3 (2020年) 以降の大規模言語モデルは、複数言語間における共通概念を対応的に学習し、プログラミング言語をもそのまま学習用に入力可能、さらに’プロンプトコマンド’の入力を即応的に(ゼロショットに)学習しタスク実行可能。

もちろん、これらモデルによる能力向上は「汎化能力」のみには留まらず、質問応答や推論パズルなどにおける「後続タスクの解決能力」もまた向上を見せている。

・さて一方では、モデルサイズの拡大を図ってゆくと、或る時点からとつぜん新たな問題解決能力を習得してしまうこともあり、これを’創発’と称している。
この’創発’能力が習得されてしまう理由は(おもしろいことに)完全には解明されておらず、じつは相応のニューラルネットワークの中に予め何らかの’創発’の種が仕込まれいるのか、あるいは入力される単語の構成要素(属性)までをも学習してしまうためではないか、といった仮説が学術的に呈されている。

・ともあれ、上に列記のGPT-3~GPT4までの仕様とスケールを一瞥してみればすぐに気づくが、訓練データ量もパラメータ数も投入計算量も世代ごとに著しく増大しており、いまのところ投資効率も良いことになっている。
よって、大規模言語モデルの進化においては、投資効果と相まっての’べき乗則’すらも見出すことが出来る。


=========================

以上、第6章→第5章の内容につき、僕なりに掻い摘んで要約してみた。

そもそも、何らかの入力単語学習から’次の単語’を予測する確度計算、そして未入力のものすらも予測する’汎化’能力の飛躍的向上が主たる論題ではあったはず。
しかしながら本書の本格的な面白さは ─ 上にも記したようにGPT-3以降の’べき乗則’的な能力向上における想像を絶するほどのスケール感、そして一方では人間にすら解明しきれぬ’創発’能力などなど、まさに我々自身の発想力さえをも縦横無尽に突き動かしてやまぬスリルングなコンピュータとネットワークの可能性(さらには未来像)に在るのではなかろうか。
学生諸君にも若手社会人諸君にも薦めておきたい知識教養本のひとつではある。

(※ なお、第4章におけるシャノンの情報理論がらみの箇所についても、同理論を一通り了察した上で一読すれば面白いかもしれぬが、但しここではデータの'分からなさ加減'/情報エントロピー量と機械学習テクノロジーとの連関がうやむやに過ぎるため、あまり奨められない。)

*******************************************


※ ちょっと注記しておく。
この『ずいひつ』ブログにては、これまでにも数多くの書籍を紹介してきたが、いずれの機会にても常に僕自身の知識や常識を並走させ、その上でしばしば対象概念の一般化や簡易化をも図ってきた。
それでこそ教育関係者たりえようと自負しているためである。
一方では、興に乗らぬ論題を俎上に置いたことはただの一度も無いし、訳の分からぬ書籍から用語をスキャニングし転記してきたことも無いが、こちらは僕なりの道義感覚による。

政治関係者やメディア関係者などからすればやや信じ難いスタンスかもしれないが、ともあれそういうことである。

****************