2015/03/13

【読書メモ】 直感を裏切る数学

【直感を裏切る数学 神永正博・著 講談社Blue Backs 】  
本書を手にとった理由は二つある。
まず一つ目は、本書の著者がかつて企業でICデバイスの暗号技術や乱数発生技術に携わっていた由、たまたま目に入ったこと。
じつは僕自身、それらデバイスシステムのプロモーションや営業に携わっていた時節があり、もしかしたら僕は間接的に著者の技術開発成果によって製品市場の拡大を実現しえたのではないか、と、ひとかたならず親近感や敬意を覚えた次第。
そして二つ目は、これも偶然だが、人知への懐疑本であり昨年本ブログでも紹介した 『世界はデタラメ』 と、本書掲載の数学論題の幾つかが重なっていることを見出したためである。
すなわち、『ベイズの定理』 『恐怖の誕生日』 および 『モンティ・ホール』 であり、むしろ本書の方が厳密にかつ高密度に思考を深めてゆけるのではと見当をつけた次第。

さて本書の大半を一読してみた感想。
とくに本書にて掲げられた論題の幾つかは、数学理論のハードウェア体現可能性/リスク喚起の文脈にて組み上げられたように察せられ、随所にささやかに添えられている教訓もなかなか警告的に響く。

かつ、「事象の発生可能性」を慎重に場合分けした「樹形図」や、「事象の発生量」と「その分布」を段階的に明示した「ヒストグラム」の提示もふんだん。
樹形図にせよヒストグラムにせよ、数理思考に慣れた人たちならば造作の無いデータ峻別作法であろう ─ だが、僕のような文科系思考の人間は半ば無意識のうちに、ここに事象の発生経緯や因果を連続的に想定してしまいがち、本書読解の上での頭痛の種でもあった。
しかしながら、或る特定の数学的手法によって算出された「はずの」いかなるデータ値にせよ、その暫定的な論理を還元的に捌いてバラして根源まで遡及すべく、精密なデータヒストグラムも場合分けも式変換も必須となろうか。

ただ一つ、僕なりに敢えて相反的に想起してしまったことがある。
それは、ハードウェアシステムの保全性を強化するはずだと永年に亘って聞かされてきた「ムダ/遊びの存在」=すなわち冗長性(redundancy)についてである。
数理論の厳密なマテリアリゼーションの追求は、冗長性の確保と並立しうるのであろうか…?
本旨、僕の見識ごときでは判断しきれないが、こんごとも考えを深めていきたいものである。

ともあれ、膨大な思考量の動員が不可避「であろう」多くの数学の論題が、本書にては嬉しいことにコンパクトかつ続々と紹介されていく。
けして易しく読み抜けるコンテンツではなかったにせよ、それでも僕なりに何とか読み進めた主題を数件、ごく大雑把に総括しつつ、此度の読書メモとして以下に記す。



「ベイズの定理」
或る事象の発生について、その真因の可能性を次々と探り出してそれぞれ起こりうる確率を合算し続けるのではなく、逆に、一定の結果確率をあらかじめ据えた上で真因の側を定義する ─ という計算論理 (を指すのだと思う)。

或る判定基準に 「該当する事象」 と 「非該当の事象」 を峻別する場合、その「該当」 「非該当」 の合間には、可能性次第では「どうも該当が疑わしいという事象」 も在る。
このような判定課題として、著者はたとえば迷惑メール判定の事例を紹介。
全受信メール数のうちで、 「とにかく何か迷惑メールの特徴を有するもの」 に対する 「実際に迷惑メール特徴に該当するもの」の発生確率が、93% となっている場合を想定する。
この確率にて、「とにかく迷惑メールの特徴あり」は全て迷惑メールと判定すべきか、それとも、この判定は行き過ぎか。
この判定レベルの決定にては、迷惑メールの特徴カテゴリーをどんどん膨らませていくのではなく、むしろ閾値(しきいち)の事前設定が意義を成す。
仮に、あらかじめ迷惑メール判定の閾値を 90% としおけば、この例では「実際に迷惑メール特徴に該当するもの」を確実に「迷惑メール判定」出来る。
この閾値の事前設定と、その別途調整により、迷惑メール判定のレベルを変わていけばよいと。
(※ ちなみに、閾値という用語は昨今の被曝容量についての議論でもしばしば引用されている。)

====================================================

「ベンフォードの法則」
一見したところ無作為な数字は、じつは 「先頭桁の数字が1であるもの」が多い。
たとえば素数について、オリジナルのベンフォード法則に則って数字発生頻度のヒストグラムを作ると、確かに先頭数字が1となる素数の発生件数が最も多く、2以下は発生件数が減る。
この場合いわば y(発生件数比) = 1/x(先頭数字) の反比例の関係式が成り立つ。
だがさらにこれを y = 1/xa として一般化し、このaの値を調整して単純な反比例関係ではなく弾力的な広がりをもたせつつ、一方では精査対象の素数をケタ10101011 のものにまで広げてみる。
そうしてあらためて確かめると、実在する素数の先頭数とベンフォード一般式による理論数字は驚くほど一致に近い。

この一般法則に則って、一見バラついている数字群、たとえば株価はもとより巧妙な粉飾決算における虚偽の数値までも、その虚偽性を暴いてしまうというから驚きである。

===============================================

バースデイ・パラドックス (恐怖の誕生日)
昨年読んだ 「世界はデタラメ」 にもさりげなく引用されている、人間の論理の拙さを突いた幻惑的で楽しい論理探求だ。

不特定の2人が偶然にも同一の誕生日である確率…ここから、何らかのデータ群において何らかの値が一致しうる(あるいは一致しえない)事象を確率式として一般化みちびく。
著者案内の一般式として、 「n 通りの場合数が存在するデータベース」 において 「データが最低1ペアは一致してしまう確率」 が 「50%を超える場合」 を、収束的に1.18 √n で表している。
たとえば誕生日一致の例では、365日のいずれかにおいて誰か2人の誕生日が一致しうる確率が50%を超える場合、nを365とすればその母数は23人以上となる。

この「偶然の一致」の論理をさらにずっと発展させていくと、精緻な「はずの」生体認証の確度すらも、幸か不幸か、その高精度を約束しうるとともに、実は母数データの増大と相まって偶然の他人受容(認証間違い)をもたらすリスクも確実に増える、ということになる。
あらためて著者の具体的な紹介によれば ─ 
或るデータベースにおける 「無作為なデータ1ペア単位」 にて、「他人受容が偶然発生してしまう確率」 を p とし、ゆえにここで 「他人受容が絶対に起こらぬ確率」 を 1-p とする。
一方では、そのデータベースにおけるデータ件数を n とし、ペア発生の場合数を n(n-1)/2 で表すとする。
すると、この「データベース全体」 では、 「他人受容が絶対に起こらぬ確率」 は (1-p) の n(n-1)/2 乗となる。
これを1から引けば、「データベース全体」 での 「何らかの他人受容が起こっちゃう」 確率が算出出来る。

この確率計算に則れば、データベースでの「ペア発生の場合数」が増えるとともに、「何らかの他人受容が起こっちゃう」 確率も限りなく1に近づいていくことになる。
ここで検証として、他人受容リスクがわずか100万分の1のはずの生体認証システムにて、1万人分の認証用データベースがあるとして、「たった1ペアの他人受容が発生してしまうリスク」 はどのくらいかと確かめてみると
…なんと、1万人どころかわずか1180人のデータにおいてさえも他人受容の発生リスクが50%を超えるとのこと。

(以上、本論はとりわけ面白かったので、僕なりにちょっと長めに概要引用してみた。)

==============================================

「待ち行列、ポアソン分布」
本項において引用される、事務処理系システムの稼働率と待ち行列の関係は、情報処理資格試験などでも応用出題されている。
しかし、とりわけ難解でもある。

おしなべて理解つとめてみれば
─ 或る事務処理系において客一人ひとりが無作為にかつ相互無関係に次々とやってくるとして、その訪れ方の分布度合いを時間間隔によって分析する。
と、どの時間枠に区切った客数ヒストグラムをとってみても特定の指数分布に則っており、とりわけどの時間枠内でみても最初の方に客数が固まっていると。
ひとえに人間の気まぐれ行動みならず、このように無作為で非連続的な事象にて、その「発生間隔の分布」に厳然とした法則性があり、これをポワソン分布という(と思う)。
このポワソン分布の法則があるがゆえ、コンビニのレジなどをはじめとする事務処理系システムにおいても、必ず客が待ち行列を発生させる。
そして、この客の待ち行列の長さは、その事務処理の稼働率(多忙率)に対して比例関係を超えて伸びていく一方で、事務処理のキャパシティ増強(端末の追加など)によって逆に激減するという。

…ここまでまとめて把握したのは僕としても初めてのような気がする。
が、どうもこのロジックはケムに巻かれたようで、いまだに心許ないままである。

=====================================================

「アークサイン法則」
この項はランダム乱数についての紹介。
乱数自体の定義がここではちょっと難しかったが、たぶん ─
「本当の乱数」という系は、情報信号レベルでいう 0 と 1 をバランスよく生み出すことはなく、その情報信号の件数がどれだけ増えても、 0 と 1 の発生件数が釣り合いをとって均衡していくことはない。
だから、人為的な乱数発生システムにてもそういうことはあってはならない。
と、まあこういう論旨が本項の骨子ではないかしらと、僕なりに了察。

なお、著者はかつて乱数発生装置の設計開発にも携わっていた由であるが、一方で僕自身も、乱数発生機能を活かしたデバイスの営業販売に携わっていた経緯がある。
いつだったか、一人の英国人技術者と或るブラックボックス系の信ぴょう性について議論したさい、僕が 「生成乱数が本当にフェアな乱数たりうることをどうやって証明するのか」 などと挑発した記憶が蘇る。
もしもあの時、不躾けな挑発問答ではなく、「アークサイン法則は?」 などと口にしていれば、くだんの英国人技術者は笑ったか、怒ったか、それとも…。 

==================================================

「モンティ・ホールの穴」

これまた、「世界はデタラメ」 にても概要さらりと触れられていた超有名な(そして痛快きわまる)論題。
人知による直感の心許なさを、実にユーモラスかつスリリングに突いている。
ともかく、あまりにもよく知られた数理パズルであり、ここでは敢えて引用しない。
ただ一つだけ ─ テレビショウの司会者が、3つのドアのうち1つを開けて見せる(そしてそこに見えるのは所望する自動車ではなくヤギである)、その意味を徹底的に考えてみれば、本書にて解説の樹形図を包括的に理解出来ようか。

====================================================

なお本書ではさらに、有名な 『ビュフォンの針』 や色の塗り分けパズルなどなど、どのページの数学論題も小稿の体裁ではありつつ、「精緻な思考」へのチャレンジ課題として深呼吸しながら挑み続けていきたいものである。
(とはいえ、本書は少なくとも高校数学くらいは一通り真面目に勉強し終えてこそ、相応に楽しめようか。僕は恥ずかしながら未だそこまで至っていないのだが。) 

以上