2014/09/13

【読書メモ】 偶然と必然の方程式

『 偶然と必然の方程式 マイケル・J・モーブッシン著 日経BP 刊 』 
初刊第一刷は昨年6月の本書、サブタイトルも統計ブームを意識してかなかなかふるっており、 「仕事に役立つデータサイエンス入門」 ときた。
ただ、本書には生産性向上を導く完結的な方程式などの掲載は無い。
むしろ、諸々の人為について、「人間の実力とは何か、そして運とは何か」、能力と運の両方から何が予測されうるか ─ を厳密にデータに則りつつ分析進めたもの。
実際、英文の原題は "The Success Equation - Untangling Skill and Luck in Business, Sports, and Investing" であり、この "untangling" という大胆なコマンドフレーズが野心的に響き、かつ抽象性抜群、そこのところ気に入って買っちゃっのであった。

本書の読解にあたっては、基本的な集合論や統計論などの常識(勘)さえ動員出来れば、混乱させられることはない。
むしろ、実にふんだんに盛り込まれた多業種に亘るケーススタディの数々、それらの絶妙の引用にぐんぐん魅了されていくのではないか。
あえて本書を思考論・手法論として捉えてみれば、理数系タイプの清涼剤ともいえようか、或いは、巷間の定説における虚構性への耐性を高めるという意義から社会科系タイプの解毒剤でもありえようか。

さて此度の 【読書メモ】 においては、本書を読み進める上でとりわけ根幹的な「さわり」の論理について、以下にざっと記しおくに留めるとする。
このあたりまで諒解した上にて本書を手にとれば、ヨリ効果的に読みすすめていくことも出来よう、と僕なりに考えてのこと。



・或る活動において実力と運がどの程度関与しているか、まず単線的に視覚化するチャートとして 「運─実力 連続体」 をおくことが有用である。
このチャートにて、たとえばルーレットや宝くじは運が支配する活動であるため原因と結果の相関が不明瞭、この結果値を左端に据え、一方で短距離走や競泳やチェスなどはほぼ実力によるものゆえ原因と結果の相関も明瞭、この結果値を右端に位置づける。

・加えて、サンプリングの「大きさ」を正しく捉えないと、少ない結果から過剰に見解を導く恐れがある。
ド・モアブルの方程式に則り、データのバラつきをベル型曲線にて分布すると、サンプル(ここでは平均値)のバラつきがサンプルの大きさに反比例する (つまり、サンプル件数が多いほど平均値のバラつきが減り、標準偏差が大きくなる。)
たとえば、最も成績のよい生徒の割合は規模の小さな学校で高いが、母数のデータを数多く精査してみれば、じつは最も成績の悪い生徒の割合もやはり規模の小さな学校で高いということが判然としてくる。

・一方で、(実力ではなく)「運」が大きく関与する活動において、小さなサンプルデータを用いると、データ値のバラつきが大きくなり過ぎ、そのデータが何を指し示しているのか導き出すことが困難になる。
とりわけ、自然界の多くは平均化する傾向にあるため、我々は無意識に万物が釣り合うと考えがちであり、ゆえに「運」の影響を忘れ、特定の観察結果のみから一般的な結論を引き出してしまうもの。
("帰納法"が抱える古典的な問題である。)

※ 僕自身の経験だが、しばらく以前のこと、「弁護士が増えると自殺者も増える」という奇妙な言質をたまたま耳にし、第二次大戦後のそれぞれ推移を確かめてみたことがある。
総じてみれば、1998年ごろ以降の日本では弁護士の数も自殺者数もともに増加過程にあるように見受けられる、が、昭和30年代の自殺者急増と弁護士数の間には何ら相関は見られない。
それに、過去数十年における絶対人口と自殺者数の推移の間にもとくに相関は見られなかった。

「実力のパラドックス」 … 実力が向上し成績が安定化すればこそ、「運」が重要になる例を、メジャーリーグ野球に見出すことが出来る。
1870年代以降10年ごとのメジャーリーグにおける「打率の標準偏差」をとり、その2乗を「打率の分散度合い」とみなし、一方ではその標準偏差を同時期の全打者における平均打率で割って「変動係数」とし、個々の選手打率が平均からどれだけ離れているかを示してみる。
すると、現実として時代が下るとともに標準偏差は小さくなり、かつ変動係数もまた小さくなっていることが判然とする ─ つまり全打者の打率が一定レンジに収束し続けていることになり、ゆえに今後は傑出した強打者の出現が極めて難しくなる一方(のはずだ)との結論に至る。
とりわけ、野球の打撃とはもともとが「運」によるところ極めて大きな技量といえ、誰もが技術向上しているからこそ「運」によるところは一層大きくなる。 

・「平均への回帰」 … 或る行為を 「運 ─ 実力 連続体」 のどこかに置きつつ、その行為における「運」の数値と「実力」の数値を合算し、その和を「実力による結果」と見倣すという、そんな極めて単純なモデルを考える。
まず、その行為が「運」のみで成否が決まる、とする。
この場合には「運」の数値は変動するが、一方で「実力」は常に或る特定の数値となり期待値はゼロ、ゆえにこの行為の「実力による結果」は平均に回帰することになる。
逆に、もしその行為が「実力」のみで決まるとしたら、やはりこのモデルにのっとって今度は「実力」の数値は変動する一方で「運」の期待値はゼロ、だから「実力による結果」は平均には回帰しえない。
この行為が、「運 ─ 実力 連続体」のどこに在るかによって、「実力による結果の平均への回帰の速度が決まる。
なお、「ジェームス=スタイン推定量」に則ると、「実力」だけの行為においては結果見込みに際しての「縮小係数」は1.0となり、「運」だけの行為においては縮小係数はゼロとなる。

・さらに、各回独立して実力発揮される事象を捉えるか、それとも各回が相互依存した(経路依存の)事象を捉えるか、さらに各回の実施条件と結果が極端に変わりうる事象を見るか。
これら事象の性質により、単純なベル型曲線(正規分布)から極端に外れた結果も起こりうる。

・原因と結果を結びつけたい欲求は、人間の心に深く染み付いている。
出来事Aが出来事Bより先に起きると、AこそがBの原因だとみなすことが多く、それがしばしば誤った迷信的な結びつきとなりうる ─ 前後即因果の誤謬として知られ、過去200年間、多くの科学的研究がこの誤った思考法を捨てることを目指して行われてきた。
一方では、或る結果を不可避のものと信じ込んでしまう場合もある("忍び寄る決定論"などと称されている)。

我々は、起こってしまった事態の展開を再確認しているうちに、そこで発揮された「実力」だけを注視し、同時に機能していたはずの「何らかの運」は忘れてしまいがち ─ この実力重視癖は人類生存上の必然だったのか。

・ビジネス界では、成功した会社の戦略は何か、と問われがちだが、実際には失敗していった会社は往々にしてデータ分析対象から外されるため、その戦略を採用した全ての会社における「運」の影響が見落とされ、あくまで成功した会社の「実力」だけが評価されてしまう。
しかし、「運」の影響まで見極めるのならば、その戦略の会社のうちどれだけが「一貫して成功し続けているか」を確かめる必要があり、そこまで踏まえてこそその戦略のリスク性も見極めることになる。

オーディオのソニーがウォークマンからミニディスクまで効果的に事業を成功させたのに、高速ブロードバンドによるダウンロード時代到来によって停滞してしまったのは、「実力」不足によるものではなく、むしろ逆に「運」の影響があまりにも大きい。
(こういう事例を"戦略のパラドックス"と称するコンサルタントもいる。)

「なぜ発表された研究結果のほとんどは間違っているのか」 という論文を著した病理学のイオアニディス博士によれば。
ある治療法の有効性について、研究者の見解の精度(能力)は、被験者の設定方法によって大きく異なるという。
被験者がある治療法をランダムに割り当てられた場合(つまり、ランダム化された試験)では、研究者はあらゆる先入観ぬきにそれぞれの治療法の効果を比較研究が出来、じっさい試験結果の3/4が正確であった。
その反面、被験者が志願して様々な治療法を受けるケースでは(つまり観察研究)、研究者がどの被験者のデータを採用するか判断せざるをえず、その過程でどうしても「運」が介入し、その試験結果の多くが研究者の偏見や誇張によって間違ってしまう。

==============================================================

※ さらに、本書では「実力(知性)」の変化、「運」の定量化、べき乗則の普遍的効用、有用な統計(持続性と予測可能性から) などなど。
徐々に分析のダイナミズムを拡大させつつ、引用エピソードも分析データもヴァラエティは尽きない。
僕はこのあたりで本書をいったん書棚に収納しておくが、もちろんコンテンツに追随する自信が無くなったからでは断じてなく、ただほんのちょっとだけ疲れてきたので、暫らく経ってからもっと深く鋭く踏み込んでみるつもり。

以上