2015/08/14

【読書メモ】 シャノンの情報理論入門

シャノンの情報理論入門 高岡詠子・著 講談社Blue Backs

そもそも僕なりにこの 「読書メモ」 ブログの大前提として、普遍性と学術性の高い本の紹介を第一義とおいてきた。
あわせて、基礎的な教養力をあらためて問いかける良作を選んできたつもりである。
そこで本書についてであるが ─ シャノンほか往年の数理エリートたちによる情報符号化と伝送効率化へのイノベーションについて、とりわけ初学者を対象とした講義形式をとりつつ、段階的に解き明かしてゆくもの。
とりわけ本書にて特筆すべきは、透明な文体の瑞々しさ、エッセンスに絞ってピックアップした軽量な構成もさることながら、随所に見られる数理概念と図示の分かり易さである。
たとえば情報量を定義し軽減するため必要なデータ(ビット)量を通信路における「質問の回数」などなどシャノン流の着想につき、本書における図示はじつに分かり易い。

ただ、もとより情報通信という多元的な技術体系の概説であるから、情報の価値化、量化、伝送効率化へと論旨展開していく過程にて、同根の数理観念が縦横に拡大されていく。
ゆえに、工業技術製品のような独立完結的な機能論は、おそらく困難であろう。
そして、それゆえにこそ敢えて申せば、本書案内の主要な数理技術それぞれについて 「目的」 「着想」 「一般式」 「応用化」 と明確な箇条書きの形式をとっていれば、ヨリ捕捉しやすいコンテンツとなりえたのでは?

また、本書における 「情報」 という記述はむしろ、情報通信システム系に取り込まれた処理対象として 「情報データ」 と読み替えた方が分かり易いのではなかろうか。
よって、以下の僕なりの読書メモにては、まこと勝手ながら、すべて 「情報データ」 として記しおくこと念押しされたい。
とともに、本書の章立てにはあまり拘らず、本書の前半部について要点のみを列記したつもりである。


通信路符号化の定理

情報データの出力スピードを、ユーザによる情報自体への期待値(逆に言えば不確定さ)として情報エントロピーという観念をおいて数値化、具体的には情報データの大きさと出現確率の積によって伝送必要ビット数を定義する。
(これが情報データの自己情報量の式である。)

或る情報通信系にて、特定の情報データX の伝送に必要なビット数を H(x) とおく。
ふつうは2を底とする対数表現。
一方、その情報データX が発生しうる確率を P(x) とする。
この関係式は H(x) = log2(1/P(x) ) = -log2P(x) ビット数

これをヨリ一般化させ、この特定の情報データ X がおのおの排反するM個の事象 a1, a2, a3 ... an として存在し、それぞれ発生確率が P1, P2, P3 ... PM ならば、伝送必要ビット数は以下の式で総括出来る(iは1~Mで総和は1とする)。
H(x) = -  iPi log2Pi ビット数

ただし、これらP1 ~ PM発生確率がすべて等しい場合に、伝送必要ビット数(つまり情報エントロピー)は最大となってしまう。

・なお、或る情報データ (例えば文字データ)が特定の配列パタンで連続出現する「定常出現確率」 と、それぞれの値の条件別発生確率を掛け合わせると、その全体としての定常出現確率を算出可能。
これが大きければ大きいほど伝送必要ビット数を節約出来る(情報エントロピーを小さく抑えられる) - つまり高速データ通信にてキャパシティを節約出来る。

==================================

情報源符号化の定理について。

或るアナログ情報(波形)をデジタル符号の情報データにまで変換するステップとしては;
アナログ波形を一定時間ごとに区切って「標本化」(サンプリング)
→ それぞれ標本時間あたりの振幅値を整数値として「量子化」
→ 量子化された整数値を2の乗数による量子化ビット数として、2進法で離散的に符号化
この符号化により、情報データは圧縮が可能。
※  なお、音として人間が認識出来る最も感度のよい振動周波数は4kHZ
※※ 音楽CDの場合には量子化ビット数が16で、2の16乗まで量子化表現している

・情報データにおける「或る記号」の符号化にさいして、その形式要件は;
受信側が「一意に識別・復号出来る論理形式」であること
その上で、受信側が試行錯誤なしに「瞬時復号」が出来ること
(たとえば、量子化ビット数の0/1符号が000や0000など紛らわしい連続出現を起こさないように符号形式を定めること)
かつ、平均符号長が短いことが必須である。

・ここで、情報データにおいて或る4つの異なった記号が等確率(それぞれ1/4ずつ)で発生する場合を想定してみる。
この4つそれぞれの記号表現に2ビットずつ必要として;
(2 x 1/4) x 4 = 2 つまり平均で 2ビット長 の符号を用いれば事足りる。
一方、この場合の伝送必要ビット数は、上に挙げた通信路符号化定理の一般式から
H(x) = 1/4 (-log2 1/4) x 4 =2 ビット数

こうして符号長を伝送必要ビット数(情報エントロピー)に圧縮すれば、最適な符号長が定まる。
そのためには、出現確率の小さな記号は符号長を長くとり、出現確率の大きな記号は符号長を短くとればよい。
そして、シャノンが数学的に証明した情報源符号化定理の本質は、「瞬時復号が可能ないかなる符号の『平均符号長』も、伝送必要ビット数(情報エントロピー)以下にはならないということ。

ここが、本書 p.96以降に示された最初のテクニカル・ランデヴー。
さらにシャノン・ファノ符号化法、およびハフマン符号化法へと、符号長圧縮のための数理的なイノヴェーションが続く……

==============================================


さて。
本書はとくにp.121から難しくなり、とくに「相互情報量」 「条件付きの情報エントロピー」、 さらに「通信路容量」 実践的な関係がつかみにくい。
通信路における送信側と受信側のデータ通信によって必要データ量(情報エントロピー)を減らせうる由か?
あるいは通信を起こす以前に、情報データ量の軽減を為しておくべきか?
ただ、上に上げたいくつかの一般式同様に、以下も数学的には簡易なものである。
条件付き情報エントロピーと相互情報量についての関係式
通信路における誤りデータの発生率と通信路「容量」についての関係式 ほか
よって数式から実体実像を強引に読みとくことも思考鍛錬になりえようか。

なお、本書最後段では、フーリエ変換(逆変換)に基づいた周波数標本化の要領についての案内もあり、物理学に通じた人なら理解容易なのではなかろうか。
(僕は分からないけれども)。

以上