14 | 9月 | 2012 | Tomorrow Never Knows

最初に，情報理論においてもっとも基本的な概念であるエントロピー(entropy)を導入します。
エントロピーは，確率変数，あるいは，それを生成する情報源の持つ不確実性を表す尺度であると考えることができます。

$X$ を有限集合 ${\cal X}$ 上の確率変数とします。
確率変数 $X$ は，確率関数(probability mass function) $p_{X}(x)={\mathbb P}\{ X = x \}$ , $x \in {\cal X}$ を持つことにします。

今後，特に必要のない限りは，表記の簡便性のために確率関数を $p_{X}(x)$ のような表記ではなく， $p(x)$ のような表記で表すことにします。
したがって， $p(x)$ と $p(y)$ はそれぞれ異なる確率変数 $X$ , $Y$ に対する確率関数で，それぞれ $p_{X}(x)$ , $p_{Y}(y)$ の意味であるとします。

このときエントロピーは以下のように定義されます。

定義
離散確率変数 $X$ のエントロピー $H(X)$ は

$H(X) = - \sum_{x \in {\cal X}} p(x) \; \log p(x)={\mathbb E}[\log \frac{1}{p(X)} ]$

によって定義される。

上記のエントロピーは，確率関数 $p$ の汎関数(functional)で
(すなわち，確率関数 $p$ から実数(後で示すように，この場合は，非負の実数)への写像)， $p$ に依存していることを強調するときは $H(p)$ と表記するときもあります。

情報理論においては，対数 $\log$ の底は $e$ ではなくて，2にとることが多いです。これは，現代のディジタル通信においては”0″, “1”の2値で通信が行われることが多く，対数 $\log$ の底を2として定義したエントロピーは，2値で通信が行われる場合の $X$ を定めることができる平均符号長の下限を表すことになるからです。

このブログの情報理論に関する記事では、特に断りのない限りは対数の底は2であるとします。しかしながら，対数 $\log$ の底はどのような値にとっても理論自体には全く関係がありません。
対数 $\log$ の底を2にとって定義したエントロピーの単位は“bit(ビット)”と呼ばれます。また，対数 $\log$ の底を $e$ にとって定義したエントロピーの単位は“nat(ナット)”と呼ばれます。底を $b$ にしたときのエントロピーを $H_{b}(x)$ と表すことにし， $b=2$ の場合は省略することにします。

また、表記の簡便性のために， $0 \log 0 =0$ とします。このことは， $x \rightarrow 0$ のとき $x \log x \rightarrow 0$ であるので(ロピタルの定理を使って示せます)，連続性から正当化できます。
したがって，確率0の項を付け加えてもエントロピーは変化しないことになります。

最後にもう一度，エントロピーは確率変数 $X$ の分布の汎関数である
ことに注意しましょう。したがって，エントロピーは，確率変数 $X$ の実現値には依存せず，それぞれの値の実現確率にだけに依存します。

日	月	火	水	木	金	土
« 8月				10月 »
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tomorrow Never Knows

When in doubt, relax, turn off your mind, float downstream

日別アーカイブ: 2012年9月14日

情報理論の基礎(2)