最初に,情報理論においてもっとも基本的な概念であるエントロピー(entropy)を導入します。
エントロピーは,確率変数,あるいは,それを生成する情報源の持つ不確実性を表す尺度であると考えることができます。
を有限集合上の確率変数とします。
確率変数は,確率関数(probability mass function) , を持つことにします。
今後,特に必要のない限りは,表記の簡便性のために確率関数をのような表記ではなく,のような表記で表すことにします。
したがって,とはそれぞれ異なる確率変数, に対する確率関数で,それぞれ, の意味であるとします。
このときエントロピーは以下のように定義されます。
定義
離散確率変数のエントロピーは
によって定義される。
上記のエントロピーは,確率関数の汎関数(functional)で
(すなわち,確率関数から実数(後で示すように,この場合は,非負の実数)への写像),に依存していることを強調するときはと表記するときもあります。
情報理論においては,対数の底はではなくて,2にとることが多いです。これは,現代のディジタル通信においては”0″, “1”の2値で通信が行われることが多く,対数の底を2として定義したエントロピーは,2値で通信が行われる場合のを定めることができる平均符号長の下限を表すことになるからです。
このブログの情報理論に関する記事では、特に断りのない限りは対数の底は2であるとします。しかしながら,対数の底はどのような値にとっても理論自体には全く関係がありません。
対数の底を2にとって定義したエントロピーの単位は“bit(ビット)”と呼ばれます。また,対数の底をにとって定義したエントロピーの単位は“nat(ナット)”と呼ばれます。底をにしたときのエントロピーをと表すことにし,の場合は省略することにします。
また、表記の簡便性のために,とします。このことは,のときであるので(ロピタルの定理を使って示せます),連続性から正当化できます。
したがって,確率0の項を付け加えてもエントロピーは変化しないことになります。
最後にもう一度,エントロピーは確率変数の分布の汎関数である
ことに注意しましょう。したがって,エントロピーは,確率変数の実現値には依存せず,それぞれの値の実現確率にだけに依存します。