こんにちは!krです!
今回は平均情報量の関数「エントロピー関数」について分かりやすく簡単に解説していきます!
そんなに長くないので、ぜひ最後までご覧ください!(*’ω’*)
エントロピー関数とは?
例えば、「コイントス」を使って考えてみましょう。
「表が出るという事象」を$a_{1}$, 「裏が出るという事象」を$a_{2}$として、それぞれの確率を$p, 1-p$とします。(もちろん$p=\frac{1}{2}$なのですが、今は記号で表しておきます)
すると、こんな感じになるはずです。

これの平均情報量を求めてみましょう。

平均情報量$H(A)$は
$$H(A)=-\displaystyle \sum_{i=1}^2 P(a_i)=-plogp-(1-p)log(1-p)$$
という式になります。
このとき、平均情報量の式は、「p(確率)だけの関数」となっています。
そのため、このときの平均情報量の記号を$H(A)$ではなく、$H(p)$として、
$$H(p)=-plogp-(1-p)log(1-p)$$
と書き、この関数のことを「エントロピー関数」と呼びます。

確率$p$だけの平均情報量の関数をエントロピー関数と呼ぶということですね。
その通り!

エントロピー関数のグラフ
最小値
$H(p)=-plogp-(1-p)log(1-p)$をグラフにしてみると、次のようになります。

さて、ここで最初のコイントスの例を思い出しましょう。

今、手元に「絶対に表が出る」コインがあるとします。
このときの「表が出る確率」は$p=1$となりますが、グラフを見ると、$p=1$のときの平均情報量は$H(p)=0$となっていることが分かります。
これが何を表しているか分かりますか?


分かんないっす…
「絶対に表が出る」ということは、「絶対に表が出ることが”分かっている“」ということです。
「次、表が出るよ!」と言われたところでそれは分かり切ってることだし、「次、裏は出ないよ!」と言われても当たり前です。
つまり、「コインを1回トスする」ということから得られる情報が何もないのです。表が出ると分かっているのですから。
だから、平均情報量が$H(p)=0$になるってことなんです。

なるほどっす!
エントロピー関数では$p=0,1$のときに、平均情報量が最小値$0$を取ることを理解しましょう!

最大値
さて、もう1回グラフに注目しましょう。

$p=\frac{1}{2}$のとき、平均情報量$H(p)$は最大値$1$を取ります。
これは、コインの「表が出る確率」と「裏が出る確率」が同じときに、平均情報量は最大ということを表しています。
つまり、「どっちが出るか分からないほど、平均情報量は高い」ということです。

例えば、表の確率が$\frac{1}{3}$、裏の確率が$\frac{2}{3}$だったとしたら、どちらになるかは分からないけど、「裏の方が出やすい」ということは分かります。
そうすると、「コインを1回トス」したときに得られる情報量は少なくなりますよね?
だから、エントロピー関数では2つの事象が同じ確率の時に平均情報量が最大となるのです。
このように、エントロピー関数の最小値、最大値が何を表しているのかをキチンと理解しておくようにしましょう。
今回はここまで!
お疲れ様でした!

初学者におすすめな参考書を調査してまとめてみました。良かったら参考にしてください。