こんにちは!krです!
今回は自己情報量の次に出てくる「平均情報量」について分かりやすく解説していこうと思います!
ぜひ最後までご覧ください!
平均情報量とは?
導入
例えば、6面サイコロを考えましょう。
1~6の数字が出る確率はそれぞれ$\frac{1}{6}$です。

このとき、各事象の自己情報量は$-log_{2}\frac{1}{6}$ですが、自己情報量の平均はどのような値になるでしょうか?

$\frac{-log_{2}\frac{1}{6}×6}{6}=-log_{2}\frac{1}{6}$となると思います。
正解!

全て同じ自己情報量なので、その平均も同じ値になることは容易に理解できると思います。
そして、この自己情報量の平均こそが、今回説明する「平均情報量」なのです。
見ての通り、自己情報量の知識が必要になるので、「分からないよ~」って方は「自己情報量とは?分かりやすく解説します!」をご覧ください!
平均情報量の定義
では、平均情報量の定義を具体的に説明していきます。
まずは、先ほどのサイコロの例より、次のようなことが言えると思います。

このように事象$ \{a_{1}, …, a_{6} \}$を定義すると、自己情報量はそれぞれ、$\{ I(a_{1}), …, I(a_{6}) \}$と表せます。
この自己情報量は
$$I(a_i) = -log_2 P(a_i)$$
という式で与えられました。
次に、自己情報量の平均を考えるのですが、ここでは期待値の考え方を使います。
すなわち、自己情報量の平均$H(A)$は
$$H(A) = \displaystyle \sum_{i=1}^6 I(a_i)P(a_{i})$$
となります。この式に、先ほどの自己情報量の式を代入すると、
$$H(A)=\displaystyle \sum_{i=1}^6 I(a_i)P(a_{i})=\displaystyle \sum_{i=1}^6 -log_2 P(a_i)P(a_{i})=-\displaystyle \sum_{i=1}^6 P(a_{i}) log_2 P(a_i)$$
となり、この式が平均情報量の定義式になります。
実際にサイコロの例で計算してみると、
$$H(A)=-\displaystyle \sum_{i=1}^6 P(a_{i}) log_2 P(a_i)=-\frac{1}{6}log_2 \frac{1}{6}×6=-log_2 \frac{1}{6}=2.58$$
となり、最初示したように自己情報量は全て$-log_2 \frac{1}{6}$だったので、平均も$-log_2 \frac{1}{6}$になるはずで、この計算が正しいことが分かります。

何だか良くわかんないっすね…
最初は何をやってるのか良く分からないかもしれませんが、まずは理解することが大事です!

さて、この式はサイコロの例の平均情報量の式なので、一般化すると、
となります!
例題
事象$a_{1}, a_{2}, a_{3}$の確率が、それぞれ$\frac{1}{2}, \frac{1}{4},\frac{1}{4}$であるときの平均情報量を求めなさい。
解答
平均情報量の式より、
$$ \begin{eqnarray} H(A) &=& -\displaystyle \sum_{i=1}^3 P(a_{i}) log_2 P(a_i) \\
&=& -\frac{1}{2}log_2 \frac{1}{2}-\frac{1}{4}log_2 \frac{1}{4}-\frac{1}{4}log_2 \frac{1}{4} \\ &=& \frac{1}{2}+\frac{1}{2}+\frac{1}{2} \\
&=& 1.5 \end{eqnarray}$$
今回はここまで!
お疲れ様でした!

事象$ \{a_{1}, …, a_{n} \}$の確率が$ \{P_{1}, …, P_{n} \}$(ただし、$\displaystyle \sum_{i=1}^n P_i = 1$)であるとき、平均情報量$H(A)$は
$$H(A)=-\displaystyle \sum_{i=1}^n P(a_{i}) log_2 P(a_i)$$
で与えられる。