こんにちは!krです!
今回は2つの情報がどれだけ関係があるかを示す「相互情報量」について簡単に解説します!
そんなに長くないので、ぜひ最後までご覧ください!
相互情報量とは?
相互情報量は一言で言えば、「2つの情報が互いにどれだけ影響し合っているか」を表すものです。
まずは、簡単な例を使って相互情報量について説明していきます。
簡単な例
例えば、「ジョーカーを除いた52枚のトランプの内どれを引くか」についての事象系$A$を考えましょう。
それぞれのカードの引く確率は$\frac{1}{52}$なので、平均情報量$H(A)$は
$$H(A)=-\frac{1}{52}log_{2}\frac{1}{52}×52=-log_{2}\frac{1}{52} \approx 5.70$$
となります。
また、「スペードである」という事前情報がある場合、スペードのカード13枚から1枚を引くことになり、その確率は$\frac{1}{13}$となります。
よって、条件付きエントロピー$H(A|スペード)$は
$$H(A|スペード)=-\frac{1}{13}log_{2}\frac{1}{13}×13 \approx 3.70$$
となります。
ここで、平均情報量$H(A)$と条件付きエントロピー$H(A|スペード)$の差を考えてみると、
$$H(A)-H(A|スペード) \approx 5.70-3.70 =2.00$$
となります。
この差は何を表しているでしょうか?


「スペードである」と事前に知ることで減った情報量っすか?
正解!

スペードのカードを引く確率は$\frac{1}{4}$なので、「スペードである」と知ることで得られる情報量$I(スペード)$は
$$I(スペード)=-log_{2}\frac{1}{4}=2.00$$
となります。これは先ほどの差と同じ値になっていますよね?したがって、

ということが分かります。
このとき、「スペードである」と事前に知ることで減った情報量を$I(A;スペード)$と表すことにすると、
$$I(A;スペード)=H(A)-H(A|スペード)$$
という式が成り立ちます。
一般的に
先ほどの話は「クラブ、ダイヤ、ハート」についても同じことが言えます。
つまり、

ということが言えるわけです。
これって要するに、「クラブ、ダイヤ、ハート、スペードのどれを引くか」についての事象系を$B$とし、「カードのマークを事前に知ることで減る情報量」を$I(A;B)$と表すことにすると、次のような式で表すことが出来ますよね?
$$I(A;B)=H(A)-H(A|B)$$
この$I(A;B)$という式が表しているのが相互情報量です。

相互情報量の意味
冒頭で、相互情報量は「2つの情報が互いにどれだけ影響し合っているか」を表すと言いました。
これをもっと具体的に言うと、ある2つの事象系$A, B$があるとき、「$A, B$どちらか一方の平均情報量について知りたいときに、もう片方の情報が入ってくることで、知りたかった方の曖昧さがどれだけ減るか」を表すのが相互情報量であると言えます。
例えば、1から13までの13枚のトランプに対して、
という2つの事象系を考えましょう。
まず、「偶数か奇数か」について考えているときに、「10以下か11以上か」が事前に分かったとしましょう。
このとき、「偶数か奇数のどちらになるか」は少し分かるようになります。言い換えれば、「どちらになるか分からない曖昧さ」が減ります。
逆に、「10以下か11以上か」について考えているときに、「偶数か奇数か」が事前に分かったとしましょう。
このとき、「10以下か11以上のどちらになるか」は少し分かるようになります。言い換えれば、「どちらになるか分からない曖昧さ」が減ります。
どちらのパターンでも相互情報量は同じになります

なので、相互情報量は
$A, B$どちらか一方の平均情報量について知りたいときに、もう片方の情報が入ってくることで、知りたかった方の曖昧さがどれだけ減るか
と言えるわけですが、これはつまり、
2つの情報が互いにどれだけ影響し合っているか
ということ風にも言えるということです。
今回はここまで!
お疲れ様でした!

「偶数か奇数か」についての事象系$A$
「10以下か11以上か」についての事象系$B$