Skip to content

第一节、信息的度量

约 1204 个字 1 张图片 预计阅读时间 4 分钟

一、事件的自信息

1. 定义

事件 \({X=x_k}\) 的自信息定义为 \(I(x_k)=-\log P(A)\)

\(\log\)函数的优势: - 概率越小,信息量越大 - 非负数 - 可加性(置一个骰子,信息量是\(\log_2 6\);置两个骰子,信息量即两个骰子的分别信息量相加:\(\log_2 6\)+\(\log_2 6\),满足了可加性) (至于底究竟是谁,其实和【单位】是一个性质的。底为2:bit;底为e:奈特)

确定性事件:信息量为0 不可能发生事件:信息量为无穷大

2. 性质

  • 性质1:\(q(x_k)\)越大,\(I_(x_k)\)越小。即概率越小,自信息越大。
  • 性质2:\(q(x_k)=1\)\(I(x_k)=0\)确定事件的自信息为0。
  • 性质3:\(q(x_k) \rightarrow 0\), \(I(x_k) = \infty\)

二、事件的条件自信息

1. 定义

事件\(\{Y=y_j\}\)发生的条件下,事件\(\{X=x_k\}\)条件自信息定义为: \(\(I(x_k|y_j)=-\log p(x_k|y_j)\)\) 物理意义:

  • 事件\(\{Y=y_j\}\)发生后,{\(X=x_k\)}如果再发生,需要的“新”的信息量
  • 事件\(\{Y=y_j\}\)发生后,如果{\(X=x_k\)}又发生了,提供给观察者的“新”的信息量

2. 例子

例1\(x_k\):杭州下雨,\(y_j\): 上海下雨

\(I(x_k)\): 杭州下雨需要的信息量,\(I(x_k|y_j):\) 上海下雨后(条件),杭州下雨需要的信息量。

\(q(x_k)=0.5; p(x_k|y_j)=0.75\);(Tips: \(y_j\)发生以后(我们知道上海下雨之后),\(x_k\)发生(我们又得知杭州下雨)的概率就更大了) 则\(I(x_k)=1\)bit, \(I(x_k|y_j)=\log_2(\frac{4}{3})\ bit\) < \(I(x_k)=1\ bit=\mathrm{log}_2 (2) \ bit\) 信息量变小了。

例2\(x_k\):杭州下雨,\(y_j\): 上海晴天

\(I(x_k)\): 杭州下雨需要的信息量,\(I(x_k|y_j):\) 上海晴天时(条件),杭州下雨需要的信息量。

\(q(x_k)=0.5,\ p(x_k|y_j)=0.25\),(Tips: \(y_j\)发生以后(我们知道上海放晴之后),\(x_k\)发生(我们知道杭州下雨)是比较反常的,概率较小)

\(I(x_k)=1\)bit, \(I(x_k|y_j)=\log_2\ 4\ = 2\ bit\) > \(I(x_k)=1\ bit=\mathrm{log}_2 (2) \ bit\) 信息量变大

例3\(x_k\):杭州下雨,\(y_j\):北京下雨

\(x_k\)\(y_j\)是无关事件。

\(p(x_k)=p(x_k|y_j),\ \therefore\ I(x_k)=I(x_k|y_j)\)

三、事件的互信息

1. 定义:

\(I(x_k;y_j)=I(x_k)-I(x_k|y_j)=-\log q(x_k)-\{-\log p(x_k|y_j)\}\)

物理意义:事件\(\{Y=y_j\}\)发生后,对事件\(\{X=x_k\}\)不确定性的降低量。

(我们在上面的例子里已经看到了,\(y_j\)事件的发生不一定是让\(x_k\)不确定性降低,也有可能增加其信息量(更加反常)/ 由于其无关性而保持不变。所以事件的互信息可正,可负,可零。

2. 性质:

对称性\(I\left(x_k ; y_j\right)=I\left(y_j ; x_k\right)\), 即\(x_k\)\(y_j\)互相提供的互信息量是相同的。 证明如下:

证明:

左边\(=I\left(x_k ; y_j\right)=I\left(x_k\right)-I\left(x_k \mid y_j\right)=-\log \frac{q\left(x_k\right)}{q\left(x_k \mid y_j\right)}=-\log \frac{q\left(x_k\right) w\left(y_j\right)}{p\left(x_k, y_j\right)}\) 右边同理,\(I\left(y_j ; x_k\right)=-\log \frac{w\left(y_j\right) q\left(x_k\right)}{p\left(y_j, x_k\right)} \quad\left(x_k, y_j\right.\) 等价) 故左边=右边,原等式成立。

3. 例子:

以刚刚的案例为例:

例1\(x_k\):杭州下雨,\(y_j\): 上海下雨

\(I(x_k)\): 杭州下雨需要的信息量,\(I(x_k|y_j):\) 上海下雨后(条件),杭州下雨需要的信息量。

\(q(x_k)=0.5; p(x_k|y_j)=0.75\);(Tips: \(y_j\)发生以后(我们知道上海下雨之后),\(x_k\)发生(我们又得知杭州下雨)的概率就更大了) 则\(I(x_k)=1\)bit, \(I(x_k|y_j)=\log_2(\frac{4}{3})\ bit\) < \(I(x_k)=1\ bit=\mathrm{log}_2 (2) \ bit\) 信息量变小了。

\(\Rightarrow\) 所以\(I(x_k;y_j)=I(x_k)-I(x_k|y_j)>0\)

例2\(x_k\):杭州下雨,\(y_j\): 上海晴天

\(I(x_k)\): 杭州下雨需要的信息量,\(I(x_k|y_j):\) 上海晴天时(条件),杭州下雨需要的信息量。

\(q(x_k)=0.5,\ p(x_k|y_j)=0.25\),(Tips: \(y_j\)发生以后(我们知道上海放晴之后),\(x_k\)发生(我们知道杭州下雨)是比较反常的,概率较小)

\(I(x_k)=1\)bit, \(I(x_k|y_j)=\log_2\ 4\ = 2\ bit\) > \(I(x_k)=1\ bit=\mathrm{log}_2 (2) \ bit\) 信息量变大

\(\Rightarrow\) 所以\(I(x_k;y_j)=I(x_k)-I(x_k|y_j)<0\)

例3\(x_k\):杭州下雨,\(y_j\):北京下雨

\(x_k\)\(y_j\)是无关事件。

\(p(x_k)=p(x_k|y_j),\ \therefore\ I(x_k)=I(x_k|y_j)\)

\(\Rightarrow\) 所以\(I(x_k;y_j)=I(x_k)-I(x_k|y_j)=0\)

四、事件的联合自信息

1. 定义:

事件\(\{Y=y_j\}\)\(\{X=x_k\}\)的联合自信息定义为:

\(I(x_k,y_j)=-\log p(x_k,y_j)\)

物理意义:

表示事件\(\{X=x_k\}\)\(\{Y=y_j\}\)同时发生需要的信息量/两个事件同时发生时对外界提供的信息量。

例如:

\(x_k: \text { 杭州下雨,} y_j \text { :上海下雨。 } I\left(x_k, y_j\right) \text { 为杭州和上海同时下雨需要的信息量。 }\)

五、事件的条件互信息

复习: 互信息的概念:\(I(x_k;y_j)=I(x_k)-I(x_k|y_j)\)

1. 定义:

给定\(Z=z\) 条件下,事件\(X=x\)\(Y=y\)之间的条件互信息为:

\(I(x ; y \mid z)=\log \frac{p(x \mid y, z)}{p(x \mid z)}=\log \frac{p(x, y \mid z)}{p(x \mid z) \cdot p(y \mid z)}\) (两个式子都需要记住)

推导: \(\(\begin{aligned} I(x ; y \mid z) & =I(x, z)-I(x \mid y, z)=-\log p(x, z)-\{-\log p(x \mid y, z)\} \\ & =\log \frac{p(x \mid y, z)}{p(x, z)}=\log \frac{p(x, y \mid z)}{p(x \mid z) p(y \mid z)} \quad \text { 由于 } p(x \mid y, z)=\frac{p(x, y \mid z)}{p(y \mid z)} \end{aligned}\)\)

(理解:第一个式子其实就是原先的互信息加一个\(,z\) ,第二个式子里面,分母的\(p(x|z)\)来自于互信息原定义的第一项\(I(x_k)\), \(p(y|z)\)则来自于条件概率的定义)

2. 例子:

例子: \(x\) :杭州下雨,\(y:\) 上海下雨,\(z:\) 宁波下雨。

  • \(q(x)=q(y)=q(z)=0.125\)
  • \(p(x \mid y)=0.25, p(x \mid z)=0.25, p(y \mid z)=0.25\)
  • \(p(x \mid y, z)=0.5\)

计算:

  • 自信息量\(I(x)=-\log q(x)=3 \text { bit }\)
  • 条件自信息量: \(I(x \mid y)=-\log q(x \mid y)=2 \text { bit }\)
  • 条件互信息\(I(x ; y \mid z)=\log \frac{p(x \mid y, z)}{p(x, z)}=\log \frac{p(x \mid y, z)}{p(x \mid z) p(z)}=\log \frac{0.5}{0.25 \times 0.125}=4 \text { bit }\)

六、事件的联合互信息

1. 定义:

联合事件\(\{Y=y,Z=z\}\)与事件\(\{X=x\}\)之间的互信息为: \(I(x ; y, z)=I(x)-I(x|y,z)=\log \frac{p(x \mid y, z)}{p(x)}=\log \frac{p(x, y, z)}{p(x) p(y, z)}\)

2. 例子:

\(I(x)\) :杭州下雨需要的信息量,\(I(x ; y, z)\) :上海下雨和宁波下雨这两个事件同时提供给杭州下雨这个事件的信息量。

\(q(x)=0.125 ; p(x \mid y)=0.25\), 那么:

\(I(x;y)=I(x)-I(x,y)=3-2=1\ bit\)

若又有\(p(x|y,z)=0.5\), 则 \(I(x;y,z)=I(x)-I(x|y,z)=3-1=2\ bit>I(x,y)\)

即:\(y,z\) 联合发生给 \(x\) 提供的信息量 比 单纯 \(y\)\(x\) 提供的信息量更多

3. 性质:

链式法则:

\(I(x;y,z)=I(x;y)+I(x;z|y)\)

证明:

上下都乘以\(p(x|y)\)

\(I(x;y,z)=\log \frac{p(x|y,z)}{p(x)} = \log \frac{p(x|y)p(x|y,z)}{p(x)p(x|y)} = \log \frac{p(x|y)}{p(x)}+log \frac{p(x|y,z)}{p(x|y)} = I(x;y)+I(x;z|y)\)

条件熵的意义:对变量\(\mathrm{X}\)可以进行多步分层的观察

但:必须是独立/树状的,不允许交叉

七、小结

  1. 事件的自信息: \(I(x_k)=-\log q(x_k)\)
  2. 事件的条件自信息: \(I(x_k|y_j)= -\log p(x_k|y_j)\)
  3. 事件的互信息: \(I(x_k;y_j)=I(x_k)-I(x_k|y_j)=\log \frac{p(x_k|y_j)}{q(x_k)}\)

Comments