第二节、随机变量的熵

约 1851 个字 9 张图片预计阅读时间 6 分钟

一、熵

1. 定义：

随机变量各个事件的平均自信息 （加权平均）：

$H(X)=E[I(X)]=\sum _{x\in \chi} q(x)I(x) = \sum_{x \in \chi} q(x)\log q(x)$

熵和自信息的区别：熵针对随机变量(一系列X)，自信息针对具体事件（特定X）。

2. 例子

若有一组二元随机变量$x_1,x_2$, 且$q(x_1)=p,\ q(x_2)=1-p$, $X=\{x_1,x_2\}$, 那么 $H(X)=-p\log p-(1-p)\log (1-p)$

当$p=0$或$p=1$时，令$H(X)=0$
当$p=0.5$时，$H(X)=1$

作图如下：

3. 物理意义

熵是随机变量不确定性的度量。

我们来计算两个熵的大小，来直观感受一下熵的大小对事件不确定性的衡量。

例如：

随机变量$X=1$表示明天莫斯科下雪，$X=0$表示莫斯科不下雪；
$Y=1$表示北京下雪，$Y=0$表示北京不下雪；
$Z=1$表示香港下雪，$Z=0$ 表示香港不下雪。

设：$p(X=1)=0.8,p(X=0)=0.2;p(Y=1)=0.5,p(Y=0)=0.5;p(Z=1)=0.0001,p(Z=0)=0.9999$ 由于他们都是服从二元随机变量，所以图像如上，越靠近0.5，熵越大，所以我们可以看到$H(Y)>H(X)>H(Z)$,即北京下不下雪很难说（随机性很大），莫斯科很有可能下雪，但是香港几乎不会（随机性是0）

二、随机变量的条件熵

1. 定义1

给定$Y=y$条件下，$X$的条件熵 $H(X|y)=\sum_{x \in \chi} p(x|y)I(x|y)=-\sum_{x\in \chi}p(x|y)\log p(x|y)$

例如：

若$X=1$代表杭州下雨，$X=0$代表杭州不下雨 $Y=1$代表上海下雨，$Y=0$代表上海不下雨设$p(X=1)=0.5, p(X=0)=0.5, p(X=0|Y=1)=0.25, p(X=1|Y=1)=0.75$, 那么 $H(X|y)<H(X)$ $p(X=1)=0.25;p(X=0)=0.75;p(1|1)=0.5,p(0|1)=0.5,\text{则}H(X|Y=1)>H(X)。$

2. 定义2

$\because p(x|y)\cdot p(y)=p(x,y)$

$H(X|Y)=E\{H(X|y)\}=-\sum_{y\in\mathcal{Y}}p(y)\cdot \sum_{x\in \chi}p(x|y)\log p(x|y)=-\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\log p(x|y)$ 性质：$X$与$Y$统计独立时，则$H(X|Y)=H(X)$

三、随机变量的联合熵

1. 定义

$H(X,Y)=E[I(X,Y)]=-\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\log p(x,y)$

2. 链式法则：

$H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)$

证明：

\[\begin{aligned}H(X,Y)&=E[I(X,Y)]=-\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\log p(x,y)\\&=-\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\log p(x)-\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\log p(y|x)=\\&=-\sum_{x\in\mathcal{X}}p(x)\log p(x)-\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\log p(y|x)\\&=H(X)+H(Y|X)\end{aligned}\]

四、熵的性质

定义：

$\mathbb{X}=\begin{pmatrix}x_1&x_2&\cdots&x_K\\p_1&p_2&\cdots&p_K\end{pmatrix}$

则有：

\[H(X)\triangleq H_K({p_1,p_2,\cdots,p_K})\triangleq H_K(P)=-\sum_{k=1}^Kp_k\log p_k\]

1. 对称性

$H_K(P)$ 对概率矢量 $P$ 的分量是对称的，即 $H_K(P)$ 对 $p_1,p_2,\cdots,p_K$ 的排列是不变的——$p_1,p_2,\cdots,p_K$ 的排列不同，$H_K(P)$ 的值不变。

2. 非负性

$H(X)\geq 0$

3. 确定性

$H(X)=0$ 当且仅当 $X$ 是确定性的随机变量，即 $X$ 的取值只有一个。

4. 可扩展性

$\lim_{\epsilon\to 0}H_{K+1}(P_1,P_2,\cdots,P_K-\epsilon,\epsilon)=H_K(P_1,P_2,\cdots,P_K)$ —— 在增加一个概率接近于零的事件时，总熵几乎不变。

证明:

假设我们有一个 $K$ 个事件的概率分布 $P = (P_1, P_2, \cdots, P_K)$。增加一个新事件，概率为 $\epsilon$，新的分布为 $P_1, P_2, \cdots, P_{K-1}, P_K - \epsilon, \epsilon$。我们需要证明在 $\epsilon$ 很小时，新的熵 $H_{K+1}$ 接近原来的熵 $H_K$。

熵的定义为：

$H(P_1, P_2, \cdots, P_K) = -\sum_{i=1}^K P_i \log P_i$

对于 $K+1$ 个事件：

$H_{K+1}(P_1, P_2, \cdots, P_{K-1}, P_K - \epsilon, \epsilon) = -\sum_{i=1}^{K-1} P_i \log P_i - (P_K - \epsilon) \log (P_K - \epsilon) - \epsilon \log \epsilon$

当 $\epsilon \to 0$ 时： - $- \epsilon \log \epsilon \to 0$ - $(P_K - \epsilon) \log (P_K - \epsilon) \approx P_K \log P_K$

所以： $$ \lim_{\epsilon \to 0} H_{K+1}(P_1, P_2, \cdots, P_{K-1}, P_K - \epsilon, \epsilon) = -\sum_{i=1}^{K-1} P_i \log P_i - P_K \log P_K = H_K(P_1, P_2, \cdots, P_K) $$ 这样，我们证明了熵的可扩展性。

5. 可加性

图解：

若 $X_1$ 完全由 $X_2$ 确定:

物理意义：

$\mathcal{X}_1$: 粗略熵 $\mathcal{X}_2$: 细分熵

对变量X可以进行多步分层的观察，每一步都可从上一步的观察结果中得到更为细致的结果，变量X在最后的观察结果集合中的不确定性等于第一次观察结果的不确定性，加上其后每次观察结果在前一次观察结果已知的前提下的条件不确定性。

一般条件下：

$H(X_1,X_2)=H(X_1)+H(X_2|X_1)$

联合熵等于 $X_1$ 的熵加上在 $X_1$ 已知的情况下, $X_2$ 的条件熵。

6. 极值性：

$H_K(p_1,p_2,\cdots,p_k)\leq H_K(\frac{1}{K},\frac{1}{K},\cdots,\frac{1}{K})=\log K$

证明：

$H_k(p_1, p_2, \ldots, p_k) = -\sum_{k=1}^K p_k \log p_k$

$\text{证明} \quad -\sum_{k=1}^K p_k \log p_k + \sum_{k=1}^K p_k \log q_k = \sum_{k=1}^K p_k \log \frac{q_k}{p_k}$

$\text{而} \quad \log \frac{q_k}{p_k} \geq \log e \cdot \ln \frac{q_k}{p_k}$ $\therefore \text{原式} = \log e \sum_{k=1}^K p_k \ln \frac{q_k}{p_k} \leq \log e \cdot \sum_{k=1}^K p_k \left(\frac{q_k}{p_k} - 1\right) = 0, \quad \text{当且仅当} \quad q_k = p_k \text{ 时取 “=”}$

$\text{令} \quad q_k = \frac{1}{K}, \quad k = 1, 2, \ldots, K,$ 即得：$H_k(p_1, p_2, \ldots, p_k) \leq -\sum_{k=1}^K \frac{1}{K} \log \frac{1}{K} =H\left(\frac{1}{K}, \frac{1}{K}, \ldots, \frac{1}{K}\right) = \log K.$

(为什么$\ln x \leq x-1$ 是刚好取到？看下面图像的相切关系：

一直是“$\leq$”关系，恰好在1这点取零。

7. 条件熵 $\leq$ 熵，增加条件使熵减少

$H(X|Y)\leq H(X)$——增加条件，减少不确定性。当且仅当 $X$ 和 $Y$ 独立时取等号

证明： $$ \begin{aligned} H(X|Y) &= E {H(X|y)} \ &= -\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} P(x, y) \log P(x|y) \ &= -\sum_{y \in \mathcal{Y}} \omega(y) \left{\sum_{x \in \mathcal{X}} P(x|y) \log P(x|y)\right} \ &\leq -\sum_{y \in \mathcal{Y}} \omega(y) \left{\sum_{x \in \mathcal{X}} P(x|y) \log P(x)\right} \ &= -\sum_{x \in \mathcal{X}} \left{\sum_{y \in \mathcal{Y}} P(x|y) w(y)\right} \log P(x) \ &= -\sum_{x \in \mathcal{X}} \left{\sum_{y \in \mathcal{Y}} P(x,y)\right} \log P(x) \ &= -\sum_{x \in \mathcal{X}} P(x) \log P(x) \ &= H(X) \end{aligned} $$

五、熵的凸性

1. 定义：

$H_K(P)$是$P_1,P_2,...,P_k)$的严格凸函数，对于任何$0<\theta<1$，和任何两个K维概率变量$P_1,P_2$,有 $H(\lambda \vec{P_1}+(1-\lambda)\vec{P_2})\geq \lambda H(\vec{P_1})+(1-\lambda)H(\vec{P_2}),\quad 0\leq \lambda\leq 1$

2. 凸函数

上凸函数：$\theta f(\mathbf{\alpha})+(1-\theta)f(\mathbf{\beta})\leq f[\theta \mathbf{\alpha}+(1-\theta) \mathbf{\beta}]$

下凸函数刚好相反。

3. 性质

如果$f_1(\boldsymbol{\alpha}),f_2(\boldsymbol{\alpha}),\cdots,f_L(\boldsymbol{\alpha})$是上凸函数，以及$C_1,C_2,\cdots,C_L$是任意正数，则 $\sum_lC_lf_l(\alpha)$也是上凸函数
一元函数$f(\alpha)$上凸的充要条件是在所定义的区间中满足$\frac{d^2f(\alpha)}{d\alpha^2}\leq0$

4. 一般极值点取法

5. 概率空间上凸函数取极大值的充要条件

引入Jensen不等式：

\[ \begin{aligned} &\text{令 } (\alpha_1, \alpha_2, \cdots, \alpha_L) \text{ 是凸集中的一组矢量，} f(\alpha) \text{ 是该凸集上的一个上凸函数，} \\ &(\theta_1, \theta_2, \cdots, \theta_L) \text{ 是一组概率分布，则有} \\ &\sum_{l=1}^L \theta_l f(\alpha_l) \leq f \left( \sum_{l=1}^L \theta_l \alpha_l \right) \end{aligned} \]

首先我们有

注意到，此时每个分量为非负。我们要找到极值，就是让这个函数在邻域内的值都比它小。

如果 $\alpha_k$ 大于零，那么这个偏导数一定要为零，否则必定在这个方向或反方向上有增大的空间。→如果我们增大或减小 $\alpha_k$，那么这个函数的值会增大。

如果 $\alpha_k$ 等于零，那么这个偏导数需要小于或等于零。如果大于零，必定在这个方向上有增大的空间。→如果我们增大 $\alpha_k$，那么这个函数的值会增大。

把这个移作概率空间。除了要求非负，还要求和为1（约束条件）。所以我们用拉式乘子法，构造函数： $\(L(P,\lambda)=H(P)+\lambda(1-\sum_{k=1}^Kp_k)$\)

求偏导，有：

\[ \begin{cases} \frac{\partial L}{\partial p_k}=\frac{\partial f(P)}{\partial p_k}-\lambda=0\\ \frac{\partial L}{\partial \lambda}=1-\sum\limits_{k=1}^Kp_k=0 \end{cases} \]

根据前文的解释，我们有： $$ \begin{cases} \frac{\partial f(P)}{\partial p_k}=\lambda\qquad p_k > 0\ \frac{\partial f(P)}{\partial p_k}\leq \lambda\qquad p_k = 0 \end{cases} $$

第二节、随机变量的熵

一、熵

1. 定义：

2. 例子

3. 物理意义

二、随机变量的条件熵

1. 定义1

2. 定义2

三、随机变量的联合熵

1. 定义

2. 链式法则：

四、熵的性质

1. 对称性

2. 非负性

3. 确定性

4. 可扩展性

5. 可加性

6. 极值性：

7. 条件熵 \(\leq\) 熵，增加条件使熵减少

五、熵的凸性

1. 定义：

2. 凸函数

3. 性质

4. 一般极值点取法

5. 概率空间上凸函数取极大值的充要条件

六、小结

Comments