基本概念
- 随机变量:$S$
- 信息:消除随机变量不确定性的事物
- 信息量与传播媒介无关
- 信息是相对的
- 信息是客观物理量
- 噪音(非信息)
- 数据 = 噪音 + 信息
- 信源:产生信息的实体
- 自信息:$I(s_i)=-\log p_i$
- 信息熵:$H(S)=\sum_{i=1}^np_iI(s_i)$
- 信源发出符号平均信息量,衡量不确定度
- 编码的最优策略
- 二为底:bit
- e 为底:纳特
- 条件自信息:$I(x_i|y_j)=-\log p(x_i|y_i)$
- 条件熵:$H(X|Y)=E[I(x_i|y_j)]=-\sum_{i=1}^m\sum_{j=1}^np(x_i,y_j)\log p(x_i|y_j)$
- 互信息:$I(X|Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)$
- 联合熵:$H(X,Y)=-\sum_{i=1}^m\sum_{j=1}^np(x_i,y_j)\log p(x_i,y_j)$
- 交叉熵:$H(P,Q)=-\sum_{i}p_i\log q_i$
- 相对熵(KL 散度,信息增益):$D_{\text{KL}}(P||Q)=-\sum_i p_i\ln\frac{q_i}{p_i}$
- 使用基于 $Q$ 的分布来编码服从 $P$ 的分布的样本所需的额外的平均比特数
- $H(p,q) = H(p) + D_{\text{KL}}(P||Q)$