信息的基本分类

  • 语法信息
  • 语义信息
  • 语用信息

    符号系统

  • X,Y:随机变量
  • $x_k,y_j$ 变量取值
  • $a_k,b_j$变量取值
  • $\chi={x_k;k=1,2…K},\gamma={y_j;j=1,2…,J}$
  • 事件:$X=x_k$
  • $q_k=Pr{X=x_k}$

事件自信息

我们将特定事件$X=x_k$发生后给外界带来的信息量定义为事件的自信息

a=2的单位为比特

a=e的单位为奈特

事件自信息的本质既是事件对外界提供的信息,也是外界观察心信息付出的代价,通常认为概率越小的事件的信息量越大

条件自信息

事件Y=yj发生后X=xk发生给外界带来的信息

联合自信息

X=xk,Y=yj一起发生的信息量

事件互信息

互信息的本质为事件Y=yj
中包含的有关事件X=xk信息量,即可以是事件X发生的信息量减去事件Y发生后事件X还能给外界提供的信息量

互信息的对称性

互信息的性质

事件Y中包含X的信息量

条件互信息

联合互信息

联合互信息动链式法则

变量的平均自信息——熵

  • 熵是随机变量不确定性的度量
  • 熵是随机变量每次观察结果平均对外界所提供的信息量
  • 熵是为了确证随机变量的取值外界平均所需要的与之相
    关的信息量

条件熵

  • 以事件 Y=y 为条件的变量X的熵
  • 以变量 Y 为条件的变量X的熵

    疑义度,在Y已知X剩余的不确定性

联合熵

联合链式法则

熵的性质


(5)可加性

对于变量X可以进行多步观察,每一步都可以从上一步观察的结果中得到更为细致的结果

(6)极值性

均匀分布时熵最大

凸性质

平均互信息

  • 非负性
  • 对称性
  • 互信息与熵的关联性

    求互信息常用上面的公式,相互独立的事件互信息为0

条件互信息

联合互信息

相对熵

一个变量的两种概率分布

表示实际分布p(x)和假定分布q(x)之间的平均差距,也称为鉴别熵

相对熵的性质

  • 非负
  • 非对称
  • 与互信息关系

疑义度

错误概率

fano不等式

马尔可夫链

每个随机变量都是前一个随机变量一步处理的结果,任意一个节点已知,后面的变量和前面没得变量条件独立。

  • 马尔可夫链是可逆的

数据处理定理

如果$X\to Y \to Z$

则$I(X;Y)>=I(X;Z),I(X;Y)>=I(X;Y|Z)$

四变量马尔科夫链

互信息的凸性

互信息I(X;Y)是关于输入分布{q(x)}和转移概率矩阵{p(y|x)}的函数

连续随机变量的互信息

基本性质

连续随机变量微分熵

连续随机变量的熵无穷大,所以引入微分熵的概念来衡量连续变量的相对不确定性

HC (X )不具有线性变换不变性,可正、可负

条件微分熵

联合微分熵

微分熵极大化

峰值受限

若 峰值受限于[-M,+M] 即 则 X为均匀分布微分熵最大

功率受限

若X的方差不大于$\sigma^2$,则X为高斯分布时微分熵最大

熵功率

  • 定义连续随机变量 的熵功率为
  • 高斯随机变量的微分熵
  • 高斯变量熵功率

熵功率不等式

功率一定时,高斯变量的熵功率最大,与功率相等

平稳源

平稳源:任意长度的片段的联合概率分布与时间起点无关

简单无记忆源

平稳源的熵

平均每符号熵

熵速率

熵相对率

信源冗余度

平均条件熵

平稳源熵的性质

  • 单调增
  • $HN(X)>=H(X_N|X{N-1}…X_1)$
  • $H{\infty}(X)=\lim{N\to\infty}HN(X)=\lim{N\to\infty}H(XN|X{N-1}…X_1)$

马尔科夫源

马尔科夫源的状态图

  • 时齐(时不变)马尔科夫源:状态转移概率pij(n)与时间n无关。
    到达任一其它状态。
  • 既约(不可约)马尔科夫源:
    从任一状态出发,经有限步总可以
  • 状态转移概率矩阵:
  • n时刻的状态概率分布:
  • 对时齐既约马尔科夫源,状态的稳态分布存在

    马尔科夫的熵率