信息的基本分类

  • 语法信息
  • 语义信息
  • 语用信息

    符号系统

  • X,Y:随机变量
  • xk,yj 变量取值
  • ak,bj变量取值
  • χ=xk;k=1,2K,γ=yj;j=1,2,J
  • 事件:X=xk
  • qk=PrX=xk

事件自信息

我们将特定事件X=xk发生后给外界带来的信息量定义为事件的自信息

I(X=xk)=I(xk)=logq(xk)

a=2的单位为比特

a=e的单位为奈特

事件自信息的本质既是事件对外界提供的信息,也是外界观察心信息付出的代价,通常认为概率越小的事件的信息量越大

条件自信息

I(xk|yj)=logap(xk|yj)

事件Y=yj发生后X=xk发生给外界带来的信息

联合自信息

I(xk,yj)=logap(xk,yj)

X=xk,Y=yj一起发生的信息量

事件互信息

I(xk;yj)=logap(xk|yj)q(xk)

互信息的本质为事件Y=yj
中包含的有关事件X=xk信息量,即可以是事件X发生的信息量减去事件Y发生后事件X还能给外界提供的信息量

I(xk;yj)=logq(xk)[logp(xk|yj)]

互信息的对称性

I(xk;yj)=I(yj;xk)

互信息的性质

I(xk;yj)={>0p(xk|yj)>q(xk)=0X,Y<0p(xk|yj)<q(xk)

事件Y中包含X的信息量

条件互信息

I(x;y|z)=logp(x|y,z)p(x|z)=logp(x,y|z)p(x|z)p(y|z)

联合互信息

I(x;y,z)=logp(x|y,z)p(x)

联合互信息动链式法则

I(x;y,z)=I(x;y)+I(x;z|y)=I(y;x)+I(z;x|y)

变量的平均自信息——熵

H(X)=E(I(X))=xχq(x)logaq(x)
  • 熵是随机变量不确定性的度量
  • 熵是随机变量每次观察结果平均对外界所提供的信息量
  • 熵是为了确证随机变量的取值外界平均所需要的与之相
    关的信息量

条件熵

  • 以事件 Y=y 为条件的变量X的熵H(X|y)=xXp(x|y)I(X|y)=xXp(x|y)logp(x|y)
  • 以变量 Y 为条件的变量X的熵H(X|Y)=yYw(y)H(X|y)=xyp(x,y)logp(x|y)

    疑义度,在Y已知X剩余的不确定性

联合熵

H(X,Y)=xyp(x,y)logp(x,y)

联合链式法则

H(X,Y)=H(X)+H(X|Y)=H(Y)+H(Y|X)

熵的性质


(5)可加性

H(X2)|x2χ2=H(X1)X1χ1+H(X2|X1)X2χ2X1χ1

对于变量X可以进行多步观察,每一步都可以从上一步观察的结果中得到更为细致的结果

(6)极值性

Hk<logK

均匀分布时熵最大

凸性质

平均互信息

I(X;Y)=xyp(x,y)logp(x|y)q(x)
  • 非负性
  • 对称性
  • 互信息与熵的关联性I(X,Y)=H(X)H(X|Y)=H(Y)H(Y|X)=H(X)+H(Y)H(X,Y)

    求互信息常用上面的公式,相互独立的事件互信息为0

条件互信息

I(X;Y|Z)=xyzp(x,y,z)logp(x|y,z)p(x)

联合互信息

I(X;Y,Z)=xyzp(x,y,z)logp(x|y,zp(x)=I(X;Z)+I(X;Y|Z)

相对熵

一个变量的两种概率分布

D(p//q)=xp(x)logp(x)q(x)

表示实际分布p(x)和假定分布q(x)之间的平均差距,也称为鉴别熵

相对熵的性质

  • 非负D(p//q)>=0
  • 非对称D(p//q)(q//p)
  • 与互信息关系I(X;Y)=D(p(xy//p(x)p(y))>=0

疑义度

错误概率

PE=k=0K1jPr{X=k,X^=j}

fano不等式

H(X|X^)<=H(PE)+PElog(K1)

马尔可夫链

每个随机变量都是前一个随机变量一步处理的结果,任意一个节点已知,后面的变量和前面没得变量条件独立。

p(xyz)=p(x)p(y|x)p(z|y)p(z|xy)=p(z|y)p(xz|y)=p(x|y)p(z|y)ZYXI(X;Z|Y)=0
  • 马尔可夫链是可逆的

数据处理定理

如果XYZ

I(X;Y)>=I(X;Z),I(X;Y)>=I(X;Y|Z)

四变量马尔科夫链

graphLRU>XX>YY>VI(X;Y)>=I(U;V)

互信息的凸性

I(X;Y)=I({q(x)},{p(y|x)}

互信息I(X;Y)是关于输入分布{q(x)}和转移概率矩阵{p(y|x)}的函数

连续随机变量的互信息

I(X;Y)=pXY(x,y)logpXY(x,y)pX(x)pY(y)dxdyI(X;Y|Z)=pXYZ(x,y,z)logp(x,y|z)p(x|z)p(y|z)dxdydzI(X;YZ)=pXYZ(x,y,z)logp(x,y,z)p(x)p(yz)dxdydz

基本性质

I(X;Y)>=0I(X;Y)=I(Y;X)I(X;YZ)=I(X;Y)+I(X;Z|Y)

连续随机变量微分熵

连续随机变量的熵无穷大,所以引入微分熵的概念来衡量连续变量的相对不确定性

HC(X)=h(x)=pX(x)logpX(x)dx

HC (X )不具有线性变换不变性,可正、可负

条件微分熵

HC(X|Y)=pXY(x,y)logp(x|y)dxdy

联合微分熵

HC(X,Y)=pXY(x,y)logp(x,y)dxdy=HC(X)+HC(Y|X)=HC(Y)+HC(X|Y)

微分熵极大化

峰值受限

若 峰值受限于[-M,+M] 即 则 X为均匀分布微分熵最大

HC(X)<=In2M

功率受限

若X的方差不大于σ2,则X为高斯分布时微分熵最大

HC(X)<=1/2In2πeσ2

熵功率

  • 定义连续随机变量 的熵功率为σX2^=12πee2HC(X)
  • 高斯随机变量的微分熵HC(X)=12In(2πeσ2)
  • 高斯变量熵功率σX2^=12πee2HC(X)=σ2

熵功率不等式

HC(X)<=In(2πeσ2)σX2^=12πee2HC(X)<=σ2

功率一定时,高斯变量的熵功率最大,与功率相等

平稳源

平稳源:任意长度的片段的联合概率分布与时间起点无关

Pr(X1X2...XN=x1x2...xN)=Pr(XL+1XL+2...XL+N=x1x2...xN)

简单无记忆源

Pr(X1X2...XN=x1x2...xN)=n=1NPr(Xn=xn)

平稳源的熵

平均每符号熵

HN(X)=1NH(X1X2...XN)

熵速率

H(X)=limNHN(X)

熵相对率

η=H(X)logK

信源冗余度

R=1η

平均条件熵

H(XN|XN1XN2...X1)

平稳源熵的性质

  • 单调增
  • $HN(X)>=H(X_N|X{N-1}…X_1)$
  • $H{\infty}(X)=\lim{N\to\infty}HN(X)=\lim{N\to\infty}H(XN|X{N-1}…X_1)$

马尔科夫源

Pr(Xl|Xl1Xl2...X1X0)=Pr(Xl|Xl1...Xlm)

马尔科夫源的状态图

  • 时齐(时不变)马尔科夫源:状态转移概率pij(n)与时间n无关。
    到达任一其它状态。
  • 既约(不可约)马尔科夫源:
    从任一状态出发,经有限步总可以
  • 状态转移概率矩阵:P=[pij]Km×Km
  • n时刻的状态概率分布:Q(n)=(q1(n),q2(n)...qKm(n))Q(n+1)=Q(n)P
  • 对时齐既约马尔科夫源,状态的稳态分布存在Q^=limnQ(N+1)=limnQ(n)P=Q^P

    马尔科夫的熵率

    H=H(X|S)