矩阵方程的求解主要分为三类

  • 超定矩阵方程,m>n,A,b已知
  • 盲矩阵方程:b已知,A未知
  • 欠定稀疏矩阵方程:m<n,A,b已知但x未知且稀疏

最小二乘法(LS)

普通最小二乘

考虑超定矩阵方程Ax=b,m>n,为了抵制误差对矩阵方程求解的影响,引入一校正向量△b,并用它去“扰动”有误差的数据向量b。我们的目标是,使校正项△b“尽可能小”

Ax=b

m>n时为超定方程

b=b0+eb+Δbb0

问题可以理解为使

||Δb||2min

的优化问题

Ax=b+ΔbL(x)=||Axb||22=(Axb)H(Axb)L(x)x=AHAxAHb=0xLS=(AHA)1AHb

对于秩亏缺rankA<n的超定方程,最小二乘解为

xLS=(AHA)AHb

高斯马尔可夫定理

在参数估计理论中,称参数向量θ的估计θ^为无偏估计,若它的数学期望值等于真实的未知参数向量,即Eθ^=θ。进一步地,如果一个无偏估计还具有最小方差,则称这一无偏估计为最优无偏估计。

类似地,对于数据向量b含有加性噪声或者扰动的超定方程Aθ= b+e,若最小二乘解θLS的数学期望等于真实参数向量θ,便称最小二乘解是无偏的。如果它还具有最小方差,则称最小二乘解是最优无偏的。

高斯马尔科夫定理指出了最优无偏解的条件,对于线性方程组

Ax=b0+e

满足

{E(e)=0cov{e}=E{eeH}=σ2I

当且仅当rank(A)=n时,最优无偏解为最小二乘解

xLS=(AHA)1AHb

LS解与最大似然解的等价性

若加性误差向量e=[e1,,em]T为独立同分布的复高斯随机向量,其概率密度函数为

f(e)=1πm||eexp[(eue)H(eUe)]maxlogf(e)==1σ2eHemaxf(e)==min||Axb||22

所以在高斯马尔科夫条件下,矩阵方程的最大似然解等价于最小二乘解,但误差向量方程不同时,两者不相等

x^ML=x^LS

数据最小二乘(DLS)

与普通最小二乘不同,我们假定b无噪声,数据矩阵A=A0+E有噪声,我们加入校正矩阵ΔA对A进行校准

A=A0+E(A+ΔA)x=b

我们的问题变为

min||ΔA||F2,s.t.(A+ΔA)x=b

我们采用拉格朗日乘子法进行求解

L(x)=||ΔA||F2+λH(Ax+ΔAxb)=tr(ΔAΔAH)+λH(Ax+ΔAxb)L(x)ΔAT=(ΔAH)+xλH=0ΔA=λxH

代入约束条件

(A+ΔA)x=bλxHx+Ax=bλxHx=Axbλ=AxbxHxΔA=AxbxHxxHJ(x)=||ΔA||F2=tr((Axb)(Axb)HxHx)=||Axb||22||x||22

得到数据最小二乘

x^DLS=argminx(AXb)H(Axb)xHx

求导问题

x为一个列向量

  • 行向量求偏导xT=[x1,...,xn]
  • 列向量xT=[x1,...,xn]T
  • example(aTx)xT=aT(aTx)x=a
  • 矩阵求导L=tr(ΔAΔAH)+λH(Ax+ΔAb)LΔAT=ΔAH+xλH=0

Tikhonov 正则化方法

因为在真实问题中往往存在秩亏缺,所以在最小二乘的代价函数的基础上我们进行改进,加入了正则化参数,在神经网络的代价函数经常用到

J(x)=minx||Axb||22+λ||x||22J(x)=xHAHAxxHAHbbHAx+bHb+λxHxJ(x)x=AHAxAHb+λx=0(AHA+λI)x=AHbx^Tik=(AHA+λI)1AHb

这种使用(AHA+λI)1代替协方差矩阵的直接求逆(AHA)1的方法常称为Tikhonov正则化(Tikhonov regularization),或简称正则化方法(regularized method)。

Tikhonov正则化方法的本质是:通过对秩亏缺的矩阵A 的协方差矩阵 AHA 的每一个对角元素加一个很小的扰动λ,使得奇异的协方差矩阵AHA 的求逆变成非奇异矩阵(AHA+λI)的求逆,从而大大改善求解秩亏缺矩阵方程 Ax = b 的数值稳定性。

反正则化去燥

显然,若数据矩阵A 满列秩,但存在误差或者噪声时,就需要采用与Tikhonov正则化相反的做法,对被噪声污染的协方差矩阵AHA 加一个很小的负扰动矩阵λI

minx||Axb||22λ||x||22x^=(AHAλI)1AHb

总体最小二乘(TLS)

在A,b同时存在误差的最小二乘方法

A=A0+Eb=b0+emin||ΔA,Δb||F2

我们的约束优化问题转化为了

min||ΔA,Δb||22=||ΔA||22+||Δb||22,s.t.(A+ΔA)x=b+Δb([A,b]+[ΔA,Δb])[x1]=0

A=[A,b]ΔA=[ΔA,Δb])x=[x1]

原方程转化为数据最下二乘问题

(A+ΔA)x=0minx(Axb)(Axb)HxHx=minxHAHAxxHx=min||Axb||22||x||22+1

B=[A,b]

其奇异值分解为

B=UΣVH

总体最小二乘的解为

x=1v(n+1,n+1)Vmin

总体最小二乘的几何意义

和点到线的距离相似$ai^Tib_iix{TLS}$是使

minx||Axb||22||x||22+1=i=1n|aiTxbi|2xTx+1

问题转化为了点集(ai,bi)到直线b=ax的最小距离平方和

的极小化变量

总体最小二乘闭式解

若增广矩阵B=[A,b]的奇异值为$\sigma1≥…\sigma{n+1}$,则总体最小二乘解可表示成

xTLS=(AHAσn+12I)1AHb

与Tikhonov 正则化比较知,总体最小二乘是一种反正则化方法,可以解释为一种具有噪声清除作用的最小二乘方法:先从协方差矩阵 ATA中减去噪声影响项σn+12I,然后再矩阵求逆,得到最小二乘解。

四种最小二乘的比较

优化目标

对应解

x^LS=(AHA)1AHbx^Tik=(AHA+λI)1AHbx^TLS=(AHAσn+12I)1AHb

总体最小二乘拟合直线

普通最小二乘考虑拟合误差平方和最小化,对于直线m(xx¯)+(yy¯)=0,代价函数为

DLS(1)=i=1n[(xix¯)+m(yiy¯)]2DLS(2)=i=1n[m(xix¯)(yiy¯)]2

对于若干数据点集,我们用直线ax+by+c=0拟合,,总体最小二乘考虑数据点距离平方和的最小化

DTLS=i=1n[a(xix^)+b(yiy^)]2a2+b2

我们把D转化为单位向量t与M的乘积

对此,我们有定理,单位法向量t=(a2+b2)1/2[a,b]T取矩阵MtM的最小特征值$\lambda{min}\lambda{min}$

DTSL=(Mt)TMt||t||22=tTMTMt||t||22

example

对于三个数据点(2,1),(2,4),(5,1)

x¯=13(2+2+5)=3y¯=13(1+4+1)=2M=[231223425312]=[111221]MTM=[6336]=[12121212][9003][12121212]

所以法向量t=[1/2,1/2]T
得到拟合直线为

12(x3)+12(y2)=0

距离平方和为

DTLS=3

如果采用普通最小二乘

DLS(1)=1m2+1i=1n[(xix¯)+m(yiy¯)]2DLS(1)m=6m3=0

平均约束的总体最小二乘

[A,b][x1]=0Cx=0

考虑存在于增广矩阵中的噪声矩阵

D=[E,e]

引入校正矩阵,矩阵中每个列向量都与向量u相关

ΔC=[G1u,G2u...Gn+1u]Rm×(n+1)

我们的问题转化为了约束优化问题

minu,xuTWus.t.(A+ΔA)x=b+Δb[ΔA,Δb]=[G1u,G2u...Gn+1u]

W为加权矩阵,通常为对角矩阵,或者单位矩阵

min||u||22