卡尔曼滤波中文.docx

资源描述

卡尔曼滤波中文.docx

《卡尔曼滤波中文.docx》由会员分享，可在线阅读，更多相关《卡尔曼滤波中文.docx（24页珍藏版）》请在冰豆网上搜索。

卡尔曼滤波中文.docx

卡尔曼滤波中文

处理线性滤波以及预测问题的一种新途径R.E.Kalman1引言通讯与控制中的理论与实际问题中有很重要的一类具有统计性质。

这样的问题有：

（1）、随机信号的预测；

（2）、从随机噪声中分离随机信

号；（3）、在有噪声的情况下探测已知形式的信号（脉冲、正弦波）。

在Wiener开拓性的工作中，他证明[1]从问题

（1）和问题

（2）可导

出所谓Wiener-Hopf积分方程；他同样给出了解决具有实际重要意义的特

殊情况——定态统计和有理数频谱——之积分方程的方法（频谱因式分解）。

在Wiener的基础性工作之后出现了许多延伸和推广。

Zadeh与

Ragazzini给出了有限存储器情况的解[2]。

Bode和Shannon[3]同时独

立的给出上述情况的解，并且给出了简化的求解方法。

Booton讨论了非定

态统计Wiener-Hopf方程[4]。

这些结果现在都写入了标准教科书中[5,6]。

最近Darlington[7]沿着这些主线给出了一种稍微有些不同的方法。

对抽

样信号的延伸，参见Franklin[8]和Lees[9]的工作。

基于Wiener-Hopf方

程（同样应用于非定态问题，尽管前述方法一般并非如此）特征函数的

方法由Davis[10]开创并被许多其他人应用，例如Shinbrot[11],Blum[12],

Pugachev[13],Solodovnikov[14].

在所有这些工作中，目标都是获取一个线性动力系统的明确说明

（Wiener滤波器），由此可以完成预测、分离或者探测随机信号。

现有求解Wiener问题的方法受制于若干限制，这样就使得它们的实际

用处收到削弱：

1.最佳的滤波器由其脉冲响应具体指定。

由这些数据合成滤波器并非易

事。

2.数值确定最佳的脉冲响应往往十分复杂并且不很适合机器计算。

这种

情况随着问题复杂度的增加而迅速变得更为糟糕。

11引言2

3.重要的推广（如增长存储器滤波器、非定态预测）需要新的推导过

程，经常给非专业人士带来相当大的困难。

4.这些推导过程的数学部分并不透明。

基本假设及其后果趋于模糊。

本文回避上述困难，提出看待这些问题的整个集合的新方式。

以下是

本文的亮点：

5.最佳估计和正交投影。

Wiener问题是以条件分布与期望的观点处理

的。

这样，Wiener理论的基本事实可以迅速获取；结果的范围以及基

本假设可以清楚的显现出来。

可以看到所有的统计计算以及结果都基

于一阶和二阶平均；不需要其他的统计数据。

这样一来困难（4）便被

排除。

这种方法在概率论中为人们所熟知（见Doob[15]第148至155

页以及Lo`eve[16]第455至464页），但在工程上还没有大量的应用。

6.随机过程模型。

继前人之后，尤其是Bode与Shannon[3],任意随机

信号可以被表示（直到二阶平均统计性质）为线性动力系统受独立或

不相关随机信号（“白噪声”）激励后的输出。

这是工程上应用Wiener

理论的标准手法[2,3,4,5,6,7]。

这里用到的方法与传统方法相比只

在线性动力系统的描述方法上不同。

我们将强调状态以及状态过渡；

换言之，线性系统将以一阶差分（或微分）方程组来刻画。

为了利用

（5）中提到的简化，这种观点是自然的，也是必要的。

7.求解Wiener问题。

使用状态——过渡方法，单独一次推导即覆盖多

种问题：

增长与有限存储器滤波器、定态与非定态统计等等；（3）中

的困难消失了。

正确猜测出估计问题的“状态”后，接下来就是最

佳估计误差协方差矩阵的非线性差分（或微分）方程。

这个方程与

Wiener-Hopf方程有些相似。

对方称的求解开始于观测开始的t0时

刻；随后每个时刻t方程的解都代表给定区间（t0,t

）上观测的最佳预

测误差协方差。

从t时刻的协方差矩阵我们立刻可以获得刻画最佳线

性滤波器的系数，而无需进一步的计算。

8.对偶问题。

对Wiener问题的新的公式化使其接触到基于“状态”观

点的成长中的控制系统新理论[17,18,19,20,21,22,23,24]。

令人惊

讶的是，Wiener问题是无噪声最佳调整器问题的对偶，而此问题已

经被本文的作者利用状态——过渡方法解决[18,23,24]。

两个问题的2符号约定3

数学背景完全一致——这一点一直以来都被人们所怀疑，但直到现在

两者的类比才被明确指出。

9.应用。

新方法的威力在理论调研与复杂实际问题的数值解答中大多显

而易见。

在后面的案例中，最好借助机器计算。

这种类型的例子将在

后面讨论。

为了给应用提供一些感觉，包含了两个非定态预测的标准

例子；在这些例子中，（7）中提到的非线性差分方程甚至可以得到近

似形式的解。

为了参考方便，主要结果都用定理的形式显示。

只有定理3和定理4

是原创的。

下一个章节以及附录主要服务于用适用于当前目的的形式来回

顾人们熟知的资料。

符号约定贯穿本文，我们主要与离散（或者抽样）动力系统打交道；换句话说，

信号将在等间距的时刻（抽样瞬间）被观测到。

选择合适的时间尺度，相

邻两次抽样瞬间的时间间隔常数（抽样周期）可以被选择为单位时间。

如

此一来，表示时间的变量如t,t0,

τ,T等将一直是整数。

对离散动力系统

施加这样的约束条件并不是必需的（至少从工程的角度来看是这样）；使用

这样的离散性，我们可以保有严密的、基础的数学。

矢量将用小写粗体字

母如a,b,...,x,y,...表示。

矢量，或者更精确的说，n维矢量是n个数

x1,...,xn的集合；

xi是矢量x的坐标或分量。

矩阵将使用大写粗体字母A,B,Q,Φ,Ψ,...表示；它们是元素aij,

bij,

qij,

...的m×n维数列。

矩阵的转置（交换行与列）用一撇来表示。

使用

公式时，为求方便，视矩阵为只有一列元素的矩阵。

使用传统的矩阵乘法定义，我们将两个n维矢量x,y的标量积写成

x′y

=n∑i=1xiyi=y′x

标量积显然是标量，也就是说并非矢量。

类似的，关于n×n维矩阵Q的

二次型是，

x′Qy

=n∑i,j=1xiqijxj2符号约定4

我们定义表达式xy′（式中

x′是m维矢量，y是n维矢量）为m×n维

矩阵，矩阵元为xiyj.

我们将随机矢量x的期望值记为E（x）=Ex（见附录）。

为方便起见，

通常省略E后面的括号。

因为常数与E算符对易，故这种省略在简单情

况中并不会引起混淆。

从而，Exy′是矩阵元为

E（xiyj）的矩阵；ExEy

是以E（xi）

E（yj）为矩阵元的矩阵。

为方便参考，下面给出基本符号表：

最佳估计

t时间，当前时间。

t0观测开始时刻。

x1（

t）,x2（t）基本随机变量。

y（t）观测到的随机变量。

1（

t1|t）给定y（t0）,...,y（t）之后对x1（t1）的最佳估计。

L损耗函数（是其自变量的非随机函数）。

估计误差（随机变量）。

正交投影

Y（t）随机变量y（t0）

...,y（t）生成的线性流形。

ˉx（t1|

t）x（t1）在Y（t）上的正交投影。

x（t1|

t）x（t1）正交于Y（t）的分量。

随机过程模型

Φ（t+1;t）过渡矩阵。

Q（t）随机激励的协方差。

求解Wiener问题

x（t）基本随机变量。

y（t）观测到的随机变量。

Y（t）由y（t0）

...,y（t）生成的线性流形。

Z（t）由

y（t|t?

1）生成的线性流形。

（

t1|t）给定Y（t）之后对x（t1）的最佳估计。

x（t1|

t）给定Y（t）之后对x（t1）最佳估计的误差。

3最佳估计53最佳估计为具体描述将要研究问题的类型，需考虑以下情况。

已知信号x1（t）和

噪声x2（

t）.只能观察到和y（t）=x1（t）+x2（t）.假定我们已经观测并确切的

知道y（t0）

...,y（t）的值，关于t=t1（t1可能小于、等于或者大于t）处

的值（非观测量）我们可以从已知信息中推断出什么？

如果t1

这是数

据平滑（插值）问题。

如果t1=

t,这称为滤波。

如果t1>t，称为预测问

题。

既然我们有足够一般性的方法来处理以上以及类似的问题，以下我们

将使用共同的术语估计。

正如Wiener指出[1]的那样，估计问题的天然背景属于概率论和统计

学的范畴。

因此信号、噪声以及它们的和都是随机变量，进而它们可被视

为随机过程。

从随机过程的概率论描述中我们可以确定特定信号或者噪声

抽样发生的概率。

对于随机变量y（t）的任意给定的测量值η（t0）

...,η（t）

原则上也可以确定随机变量x1（

t1）于同一时刻取不同值ξ1（t）的概率。

这

就是条件概率分布函数

Pr[x1（

t1）≤ξ1|y（t0）=η（t0）,...,y（t）=η（t）]=F（ξ1）

（1）

显然，F（ξ1）

代表了随机变量y（t0）,...,y（t）测量结果传递的关于随机变

量x1（

t1）所有信息。

随机变量x1（t1）的任何统计估计都是上述分布的某种

函数，因而是随机变量y（t0）

...,y（t）的（非随机）函数。

该统计估计记为

X1（

t1|t）,如果观测到的随机变量集合或者待估计时间在上下文中是明确的，

也可记为X1（

t1）或者X1.

假定X1以随机变量

y（t0）,...,y（t）的固定函数的形式给出。

那么

X1本身就是一个随机变量，只要

y（t0）,...,y（t）的实际值已知，即可知

X1的实际值。

一般来说，

X1（t1）的实际值与x1（t1）的（未知）实际值

是不同的。

为了取得确定X1的合理方法，自然要为不正确的估计指定罚函数或损耗函数。

确切的说，损耗函数应当

（1）非负，

（2）是估计误

差?

=x1（

t1）?

X1（t1）的单调不递减函数。

故此，定义损耗函数

L（0）=0

L（?

2）

≤L（?

1）≤0when?

2≤?

1≤0

（2）

L（?

）=L（?

）

常见的损耗函数有：

L（?

）=a?

2,a?

4,a

|,a[1?

exp（?

2）]等等，其中a是

大于零的常数。

3最佳估计6

一种（但并非唯一的）自然而然的选择随机变量X1的方法是令选取

的值最小化损耗或风险的平均值

E{L[x1（

t1）?

X1（t1）]}=E[E{L[x（t1）?

X1（t1）]|y（t0）,...,y（t）}]（3）

既然式3右边第一个期望值不依赖于X1的选择，而是由

y（t0）,...,y（t）唯

一决定，所以最小化refeq3等价于最小化

E{L[x1（

t1）?

X1（t1）]|y（t0）,...,y（t）}（4）

在少量附加的假设之下，最佳估计就可以用简单的方法刻画出来。

定理1.假定L如式2且由式1定义的条件分布函数F（ξ）：

A关于均值

ξ对称：

F（ξ?

ξ）=1?

F（

ξ?

xi）

B对ξ≤

ξ是凸的：

F（λξ1+（1

λ）ξ2）≤λF（ξ1）+（1?

λ）F（ξ2）

forallξ1,ξ2≤

ξand0≤λ≤1

则最小化损耗（式3）的随机变量x?

1（

t1|t）是条件期望

1（

t1|t）=E[x1（t1）|y（t0）,...,y（t）]（5）

证明：

正如Sherman最近所指出[25]的，该定理是概率论中一个著

名引理的直接结论。

推论.如果随机过程x1（

t）,x2（t）和y（t）是高斯的，则定理1成立。

证明：

由定理3（见附录），高斯随机过程的条件概率仍然是高斯的。

因而总是满足定理1的要求。

在控制系统的文献中，上面的定理以某种程度上更为受限而换言之也

更为一般的形式出现：

定理1-A.如果L（?

）=?

那么无需假设A和B定理1即成立。

4正交投影8

考虑（实值）随机变量y（t0）

...,y（t）.系数为实数的这些随机变量的

所有线性组合的集合t∑i

=t0aiy（i）（6）

构成一个矢量空间（线性流形），记为Y（t）.我们将所有形如式6的表达式

抽象的视为Y（t）上的“点”或“矢量”。

当然，此处使用的“矢量”当不

与随机矢量中的“矢量”或者其它地方的“矢量”相混淆。

由于我们并不

想限定t的值（可能的观测的总数），故Y（t）应该被视为所有可能的观测

空间的有限维子空间。

任意给定Y（t）中的两个矢量u,v（即可由式6表达的随机变量），如

果Euv=0我们就说u,v是正交的。

使用Schmidt正交化过程，正如

Doob[15]（第151页）或Lo`eve[16]（第459页）借助实例描绘的，很容易

就可以找出Y（t）的一组正交基，亦即，Y（t）的一组正交矢量et0,...,et,

使用这组矢量，Y（t）中的任意矢量都可以被唯一的表示为et0,...,et的线性组合，且

Eeiej=

δij=1如果i=j

=0如果i?

=j}（

i,j=t0,...,t）（7）

故Y（t）中的任意矢量可写成

ˉx=t∑i

=t0aiei系数ai也可借由7立刻得出

Eˉxej=

E[t∑i=t0aiei]ej=t∑i=t0aiEeiej=t∑i=t0δij=aj（8）

进一步的，所有随机变量x（并不一定是Y（t）中的）可以唯一的被分

解成两部分：

一部分为ˉx在Y（t）中，另一部分同Y（t）正交（即同Y（t）中

所有矢量都正交）。

事实上，我们可以将其写为

x=ˉx+?

x=t∑i

=t0（Exei）ei+?

x（9）

故ˉx可以由式9唯一确定，且显然是Y（t）中的矢量。

这样?

x也被唯一的确

定了；接下来检验其是否与Y（t）正交：

xei=

E（x?

ˉx）ei=Exei?

Eˉxei4正交投影9

ˉx关于基et0,...,et的坐标或者如式

8以Eˉxei的形式给出，或者

如式9以Exei的形式给出。

既然坐标是唯一的，故

Exei=Eˉxei（i=

t0,...,t

）；因此E?

xei=0,?

x与每个基矢量ej都正交；也就是说与Y（t）正

交。

我们称?

x为x在Y（t）上的正交投影。

这里还有另外一种表征正交投影的方式：

ˉx是Y（t）上最小化二次型损

耗函数的矢量（即随机变量y（t0）

...,y（t）的线性组合）。

事实上，如果ˉw

是Y（t）上的任意另一矢量，有

E（x?

ˉw）2=

E（?

x+ˉx?

ˉw）2=E[（x?

ˉx）+（ˉx?

ˉw）]2既然?

x与Y（t）上的所有矢量，特别的，与ˉx?

ˉw正交，有

E（x?

ˉw）2=

E（x?

ˉx）2+E（ˉx?

ˉw）2≥E（x?

ˉx）2（10）

恰好证明，如果ˉw也最小化二次型损耗函数，则必有E（ˉx?

ˉw）2=0

即，

随机变量ˉx和ˉw相等（除非对于概率为零的一组事件）。

以上结果摘要如下：

定理2.令{x（t）},{y（t）}为零均值的随机过程（即，对于一切t均有

Ex（t）=Ey（t）=0）。

观测y（t0）

...,y（t）.

如果有

A随机过程{x（t）},{y（t）}是高斯的；或者

B将最佳估计限定为观测随机变量的线性函数且L（?

）=?

2；

那么

（

t1|t）=给定y（t0）,...,y（t）对x（t1）的最佳估计

=x（t1）

在Y（t）上的正交投影（11）

以上结果为人们所熟知，尽管这在控制系统文献中并不容易获取。

见

Doob[15]第75至78页，或着Pugachev[26]。

有时为求方便，将正交投影

记为

ˉx（t1|

t）≡x?

（t1|t）=

E[x（t1）|Y（t）]

使用记号

E的目的是：

如果讨论的随机过程是高斯的，则正交投影盒条件

期望事实上是一样的。

证明：

5随机过程模型10

A关于式10评论的直接结果。

B既然x（t）,y（t）都是零均值的随机变量，从式9可知，x（t1）

关于Y（t）

的正交部分?

x（t1|

t）也是零均值的随机变量。

零均值随机变量是不相

关的；如果同时他们也是高斯的（由于定理3B部分），则他们是独立

的。

所以

0=E?

x（t1|

t）=E[?

x（t1|t）|y（t0）,...,y（t）]

=E[x（t1）

ˉx（t1|t）|y（t0）,...,y（t）]

=E[x（t1）

|y（t0）,...,y（t）]?

ˉx（t1|t）=0

评论。

（四）、t→∞时本部分内容的严格公式化需要希尔伯特空间

的一些基本概念。

见Doob[15]与Lo`eve[16]。

（五）、定理2的物理学阐述大体上。

如果我们不担心高斯性质的假设，

A部分证明正交投影是所有合理损耗函数的最佳估计。

如果我们确实担心

高斯性质的假设，甚至我们只考虑线性估计，对于多数合理的损耗函数而

言，正交投影都不是最佳估计。

由于事实上一个有物理来源的随机过程在

多大程度上是高斯的很难把握，定理2究竟具有很广泛的还是很有限的重要

性也很难判断。

（六）、直接将定理2推广为矢量值随机变量的情况。

事实上，定义

y（t0）

...,y（t）生成的线性流形Y（t）为随机矢量y（t0）,...,y（t）中每一个的

所有m个分量的所有线性组合t∑i

=t0m∑j=1aijyj（i）

的集合。

随后的部分可仿效前面的部分。

（七）、定理2有效的说明了，条件A或B下最佳估计是所有既往观测

的线性组合。

换言之，最佳估计可考虑成线性滤波器的输出，滤波器的输

入是可观测随机变量实际发生的数值；定理2为计算最佳滤波器的脉冲响应

提供了方法。

正如前面指出的，对脉冲响应的认识并不是问题的完整的解；

出于这个原因，不会给出计算脉冲响应的显式的公式。

随机过程模型在同物理现象打交道时，仅仅给出经验性的描述是不够的，还必须对

潜在的原因有一定了解。

如果不能在某种意义上区分原因和影响，亦即，5随机过程模型11

如果没有因果关系的假设，那么就几乎无法期待有用的结果。

通常人们都接受这样一个事实，即随机现象的主要宏观来源是独立的

高斯过程。

一个著名的例子是电阻中由热扰动造成的噪声电压。

在大多数

情况下，观测到的随机现象不能通过独立的随机变量来描述。

通常，不同

时刻观测到的随机信号之间的统计依赖性（相关性）是由主要随机来源于

观测者之间存在动力学系统来解释的。

因此以时间为自变量的随机函数可

以考虑为接受独立高斯随机过程激励的动力学系统的输出。

高斯随机信号的一个重要属性是，当它们通过线性系统之后，它们仍

然是高斯的（定理3的A部分）。

假定有独立的、高斯的主要随机源，如果

观测到的随机信号也是高斯的，我们即可假定观测者与主要源之间的动力

学系统是线性的。

我们之所以必须接受这条结论，也是因为对观测到的随

机信号的统计属性缺乏细致的了解：

给定已知一阶、二阶平均的任意随机

过程，我们可以找到具有相同属性的高斯随机过程（定理3的C部分）。

因

此，高斯分布和线性动力学性质是自然而然的、互为印证的假设，特别是

当统计数据贫乏的时候。

一个动力学系统（线性的或非线性的）是如何被描述的？

基本思想是

状态的概念。

这意味着，直观的来说，一些定量的信息（数的集合、函数，

等等）。

如果要预测系统的未来行为，这些信息就是必须知道的有关系统过

去行为的最少量数据。

这样，动力学性质就用术语状态过渡来描述，即，

必须指出随着时间的流逝，状态是如何过渡成另一个状态的。

线性动力学系统一般可以用矢量微分方程

dx/dt=F（t）x+D（t）u（t）

和

y（t）=M（t）x（t）?

（12）表示，其中x是n维矢量，系统的状态（x的分量xi称为系统的

状态变

量）；u（t）是m维（m≤n）矢量，表示系统的输入；F（t）和D（t）分别

是n×n和n×m维矩阵。

如果F（t）,D（t）,M（t）的所有系数都是常数，我

们就说动力学系统（式12）是时不变或定态的。

最后，y（t）是p维矢量，

表示系统的输出；M（t）是n×p维的矩阵；p≤n.

式12的物理阐释已经在别的文献中详细讨论过[18,20,23]。

图1或许有

所帮助。

这是一副矩阵框图（图中箭头指示信号流向）。

图1中的积分号事

实上表示n个积分器，每个积分器的输出都是标量变量；F（t）表明积分器

的输出如何反馈到积分器的输入。

故fij（

t）是第j积分器的输出反馈到i5随机过程模型12

积分器的输入的系数。

将这种重视形式的方法与更为传统的线性系统分析

方法联系起来并不困难。

（t）

x（t）u（t）

D（t）˙

x（t）M（t）

y（t）图

一般线性连续动力学系统的矩阵框图

如果我们假定如式12的系统是定态的，u（t）在每个抽样周期都不变，

即

u（t+τ）=u（t）;0≤τ<1,t=0,1,...（13）

那么式12立即可以变形成更方便的离散形式。

x（t+1）=Φ

（1）x（t）+?

（1）u（t）;t=0,1,...

其中[18,20]

（1）=expF=∞∑i

=0Fi/i!

（F0=unitmatrix）

且

（1）=（

∫1

0exp

Fτdτ）D

见图2。

也可以通过拉普拉斯变换的方法[18,20,22,24]将Fτ表达成闭合

的形式。

如果u（t）满足式13但系统（式12非定态，类似的

x（t+1）=Φ（t+1;t）+?

（t）u（t）

y（t）=M（t）x（t）}t

=0,1,...（14）

但是显然现在无法用闭合形式表示Φ（t+1;t）,?

（t）.形如式14的方程也经

常在研究复杂的抽样数据系统中遇到[22],见图2.

Φ（t+1;t）是系统（如式12或式14）的过渡矩阵。

记号Φ（t2;

t1）意味

着从时刻t1到时刻

t2的过渡。

显然，Φ（t;t）=I=单位矩阵。

如果系统5随机过程模型13x（t+1）x（t）u（t）M（t）

y（t）

Φ（t+1;t）

（t）

unit

delay图

一般线性离散动力学系统的矩阵框图

（如式12）是定态的，那么Φt+1;t=Φ（t+1?

t）=Φ

（1）=常数。

注意

乘法规则：

Φ（t;s）Φ（s;r）=Φ（t;r）和倒数规则Φ?

1（t;s）=Φ（s;t）,其中

t,s,r都是整数。

定态系统中，Φ（t;τ）=expF（t?

τ）.

作为前面讨论的结果，我们将用

x（t+1）=Φ（t+1;t）x（t）+u（t）（15）

模型来代表随机性现象，其中{u（t）}是矢量值独立高斯随机过程，均值为

零，完全由

Eu（t）=0对于一切t;

Eu（t）u′（

s）=0如果t?

Eu（t）u′（

t）=G（t）.

描述（依照定理3C的观点）。

当然（定理?

A），x（t）也是零均值的高斯随

机过程，但不是独立的。

事实上，如果我们认为式15处于稳定状态（假设

是稳定系统），换句话说，如果我们忽略初始状态x（t0）

那么

x（t）=t

1∑r=?

∞Φ（t;r+1）u（r）.

因此如果t≥s有

Ex（t）x′（

s）=s?

1∑r=?

∞Φ（t;r+1）Q′（r）Φ′（s;r+1）.

那么如果我们设想一个线性动力学系统并且知道高斯随机激励的统计学属

性，则可以简单的找到相应的高斯随机{x（t）}过程属性。

6求解WIENER问题14

但是在现实生活中，情况通常是相反的。

给定协方差矩阵Ex（t）x′（

s）

（或者甚至要试着从有限的统计数据中估计该矩阵）问题是得到式15和u（t）

的统计学属性。

这是实验与数据处理中很微妙且当前大部分悬而未决的问

题。

正如在大多数Wiener问题的工程学著作中那样，我们将发现从式15的

模型开始，将获得模型本身视为单独的问题是很方便的。

展开阅读全文