Kaiman滤波算法在FPGA上的设计与实现
扫描二维码
随时随地手机看文章
Kalman滤波理论在20世纪60年代一经提出,便得到了军事、控制、通信等领域的极广泛的应用。它可以实现随机干扰下的线性动态系统的最优估计,目前Kalman滤波器的实现方式主要有两种,一是在PC机上实现,可以同时满足计算精度和实时性的要求,但是PC机体积大,质量重,成本高;二是通过DSP等芯片来实现,用这种方式实现的Kalman滤波器虽然体积小,质量轻,但是因其指令顺序执行的CPU架构,在系统复杂时无法满足系统的实时性要求。随着控制系统的复杂性的提高,系统的阶次变大,如组合导航系统的滤波,其滤波的阶次一般都要18阶,如果对系统进一步细化建模或增加其复杂性,其滤波阶次可以达到几十阶。因此,Kalman滤波器在工程应用中的实现遇到了系统体积、重量、成本和系统精度、速度等性能不能兼顾的问题。随着现代电子技术的发展,FPGA具有系统结构和逻辑单元灵活、集成度高以及适用范围宽等特点,可以很好地解决这个难题。因为FPGA采用的是硬件并行算法,能很好的解决速度和实时性的问题,并且其具有灵活的可配置特性和优良的抗干扰能力,使得FPGA构成的数字信号处理系统非常易于修改、测试及硬件升级。随着FPGA技术的不断成熟,其内嵌资源不断丰富,硬核乘法器和块RAM的数目不断增长,使得FPGA实现复杂的数字信号处理算法变得更为简单和快速。因此,本文对FPGA技术和Kalman滤波算法进行结合研究,探索Kalman滤波算法在FPGA中的实现方式并进行性能验证,以对基于FPGA的Kalman滤波算法的工程实现提供参考。
1 Kalman滤波算法理论
Kalman滤波是在时域内以信号的一、二阶统计特性已知为前提、以均方误差极小为判据,能自动跟踪信号统计性质的非平稳变化,具有递归性质的一种算法。它处理的对象是随机系统,并能正确估计出有用信号。设离散系统差分方程如下:
则Kalman滤波方程组如下:
状态一步预测方程:
从式(1)~(6)可知,若利用传统的处理器实现Kalman滤波算法,由于其指令执行的顺序性,至少需要分为5步来实现,其中每一步还都需要进行至少1次的加法和乘法等运算,每次运算都要顺序执行,其执行速度和效率很低;如果利用FPGA来进行Kalman滤波,根据其各步的逻辑关系,可以分为3步来实现,即第一步计算状态一步预测值和一步预测均方误差Pk+1/k,第二步计算滤波增益Kk+1,第三步计算状态最优估值和估计均方误差Pk+1/k+1。由此可知,利用FPGA技术可以实现Kalman滤波的并行计算,压缩计算时间,提高解算速度。因此,对FPGA的Kalman滤波进行研究开发,可实现基于FPGA的快速Kalman滤波解算,满足在对实时性要求更高的环境中使用。
2 在FPGA中实现Kalman滤波算法研究
由于FPGA实现Kalman滤波解算速度非常快,若利用FPGA的串行口依次输入观测值,由于数据串行输入的特点,会使FPGA的解算部分等待数据接收完毕才能执行滤波解算,导致整体的解算时间过长。为检验FPGA实现Kalman滤波器的计算性能,本文预先将观测值输入并保存于FPGA内的ROM中,以使FPGA可以连续地进行滤波解算,实现方案原理如图1所示。
图1中,Kalman滤波解算在FPGA内完成,RAM和ROM使用FPGA内嵌的硬件RAM存储器,其中RAM暂存每步的中间结果,ROM存放滤波中的固定系数,如观测矩阵、噪声系数阵等。Kalman滤波的解算过程主要利用内嵌的硬核乘法器等资源来完成。因解算速度较快,解算结果暂存于一个稍大的存储器内,同时通过串行口输出到PC机上保存用于分析。该方案的关键问题是在FPGA中实现Kalman滤波算法。
FPGA实现Kalman滤波器,其实质就是控制数据的转移和存储并实现矩阵的相乘、加、减、求逆等运算。其中,数据的转移控制需要有限状态机(FSM)来完成,同时FPGA设计中,不可避免的会遇到资源与速度的问题。因此,需要对上述各关键技术进行研究和实现。
2.1 矩阵相乘在FPGA中的实现
Kalman滤波计算中最基本的步骤就是矩阵相乘。对于其中最常见的D=A×B×C型的矩阵相乘,有两种实现方式:方式一,分步相乘;方式二,直接相乘。事先将矩阵A,B,C分别存入ROM1,ROM2,ROM3中,方式一中,首先进行两个矩阵的相乘,多路选择开关MUX选通ROM1和ROM2,依次读取其中的数据进行乘加,完成前面两个矩阵的相乘,结果存入ROMTEMP中;然后,MUX选通ROMTEMP和ROM3,利用前面同样的资源,完成三个矩阵的连乘。方式二中,ROM1,ROM2,ROM3同时输出数据,MUX根据解算需要配置乘法器和加法器的输入,所有的过程同时进行。从上面的执行过程可知,方式一的执行需要占用更多的时间,而方式二的执行会占用更多的资源。对于上述N阶的3个矩阵相乘,其占用资源和所需时间如表1所示。
由表1可知,对于维数越大的矩阵相乘,需要的浮点加法器越多。由于浮点加法器的生成利用FPGA内的基本逻辑单元——可配置逻辑块(CLB),所以其占用的CLB等资源也越多。这种现象在上述方式二中尤为突出。本文中研究拟先实现二阶Kalman滤波器,阶次较低,资源相对充足,为检验FPGA实现Kalman滤波器的快速性,选用第二种方式进行矩阵相乘,以得到最快的解算速度。
2.2 有限状态机的运用
有限状态机是一种用来进行对象行为建模的工具,其作用主要是描述对象在它的生命周期内所经历的状态序列,以及如何响应来自外界的各种事件。Kalman滤波中,由于解算过程中的逻辑关系,需要分步进行,所以需要用有限状态机来控制各步的转移。根据各步间的逻辑关系,可以将其大致分为4个状态:S0,S1,S2和S3状态。其中,S0为初始化状态,之后进入S1状态,计算和Pk+1/k,然后进入S2状态,计算Kk+1,最后计算解算结果和Pk+1/k+1。计算Kk+1时,也需要将其分步实现。若将各步的解算归于同一个状态机内,则显得逻辑复杂。为使得各步的逻辑更加清晰,并且增加状态机的稳定性和安全性,使用交互状态机,如图2所示。
图2中,状态机的交互过程中,没置标志信号enble和finish分别用于启动和终止计算K值的状态,初始化时其值均为0。当计算完第一步进入S2时,enble置为1,启动计算K值的状态;当K值计算完成时,finish置为1,进入S3,enble和finish置为初值0,为下次状态交互做准备。进入原状态机继续进行下面的计算。
书写状态机时,采用三段式写法,一个模块采用同步时序描述状态转移,另一个模块采用组合逻辑判断转移条件并进行状态转移,第三个模块实现同步输出。三段式描述方法的状态机,做到了同步寄存器输出,消除了组合逻辑输出的不稳定和毛刺现象,而且更利于时序路径分组,综合与布局布线效果更佳。
2.3 资源分时复用
FPGA设计中,资源与速度是个矛盾体。FPGA中的资源是有限的,所以必须考虑资源的节省问题。由于Kalman滤波可以分3步进行,所以每一步可以利用其它步中相同的资源。此种方法可以在不降低总体速度的情况下,减少资源利用量;而对于阶次较高的Kalman滤波,此方法可以最大限度的增加并行性,提高速度。该设计中用到大量的乘法器、加法器以及CLB等资源,计算第一步时用到的资源会在第二步和第三步中用到,即同一资源被用到3次。以其中用到的某乘法器的分时复用为例,其输入端口在不同的时刻可以有不同的赋值,实现语句如下:
3 性能对比及分析
为验证本文研究利用FPGA实现Kalman滤波算法的性能,采用二阶Kalman滤波器进行实际性能对比测试。建立数学模型如下:选取状态转移矩阵,无控制量,即控制阵Uk=0,噪声系数矩阵,Wk是系统动态噪声,是均值为0、方差阵为的白噪声随机序列。
对于该滤波器分别利用三种方式实现:采用Matlab在PC机上实现、利用DSP实现和利用FPGA实现。其中,PC机为DELL Dimension4700台式机,安装Matlab 7.0软件;DSP选用双精度浮点型TMS320C6713型号的芯片;FPGA型号为XC2VP30,主频100 MHz,内嵌多达136个硬核乘法器和2 MB硬件RAM。为得到更准确合理的结果,分别截取第1~3次、11~13次、21~23次的计算结果来对比。因为在PC机上利用Matlab实现的Kalman滤波器通过软件设置可以达到很高的计算精度,所以将其得到的结果作为标准值(真值),分别用FPGA实现和DSP实现的结果与其进行对比分析。选取估计均方误差阵Pk+1/k+1的第一个元素来进行对比分析各实现方式的性能,其解算结果对比如表2和表3所示。
由表2可知,利用FPGA实现的滤波结果,其精度与用Matlab实现的精度相差无几,且略高于利用DSP实现的单精度的结果。由表3可知,在解算时间方面,利用FPGA实现方式的快速性远远高于利用其他两种方式。而且,对于阶次越高的Kalman滤波器的实现,传统处理器所需的时间越长,利用FPGA实现方式的时间的优越性越显著。
4 结语
针对Kalman滤波的传统实现方法的不足,本文提出利用具有可并行计算特点的FPGA来实现Kalman滤波的方案,并对FPGA实现Kalman滤波的三种方式进行了研究,确定了利用IP核作为主要计算元件的实现方式。对Kalman滤波实现过程中的关键问题进行了研究和实现。通过对PC机、DSP和FPGA三种实现方式的结果对比,验证了利用FGPA实现的Kalman滤波器具有较高的精度和极高的实时性。