基于PCI Express总线的R-D算法实时成像系统设计
扫描二维码
随时随地手机看文章
R-D算法是SAR成像中应用最广的一种算法,因其具有原理直观、实现方便等优点在实际中有广泛的应用。
R-D算法的基本特点是运动补偿、参数估计比较灵活,距离向处理和方位向处理分开,运算既是并发的、又是流水的,同时他又具有SAR成像本身的大运算量、大存储量等特点,故R-D SAR信号处理机在系统结构上有其自身的特点。本文在分析R-D SAR信号处理特点的基础上探讨R-D SAR成像系统的设计,整个系统利用当前流行的PCI Express总线进行数据通信,提高了数据传输能力。
1 R-D算法流程及特点
距离-多普勒成像雷达虽然有多种参数估计方法,各自的成像算法又有很大的差异,但基本运算和算法流程差别不大,如图1所示。
其中,(2)~(6)表示成像处理。在(2)中一般采用dechirp或者匹配滤波的方法。如果采用dechirp方法,要生成一幅8 192×8 192点的图像,需要在距离向处理中进行8 192次8 192点FFT运算;而同样大小的图像如果采用匹配滤波的方法则需要16 383×8 192点FFT运算,这还没有包括运动补偿和乘以解调频函数(dechirp方法)或乘以脉压匹配函数(匹配滤波方法)中的乘法运算。
图中(3)就是专门进行距离向处理所必需的参数估计、运动补偿因子计算以及解调频函数或脉压匹配函数的计算。这个过程往往需要用到预处理完成后的部分数据甚至全部数据,有时还要用到中间结果的部分数据甚至全部数据。完成距离向处理后,为了在方位向处理时数据能够在存储器中按方位向连续存放以加快存取速度,要将数据转置
(4)(这里原始数据按距离向连续存放)。方位向处理与距离向处理类似,但方位压缩
(5)一般采用匹配滤波的方法,因为方位回波的带宽比较宽。而这期间也要由(6)来专门估计方位向参数,计算相位校正函数和方位向脉压匹配函数。
由此总结R-D SAR成像雷达信号处理的特点如下:
巨大的存储量 显然,仅存一幅8 192×8 192点复图像所需要的存储量约为512 MB,如果乒乓工作,那么处理器的存储能力需要超过1 GB,显然应该用SDRAM。
巨大的运算量 因距离向和方位向都要进行脉冲压缩,故运算量非常大。以8 192×8 192点图像为例,若两个方向都采用匹配滤波方法,一共需要进行32 768次8 192点FFT运算;若采用基2方法,仅FFT运算就需要1 280万次复数乘法,3 432万次复数加法。设合成孔径时间是5 s,则在一个合成孔径时间内算出一幅图像要求处理器的有效运算能力在10亿FLOPS以上,因此必须采用多处理器结构。
处理的并发性和流水性 原始数据一般是以回波到达顺序进入信号处理机,这样在距离向处理时可采用流水方式进行,流水线以子孔径为单位分级。方位向的参数估计往往需要整个孔径长度的方位回波,所以方位向处理要等到在整个孔径上完成距离向处理后才开始并发执行。因此不仅要考虑整体的流水操作,还要考虑距离向处理和方位向处理的差异。 巨大的通信数据率 在进行参数估计和计算校正函数以及匹配函数时往往要用到数据的部分或全部样本,由于运算集中在计算FFT上,处理器能够花费在参数估计上的时间已非常有限,读取数据的时间就更少了,这就要求在处理器的各模块之间有良好的拓扑结构和很高的数据传输速率。
2 PCI Express总线技术
2.1 PCI Express总线简介
在基于PCI总线的PC世界或工控领域里,随着网络流量的不断提高,PCI和PCI-X的多点并行架构的瓶颈越来越突出,而PCI Express架构具有更高的性能,可以突破此类瓶颈的限制。PCI Express架构采用串行输入/输出结构,每条通道在每个方向上的发送和接收数据速率高达2.5 Gb/s,最新的PCI Express 2.0的数据速率更是高达5 Gb/s,具有更好的可扩展性,可提供更高的带宽。由于PCI和PCI-X总线采用共享多点并行总线架构,所以当总线中的插槽和设备数量增加时,有限的总线资源会被多个设备共享,于是带宽就会相应的下降。PCI和PCI-X采用平行的、多点下传的连接架构,很容易产生串扰现象,此外所有的信号线必须完全等长,否则无法将信号同步传到另一端,而会产生信号扭曲。这些问题让PCI的时钟频率难以提升,电压也难以下降,造成速度提升上的发展限制。而PCI Express采用序列的、点对点的连接架构,收发数据差分传输,可以避免信号不同步并且减少干扰。PCIExpress带宽随着通道数的增加而增加,如表1所示。
PCI Express是全新第三代I/O串行总线标准,其性能超越了以前的PCI标准。但是PCI、PCI-X与PCI Express仍将在未来的一段时间内共存。PCI Express可提供专用的、高性能的、可扩展的带宽总线和卓越的以太网性能,其功能远远超越了PCI和PCI-X的共享多点架构。从软件上看,采用PCI-Express架构可以兼容所有为PCI设备编写的软件。
在雷达信号处理系统设计中,要突破带宽的限制,PCIExpress总线是一个不错的选择。在PCI Express点到点的结构中,每个设备都有一个专用连接而不必共享带宽。一种典型的通过PCI Express互连的信号处理架构就是每个设备都与一个系统控制模块相连。值得注意的足,系统控制模块必须具备对串行数据进行交换的能力。
2.2 支持PCI Express总线的MicroTCA机箱
在工控机箱领域,MicroTCA充分采纳和沿用了AT-CA的各项优点,把ATCA的AMC模块(Advanced Mez-zanine Card)作为系统的基本配置单元,具有更小的体积、更紧凑的结构和相对较低的系统成本,所以采用MicroT-CA架构的机箱是一个好的选择。
MicroTCA是一个完全模块化的系统平台,主要包括AMC模块、MCH模块、电源模块、高速背板、机箱和风扇等,其结构如图2所示。
AMC是MicroTCA的基本功能模块,他有6种标准尺寸,这里采用148.8 mm*13.88 mm*181.5 mm的标准。用AMC可以实现数据处理、数据存储、数据通信和数据I/O功能。与CPCI系统的PMC模块相比,AMC在结构、功能、性能、互连方式和扩展能力等方面都有很大优势。MCH(MicroTCA Controller & Hub)是MicroTCA的系统控制、管理和数据交换模块。每个MCH可以对12个AMC提供数据交换和管理功能,每个系统最多可有4个MCH通过更新通道互连实现多达48个AMC的数据交换和管理。每个AMC最多有21个可配置的高速数据接口,每个MCH最多有60个可配置的高速数据接口,这些接口通过MicroTCA背板及MCH的交换网络实现高速数据通信。
MicroTCA拥有标准化的功能模块、可配置的业务类型、可扩展的背板传输带宽、紧凑的物理结构、灵活的应用方式、梯级化的可靠性设计、较低的开发和应用成本、较少的产品开发时间、更长的产品生命周期。基于这些先进特性,MicroTCA必将得到广泛的应用。
综合上述优点,我们采用具有MicroTCA架构的提供标准PCI Express总线的工控机。ELMA公司的MicroTCA 7U系统平台符合PICMG规范,提供标准的PCI Express插槽,支持单宽、双宽,半高、全高的AMC模块,采用风冷的冷却方式,具有高级的EMC屏蔽和灵活的组合方式,是我们雷达成像处理系统所需标准机箱的一个不错的选择。机箱的底板采用ELMA公司的14槽MicroTCA背板,他符合MicroTCA.0 R1.0标准规范,具有12个AMC模块、1个电源模块、1个MCH模块,单槽数据带宽可达40 Gb/s,具有高速串行连接器,支持6.25 Gb/s的传输率,此外还有标准的系统管理接口。底板的主要功能是给采集/存储板卡及信号处理板卡提供标准的PCI Express插槽,给板卡供电的同时可以实现主机与板卡间的通信以及板卡间的相互通信。
2.3 支持PCI Express总线的接口芯片
设计信号处理板卡时,为了简化板卡,提高硬件的灵活性,这里用FPGA来控制整个板卡,包括对DSP的控制、数据交换模块的设计以及接口的实现。事实上,在SAR处理中还经常用FPGA作方位向的预滤波、距离压缩等工作,所以要选用资源丰富的,速度较快的,RAM容量较大的FPGA。Altera公司推出的Stratix II GX系列完全可以胜任上述工作,其内嵌的RAM可以作为本级FIFO使用,使设计更紧凑、灵活,此外还可以对其编程实现PCI Express与局部端的通信。综合考虑,FPGA采用Altera公司的EP2SGX60E芯片。
Stratix II GX FPGA收发器工作速率为622 Mb/s~6.375 Gb/s。经过优化,FPGA能提供优异的信号完整性,降低了布板风险。在Stratix II GX器件中,收发器模块含有特定的硬件知识产权(IP),支持多种主要协议,包括PCI Express等,还可提供低功耗解决方案,特别适合散热困难的背板应用。设计中采用这个芯片,在很大程度上简化了板卡结构,提高了板卡的灵活性。
3实时成像系统方案设计
这里所设计的实时雷达成像处理系统由标准机箱、采集/存储板卡以及信号处理板卡组成。标准机箱是板卡的支撑平台并进行图像的显示。采集/存储板卡高度集成,实现雷达回波的实时采样和实时存储。基于4片ADSP-TS201的信号处理板卡是成像处理的核心,4片DSP采用并行、流水的方式以达到实时成像处理的要求。采用PCIExpress总线能够有效地利用PC机资源和应用软件,利于开发图形化操作界面,极大地方便了信号处理系统的调试、状态监控以及图像显示。AD采样的数据一边存入FLASH阵列,一边传给DSP进行实时处理,处理完的结果通过PCI Express总线读入计算机内存并进行显示。信号处理板卡是专门为雷达成像设计的一种通用处理模块。4片DSP峰值并行处理可达到12 GFLOPS的运算(DSP内核工作在500 MHz)。实际中根据算法的复杂度选取信号处理板卡的数量。成像处理系统结构如图3所示,其中MCH模块用来控制板间通信。
3.1数据的采集与存储
采集/存储板卡设计时将采集和存储集成在一块板卡上,可以设计成高速和低速两种采集/存储卡。高速卡适合于对高速的中频采样,如直接对高分辨SAR雷达中频回波采样;低速卡适合于精度要求高、速度要求低一点的场合,如在ISAR的Dechirp后以及普通的SAR基带回波采样。采样后的数据经FPGA控制存人FLASH阵列。板卡上有128 GB容量的FLASH阵列,通过72片FLASH芯片并行操作(其中64片FLASH用来存储数据,8片FLASH用来提供冗余校验,这样即使有几个芯片损坏也可以保证数据的完整性),可以实现240 MB的稳定连续读写速度,可应用于高速大容量存储的场合。板卡采用标准PCI Express接口,主机可以直接读取采样数据并进行显示。
3.2信号处理模块
信号处理模块是系统的核心,由于成像算法的复杂性,选用AD公司的ADSP-TS201作为主处理器。这是一款极高性能的静态超标量处理器,他将非常宽的存储器宽度和双运算模块组合在一起。TigerSHARC静态超标量结构使DSP每周期执行多达4条指令、24个16位定点运算和6个浮点运算。运行在500 MHz时,TS201可提供48亿次40位的MAC运算或者12亿次的80位MAC运算。TS201的链路口时钟和数据线采用低压差分信号,可以达到很高的速度,单个链路口全双工工作的速度可以达到1 GB/s。TS201有丰富的内部存储资源,能提供33.6GB/s的内存带宽,特别适合并行组成高速并行处理器。从多片互连来看,他除了有完善的总线仲裁机制外还有4个高速链路口,可以以各种拓扑结构互连DSP,满足大运算量的要求。
根据R-D算法既是并行的又是流水的特点,这里设计了分布式的并行系统。板卡拥有4片TS201,1 GB的存储空间。4个DSP采用分离总线的形式与一片FPGA相连,每个DSP都有独立的256 MB、64位宽度的SDRAM,4个DSP可以同时访问自己的SDRAM。系统采用标准的PCI Express总线。板卡上的FPGA负责整个板子的控制和接口工作。内核工作在500 MHz时,板卡的峰值运算能力达到每秒120亿次浮点运算。图4为信号处理板卡的框图。
4个DSP分布式互连,可以通过链路口进行数据交换,也可以通过FPGA进行数据传输。链路口是全双工的,可以稳定工作在500 MHz的时钟频率下。每个DSP的64位数据总线连到FPGA,在FPGA中设计了交换电路,任意两个DSP之间的数据交换速度为800 MB/s。DSP之间的链路口两两互连。
另外我们也设计了共享存储空间的信号处理板卡,存储器采用DDR2 SDRAM,由FPGA控制,容量为2 GB,时钟266 MHz,由于采用双倍数据率,单个数据线传输速率最高可达533 Mb/s,64位数据线的传输率最高4 200 MB/s。各个DSP总线都连接到FPGA上,DSP的外部时钟为100 MHz,64位总线的数据传输率可达800 MB/s,4个DSP同时访问时速度为3 200 MB/s。DSP通过FPGA来访问存储空间,当多个DSP同时访问时,在FPGA内部控制访问顺序。4个DSP的链路口仍是两两互连,结构如图5所示。
我们根据R-D算法的特点利用多处理器并行结构设计了体积小、功耗低、效率高的信号处理机。采用子孔径方法进行距离向处理,在第一个子孔径完成距离向处理后就可以开始数据转置,所以距离向处理可以按子孔径来进行流水处理,数据转置可以与之同时进行。为了实现整体的流水作业,距离向处理和方位向处理应该在不同的运算模块中进行,这样在对前幅图像进行方位向处理时,可以对下幅图像进行距离压缩和数据转置。
由于方位向处理时会涉及到数据的重复利用,而且方位向的参数估计比距离向的参数估计复杂,所以方位向处理板卡数目多于距离向处理板。在这里我们用三个信号处理板卡按照流水方式实现R-D算法,第一个板卡处理距离向数据,另外两个板卡进行方位向处理。采集存储板卡通过PCI Express接口将采集到的数据按方位的先后传输给第一个信号处理板进行距离向处理,这时在板卡内部数据以回波到达顺序分别进入不同的DSP,4个DSP同时接收数据并发进行处理,处理完的数据按照方位向存储到各自的SDRAM,另外两个板卡通过PCI Express接口接收距离向处理后的数据并发进行方位向处理,与此同时,第一个板卡进行下一幅图像的距离向处理。每个板卡上DSP之间的数据传输通过链路口进行,由于进行数据处理时往往需要一部分样本,链路口完全能够胜任这个量级的数据通信。所有的数据均通过PCI Express总线由MCH控制传输方向和进行数据交换,结构如图6所示。
5 结语
本文针对R-D SAR成像算法的特点设计了一种基于PCI Express总线的实时成像系统,该系统采用PCI Express串行总线体系结构,提高了系统的总线带宽和总线接口的可伸缩能力,实现了数据采集和大容量实时存储,并且具有极强的运算能力和良好的通信能力,特别适合于复杂的实时成像雷达信号处理。未来的雷达成像将进行更复杂的处理,对实时处理机的要求更高,另外弹载、星载实时成像技术的发展对成像处理机的适用环境、可靠性和稳定性提出了更高的要求,这些都需要不断地研究与改进。