调节多核处理器硬件适应软件设计方法
扫描二维码
随时随地手机看文章
通过将FPGA平台和一个精心设计的多核方法结合在一起,开发人员就能以下列这种方式实现高性能分组处理应用:软件工程师能够对计算平台的结构有所控制,从而大大缩短编程时间,同时降低延期交付风险。
硬件设计流程的主要工作就是定义一块电路板。像存储器类型、总线协议和I/O这样的基本组件已被预先定义。
如果只使用一个固定的处理器,那它也是预先定义好的。但是,单个处理器无法运行需要吉比特性能的算法(例如分组处理算法),此时就需要多个处理器协同工作。
构建一个处理构造块的最佳方法取决于所运行的软件。使用FPGA来进行处理,就能使你在对代码需求有了进一步了解后,再对精确的实现方式做出明确的决策。全新的Tejia FP平台在Xilin
当软件工程师设计硬件时
硬件和软件设计是两种本质上不同的工作。无论硬件设计语言多么像一个软件,它进行的仍然是硬件设计。硬件语言对结构进行定义,并且设计流程最终要进行结构的实体化。但是,软件工程师正越来越多地使用C编程技术来设计系统功能;现有的工具支持使用软件或硬件方法来设计系统功能。
软件实现的方法更偏向于过程导向。它考虑的是“如何去做”而不是“构建什么”的问题,因为从传统观点来看,已经不需要再构建什么了 - 硬件都已经被构建好了。在真正基于软件的设计方法中,关键的功能不是被构建到一种结构中去,而是在一个已经构建好的系统中被结构执行的。灵活性是基于软件的实现方法的优势:在系统出厂后仍能快捷地对其进行改变。虽然FPGA也能现场编程,但改变软件设计要比构建硬件快捷地多。
由于硬件和软件设计存在着差异,因此硬件和软件的设计者所考虑的问题是不同的。硬件工程师不可能只通过改变编程语言的语法,就能转变成软件工程师。反之,软件工程师也不可能因为硬件设计中需要软件的参与,就能转变成硬件工程师。因此,不能轻率地就让软件工程师加入到处理架构的设计中来。
此外,硬件工程师、软件工程师或项目经理都不会同意将一个基于硬件方法的设计交给一位软件工程师去完成。软件工程师做出关于硬件的决定时所使用的方法,极有可能得到熟悉类似编程语言的另一位软件工程师的认同。
如图1所示,并行流水线是多核分组处理引擎中处理架构的关键结构。这一引擎由一个处理器阵列加上可能存在的硬件加速器构成。回答了下面这些问题,就等于完成了一个设计流程:
- 需要多少个处理器?
- 应该如何安排这些处理器?
- 每个处理器需要处理多少代码和存储多少本地数据?
- 代码的哪些部分需要硬件加速
让我们来逐一回答这些问题,从而为软件工程师“组装”出一套设计方法。
处理器的数量和配置
所需处理器的数量可以通过对周期预算和执行代码所需的周期数进行简单的数学计算得出。当你要在规定的时间内完成工作时,周期预算就成为一个关键的参数。例如进行分组处理时,数据位置进行划分。这样,就能够围绕划分的情况来进行硬件设计,而不用根据硬件来进行划分。软件工程师如何进行设计是一个关键问题。Teja中集成了一组API和一个处理工具,可以用ANSI C来定义硬件平台。此工具可执行程序,创建处理平台的定义,这些定义能够被Xilinx嵌入式工具进行处理。API组的内容十分丰富,并且能够在很靠底的硬件层次上进行控制,但大多数软件工程师不希望使用它们。因此,Teja中还使用参数化的方式加入了一个“典型的”流水线定义的方法。要实现上述示例中的流水线,只需要在配置头文件中修改两个简单的#define陈述式。
下面的陈述式定义了一个两级的流水线,在第一级使用了4个引擎,在第二级使用了2个引擎:图1 - 并行的流水线,每个引擎由一个MicroBlaze处理器、专用存储器和可选的减负器构成。包不停地到来,而你在下一个数据包到来之前,只有那么多周期来完成你的工作。如果你的代码需要更长的时间来执行,那么就需要添加更多的处理器。例如,如果周期预算是100个周期,而代码执行需要520个周期,那么你就需要6个处理器(520除以100,然后进位到整数)。你可以对处理器数量进行调整,但必须满足预算的要求。使用Teja工具时,可以通过分析来确定周期数。
下一个问题是如何安排这些处理器。处理这一问题最简单的办法就是确定你是否需要划分代码,来创建一个流水线。流水线使用较少的硬件资源,但会增加等待时间。如果你需要对代码进行划分,最好选择在一个明显的位置(自然和直观的位置)进行。而没有必要计算出周期中点精确的位置。
图1 - 并行的流水线,每个引擎由一个MicroBlaze处理器、专用存储器和可选的减负器构成。
假设你要用6个处理器构成一个两级流水线。那么你现在就需要计算出每一级所需的处理器的数量;先通过分析来确定每个划分的周期数,如后再用它去除以周期预算,就可以得到每一级所需的处理器的数量。。因此,如果第一个划分需要380个周期,则它需要4个处理器;这样第二级就需要140个周期,从而需要两个处理器。(两个划分所需的周期数之和实际上不一定正好等于未划分的程序所需的周期数,但会非常接近,因此在这里可以近似看作相等。)因此,这个两级的流水线的第一级需要4个处理器,第二级需要2个处理器。如果有足够的逻辑资源,使用Xilinx MicroBlazeTM软核,就能够实体化任何这样的流水线。
相比较而言,在一个固定的流水线结构中,每一级的处理器数量都已经
软件工程师如何进行设计是一个关键问题。Teja中集成了一组API和一个处理工具,可以用ANSI C来定义硬件平台。此工具可执行程序,创建处理平台的定义,这些定义能够被Xilinx嵌入式工具进行处理。API组的内容十分丰富,并且能够在很靠底的硬件层次上进行控制,但大多数软件工程师不希望使用它们。因此,Teja中还使用参数化的方式加入了一个“典型的”流水线定义的方法。要实现上述示例中的流水线,只需要在配置头文件中修改两个简单的#define陈述式。
下面的陈述式定义了一个两级的流水线,在第一级使用了4个引擎,在第二级使用了2个引擎:
#define PIPELINE_LENGTH 2
#define PIPELINE_CONFIG {4,2};
由上述陈述式和预设的配置程序,TejaCC程序就能构建出流水线。当然,无论由于什么原因使得流水线的配置需要发生改变时,只要使用与上面相似的方法进行编辑即可。
存储器
第三个问题跟所需的存储器数量有关。在一个典型的系统中,所能存储的代码和数据的数量是固定的。如果你的设计没有满足这一要求,就需要做大量的工作来将多出的内容压缩到存储空间中。但是在使用FPGA时,只要所需存储器的数量在芯片所能提供的范围之内,就能够按照实际需要为每个处理器分配存储空间。在更典型的情况下,所有的存储空间的大小都相同(由于每个块的最小容量为2k,这就限制了进行微调的程度)。
图2 - 配置并行流水线的流程
代码编译时提供所需存储器的大小,并且可以使用下面的陈述式来编辑配置头文件,在这个示例中为代码和数据存储分配的存储空间均为8KB:
#define CPE_CODE_MEM_SIZE_KB 8
#define CPE_DATA_MEM_SIZE_KB 8
使用减负器来加快处理速度
第四个问题和创建硬件加速器有关。可能有一部分程序会占用太多的周期。要减少周期就需要更多的处理器,而使用硬件加速器就能减少处理器的数量。只要硬件加速器比其所替代的处理器占用更少的门,就能够减少整个硬件实现的面积。
Teja有一项功能就是用来从代码中直接创建这样的加速器或减负器。通过对程序进行注释,此功能就可创建:
- 实现代码的硬件逻辑
- 通过系统接口在处理器基础设施中添加加速器
- 调用原型替换程序中最初的代码
- 在将减负器集成于系统之前,先使用测试台对其进行验证。
一旦创建了减负器,周期数就会减少,因此你需要重新安排处理器。但由于重新定义流水线结构的操作十分方便,因此这是一项很简单的任务。
一个简单直接的方法
将前面所述的步骤组合在一起,就产生了图2中所示的设计流程。你可以先定义减负器(对于明显需要减负器的任务),或在配置好流水线之后再定义减负器(如果现有的代码使用了太多的处理器)。
软件工程师所能控制的是一些在他们看来自然和简单的参数,这里使用自然的软件语言(ANSI C)来表达这些参数。对硬件进行实体化的所有细节都由TejaCC程序来处理,它会为Xilinx嵌入式开发系统(EDK)创建一个项目。剩下的编译/综合/布局/布线和产生比特流以及镜像代码的工作全都由EDK来完成。
在这种方式下,电路板可以由硬件工程师设计,但通过使用FPGA,硬件工程师能够将最终的实现中硬件配置的关键部分,留给软件设计者去完成。这一方法还支持在设计即将完成时对电路板进行改动(例如,由于性能原因要对存储器的类型和容量进行改动)。由于Teja工具能创建FPGA的硬件定义,其中包括存储器控制器和其他外设,因此设计人员可以轻松地调节电路板。最终的结果是,由于硬件实现可以适应软件的变化,因此软件设计者不再需要花费大量的时间来围绕一个固定的硬件设置编写程序。
通过利用灵活的Virtex - 4 FPGA和MicroBlaze核,Teja FP环境和基本结构使得所有这一切都变成了可能。有了这一强大的工具,你就能够将开发周期缩短几周甚至几个月。
Teja还提供了一些高级应用程序,这些应用程序能用来启动一个项目,并减少所需的工作量。将一个灵活省时的设计方法和一个事先定义好的应用程序结合起来使用,网络设备的制造者就能更快地完成他们的设计。