H.264解码器中CABAC硬件加速器的实现
扫描二维码
随时随地手机看文章
摘 要:在H.264解码器中,为了能够完成高清码流的实时解码任务,本文提出了一种CABAC硬件加速器的设计方案。通过采用高效率的状态机和流水线结构,该方案可在每1~3个时钟周期内完成1bit数据的解码。本设计在中芯国际0.18mm CMOS工艺标准单元库的基础上进行综合,硬件加速器面积为0.38mm2,工作时钟频率可达166MHz。
关键词:CABAC;H.264;硬件加速器
引言
H.264是由国际电信联盟(ITU)和国际标准化组织(ISO)共同制定的新一代视频编码标准,该标准采用一系列先进的编码技术,在编码效率、网络适应性等诸多方面都超越了以往的视频标准。H.264有两种熵编码方案:一种是从可变长编码方案发展而来的基于上下文的自适应可变长编码CAVLC;另一种是从算术编码发展而来的基于上下文的自适应二进制算术编码CABAC。与CAVLC相比,CABAC可以节省约7%的码流,但增加了10%的计算时间。在解高清码流时,用软件来做CABAC这样复杂的熵解码,无法完成实时解码的任务,因此,设计硬件加速器是非常必要的。
CABAC解码算法
在H.264解码器的输入码流中,数据的基本单位是句法元素(Syntax Element),码流是由一个个句法元素依次衔接而成的。每个句法元素由若干比特组成,表示某个特定的物理意义。在H.264定义的码流中,句法元素被组织成有层次的结构,分别描述序列(Sequence)、图像(Picture)、片(Slice)、宏块(Macroblock)、子宏块(Subblock)五个层次的信息,CABAC主要负责对片层以下的句法元素进行解码。
CABAC解码的总体过程可以分为三个步骤:初始化、二进制算术解码归一化、反二进制。
初始化
该过程在每一个片开始时执行,包括上下文模型变量(Context Variable)的初始化和解码引擎(Decoding Engine)的初始化。
二进制算术解码和归一化
二进制算术解码是CABAC解码的核心部分,该过程实现1bit数据的解码,对每个句法元素进行解码都需要调用该过程。H.264中二进制算术解码有三种模式:规则解码(Decode Decision)、旁路解码(Decode Bypass)和结束解码(Decode Terminate)。对不同句法元素进行解码时,分别调用这三种模式的一种或多种。
反二进制化
CABAC定义了四种二进制化方法:一元码(Unary)、截断一元码(Truncated Unary)、K阶指数哥伦布码(kth order Exp-Golomb)和定长码(Fixed-Length)。一个句法元素可以对应一种或两种上述二进制化方法,但特殊的是,句法元素mb_type和sub_mb_type的反二进制化独立于上述四种方法,它们通过查表来实现。
CABAC硬件加速器的架构设计
H.264解码器的软/硬件划分
H.264解码过程采用软/硬件联合的解码方案,整个解码器由32位CPU、DSP结构的运算单元和硬件加速器组成。CABAC熵解码部分,主要是一些判断和分支操作,数据接口、吞吐量不大,这些任务由软件和硬件加速器共同完成。本文设计的CABAC解码模块就是一个CABAC硬件加速器。
CABAC硬件加速器的总体构架
CABAC硬件加速器的总体架构如图1所示。其总体架构分为两层:顶层是CABAC_TOP;底层有7个模块,包括CABAC_Center_ Control_Unit、Context、 Neighbor_MB_Information, Context_Init、AC_next_ state_LPS、 AC_next_state_MPS和RangeLPS。
CABAC_Center_Control_Unit模块负责上下文模型变量的初始化,解句法元素,更新Context,并将解出的残差数据传给IQ&IDCT模块;Context模块是双口RAM,存放459个上下文模型变量,可同时对一个地址的上下文模型变量进行读操作并对另外一个地址的上下文模型变量进行写操作;Neighbor_MB_Information模块是SRAM,存放宏块信息,CABAC解码器在解析当前宏块中的句法元素时,需要参考上面和左面宏块的信息,因此,需要在该SRAM内保存图像中当前宏块的上一行宏块和该行之前宏块的信息,每解完一个宏块更新该SRAM;Context_Init模块是一块片内ROM,用于初始化变量;3个查找表模块AC_next_state_LPS、AC_next_ state_MPS和RangeLPS由组合逻辑实现,用于二进制算术解码过程中的查表运算。
CABAC的硬件化分析
本设计的目标是使整个H.264解码器的芯片能够对高清图像(1920×1088)进行实时解码。假设芯片工作在166MHz的频率下,图像播放速率是25fps,则平均解一个宏块的时间是823个时钟周期。考虑到H.264熵解码部分的运算总体上是串行解码,并行性较差,因此CABAC硬件加速器需要在3个时钟周期内完成1bit数据的解码。假设视频图像的压缩比为20:1,YUV为4:2:0取样,因为取样值是8bit,则每个像素为8bit×1.5=12bit。CABAC的解码率约为1:1.2,所以CABAC要解的码流是(1920×1088×12bit/20)×1.2,约1.43Mb。芯片工作频率是166MHz,每3个时钟解出1bit,则解码数据率约为55.3Mbps,本设计在解码时CABAC占用了90%,约为49.8Mbps。因此解码速度为49.8/1.43,约34.7fps,即1s可以解34.7帧,则解1帧(1920×1088)大约需要28.8ms。
为了达到该目标,CABAC硬件加速器的设计必须对核心的二进制算术解码进行优化。根据归一化算法的特点,即循环的次数可由输入的codIRange、codIOffset和查表得到的codIRangeLPS事先判断出来,因此可以合并二进制化和归一化这两个步骤,使其在1个时钟周期内完成。由于篇幅有限,下面仅以三种模式中的规则解码为例,说明二进制算术解码和归一化的硬件化,旁路解码和结束解码可参考H.264协议。
规则解码的二进制算术解码和归一化过程主要包括比较、减法、查表、移位操作。在H.264中,为了减少计算的复杂度,CABAC首先建立一个64×4的二维表格rangeTabLPS[64][4],存放预先计算好的乘法结果。表格的入口参数是pStateIdx和qCodIRangeIdx,其中qCodIRangeIdx由变量codIRange量化而来,量化方法是(codIRange>>6)&3。其Verilog HDL实现如下:
assign qCodIRangeIdx= (codIRange>>6)&2'b11;
always@(pStateIdx or qCodIRangeIdx)
begin
case{pStateIdx, qCodIRangeIdx}
0: codIRangeLPS=0;
… …
255:codIRangeLPS=63;
endcase
end
建立了概率模型和乘法模型后,在递进计算过程中CABAC必须保存一下变量:当前区间的下限codIOffset、当前区间的大小codIRange、当前MPS(大概率符号)字符valMPS、LPS(小概率符号)的概率编号pStateIdx。transIdxLPS[pStateIdx]和transIdxMPS[pStateIdx]是两个深度为64项的表格,其中pStateIdx的取值为0~63。接下来是归一化判断,当codIRange小于0x0100时,需进行归一化。这样就能在1个时钟周期内完成二进制化和归一化两个步骤,其Verilog HDL实现如下:
always@(posedge clk or negedge rst)
if( !rst)
... ...
else
begin
if(codIOffset>= codIRange-codIRangeLPS)
begin
binVal<=~valMPS;
codIOffset<=codIOffset-(codIRange-codIRangeLPS);
codIRange<=codIRangeLPS;
if(pStateIdx==0)
valMPS<=1-valMPS; pStateIdx<=transIdxLPS[pStateIdx];
end
else
begin
binVal<=valMPS;
pStateIdx<=transIdxMPS[pStateIdx];
end
while(codIRange<0x100) //注:此语句不可综合
begin
codIRange<= (codIRange-codIRangeLPS)<<1;
codIOffset<=(codIOffset<<1) |read_bits(1);
end
end
CABAC的加速策略
状态机的设计
二进制算术解码的状态机是本设计的核心,该部分效率的高低将直接影响到CABAC硬件加速器的解码速度。在CABAC模块没有被启动时,状态机将一直停留在初始状态,当一个新片开始时,初始化解码引擎;当收到CPU发出的解码请求时,首先进入预解码状态,读取上下文模型变量,然后在下一个时钟进入二进制算术解码状态,完成1bit数据的解码。在CABAC解码过程中,系统会根据句法元素的种类和当前数据的位置选择解码模式。
流水线的设计
CABAC对1bit数据进行解码的过程可分为两个步骤:读取上下文模型变量、解码并更新上下文模型变量。本设计采用两级流水线结构,在对当前数据进行解码的同时,可读取下个数据的上下文模型变量,因此加快了解码速度。
码流读取的双缓冲设计
在进行解码的时候,为了提高传输效率,采用双缓冲的形式。在总线给其中一个缓冲传输数据的时候,解码器可从另外一个缓冲里读取数据进行解码,从而使传输和解码同时进行,有效提高了传输效率。
设计结果与性能仿真
在设计完成后,利用JVT提供的标准测试码流进行测试,通过了仿真验证。结果显示,本设计平均每2个时钟周期可完成1bit数据的解码。
在SMIC 0.18mm CMOS工艺标准单元库的基础上进行DC(Design Compile)综合,硬件加速器的面积为0.38mm2(不包括片外SRAM所占用的面积),工作频率可达166MHz,达到了预期要求。
为了显示硬件加速器的优势,选择参考软件JM7.4的函数biari_decode_symbol完成二进制算术解码和归一化。Visual C++6.0编译器的编译结果显示该函数使用了109个汇编指令,因此用软件完成1bit数据的解码至少需要100个时钟周期。而利用本设计完成同样的步骤时,最多只需3个时钟周期,很好地达到了加速器的作用。
结语
由于采用了一系列的优化方案,同时,在设计时考虑了解码速度及解码系统中各个模块之间的协调,本文实现了熵解码CABAC的快速解码,能完成高清码流的实时解码任务,在视频解码芯片中有很好的应用价值。
参考文献
1 Detlev Marpe,Heiko Schwarz,Thomas Wiegand. Context-Based Adaptive Binary Arithmetic Coding in the H.264/AVC Video Compression Standard[J]. IEEE Transactions on Circuit and Systems for Video Technology,2003,13(7):620-636
2 毕厚杰. 新一代视频压缩编码标准-H.264/AVC[M]. 北京:人民邮电出版社,2005
3 JVT-G050, Draft ITU-T Recommendation H.264 and Draft ISO/IEC 14496-10 AVC,2005[S]