基于单环和肤色选择的FGS视频编码

时间：2011-06-13 08:09:42

关键字：视频编码 BSP 解码

手机看文章

扫描二维码
随时随地手机看文章

[导读]基于单环和肤色选择的FGS视频编码

Internet的快速发展使得网络多媒体的需求急剧增加，这就对视频的编码技术提出了新的要求。网络的异构性和缺乏QoS(服务质量)保证，使得带宽会在一个较大的范围内波动。传统的用于解决该问题的视频编码方法有联播和码流转换，但这两种方法的码率变化均被限制在几个特定的码率中，很难实现传输过程中任意码流的动态切换，从而不能充分利用信道的容量。解决这些问题的一个有效方法就是粒度可分级视频编码，它将原始视频编码成基本层码流和增强层码流，其中基本层码流是必须要传输的，它能够单独进行解码。增强层码流可以根据网络当时的带宽情况在任何一个地点截断。但FGS获得的这些特性都是以牺牲编码效率为代价的[1]。在增强层中引入肤色选择的算法，虽然能够快速地定位出视频中的感兴趣区域，通过对其进行位平面提升和优先编码来改善视频的主观质量，但也会在一定程度上降低整体的编码效率。因此，针对编码效率低的问题，本文提出了在基本层中引入单环算法，以提高FGS的编码效率。
1 基于肤色选择的FGS视频编码
1.1 肤色选择算法介绍[2]
    用肤色选择算法对FGS进行选择增强，充分利用了人的视觉特性。相对于其他较复杂的人脸检测算法，该算法具有复杂度低和运算简单等特点。对于人脸和头肩占主要部分的序列，可以认为人脸区域主要就是肤色区域。因此在这类视频序列中，用肤色区域代替人脸区域作为感兴趣区域，并对其进行位平面提升、优先编码和传输，从而提高感兴趣区域的编码效率，并改善视频的主观质量。
    大量实验表明，不同人种的肤色主要受到亮度信息的影响，而受色度信息的影响很小，且肤色在CbCr空间的分布具有很强的聚类特性，因此本文中直接采用通用阈值(133≤Cr≤173，77≤Cb≤127)来对肤色区域进行判断。对于序列中的所有帧图像的每一个像素有：

   将M=1的像素定为肤色点,然后对每帧图像中的每个宏块内M值为1的像素点进行统计,将统计结果与预先给定的阈值T进行比较，来判断该宏块是否进行选择性增强。如果大于或等于阈值T，则对该宏块进行选择性增强，反之，则不进行选择性增强。图1为Akiyo序列、Foreman序列和Carphone序列的原始图、肤色分割图和选择性增强的宏块图。

1.2 基于肤色选择的FGS视频编码
通过上述的肤色选择算法来定位出人脸区域，并将其作为感兴趣区域，引入到FGS编码器中。与其他人脸检测算法相比，该方法具有复杂度低、自适应选择和运算简单等优点。
2 基于单环与肤色选择的FGS视频编码
采用肤色选择算法提高视频序列感兴趣区域的编码效率和改善视频主观质量的同时，也降低了FGS的整体编码效率。单环算法由于使用了更高的扩展基本层（基本层+增强层）图像来用作基本层的参考图像，因此能够较好地提高整体编码效率。所以本文提出了基于单环的FGS视频编码与基于肤色选择的FGS视频编码相结合的方法（基于单环和肤色选择的FGS视频编码）来同时提高FGS的整体编码效率和视频的主观质量。其编码原理图如图2所示。

[!--empirenews.page--]

对于基本层，通过使用质量更高的扩展基本层图像作为基本层的参考图像，来提高基本层运动补偿的效率，降低基本层残差图像的能量，从而提高基本层的编码效率。对于增强层，基本层残差图像能量下降，使得残差图像量化前后的差值的能量也减小了，所以增强层的编码效率也相应地得到了提高。但由于基本层与增强层并非各自独立，而是相互影响的，因此当网络带宽突然降低时，会产生预测误差，且这种误差会一直积累并传播下去，直到当前GOP结束。因此当使用该结构进行FGS编码时，将引入前端网络估计的方法，来确定能够正确解码的增强层位平面数，使用于参考的增强层位平面数不多于正确解码的位平面数，从而抑制预测误差[3-4]。
3 试验结果与分析
为了检测该算法的效果，进行了仿真实验。实验中选择了Carphone和Foreman 两个QCIF视频序列，基本层采用H.264参考软件，帧率为30 Hz，编码50帧，编码帧类型为IPPP…，熵编码方法为CABAC，允许率失真优化宏块模式判决，QP=35，基本层码率为60 kb/s。增强层编码时仅对DCT系数进行限幅处理，不作进一步量化。使用重建图像序列的亮度分量的平均峰值信噪比(Y-PSNR)作为视频质量的客观评价标准。试验中所定义的感兴趣区域为用肤色选择算法检测出来的人脸区域，将采用该提升算法的FGS和仅采用单环算法的FGS以及未采用任何提升算法的FGS进行比较，比较结果如图3和图4所示。

从图3中可知，采用了基于单环和肤色选择的FGS视频编码，在人脸区域的PSNR值要明显高于整体区域，平均高出了3 dB，且随着码率的增大，PSNR的差值也逐渐增大。从图4中可以看出，相比于H.264 FGS和基于单环的H.264 FGS，本文采用的方法能够较好地改善视频的主观质量。这说明在码率一定的情况下，使用单环算法能够较大地提高编码效率，且由于使用了肤色选择，感兴趣区域的位平面被提升，从而使得该部分的信息能够被优先编码和传输。当码流截断时，获得的大部分数据都是感兴趣区域的，所以解码时肤色区域的主观质量有了一定的改善。
通过上述试验结果可知，将肤色选择引入到FGS中，能够快速地定位出人脸区域，通过将该区域的位平面进行提升、优先编码和传输，能够较大地提高感兴趣区域的编码效率,改善视频的主观质量。但与此同时，会在一定程度上降低整体的编码效率，因此引入了单环算法。该算法由于使用了高的扩展基本层图像来用作基本层的参考图像，因此能够较好地提高整体编码效率。试验证明本文提出的方法对人脸和头肩占主要部分的序列，能够自适应地提高FGS的编码效率，改善解码后视频的主观质量。该算法对特定的领域有一定的适用性。
参考文献
[1] 胡波. 数字电视系统关键技术研究[D].武汉：华中科技大学, 2009.
[2] 周孝, 林其伟, 杨雪婷. 基于人脸特征的自适应选择增强FGS视频编码[J]. 电视技术, 2008，32(08):23-25.
[3] 江涛，张兆扬.时空域可分级的精细粒度可伸缩视频编码研究[D]. 上海：上海大学，2005.
[4] 杨雪婷, 林其伟.基于H.264的精细可分级编码结构改进方案[J]. 电视技术, 2009,33(S1).