数字电视信源编码的主要技术与标准浅析
扫描二维码
随时随地手机看文章
准数字电视和数字高清晰度电视在内的数字电视体系的开发研究正加紧进行。信源编码作为数字电视系统的核心构成部分,直接决定了数字电视的基本格式及其信号编码效率,决定了数字电视最终如何在实际的系统中实现。为了减少信源输出符号序列中的剩余度、提高符号的平均信息量,对信源输出的符号序列所施行的变换。具体说,就是针对信源输出符号序列的统计特性来寻找某种方法,把信源输出符号序列变换为最短的码字序列,使后者的各码元所载荷的平均信息量最大,同时又能保证无失真地恢复原来的符号序列。
一、数字电视的信源编码
数字电视信号在进入传输通道前的处理过程一般如图1所示:
电视信号在获取后经过的第一个处理环节就是信源编码。信源编码是通过压缩编码来去掉信号源中的冗余成分,以达到压缩码率和带宽,实现信号有效传输的目的。信道编码是通过按一定规则重新排列信号码元或加入辅助码的办法来防止码元在传输过程中出错,并进行检错和纠错,以保证信号的可靠传输。
信源编码的作用之一是设法减少码元数目和降低码元速率,即通常所说的数据压缩:作用之二是将信源的模拟信号转化成数字信号,以实现模拟信号的数字化传输。
信源编码的目的是通过在编码过程中对原始信号冗余度的去除来压缩码率,因此压缩编码的技术与标准成为信源编码的核心。MPEG-2压缩编码输出的码流作为数字电视信源编码的标准输出码流已被广泛认可。目前数字电视系统中信源编码以外的其他部分,包括信道编码,调制器,解调器等,大都以MPEG-2码流作为与之适配的标准数字信号码流。
二、数字演播室标准ITU-R601
Blackfin系列DSP专门针对高速数据吞吐集成了并行外围接口(PPI),在传统的数据总线的基础上增加了一条数据吞吐通道。PPI接口:1)能以最高66 MHz 的频率接收数据,以最高60 MHz 的频率输出数据;2)不再需要额外的数据输入/输出缓冲,直接连接高速AD/DA输入输出数据;3)能够输入或输出ITU-R601/656 格式和带行场同步时钟的RGB格式的数字视频。使用PPI接口输入输出数据,辅以强大的DMA流量控制和高速SDRAM,使BlackfinDSP的内核独立于数据吞吐过程,充分发挥其密集运算能力,并简化了系统构架,在红外视频处理通用模块中取得了良好的应用。
ITU-R601主要是一种取样标准。模拟电视信号据此取样后进行8比特量化和线性PCM编码,即可得到符合数字演播室标准的基带数字信号。但是,由此得到的数字电视信号具有非常高的码率和带宽,难以进入实用。虽然ITU-R601建议早在1980年已经制定,但直到九十年代一系列有效的图像数码压缩技术及相应的国际标准出现以后,数字电视才得到了迅速的发展。
图像数据的压缩主要基于对各种图像数据冗余度及视觉冗余度的压缩,包括如下一些方法:
1.统计冗余度的压缩:对于一串由许多数值构成的数据来说,如果其中某些值经常出现,而另外一些值很少出现,则这种由取值上的统计不均匀性就构成了统计冗余度,可以对之进行压缩。具体方法是对那些经常出现的值用短的码组来表示,对不经常出现的值用长的码组来表示,因而最终用于表示这一串数据的总的码位,相对于用定长码组来表示的码位而言得到了降低。
视频图像在每一点的取值上具有任意性。对于运动图像而言,每一点在一段时间内能取可能的任意值,在取值上具有统计均匀性,难以直接运用熵编码的方法,但可以通过适当的变换编码的方法,如DCT变换,使原图像变成由一串统计不均匀的数据来表示,从而利用霍夫曼编码来进行压缩。
2.空间冗余度的压缩:一幅视频图像相邻各点的取值往往相近或相同,具有空间相关性,这就是空间冗余度。从频域的观点看,意味着图像信号的能量主要集中在低频附近,高频信号的能量随频率的增加而迅速衰减。通过频域变换,可以将原图像信号用直流分量及少数低频交流分量的系数来表示,这就是变换编码中的正交余弦变换DCT的方法。DCT是一种与傅立叶变换紧密相关的数学运算。在傅立叶级数展开式中,如果被展开的函数是实偶函数,那么其傅立叶级数中只包含余弦项,再将其离散化可导出余弦变换,因此称之为离散余弦变换。
视频图像中经常出现一连串连续的象素点具有相同值的情况,典型的如彩条,彩场信号等。只传送起始象素点的值及随后取相同值的象素点的个数,也能有效地压缩码率,这就是行游程编码。目前在图像压缩编码中,行游程编码并不直接对图像数据进行编码,主要用于对量化后的DCT系数进行编码。
3.时间冗余度的压缩:时间冗余度表现在电视画面中相继各帧对应象素点的值往往相近或相同,具有时间相关性。不传送象素点本身的值而传送其与前一帧对应象素点的差值,也能有效地压缩码率,这就是差分编码DPCM。在实际的压缩编码中,DPCM主要用于各图像子块在DCT变换后的直流系数的传送。相对于交流系数而言,DCT直流系数的值很大,而相继各帧对应子块的DCT直流系数的值一般比较接近,在图像未发生跳变的情况下,其差值同直流系数本身的值相比是很小的。
由差分编码进一步发展起来的预测编码,是根据一定的规则先预测出下一个象素点或图像子块的值,然后将此预测值与实际值的差值传送给接收端。目前图像压缩中的预测编码主要用于帧间压缩编码,方法是先根据一个子块的运动矢量求出下一帧对应子块的预测值及其与实际值的差值,接收端根据运动矢量及差值恢复出原图像。由于运动矢量及差值的数据量低于原图像的数据量,因而也能达到图像数据压缩的目的。
4.视觉冗余度的压缩:人眼对于图像的视觉特性包括:对亮度信号比对色度信号敏感,对低频信号比对高频信号敏感,对静止图像比对运动图像敏感,以及对图像水平线条和垂直线条比对斜线敏感等。因此,包含在色度信号,图像高频信号和运动图像中的一些数据并不能对增加图像相对于人眼的清晰度作出贡献。
压缩视觉冗余度的核心思想是去掉那些相对人眼而言是看不到的或可有可无的图像数据。对视觉冗余度的压缩通常已反映在各种具体的压缩编码过程中。如对于DCT系数的直流与低频部分采取细量化,而对高频部分采取粗量化,使得DCT变换能借此压缩码率,并能有效地进行行游程编码。在帧间预测编码中,大码率压缩的预测帧及双向预测帧的采用,也是利用了人眼对运动图像细节不敏感的特性。
图像压缩编码的具体方法虽然还有多种,但大都是建立在上述基本思想之上的。DCT变换,行游程编码,DPCM,帧间预测编码及霍夫曼编码等编码方法。
三、图像压缩的主要技术与标准
目前有关图像压缩方面的主要标准包括CCITT的H.261,JPEG和MPEG。是分别针对电视电话图像,静止图像和活动图像的压缩编码标准。这几种压缩标准虽然各自针对性不同,但压缩编码方法大体相似。
1 H.261
H.261又称为P*64,其中P为64kb/s的取值范围,是1到30的可变参数,它最初是针对在ISDN上实现电信会议应用特别是面对面的可视电话和视频会议而设计的。实际的编码算法类似于MPEG算法,但不能与后者兼容。H.261在实时编码时比MPEG所占用的CPU运算量少得多,此算法为了优化带宽占用量,引进了在图像质量与运动幅度之间的平衡折中机制,也就是说,剧烈运动的图像比相对静止的图像质量要差。因此这种方法是属于恒定码流可变质量编码而非恒定质量可变码流编码。
图像压缩编码标准的提出最早源于通讯中对可视电话的研究。经过多年努力,至1980年,国际电报电话咨询委员会CCITT所属的视频编码专家组的H.261建议被通过,成为可视电话和电话会议的国际标准。H.261又称Px64,传输码率为Px64kbps,其中P=1-30可变,根据图像传输清晰度的不同,码率变化范围在64kbps至1.92Mbps之间,编码方法包括DCT变换,可控步长线性量化,变长编码及预测编码等。其简化的编码原理框图如图2所示。
图中,DCT变换的输入输出选择开关由帧内/帧间模式选择电路控制。在帧内模式时,开关打到上面,输入信号经DCT变换,线性量化和变长编码后输出,图像只进行帧内压缩。在帧间模式时,开关打到下面,前一帧图像信号经过预测环中的运动补偿后产生一个后帧的预测信号。后帧的实际输入信号与其预测值相减后,在进行一个帧内压缩编码的过程后输出。
图中变长编码器产生的控制信号送量化器以控制其量化步长。当变长编码器的输入中连续出现许多大数值的数据,导致集中出现长的码组,使缓存器接近溢出时,控制信号使量化器的量化步长加大,以降低大数值数据的出现;反之,也可控制量化器以减小其量化步长。在预测环路中由于存在用于恢复前帧信号的反量化器,量化步长控制信号也要送到预测环中的反量化器中。
H.261所针对的可视电话信号最初考虑是在一般电话网中传输的,带宽和码率是其考虑的核心问题。其每帧取样点数比ITU-R601所规定的低许多,且采取抽帧传输的方法,无法满足数字电视压缩编码的要求,但H.261是此前压缩编码数十年研究的结果。
2 JPEG
JPEG 是Joint Photographic Experts Group(联合图像专家小组))的缩写。JPEG的压缩方式通常是破坏性资料压缩(lossy compressiON),意即在压缩过程中图像的品质会遭受到可见的破坏,有一种以JPEG为基础的标准Progressive JPEG是采用无失真的压缩方式,但Progressive JPEG并没有受到广泛的支援。
JPEG是一种不含帧间压缩的帧内压缩编码方法,其主要编码过程与H.261的帧内编码过程大致相同。输入信号经DCT变换后,按固定的亮度与色度量化矩阵进行非线性量化。对量化后的DCT直流系数进行差分编码,交流系数进行行游程编码,再按霍夫曼码表进行变长编码后,送缓存器输出。
JPEG不含帧间压缩,压缩比较帧内/帧间压缩低。但因为不含帧间压缩,使得各帧在压缩编码后是各自独立的,这一点对于编辑来说是有利的,可以做到精确到逐帧的编辑。所以对于活动画面只进行帧内压缩的Motion-JPEG,目前仍然在一些数字电视编录设备,如非线性编辑系统中得到应用。
3 MPEG
MPEG-1是MPEG组织制定的第一个视频和音频有损压缩标准。视频压缩算法于1990年定义完成。1992年底,MPEG-1正式被批准成为国际标准。MPEG-1是为CD光碟介质定制的的视频和音频压缩格式。一张70分钟的CD光碟传输速率大约在1.4Mbps。而MPEG-1采用了块方式的运动补偿、离散馀弦变换(DCT)、量化等技术,并为1.2Mbps传输速率进行了优化。MPEG-1随后被Video CD采用作为核心技术。
MPEG-1主要是针对运动图像和声音在数字存储时的压缩编码,典型应用如VCD等家用数字音像产品,其编码最高码率为1.5Mbps。MPEG-2则针对数字电视的视音频压缩编码,对数字电视各种等级的压缩编码方案及图像编码中划分的层次作了详细的规定,其编码码率可从3Mbps到100Mbps。
MPEG的基本编码过程与H.261相似,即通过DCT进行帧间压缩。除了在编码语法上加进了一些特别规定外,与H.261的一个重要不同是MPEG在预测编码中加进了一个双向预测帧B帧,如图3所示。
图中,I帧只进行帧内压缩,是作为预测基准的独立帧,具有较小的压缩比。由I帧前向预测产生的P帧具有中等压缩比,并与I帧一起成为B帧的预测基准。由此产生的B帧则具有最高的压缩比。I帧出现的频率及I,B,P帧之间如何组合,MPEG未作具体规定,可由编码器自行选择。如索尼的数字Betacom录像机,在压缩编码过程中抽掉了B帧,只有I帧与P帧的组合。
在上述各种图像压缩编码标准中,MPEG-2是专门针对数字电视的。MPEG-2的压缩编码及其标准码流的形成构成了数字电视信源编码的核心。
四、MPEG-2标准码流的形成
符合MPEG-2格式的码流成为数字电视信源编码的标准输出码流。数字电视信道编码,DVB及MPEG-2解码器等均认同和适应此标准。为了形成统一标准的MPEG-2输出码流,MPEG-2对其压缩编码的适用范围和编码语法。
1.MPEG-2的类和级
在对数字电视信号进行压缩编码时,MPEG-2可采用多种编码工具并实现不同层次的清晰度。
图像清晰度由LOW到HIGH逐级提高,使用的编码工具从SIMPLE到HIGH依次递增。20个可能的组合中有11个已获通过,称为MPEG-2 适用点,其中主类主级MP@ML适用于标准数字电视,主类高级MP@HL则用于高清晰度电视。
2.MPEG-2的层
MPEG-2根据图像块和图像帧的不同组合划分为六层。MPEG-2的层直接决定了编码码流的形成和结构。MPEG-2的层从下至上依次为:
象块层:由8x8个象素点构成的DCT变换基本单元;
宏块层:在4:2:2取样中,一个宏块由4个亮度象块,2个Cr象块和2个Cb 象块构成。另外还有4:2:0取样和4:4:4取样的两种宏块;
像条层:一连串宏块可构成一个像条;
图像层:一系列像条可以构成一幅图像,图像分为I,B,P三类;
图像组层:由相互间相关的一组I,B,P帧组成,I帧为第一帧;
视频序列层:一系列图像组构成了一个视频序列;
从象块开始从下至上依次编码,并在除象块和宏块外的每一层的开始处加上起始码和头标志,就形成了MPEG-2基本码流。
3.MPEG-2基本码流的打包与复用
分别从MPEG-2编码器中输出的视频,音频和数据基本码流无法直接送信道传输,需要经过打包和复用,形成适合传输的单一的MPEG-2传输码流。
MPEG-2所能提供的传输率在3-10Mbits/sec间,其在NTSC制式下的分辨率可达720X486,MPEG-2也可提供并能够提供广播级的视像和CD级的音质。MPEG-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道(DVD可有8种语言配音的原因)。由于MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器也可播放MPEG-1格式的数据
视频,音频及数据基本码流ES先被打成一系列不等长的PES小包,称为打包的基本码流。每个PES小包带有一个包头,内含小包的种类,长度及其他相关信息。视频,音频及数据的PES小包,按照共同的时间基准,多路节目码流经传输复用后形成由定长传输小包组成的单一的传输码流,成为MPEG-2信源编码的最终输出信号
在数字化电视信号的信源编码中,根据对图像清晰度的不同要求及其他方面的考虑,可分别采用JPEG、MPEG-1和MPEG-2作为编码方法。其中,MPEG-2由于专门针对数字电视的信源编码制定了一系列的语法和规范并被广泛认可,已成为数字电视广播信源编码的核心技术与标准。