CD-ROM格式数据的软解码模块设计
扫描二维码
随时随地手机看文章
关键词:CD-ROM格式 软解码 EDC检错 ECC纠错
引言
CD-ROM是目前应用非常广泛的大容量、低成本的存储设备。为了减小误码率,原始数据经过格式化编码和信道编码后,才写入CD-ROM盘片中;在读取时,则需经过信道解码和格式化解码后才能得到所需的原始数据。CD-ROM数据的读写过程如图1所示。
在一般的音像设备(如VCD机)和个人电脑中,CD-ROM数据的解码过程是由专用解码芯片来完成的;而CD-ROM不但可以应用在音像设备和个人电脑中,还可以应用到需要读取大量数据的嵌入式系统中。比如在车辆导般系统中,就可使用CD-ROM存放地理信息数据。嵌入式系统中的CD-ROM数据的解码方法比较灵活,可以使用专用解码芯片(暂称硬解码),也可以通过处理器的解码程序来完成(软解码)。相对于硬解码来说,软解码有其独特的优点所在。因为它只需增加一个解码程序模块,就省掉了专用解码芯片电路,简化了系统的硬件电路,降低了系统的成本。如图1所示,CD-ROM数据经过信道解码后,得到的是以扇区结构组织的CD-ROM格式数据,还需进行CD-ROM格式化解码才能得到最终的用户数据。本文介绍的就是嵌入式系统中CD-ROM格式数据软解码模块的设计。
1 CD-ROM格式数据的扇区结构
CD-ROM数据是以扇区为基本单元进行编码处理的。经过信道解码处理后得到的扇区对于不同的数据来源,其结构是不同的。对于CD-DA(双声道的CD音频)数据,由于没有经过格式化编码,可以直接得到用户数据;而CD-ROM数据和VCD数据都经过CD-ROM格式化编码成扇区结构,必须经CD-ROM格式化解码才能得到用户数据。
CD-ROM扇区有两种模式:模式1和模式2。其扇区结构如图2所示。
由图2可知,一个扇区的CD-ROM格式数据总共有2352字节。其中,两种扇区模式都有12字节的同步信息和4字节的时间信息(头信息)。如果是模式1,还有4字节的循环冗检错码,8字节空字节,276字节的纠错码,其中包含172字节的P校验字和104字节的Q校验字,用户数据只有2048字节。如果是模式2,除了同步信息和头信息外,余下的2336字节全部都是用户数据。
实际中,由于盘的制作材料的性能、盘制造生产技术水平的限制、驱动器的性能以及使用不当等诸多原因,从盘上读出的数据不可能完全正确。据统计,一片未使用过的只读光盘,原始误码率约为3×10 -4,沾有指纹的盘约为6×10 -4,有伤痕的盘约为5×10 -3。针对这种情况,光盘存储系统采用了功能强大的错误检测和纠正措施:CIRC、EDC、ECC。数据经信道解码后,由于采用CIRC纠错处理,误码率由10 -4~10 -5降到10 -9以下。对于音频和图像数据来说,这样的误码率已经足够。但要用到计算机文件数据,必须要求误码率为10 -12以下,因此必须采用二次纠错处理。通过EDC和ECC校验,可以达到这个要求。
所以,模式1主要用于存储对错误非常敏感的数据,如计算机程序代码等数据;而模式2则主要用于存储对错误不敏感的数据,如图像、音响等类型的数据。
在模式2的基础上,CD-ROM/XA格式又分为两种形式(FORM):形式1和形式2。其扇区结构如图3所示。我们常用的VCD就是采用CD-ROM/XA的形式2格式。
由上可知,除了扇区模式2可以直接得到2336字节的用户数据外,CD-ROM格式解码还必须进行EDC检错和ECC纠错处理。下面分别介绍EDC检错和ECC纠错的原理和解码算法。
2 CD-ROM扇区中的EDC检错原理及算法
CD-ROM扇区采用32位CRC(循环冗余校验码)检错码,其生成多项式为
P(X)=(X 16+X 15+X 2+1)×(X 16+X 2+X+1)
对应的码字是0x18001801B。计算CRC码时用的数据块是从扇区的开头到用户数据区结束为止的数据字节。即将字节0~2063共2064字节的数据所对应的长多项式整除P(X),得到32位的余式,放在2064~2067字节位置。这2068字节的数据对应的多项式是能够被生成多项式P(X)整除的。如果不能整除,则表明数据有错。所以,我们的解码过程就将2068字节的数据组成的多项式来整除生成多项式,如果余式为0,则表明数据正确,否则数据有错。
但我们不可能直接进行长除法操作,因为计算机不可能将一个2068×8位的极其长的二进制数直接拿来做长除法。根据长除法的规律,以字节(8比特)为单位进行操作,每次除法将上一字节的所得的余数与本字节组合成新的数进行除法运算。除式是33位的,因此,每个字节的除法须把这个字节的数左移24位,跟上次的余式组合成一个32位的二进制数,来整除除式。主要实现现代码如下:
for(i=0;i<2068;i++)
crc=edc_crc_32(crc,data_in[i],M32);
其中,crc为余数,M32为生成多项式对应的二进制数。函数edc_crc_32(int crc,int ch,int mask)的实现代码为
char edc_crc_32(int crc,int int mask){
ch<<24;
for(int i=0;i<8;i++){
if(crc^ch)&0x80000000)
crc=(crc<<1)^mask;
else
crc<<=1;
ch<<=1;
}
return crc;
}
由以上代码可知,每个字节的求余要进行8次移位和8次异或运算,对于ch值相同的数据来说,这种运算是完全的重复;对于大量的CD-ROM数据来说,是对资源的一种很大的浪费。因此,为了提高效率,可以把256个8位二进制数对应的余式做成表,在程序运行之前先把表读入内存。通过查表的方式将极大的提高代码的效率。代码如下:
for(int i=0;i<2068;i++){
temp=data_in[i]^(crc>>24));
crc=(crc<<8)^crctable[temp];
}
这种方式除了数据表需要占用内存外,运算效率理论上可以提高8位。实际上是用较少的内存空间换取了效率的极大提高。这在嵌入式系统中是很有应用价值的。
3 CD-ROM扇区中的ECC纠错原理及算法
CD-ROM扇区中的ECC码,按ISO/IEC10149的规范,采用GF(2 8)域上的RSPC码产生172字节的P校验符合和104字节的Q校验符号。RS码采用本原多项式
P(x)=x 8+x 4+x 3+x 2+1
和本原元
α=(0 0 0 0 0 0 1 0)
构造GF(2 8)中的256个元素。
P校验和Q校验字的生成方法如图4所示。每个扇区中,字节12~2075和ECC域中的字节2076~2351共2340个字节,组成1170个字(word)。每个字S由两个字节B组成,分别为最高有效位字节MSB和最低有效位字节LSB。第n个字由个面的字节组成:
S(n)=MSB[B(2n+13)]+LSB[B(2n+12)]
其中n=0,1,2,…,1169。
从字节12到2075共2064个字节组成的数据块排列成24×43的矩阵,可以看成是由一个MSB字节组成的24×43矩阵和由一个LSB字节组成的24×43矩阵。
P校验符号用(26,24)RS码产生。43列的每一列24个字节数据再加24行和25行对应的列上2个字节的P校验字节,构成列矢量Vp。这样构成了26×43的矩阵,并且满足方程
增加P校验后,得到了一个26×43矩阵,该矩阵对角线元素重新排列得到一个新的26×43矩阵,新矩阵的每行用(45,43)RS码产生两个Q校验字节放到末端。设为VQ矢量,满足以下方程
HQ×VQ=0
其中校验矩阵为
RS码错误纠正过程分三步:①计算校正子;②计算错误位置;③计算错误值。
传统的ECC算法有迭代算法和大数逻辑译码算法,涉及到复杂的矩阵运算及较多的数学知识,而且程序实现也很复杂。具体到我们的实际情况,我们发现无论是(26,24)RS还是(45,43)RS,都只有两字节的校验位,完全可以通过直接解二元一次方程组解决,因此可采用比较简单的算法。
设校验位为Q1和Q2,校正子计算如下(以(26,24)RS码为例):
如果得到S0和S1不全为0,则可断定数据有错误。如果只有个错误,设错误值为mx,错误位为a x,可通过解下述方程组求得错误位置和错误值。
注意:解方程过程中的加、减、乘、除运算都是在GF(2 8)域上进行的,编程的时候必须对这些运算进行特殊定义。
如果计算得到的S0=0,S1≠0,则基本上可断定至少有两个错误。出现多重错误时,单独的行内和列内的纠错是无能为力的,但将阵列作为一个整体来考虑,有些多重错误还是可以纠正的。Reference Technology公司提供有一种名为Layered ECC的算法,可以取消多重错误,其核心思想是交替执行行纠错和列纠错。因为同一行的多重错误从列的角度看可能是该列的一个错误,可以先进行该列的纠错,然后再从行的角度看,可以变成单个的错误了,从而可以纠正过来。
(26,24)RS码和(45,43)RS码都可以纠正出现任何一行和任何一列上的一个错误,并能相当可靠的检测出行、列中的多得错误。实际中出现个错误的概率是远远大于出现多个错误的概率的。因此,EDC码字的检错能力是非常强大的。
4 CD-ROM格式解码程序流程图
本数据处理模块主程序流程如图5所示。通过检测同步字从数据流中获取完整的一帧数据,再通过扇区的第16个字节的头信息获取扇区模式,然后根据模式的不同,作不同的处理。如果是模式2,则可直接得到2336字节的用户数据,有必要的话进行CD-ROM/XA格式处理:若是扇区模式1,需进行EDC检错处理,如果无错,可取出2048字节的用户数据;如果有错,则进行ECC纠错处理:如果纠错成功,则直接取出2048字节的用户数据。如果错误太多,纠正不了,则报告错误信息。
对于CD-ROM/XA格式,可以根据基子模式(即模式2的形式)进行相应的处理。对于形式2,进行EDC检错,可得到2324字节的用户数据;而对于形式1,可做类似于模式1的处理,即进行EDC检错和ECC纠错后,得到2048字节的用户数据。
当本程序模块应用到具体的应用系统时,将以系统子程序的形式出现。
结语
在嵌入式系统中,数据解码的实现方法应该根据具体应用的特点和要求灵活选择。本文介绍了通过软件方式进行CD-ROM格式解码的实现方法,对使用CD-ROM的嵌入式系统,很好的应用价值。