当前位置:首页 > 工业控制 > 电子设计自动化

摘 要: 采用SoPC方法,实现了基于动态时间规整(DTW)算法的孤立词语音识别系统,该系统可以作为电器系统的语音命令控制模块使用。考虑嵌入式系统的特点,对端点检测算法和模式匹配算法进行了选择和调整。实验表明,该语音识别系统运行速度和识别准确性能够适应语音控制的要求。SoPC设计方式灵活,适合对系统进行改进升级。
关键词: SoPC;Nios II;语音识别;动态时间规整

随着计算机技术、模式识别技术等的发展,国内外对语音识别的研究也不断进步。目前电器、家居智能化的实际需求使得语音识别技术成为一个研究热点。例如,美国约翰·霍普金斯大学语言和语音处理中心多年来一直致力于推动语言和语音识别的研究和教育,CLSP每年一度的夏季研讨会对语音识别的各个领域都产生了深远的影响。国内,中国科学院等也在语音识别领域有较大进展。
相对于基于PC机平台的大词汇量语音识别系统,嵌入式系统中要求语音控制模块占用资源少,功能简洁,可作为独立的语音识别系统或其他系统的语音控制部分。因此,根据语音识别系统的准确性、实时性的要求和SoPC实现方式的特点,在介绍实现该语音识别系统的基本流程的基础上着重探讨以下两部分内容:(1)由于端点检测算法对识别的准确性影响较大,本系统探索适合SoPC设计的端点检测算法,从而使得系统的识别准确性有所改进;(2)模式匹配时,对同一模板采用了多个局部判决函数,求多个累加总距离的平均值作为最终的判决依据,进一步提高了识别结果的可靠性。
可编程片上系统SoPC(System on Programmable Chip)是Altera公司提出的一种基于FPGA的嵌入式系统解决方法,采用软硬件结合设计的思想,实现方式简单灵活[1]。设计中采用高性价比的EP2C70 FPGA芯片。实验结果表明,系统运行良好,能够满足中、小词汇量孤立词语音识别系统的要求。
1 设计方案
语音识别系统的逻辑流程如图1所示。采样得到的语音信号要经过预处理、端点检测、特征参数提取,然后根据用户指定的工作模式(识别模式或训练模式),进行模式匹配并输出识别结果,或者训练得到该词条的模板,并存入模板库。因此,在硬件资源允许的条件下,用户可以自定义训练模板,更新模板库,拓展系统的应用范围。

1.1 预加重和端点检测
系统采用8 kHz采样,由音频编/解码芯片WM8731采样得到的语音数据,经过FIFO数据缓存器传输到系统的SDRAM中,然后对SDRAM中的数据进行后续处理。设定256个采样点作为一帧,每个孤立词采集100帧(3.2 s)数据。
(1)预加重:处理的第一步要对采集到的数字语音信号进行预处理,主要是预加重。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中能用相同的信噪比求频谱。通过一个滤波器对信号进行滤波,滤波器的传递函数为:
H(z)=1-0.98z-1(1)
(2)端点检测:从数字语音信号中快速有效地切分出语音段,对于整个系统的识别速度和识别准确性影响较大。根据汉语语音的特点,一般一个汉语单词的开始部分是清音,接下来是浊音,清音较弱,浊音较强。因此在端点检测部分,采用了基于短时能量和短时过零率的双重检测。首先根据浊音粗判起始帧,然后根据清音,细判起始帧。语音的起始帧和终止帧都是经过粗判和细判之后得出,从而保证端点检测的准确性[2]。

1.2 特征提取
经过预加重和端点检测之后得到语音段采样值构成的向量序列。接下来对该向量序列进行特征参数分析,目的是提取合适的语音特征参数,使特征向量序列在语音识别时,类内距离尽量小,类间距离尽量大。特征参数的提取同样是语音识别的关键问题,特征参数的选择直接影响到语音识别的精度。结合SoPC设计的需求,选择提取语音信号的美尔特征参数(MFCC)[3]。MFCC能够较好地反映人耳的听觉特性。
为求识别系统简洁,每词条固定采集3.2 s的语音信号,采样频率为8 kHz,经端点检测切分出语音段,然后将语音段进行分帧(每帧256个采样点),每帧提取一组14维的MFCC参数,组成一组特征参数向量序列,作为待识别语音段的特征参数。
1.3 模式匹配
对于大词汇量的非特定人语音识别系统,模式匹配多采用基于模型参数的隐马尔可夫模型(HMM)的方法或基于非模型参数的矢量量化(VQ)的方法。但是HMM算法模型数据过大,对存储空间和处理速度的要求高,不适合嵌入式系统。VQ算法虽然训练和识别的时间较短,对内存要求也较小,但识别性能较差。因此考虑到嵌入式系统系统资源有限以及运算能力限制,而又需要保证识别准确性,决定采用基于动态时间规整的算法(DTW)进行模式匹配。
由于每个人的发音习惯不同,以及同一个人每次说同一个单词时说话速度具有随机性,因此会导致每次采样得到的语音数据序列长度具有随机性。DTW算法由日本学者板仓(Itakura)提出[4],能够较好地解决语音识别时单词长度具有随机性这一问题。
DTW[5-6]算法将时间规整和距离测度计算相结合,描述如下:
(1)将特征提取部分提取出来的特征向量序列与模板库中每个词条的特征向量序列逐帧计算距离,得到距离矩阵。对应帧之间的距离是两帧的特征向量中对应分量的差值的平方和。距离矩阵中元素的计算式为:

其中,D[i][j]为距离矩阵的元素,表示待识别语音段特征向量序列第i帧和该条参考模板向量序列第j帧之间的距离,i=0,1,2,…,I-1;j=0,1,2,…,J-1。I、J分别为待识别语音的特征向量序列和该条参考模板序列的总帧数。x[i][m]为待识别语音的特征向量序列第i帧向量的第m维分量,y[j][m]为该条参考模板的第j帧向量的第m维分量。K为对切分出的语音段每帧语音的原始采样数据提取的特征向量的维数,该识别系统中每帧提取14维的MFCC参数,因此K=14。
(2)按照一定的局部判决函数,由距离矩阵计算出累加距离矩阵(求得的累加距离矩阵最末一个元素的值即为待识别语音和该条参考模板之间的总距离),得到累加距离矩阵的同时得出最佳规整路径[3-4]。图3所示为设计中采用的三种局部判决函数。


同理,对待测语音与模板库中的每条模板求得一个统计平均距离。由判决逻辑判断出各统计平均距离值中的最小值,相应的模板所指向的单词即为最终的识别结果。
2 系统实现
系统硬件部分如图4所示,包括FPGA芯片、Flash、SDRAM、音频编解码芯片WM8731、按键以及LCD1602。在FPGA芯片中添加NiosII软核CPU,并建立片外Flash、SDRAM、音频编解码芯片WM8731和LCD1602的接口部分。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭