当前位置:首页 > 嵌入式 > 嵌入式教程
[导读]基于HMM的连续小词量语音识别系统的研究

摘要:为了提高语音识别效率及对环境的依赖性,文章对语音识别算法部分和硬件部分做了分析与改进,采用ARMS3C2410微处理器作为主控制模块,采用UDA1314TS音频处理芯片作为语音识别模块,利用HMM声学模型及Viterbi算法进行模式训练和识别,设计了一种连续的、小词量的语音识别系统。实验证明,该语音识别系统具有较高的识别率和一定程度的鲁棒性,实验室识别率和室外识别率分别达到95.6%,92.3%。
关键词:语音识别;嵌入式系统;Hidden Markov Models;ARM;Viterbi算法

0 引言
    嵌入式语音识别系统是应用各种先进的微处理器在板级或是芯片级用软件或硬件实现的语音识别。嵌入式技术与语音识别技术相结合,能使人们甩掉键盘,通过语音命令对智能化终端进行操作,人与智能化终端之间的这种自然快捷的交互方式有助于提高人机交互的效率,以适应嵌入式平台存储资源少,实时性要求高的特点,增强人对智能化设备的控制,同时,在语音识别技术发展过程中又以HMM的广泛应用为特点。该算法通过对大量语音数据进行数据统计,建立识别词条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较匹配概率,以获得识别结果,通过建立大量的语音数据库,就能获得一个稳健的统计模型,提高在各种实际情况下的识别效率。

1 Markov链及隐马尔可夫模型(HMM)
    语音信号是一个可观察的序列,在足够小时间段上特性近似于稳定,但其总的过程可看作依次从相对稳定的某一特性过渡到另一特性,在整个分析区间内可将许多线性模型串接起来,这就是Markov链。Markov链是Markov随机过程的特殊情况,即Markov链式状态和时间参数都离散的Markov过程。
    隐马尔可夫模型是对语音信号的时间序列结构建立统计模型,可将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Mar-kov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Mark-ov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。
    一般来说,一个HMM是一个双重随机过程,由下述五个参数描述:


2 基于HMM的语音识别系统实现
    人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出音素的参数流。HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。从整段语音来看,人类语音是一个非平稳的随机过程,但是若把整段语音分割成若干短时语音信号,则可认为这些短时语音信号是平稳过程,就可以用线性手段对这些短时语音信号进行分析。若对这些语音信号建立隐马尔可夫模型,则可以辩识具有不同参数的短时平稳信号段,并可以跟踪它们之间的转化,从而解决了对语音的发音速率及声学变化建立模型的问题。
    语音识别系统首先通过芯片内的A/D转换器将模拟语音信号转化为数字语音信号,然后对数字语音信号进行处理(信号加窗、过滤),得到干净的语音信号,再通过特征提取过程做出特征矢量,提取语音特征,最后由识别过程对说话人语音进行识别,得出识别结果。总体来说,整个识别过程分为语音信号的预处理、语音信号的特征提取、语音库的建立以及语音信号的识别等几个主要阶段,如图1所示。


    语音识别过程分为两个部分:一是HMM训练过程,得到HMM语音识别模型,即建立基本识别语音库;二是HMM识别过程,得到语音识别结果。[!--empirenews.page--]
2.1 HMM训练
    HMM算法是解决识别问题的一种常用方法。一个HMM模型中有N个状态,对于一个长度为T的观察序列,如果按照定义来计算,需要2TNT次运算,这种运算量是不能接受的,而HMM算法可以简化这个过程。


[!--empirenews.page--]


    如果P(O/λZ)和距离太大,则返回步骤(2),反复迭代运算,直到HMM模型参数不再发生明显的变化为止。
2.2 HMM模型识别
    HMM模型的输出概率用Viterbi算法计算,因为概率值一般都远小于1,这里用取对数后的概率作为输出值:

    以上式中δt(i)表示t时刻第i个状态的累积输出概率;φt(i)表示t时刻第i个状态的前续状态号;为最优状态序列中t时刻所处的状态;P*为最终的输出概率。

3 实验结果
    系统首先通过语音录入模块的麦克风将语音信号输入UDA1341 TS数字音频处理芯片,通过S3C2410向UDA1341数字音频处理芯片发送指令,数字音频处理芯片由内部A/D对语音信号进行采样,调用语音压缩算法对语音信号进行压缩,并调用语音识别函数API对输入语音进行基于模式匹配算法的语音识别,最终UDA1341数字音频处理芯片将识别结果通过I/O传送到ARM S3C2410,S3C2410接收到识别结果后,根据不同的识别结果再向UDA1341 TS发送不同指令,以此实现语音识别系统的功能。
    系统采用三星的S3C2410作为嵌入式CPU,这是一款高性价比、低功耗、高性能、高集成度的CPU,基于ARM9核,主频为203 MHz,专为网络通信和手持设备而设计,能满足语音识别系统中的低成本、低功耗、高性能、小体积的要求。
    实验采用10字中文数码,分别在室外环境和实验室环境下测试,结果如表1所示。


    通过测试表明,在实验室环境下该系统在UDA1314TS DSP芯片上得到的结果比较令人满意,具有良好的鲁棒性,识别率达到实用要求,但在室外较高噪音条件下的识别率相对实验室环境下有一定差距,满足语音识别基本要求。

4 结论
    本文系统采用隐马尔可夫模型的语音识别算法,能够对小词量、连续语音进行识别,识别率较高。ARMS3C2410微处理器和UDA1314TS音频处理芯片的结合应用,能使本语音识别系统具有较强的实时性。体积小,携带方便,使用灵活,可移植性强的特点使系统在进一步改进和发展后能够用于工业语音控制领域中,还可用于声控玩具、声控设备等人们的日常生活中。
    但由于技术水平和硬件环境的限制,该语音识别系统在算法、硬件方面都需要进一步的研究和完善。该嵌入式语音识别系统的研究为进一步开发和研究实用性嵌入式语音识别系统做出了重要的尝试和探索工作。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭