怎么样进行语音识别系统的设计?
扫描二维码
随时随地手机看文章
语音识别技术是语音处理领域的一个关键技术。语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的技术,近年来基于PC 平台的非特定人,大词汇量,连续语音的识别技术已经基本发展成熟。随着集成电路尤其是超大规模集成电路的快速发展,嵌入式的功能越来越强大,语音识别技术在嵌入式系统上的应用成为了可能,嵌入式语音识别技术己经成为了语音识别领域发展新的重要方向。
语音识别系统的设计包括:1、采集语音信号,实时处理与传输。2、进行语音识别前的预处理,包括:噪声抑制、语音端点检测、特 征提取、样本分类和分类器的训练。3、语音识别,包括:解码、词典构建和识别工作,以及基于HMMGMM的语音识别。4、结果处理,将输出结果中的语音合成为文字,以便易于理解。 5、数据建模:将获取的语音信号转换为形式化格式,以便后续处理。6、自 然语言处理:将输入的语音信号转换为机器可以理解的语义表征,以便实现机器人应用。7、评估算法:评 估模型和算法的表现,以便优化系统性能。8、应用开发:为不同的应用场景提供开发支持,使语音识别系 统能够更好的工作。
目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。动态时间规整算法(Dynamic Time Warping,DTW)是在非特定人语音识别中一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出 现较早、较常用的一种算法。隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型,是由Markov链 演变来的,所以它是基于参数模型的统计识别方法。矢量量化(Vector Quantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。
语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑,可以将识别系统分为三类:(1)特定人语音识别系统。仅考虑对于专人的话音 进行识别。(2)非特定人语音系统。识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习。(3)多人的识别系统。通常能识别一组人的 语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。
如果从说话的方式考虑,也可以将识别系统分为三类:(1)孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿。(2)连接词语音识别系统。连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现。(3)连续语音识别系统。连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。
语音识别技术一般仅限于特定人语音识别的实现,即需要让使用者对所识别的词条先进行学习或训练这一类识别功能对语种、方言和词条没有限制。有的芯片也能够实现非特定人语音识别,即预先将所要识别的语句码本训练好而装入芯片,用户使用时不需要再进行学习而直接应用。但这一类识别功能只适用于规定的语种和方言,而且所识别的语句只限于预先已训练好的语句。由此芯片组成一个完整的语音识别系统。因此,除了语音识别功能以外,为了有一个好的人机界面和识别正确与否的验证,该系统还必须具备语音提示(语音合成)及语音回放(语音编解码记录)功能。多为实时系统,即当用户说完待识别的词条后,系统立即完成识别功能并有所回应,这就对电路的运算速度有较高的要求。除了要求有尽可能好的识别性能外,还要求体积尽可能小、可靠性高、耗电省、价钱低等特点。