什么是语音识别技术

[导读]在下述的内容中，小编将会对语音识别技术的相关消息予以报道，如果语音识别技术是您想要了解的焦点之一，不妨和小编共同阅读这篇文章哦。

在下述的内容中，小编将会对语音识别技术的相关消息予以报道，如果语音识别技术是您想要了解的焦点之一，不妨和小编共同阅读这篇文章哦。

一、什么是语音识别技术

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术属于人工智能方向的一个重要分支，涉及许多学科，如信号处理、计算机科学、语言学、声学、生理学、心理学等，是人机自然交互技术中的关键环节。语音识别较语音合成而言，技术上要复杂，但应用却更加广泛。语音识别ASR的最大优势在于使得人机用户界面更加自然和容易使用。

语音识别是涉及心理学、生理学、声学、语言学、信息理论、信号处理、计算机科学、模式识别等多个学科的交叉学科，具有广阔的应用前景，如语音检索、命令控制、自动客户服务、机器自动翻译等。当今信息社会的高速发展迫切需要性能优越的，能满足各种不同需求的自动语音识别技术。但是，这样的目标面临着诸多困难，如：①语音信号会受到上下文的影响而发生变化;②发音人以及口音的不同会导致语音特征在参数空间分布的不同;③同一发音人心理和生理变化带来的语音变化;④不同的发音方式和习惯引起的省略、连读等多变的语音现象;⑤环境和信道等因素造成的语音信号失真问题。

对于自动语音识别的探索，实际是早于计算机的出现的，早期的声码器可以看作是语音合成和识别技术的雏形，20世纪20年代出现的“Radio Rex”玩具狗也许是人类历史上最早的语音识别机。现代自动语音识别技术可以追溯到上世纪50年代贝尔实验室的研究员使用模拟元器件，提取分析元音的共振峰信息，实现了十个英文孤立数字的识别功能。到了50年代末，统计语法的概念被伦敦大学学院的研究者首次加入到语音识别中(Fry，1959)，具有识别辅音和元音音素功能的识别器问世。在同一时期，用于特定环境中面向非特定人10个元音的音紊识别器也在麻省理工大学的林肯实验室被研制出来。概率在不确定性数据管理中扮演重要角色，但多重概率的出现也极大的加大了数据处理的繁杂度。

二、语音识别系统包含哪些部分

(1)语音输入的预处理模块

对输入的原始语音信号进行处理，滤除掉其中的不重要信息以及背景噪声，并进行语音信号的端点检测(也就是找出语音信号的始末)、语音分帧(可以近似理解为，一段语音就像是一段视频，由许多帧的有序画面构成，可以将语音信号切割为单个的“画面”进行分析)等处理。

(2)特征提取

在去除语音信号中对于语音识别无用的冗余信息后，保留能够反映语音本质特征的信息进行处理，并用一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列，以便用于后续处理。

(3)声学模型训练

声学模型可以理解为是对声音的建模，能够把语音输入转换成声学表示的输出，准确的说，是给出语音属于某个声学符号的概率。根据训练语音库的特征参数训练出声学模型参数。在识别时可以将待识别的语音的特征参数与声学模型进行匹配，得到识别结果。目前的主流语音识别系统多采用隐马尔可夫模型HMM进行声学模型建模。

(4)语言模型训练

语言模型是用来计算一个句子出现概率的模型，简单地说，就是计算一个句子在语法上是否正确的概率。因为句子的构造往往是规律的，前面出现的词经常预示了后方可能出现的词语。它主要用于决定哪个词序列的可能性更大，或者在出现了几个词的时候预测下一个即将出现的词语。它定义了哪些词能跟在上一个已经识别的词的后面(匹配是一个顺序的处理过程)，这样就可以为匹配过程排除一些不可能的单词。

语言建模能够有效的结合汉语语法和语义的知识，描述词之间的内在关系，从而提高识别率，减少搜索范围。对训练文本数据库进行语法、语义分析，经过基于统计模型训练得到语言模型。

(5)语音解码和搜索算法

解码器是指语音技术中的识别过程。针对输入的语音信号，根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络，根据搜索算法在该网络中寻找最佳的一条路径，这个路径就是能够以最大概率输出该语音信号的词串，这样就确定这个语音样本所包含的文字了。所以，解码操作即指搜索算法，即在解码端通过搜索技术寻找最优词串的方法。

以上便是小编此次带来的有关语音识别技术的全部内容，十分感谢大家的耐心阅读，想要了解更多相关内容，或者更多精彩内容，请一定关注我们网站哦。