语音识别技术包括哪些

[导读]今天，小编将在这篇文章中为大家带来语音识别技术的有关报道，通过阅读这篇文章，大家可以对语音识别技术具备清晰的认识，主要内容如下。

今天，小编将在这篇文章中为大家带来语音识别技术的有关报道，通过阅读这篇文章，大家可以对语音识别技术具备清晰的认识，主要内容如下。

一、语音识别技术

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术属于人工智能方向的一个重要分支，涉及许多学科，如信号处理、计算机科学、语言学、声学、生理学、心理学等，是人机自然交互技术中的关键环节。语音识别较语音合成而言，技术上要复杂，但应用却更加广泛。语音识别ASR的最大优势在于使得人机用户界面更加自然和容易使用。

对于自动语音识别的探索，实际是早于计算机的出现的，早期的声码器可以看作是语音合成和识别技术的雏形，20世纪20年代出现的“Radio Rex”玩具狗也许是人类历史上最早的语音识别机。现代自动语音识别技术可以追溯到上世纪50年代贝尔实验室的研究员使用模拟元器件，提取分析元音的共振峰信息，实现了十个英文孤立数字的识别功能。到了50年代末，统计语法的概念被伦敦大学学院的研究者首次加入到语音识别中(Fry，1959)，具有识别辅音和元音音素功能的识别器问世。在同一时期，用于特定环境中面向非特定人10个元音的音紊识别器也在麻省理工大学的林肯实验室被研制出来。概率在不确定性数据管理中扮演重要角色，但多重概率的出现也极大的加大了数据处理的繁杂度。

二、语音识别技术包含哪些

语音识别技术主要包括以下几个方面：

信号处理。对语音信号进行分析处理，包括静音处理、噪音处理、语音增强等，以消除外部环境对语音的影响，去除多余信息。

声学特征提取。从处理后的语音信号中提取关键信息和表达语言含义的特征信息。

声学模型处理。声学模型是语音识别技术中最关键的部分，它提取语音特征矢量序列，计算发音模板的距离，生成声学模型分数。

语音模型技术。语音模型对语音识别技术也非常重要，通常采用的是统计语法的语音模型、语义和语法结构命令语言模型，对语法和语义进行分析，减少搜索空间，提高系统识别率。

模式识别和机器学习算法。包括动态时间规整(DTW)、支持向量机(SVM)、矢量量化(VQ)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、人工神经网络(ANN/BP)、深度神经网络/深信度网络-隐马尔科夫(DNN/DBN-HMM)、循环神经网络(RNN)、长短时记忆模块(LSTM)和卷积神经网络(CNN)等。

自然语言处理技术。与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。

语音识别技术的主要应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。

完整的语音识别系统技术包含：

1、信号处理技术

对语音信号进行分析处理，通过静音处理、噪音处理、语音增强等方法，消除外部环境对语音的影响，去除多余信息。

2、声学特征提取技术

接收信号处理后等到的有效信号，对波形进行声学特征提取，提取关键信息和表达语言含义的特征信息。

3、声学模型处理技术

声学模型是语音识别技术中最关键的部分，它可以提取语音特征矢量序列，计算发音模板的距离，生成声学模型分数。

4、语音模型技术

语音模型对语音识别技术也非常的重要，通常采用的是统计语法的语音模型、语义和语法结构命令语言模型为主，对语法和语义进行分析，减少搜索空间，提高系统识别率。

上述所有信息便是小编这次为大家推荐的有关语音识别技术的内容，希望大家能够喜欢，想了解更多有关它的信息或者其它内容，请关注我们网站哦。