原创

语音识别包含哪几类

时间：2024-04-01 13:20:01

关键字：语音识别语音 AI

手机看文章

扫描二维码
随时随地手机看文章

[导读]语音识别主要可以分为孤立词识别、连接词识别、连续语音识别、特定人语音识别和非特定人语音识别等几类。

语音识别主要可以分为孤立词识别、连接词识别、连续语音识别、特定人语音识别和非特定人语音识别等几类。以下是详细介绍：12

孤立词识别。这种方式是指说话人每次只说一个词或短语，每个词或短语在词汇表中都算作一个词条，一般用在语音电话拨号系统中。1

连接词识别。这种方式支持一个小的语法网络，其内部形成一个状态机，可以实现简单的家用电器的控制，而复杂的连接词语音识别系统可以用于电话语音查询、航空订票等系统。

连续语音识别。这种方式是指对说话人以日常自然的方式发音，通常特指用于语音录入的听写机。

特定人语音识别。这种方式是指只针对一个用户的语音识别。

非特定人语音识别。这种方式是指可用于不同的用户。

此外，还可以从识别对象的类型、识别的词汇量大小等方面进行分类。

语音识别系统可分为哪几类?现在的手机基本都有智能语音功能，通过语音可以直接和手机对话，有些软件还可以将语音转换为文字，这都需要使用语音识别技术。那语音识别系统可分为哪几类?

语音识别系统可分为哪几类

答：语音识别系统根据对输入语音的限制，可分为特定人语音识别系统、非特定人语音系统和多人的识别系统三类;

根据说话的方式可分为孤立词语音识别系统、连接词语音识别系统和连续语音识别系统;根据词汇量大小可分为小词汇量语音识别系统、中等词汇量语音识别系统和大词汇量语音识别系统。

语音识别系统根据对输入语音的限制加以分类：

可以将识别系统分为3类:

(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;

(2)非特定人语音系统:识别的语音与人无关，通常要用大量不同人的语音数据库对识别系统进行学习;

(3)多人的识别系统:通常能识别一组人的语音，或者成为特定组语音识别系统，该系统仅要求对要识别的那组人的语音进行训练。

从说话的方式考虑：

也可以将识别系统分为3类:

(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;

(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音，一些连音现象开始出现;

(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入，大量连音和变音会出现。

从识别系统的词汇量大小考虑：

也可以将识别系统分为3类:

(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。

(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。

(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高，识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

语音识别技术应用编辑语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。

语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

历史发展编辑早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而19XX产的Radio Rex玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由ATT贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末，伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。

1960年代，人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC)，及动态时间规整Dynamic Time Warp技术。

语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理，经过Rabiner等人的研究，卡内基梅隆大学的李开复最终实现了X个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx[4]。此后严格来说语音识别技术并没有脱离HMM框架。

尽管多年来研究人员一直尝试将“听写机”推广，语音识别技术在目前还无法支持无限领域，无限说话人的听写机应用。

模型编辑目前，主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成：

信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征，供声学模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型。语言模型对系统所针对的语言进行建模。理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。。是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。

系统构成编辑声学特征

声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。

由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。

常用的一些声学特征线性预测系数(Linear Predictive Coefficient，LPC)：线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS，即可得到线性预测系数LPC。对LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。倒谱系数：利用同态处理方法，对语音信号求离散傅立叶变换DFT后取对数，再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP)，在获得滤波器的线性预测系数后，可以用一个递推公式计算得出。实验表明，使用倒谱可以提高特征参数的稳定性。梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)和感知线性预测(Perceptual Linear Predictive，PLP)：不同于LPC等通过对人的发声机理的研究而得到的声学特征，Mel倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。

MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数。PLP仍用德宾法去计算LPC参数，但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。

中文声学特征

以普通话发音为例，我们会将一个字的发音切割成两个部分，分别是声母(initials)与韵母(finals)。而在发音的过程之中，声母转变至韵母是一个渐进而非瞬间的改变，因此我使用右文相关声韵母模式(Right-Context-Dependent Initial Final, RCDIF)作为分析方法，可以更X的辨识出正确的音节(syllable)。

声学模型

语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。

HMM声学建模：马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态(或当前的状态转移)有关，这两个假设大大降低了模型的复杂度。HMM的评估、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。

语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模，一个音素就是一个三至五状态的HMM，一个词就是构成词的多个音素的HMM串行起来构成的HMM，而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模：协同发音，指的是一个音受前后相邻音的影响而发生变化，从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变，从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响，从而使模型能更准确地描述语音，只考虑前一音的影响的称为Bi-Phone，考虑前一音和后一音的影响的称为Tri-Phone。

英语的上下文相关建模通常以音素为基元，由于有些音素对其后音素的影响是相似的，因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应，通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题，最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。