当前位置:首页 > 消费电子 > 消费电子
[导读]引言基于内容的音频检索指通过音频特征分析,对不同音频数据赋以不同语义,使具有相同语义的音频在听觉上保持相似。该技术在许多领域都有极大应用价值。在检索系统中一种常见情形是将安静环境下训练的模型应用于实际

引言

基于内容的音频检索指通过音频特征分析,对不同音频数据赋以不同语义,使具有相同语义的音频在听觉上保持相似。该技术在许多领域都有极大应用价值。在检索系统中一种常见情形是将安静环境下训练的模型应用于实际有背景噪声的环境。尤其在哼唱输入的情况下,噪声不可避免,因此噪声背景环境中的音频识别技术一直备受关注。本文给出一个将音频增强和音频检索系统相连接的抗噪声音频检索系统,重点分析基于内容的音频检索系统的前端抗噪技术。

2  系统平台的建立

基于内容的音频检索系统运用多媒体信息处理技术,结合人感知心理研究和模式识别技术实现音频检索,包括音频分割、特征提取和索引检索等关键步骤。在提交哼唱式音频过程中不可避免地会受到来自周围环境和传输媒介引入的噪声、设备内部电噪声的干扰。这些干扰将使检索系统的性能恶化。因此,必须对带噪音频进行抗噪处理。音频检索系统首先是建立数据库,对音频数据进行特征提取。音频检索主要采用哼唱查询方式,用户通过查询界面哼入查询信息,然后提交查询。在进行属性特征提取前通过前端抗噪模块增强哼唱语音。接着系统对哼唱音频提取特征,然后检索引擎对特征矢量进行匹配,按相关性排序后通过查询接口返回给用户。图1为抗噪声检索系统原理框图。

3  音频抗噪技术分析

3.1  语音增强算法分类

系统前端输入信号通常是哼唱输入,语音频段可以采用语音增强技术。语音增强是指为了提高受噪声污染的语音信号的质量而对含噪语音所做的处理,主要用于从带噪语音信号中提取纯净的原始音频或原始语音参数。根据不同的标准,语音增强算法有多种分类方法。

从信号输入的通道数分为单通道的语音增强算法与多通道的语音增强算法。单通道语音系统下语音与噪声同时存在于一个通道中,语音信息与噪声信息必须从同一个信号中得出。常用方法包括谱减法、信号统计模型方法、听觉掩蔽算法、维纳滤波方法、信号子空间算法等。多通道语音增强算法则采用麦克风阵列获取信号数据,它可充分利用阵列信号的信号源方向、说话人位置等空间特性,结合语音信号与噪声的特征实现语音增强。代表性的算法有自适应波束形成算法、结合波束形成与后滤波算法及各种基于信号子空间、统计模型算法等。

另一种分类方法是根据对语音信号处理方式的不同,将语音增强算法分为时域语音增强算法和变换域语音增强算法两大类。时域语音增强是在时间域直接处理带噪语音来恢复纯净语音,利用语音信号在时域中的短时平稳特性、相关特性等来研究具有针对性的噪声消除技术,其代表性算法有最大后验概率估计法、卡尔曼滤波法、梳状滤波器法、子空间的方法、自适应噪声抵消算法、语音生成模型等。变换域语音增强需一个适当的变换将语音信号转换到变换域中,然后针对变换域中的带噪语音分量的特性设计算法恢复纯净语音分量,最后通过相应的反变换获得纯净语音信号在时域中的估计。其常用变换有离散傅里叶变换、离散余弦变换及K-L变换和小波变换等,代表性算法有谱减法、维纳滤波法、短时谱幅度的MMSE估计、自适应滤波法等、听觉掩蔽效应增强算法,小波变换算法、基于频域盲源分离的语音增强技术等。还有一些新方法,如神经网络、分形理论等。

3.2 系统抗噪算法的确定

在基于内容的音频检索系统中,用户通过哼唱等方式输入检索信息,基于单麦克风输入的单通道语音增强算法是一种简便、实用的形式。变换域语音增强算法可充分利用变换域中语音与背景噪声较其在时域中更为显著的特征区别,且能有效消除语音信号在时域中存在的相关特性,因此其对带噪语音的增强效果要优于时域语音增强算法。因此系统适合采用谱减法、听觉掩蔽算法、维纳滤波方法、信号子空间算法。

维纳滤波法能改善平稳段的谱估计,残留噪声类似于白噪声,降低音乐噪声的干扰,但算法复杂度较大,适用于对实时性要求不高的场合。听觉掩蔽算法可减少不必要的语音失真,实际应用中常只能用带噪语音估计掩蔽阈值,则估计结果误差较大,对噪声估计要求较高。信号子空间算法能有效去除带噪语音中的背景噪声,使语音的质量和可懂度都有较大提高,但计算量较大。谱减法算法简单,算法复杂度低,实现较容易,能够最大程度上满足实时性要求,但会引入较大音乐噪声,适合在平稳噪声环境和对实时性要求较高的场合使用。由于本系统为实时检索系统,对实时性和快速性的要求较高,因此这里采用谱减法。

4  基于谱减法的减噪技术

4.1  谱减法的基本原理

谱减法就是在频域将噪声的频谱分量从带噪语音信号的频谱中减去。其基本思想是:在假定加性高斯噪声与短时平稳的语音信号独立的条件下,从带噪语音信号的功率谱中减去噪声的功率谱,从而得到增强后较为纯净的语音频谱。其基本原理框图如图2所示,图1中,s(n)表示纯净语音,d(n)表示加性噪声,r(n)=s(n)+d(n)表示带噪语音信号,Yk和Sk(k=0,1,2…)分别表示带噪语音信号和纯净语音的频谱系数,λn(k)表示噪声的功率谱系数。

式中,α和β为参数。当α=1,β=1时,为幅度谱减法形式。当α=2,β=1时,为功率谱减法形式。

该谱减法称为传统谱相减法。它基于人耳对声音相位不敏感特性,从含噪语音中减去估计噪声而达到语音增强的目的,直观简单,但容易产生“音乐噪声”,因此实际应用中常采用谱减法的改进算法。

4.2  谱减法的改进算法

用功率谱减法处理语音信号后,在频域中仍残留有噪声,要滤除或减少这些噪声,可适当的多减去噪声分量,使残留噪声在幅值上减少,从而降低噪声的影响,即过减法。此时式(1)取β>1,这样语音失真可能会增大。因此,通过噪声估计来调整和确定β的取值。β值的取值原则:对信噪比低的带噪语音,噪声的方差大,β可适当大些;对信噪比高的带噪语音,β取值则可小些。因为噪声谱的估计是平均值,所以当前帧的噪声谱实际上与估计值有偏差,因此,经谱减法计算的语音谱值可能是负值,一般则设结果设为零,即采用半波整流法,还可采用残余噪声衰减法,噪声残留的幅值介于零和整个非语音活动期最大噪声残留幅值之间,由于残留噪声的随机性,在每个频点上其振幅值随不同分析帧而随机波动,因此在给定频点上通过用相邻帧的频点振幅最小值代替当前帧的振幅而压缩残留噪声。这样就形成改进型谱减法的系统,能有效实现前端减噪。

5  结束语

基于内容的音频检索技术适应性更强,具有广泛的应用价值,具有噪声鲁棒性的检索系统在实际应用中不可或缺。本文给出一个将音频增强和音频检索系统级联的抗噪声音频检索系统,从不同角度分析语音增强算法,并通过比较选取谱减法作为基于内容的音频检索系统的前端抗噪技术,同时给出谱减法的改进算法。

 

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭