Google Brain推出语音识别新技术助力商业发展
扫描二维码
随时随地手机看文章
受先前语音和视觉领域增强成功的启发,Google Brain最近提出了SpecAugment,一种数据增强方法,它操作输入音频的对数mel光谱图,而不是原始音频本身。SpecAugment方法不但非常简单,计算成本也很低,因为它直接作用于对数mel光谱图,而不需要额外的数据。这种简单的方法非常有用,并使研究人员能够训练端到端的监听参与和拼写ASR网络。
通过使用简单的手工策略增加训练集,即使没有语言模型的帮助,研究人员也能够在端到端的LAS网络上获得librispeech 960h和Switchboard 300h超越混合系统的性能。它优于复杂的混合系统,通过使用更大的网络和更长的训练时间,SpecAugment能够达到最先进的效果。
全球自动语音识别(ASR)市场预计在2016年至2024年间以超过15%的复合年增长率增长。随着先进电子设备的飞速使用,人们对开发尖端功能和效率的需求越来越大,这样的功能和效率提高了应用的ASR精度。SpecAugment显著提高了ASR的性能,并可能成为人工智能工程师驱动下一代ASR应用程序所需的必要条件,这些应用程序包括机器人、交互式语音响应、自定义词典、视频游戏、语音验证、家用电器等。
使用一维CNN的端到端环境声音分类模型,加拿大的一组研究人员最近提出了一个端到端的一维CNN环境声音分类模型。根据音频信号的长度,该模型由3-5个卷积层组成。与许多传统方法实现二维表示的传统模型不同,这一模型是直接从音频波形中学习分类器。
在对包含8732个音频样本的数据集进行评估时,新方法演示了几种相关的分类器表示,其结果超越了现有的基于二维实例和二维CNN的最优效果。此外,在环境声音分类方面,该模型比大多数其他CNN体系结构的参数都要少,与传统的二维体系结构相比,平均精度要高出11%到27%。
根据这篇论文的评价结果,该方法在提供高度鲁棒的环境声音分类应用上具有很好的应用前景。
对于初学者来说,它的效率很高,与传统的2D CNN相比,它只需要很少的训练数据(后者需要数百万个训练参数)。它还实现了最先进的性能,可以通过实现滑动窗口处理任意长度的音频信号。最后,它紧凑的体系结构大大降低了计算成本。