依图声纹识别新突破,未来语音技术将更加智能
扫描二维码
随时随地手机看文章
(文章来源:环球Tech)
在国际知名声纹识别挑战赛VoxCeleb Speaker Recognition Challenge上,依图以显著优势刷新世界纪录,中国AI再次世界争光。
此次参赛队伍不仅包括约翰霍普金斯大学、法国国家信息与自动化研究所、清华大学、中山大学等海内外知名高校、研究机构,还包含平安科技、NEC、君林科技等各大企业。至此,依图人工智能技术不仅在视觉感知、自然语言理解等领域领跑全球,声纹识别技术也已达世界顶尖水平。
“声纹识别”和“语音识别”是完全不同的技术,语音识别只负责让机器识别出“说话的内容”,但声纹识别能判定“话是谁说的”。因此,结合声纹识别与语音识别,我们才能知道“是谁说了什么”,这一点对于会议、访谈等有多人轮流说话的场景尤其重要。
声纹识别的应用前景非常广泛,比如智能手机锁屏、声控安全门、汽车声控锁等;利用声纹辨认技术,还可以支持智能音箱、智能语音助理等提供个性化服务,比如针对家里的老人和孩子,推荐不同的歌曲、新闻。但由于声纹识别技术本身的难度很高,这些应用需求大部分还处在探索阶段。这也是到目前市面上能自动辨别说话人的智能语音应用比较少见的一个原因。
在声纹识别领域,VoxCeleb Speaker RecogniTIon Challenge(VoxSRC)是兼具影响力和权威性的国际评测。与常规的声纹识别评测不同,VoxSRC所用的数据量大、来源多样,而且都采集自真实场景,比如会场访谈、室外多人对话,含有各种噪音和杂音,对于算法性能的要求非常高。此外,该竞赛的评估方法非常严谨,因此其结果在学术界和工业界都得到认可。
在声纹识别竞赛中,“EER”值是衡量声纹识别算法系统性能的重要指标,EER越小系统性能越好,表明不仅算法识别准确率高,系统也安全可靠。在本次竞赛中,依图基于算法的多年研究积累,首次参赛便拿下冠军,在关键指标上创下新高,远超第二、三名。
依图这次创下纪录的声纹识别精度水平,已经可以满足基本的智能声纹应用需求,比如在线交易支付的动态声纹密码、个人账户登录的声纹动态口令登录。试想,社保局安装声纹身份认证系统后,就能实现安全的远程身份认证,让“信息多跑路,群众少跑腿”,为百姓生活带来极大的便利。随着技术的不断成熟和融合,声纹识别技术将逐渐融入我们的日常生活,产生巨大的应用价值。中国自研的人工智能技术,也将持续推动和引领全球技术发展,力争成为行业标杆。
此次依图刷新世界声纹识别领域权威纪录,不仅代表中国声纹识别技术向前进了一步,更意味着智能语音产业发展的一大步。