当前位置:首页 > 公众号精选 > AI科技大本营
[导读]编译 |禾木木出品| AI科技大本营(ID:rgznai100)语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融为一体。然而,语音技术仅适用于全世界数千种语言中的一小部分。基于有限标记数据的少样本学习...


编译 | 禾木木出品 | AI科技大本营(ID:rgznai100)语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融为一体。
然而,语音技术仅适用于全世界数千种语言中的一小部分。基于有限标记数据的少样本学习,甚至无人监督的语音识别是有帮助的,但这些方法的成功取决于自监督模型的质量。近日,Meta 正式发布 XLS-R ——一套用于各类语音任务的新型自监督模型。XLS-R 由海量公共数据训练而成,能够将传统多语言模型的语言支持量增加两倍以上。而 XLS-R 作为元宇宙社交中必不可少的一环,可以帮助母语不同的人在元宇宙中直接对话。为了能够通过单一模型实现对多种语言的理解,Meta 对 XLS-R 进行了微调,使它能够执行语音识别、语音翻译和语言识别等功能。XLS-R 在 BABEL、CommonVoice 以及 VoxPopuli 语音识别基准测试,CoVoST-2 的外语到英文翻译基准测试,以及 VoxLingua107 语言识别基准测试中都有了先进的水平。为了进一步使这些能够被广泛地访问,Meta 与 Hugging Face 联手发布了模型在 Github 上。https://huggingface.co/spaces/facebook/XLS-R-2B-22-16


XLS-R 工作原理


XLS-R 基于 wav2vec 2.0 训练集上接受了超过 436,000 小时的公开语音录音训练,这是对语音表示进行自监督学习的方法。这样的训练量已经达到去年发布的最好的模型 XLSR-53 的 10 倍。利用从会议记录到有声读物等不同来源的语音数据,XLS-R 的语言已扩展到 128 种,涵盖的语言数量是钱袋模型的近2.5倍。Meta 在4种主要多语言语音识别测试中对 XLS-R 做出评估,发现在测试的 37 种语言中,它的表现超越先前的模型工作;具体来说,在 BABEL 的 5 种语言、CommonVoice 的 10 种语言、MLS 的 8 种语言和 VoxPopuli 的 14 种语言上进行了尝试。BABEL 上的单词错误率基准测试结果。XLS-R 较前代模型实现了显著改进。Meta 还评估了语音翻译模型,将录音直接翻译成另一种语言。为了打造一套能够执行多种任务的模型, Meta 同时在 CoVoST-2 基准测试的数个不同翻译方向上对 XLS-R 进行了微调。最后结果是能够在英语与多达 21 种语言之间实现内容互译。在使用 XLS-R 对英语以外的其他语言进行编码时,获得了显著的改进,这也是多语言语音表达领域的一次突破。XLS-R 在低资源语言学习中实现了显著改进,例如印尼语到英语的翻译,其中 BLEU 准确率平均翻了一番。BLEU 指标的提升是指模型给出的自动翻译结果与处理同一内容的人工翻译结果间重合度更高,代表着模型在改进口语翻译能力方面迈出了一大步。以 BLEU 指标衡量的自动语音翻译准确率,其中较高值表示 XLS-R 从高资源语言(例如法语、德语)、中资源语言(例如俄语、葡萄牙语)或低资源语言(例如泰米尔语、土耳其语)语音记录翻译至英语时的准确率。



结语

XLS-R 表明,扩展跨语言预训练可以进一步提高低资源语言的性能。它不仅提高了语音识别的性能,还能将外语到英语的语音翻译的准确性提高了一倍以上。XLS-R 是朝着能够理解多种不同语言单一模型迈出的重要一步,它是所知道的利用公共数据进行多语言预训练的最大努力。Meta 相信这个方向将使机器学习应用程序更好地理解所有人类语音并促进进一步研究,使语音技术在全球范围内更容易使用,尤其是在服务欠缺的人群中。Meta 将通过不断开发新方法来从较少的监督中学习,并将方法扩展到全球 7,000 多种语言,实现算法的持续更新。参考链接:https://ai.facebook.com/blog/xls-r-self-supervised-speech-processing-for-128-languages/




本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

济南2022年10月14日 /美通社/ -- 近日,浪潮新基建成功通过CMMI(软件能力成熟度集成模型)三级认证并正式获得资质证书。继2021年组建后,仅一年时间就斩获全球软件领域最权威的认证之一,标志着浪潮新基建在技术...

关键字: 软件 新基建 智慧城市 模型

北京2022年10月13日 /美通社/ -- 近日,中科寒武纪科技股份有限公司(以下简称"寒武纪")的思元370系列智能加速卡与浪潮AIStation智能业务生产创新平台完成兼容性适配认证,...

关键字: STATION 加速卡 AI 模型

苏州2022年10月13日 /美通社/ -- 北京时间2022年10月13日,开拓药业(股票代码:9939.HK),一家专注于潜在同类首创和同类最佳创新药物研发及产业化的生物制药公司,宣布其联合美国德克萨斯大学...

关键字: 模型 LM EMI PD

(全球TMT2022年10月11日讯)近日,昆仑芯(北京)科技有限公司的第二代云端通用人工智能计算处理器昆仑芯2代AI芯片及AI加速卡与飞桨完成III级兼容性测试,兼容性表现良好。 产品兼容性证明 本次...

关键字: 人工智能 加速卡 处理器 模型

来见识下这位95后的手工大神。据媒体报道,山东青岛一女生耗时一个月,使用10斤巧克力,复刻了《武林外传》里的小院,堪称神还原。女孩介绍,大大小小的物件超过200件,每一个小物件都是用巧克力、翻糖和糯米纸做的,模型长度大概...

关键字: 模型

北京2022年9月27日 /美通社/ -- 近期,为助力中小企业创新发展,承接"828 B2B企业节"成就好生意,成为好企业的愿景。软通动力着力打造了"917转型"企动日主题峰会,会上发布了一系列新品和解决方案,面向多个...

关键字: DM 数字化 大数据 模型

济南2022年9月23日 /美通社/ -- 近日,浪潮城市信息模型( CIM)基础平台V1.0正式发布。该产品综合应用数字孪生、物联网、5G、区块链、大数据等技术,实现城市治理各环节全程管控、智能协同,强化城市...

关键字: 模型 智慧城市 指挥调度 BSP

(全球TMT2022年9月23日讯)近日,浪潮城市信息模型(CIM)基础平台V1.0正式发布。该产品综合应用数字孪生、物联网、5G、区块链、大数据等技术,实现城市治理各环节全程管控、智能协同,强化城市全生命周期管理,助...

关键字: 模型 编码 大数据 区块链

深圳2022年9月16日 /美通社/ -- 针对联邦学习全局模型的版权保护问题,微众银行AI团队联合上海交通大学在人工智能学术期刊《IEEE模式分析与机器智能汇刊》(IEEE T-PAMI,IEEE Trans...

关键字: 模型 IP 神经网络 IEEE

上海2022年9月6日 /美通社/ -- 9月3日上午,《"东数西算"战略下绿色智算中心产业发展研究报告》重磅发布。该报告由国家信息中心与燧原科技深度合作,联合庆阳市人民政府、之江实验室、中国能建共同...

关键字: 数字经济 安防 模型 编写

AI科技大本营

113 篇文章

关注

发布文章

编辑精选

技术子站

关闭