人工智能给语音领域带来了哪些路径?
扫描二维码
随时随地手机看文章
记者近日从工信部获悉,中国将加大力度支持新一代语音识别框架、口语化语音识别、智能对话、音视频融合、语音合成等技术的创新应用,并在智能制造、智能家居等重点领域开展推广应用。到2020年实现多场景下中文语音识别平均准确率达96%。
成立至今已有8年的“中译语通”是一家数据资产比重较大的技术企业。在其最近举办的年度峰会上,发布了智能搜索引擎NexMagic、数据可视化分析引擎DataMap4.0、智能构建知识图谱Data Galaxy三款产品。中译语通CEO于洋说,这是大数据和人工智能驱动作用下的技术应用成果,为大数据在语言领域的智能应用探索提供了新路径。
数据驱动,技术让语言更加智能
近年来,自动语音识别(ASR)技术发展迅猛。它作为人工智能领域中较为成熟的一项技术,语音和语言在大数据的海洋里更加智能,“出口成章”不再是梦想。现在,ASR技术准确率根据各地语言的差异接近于90%,而深度学习技术所构建的深度神经网络,使得语言翻译产品更加智能化。
事实上,作为新的面向人工智能的交互方式,语音识别与合成技术在输入法上已得到广泛应用。2013年,中译语通发布了一款名为“Yeehub”的多语言呼叫中心产品,全球12种语言24小时不间断响应,每月可接收到来自全世界的呼叫分钟数达到100万,实现接通时间小于10秒。
曾经,自然语言理解、口音和方言、应用场景声音、数据庞杂等多方面影响了语音识别和深度学习技术的迭代升级。于洋介绍说,随着人工智能等新一代技术的发展,机器翻译正经历从基于统计规则的机器翻译(SMT)向神经网络机器翻译(NMT)发展的变革时期。
“NMT是人工智能与机器翻译技术的融合,对于自然语言理解更为精准,能够提高沟通效率,将成为一项关键的AI技术。”于洋说,中译语通在大规模数据、深度整合高质量语料的基础上,自主研发了深度学习框架训练的语音识别引擎。中、英、日、韩、德、葡等每个语种积累了超过1万小时的语音数据,中、英文语音识别的准确率已经超过90%,日、韩、德、葡语的识别准确率超过了80%。
据称,这种精准的语音识别引擎已经运用于中译语通推出的找翻译APP、输入法等多个语言科技产品。“未来,我们要重点研发解决嘈杂环境、移动设备上的语音识别难题的产品,并不断扩充语种,为全球不同语种、不同场合的用户服务。”于洋说。
创新突破,厚植产业核心竞争力
“地球村”越来越小。中译语通发布的三款产品中,NexMagic将于本月底上线。这款基于人工智能和大数据技术自主研发的自然语言理解的搜索引擎产品,将在新闻资讯、科技、专利等领域实现垂直多语言搜索应用,可以将全球文本、语音、图片、影像等数据汇集起来进行分析,构建知识图谱。
“我们分拆出来的每一个垂直分类产品都是独立的。比如医疗影像有独立的团队,我们只提供更多的资源支持和顶层设计。”于洋说,中译语通在过去的三年时间里技术研发投入是非常大的。“我们还是能延伸出不同产品,基于整个大数据板块,一旦有了新业务,预计会有的公司和团队来运营它。”
作为跨语言、基于自然语言分析的搜索引擎产品,智能化的标志便是多语言语音识别和交互。中科院声学研究所语言声学与内容理解重点实验室主任颜永红表示,跨语言处理当前仍然面临很多挑战,比如多语言数据获取困难、语言差异导致各语言处理方法不同等。
事实上,作为一家拥有翻译基因的技术公司,于洋更确信他们的产品特性有了大数据和人工智能技术基因。一系列不断的创新突破,将为整个产业带来变革性的影响。
业内分析人士表示,深度挖掘行业数据价值,以语音识别为代表的智能交互能力将成为引领移动终端和产业发展的核心驱动力。“以机器翻译、语音识别、计算机视觉、数据挖掘分享为代表的人工智能技术的演进,将给未来赋予了更多可能性,人工智能的终极目标是实现人机融合。”于洋最后说。