智能语音技术将引领人机交互的新模式
扫描二维码
随时随地手机看文章
边录音边自动转写成文字的智能录音笔,支持中文与58种外语互译的新一代翻译机、模仿不同人说话的虚拟主播、供开发者使用的语音开放平台。在科大讯飞股份有限公司北京总部的人工智能体验中心,众多人工智能与语音融合的前沿技术项目令记者大开眼界。
在即将到来的万物互联时代,语音作为人类最自然、最便捷的沟通方式,将会成为所有设备和产品至关重要的入口。业界普遍认为,未来的人机交互将以语音为主、键盘和触摸为辅。
近年来,随着智能语音应用场景和手段不断丰富,国内众多技术厂商在语音合成、语音识别、自然语言理解等人工智能核心技术领域持续发力。有理由相信,智能语音技术将给人们生活带来更为深刻的改变。
提起科大讯飞,很多人会想到其主打语音输入特色的“讯飞输入法”。这款早在2010年就推出的软件,版本号已经到了第9代。语音输入速度达到1分钟400字,并支持多种方言,准确率超过98%。在科大讯飞人工智能体验中心,工作人员安琪向记者演示了包括讯飞输入法、讯飞听见、讯飞有声等在内的多个软硬件产品。
“现在我们看到的就是一个离线转写设备,叫讯飞听见智能会议系统,是全球第一款中文语音实时转写和多语种实时翻译的系统……”安琪说了一段话,系统立即在屏幕上输出准确的中文和翻译后的英文。工作人员在演示可用于大型会议翻译的讯飞听见智能会议系统,说一段话,屏幕上同时显示出中文和英语译文。
据介绍,今年全国两会期间,代表委员们在小组讨论中的发言被这套系统“滴水不漏”地记录下来。以前的小组讨论,需配两三名工作人员,会后重听录音是常态。有了“讯飞听见”,只需配一名工作人员,会后半个小时就能得到准确的会议记录。
语音识别就好比“机器的听觉系统”,能够把语音信号转变为相应的文本或命令。安琪介绍,随着深度学习技术快速发展,科大讯飞在语音识别任务中率先实现规模应用。2015年,在公证人员的见证下,科大讯飞机器语音转写准确率首次超过速记员。针对于噪声环境下语音识别的挑战,科大讯飞在国际最权威的多通道语音分离和英文识别大赛(2016年CHiME-4和2018年CHiME-5)中,连续两届所有场景下均取得了世界第一。
另一款能快速转写录音的小型设备吸引了记者的注意,这是今年5月新推出的讯飞智能录音笔。
“在研发之初,我们经过调研发现,81%的传统录音笔用户真正需要的不是录音,而是录音整理出的文字。像记者采访、会议记录这些场景,录完音后都需要及时将文字内容快速整理出。”安琪说,讯飞智能录音笔在联网状态下,1小时的录音出稿只需5分钟,中文普通话识别准确率高达98%,真正打通了从录音到转写再到分享以及后端查找编辑的全链条服务。
智能音箱是如今语音识别技术的热门应用。市场研究机构最新数据显示,中国已成为全球最大的智能音箱市场,仅今年第一季度销量就达到1060万台。科大讯飞MORFEI麦克风产品原型,搭载4+4双环结构麦克风,可实现远场空间全方位拾音。
通常情况下,每次对智能音箱下指令前,都需要提关键词来唤醒,显得“不够智能”。而科大讯飞推出的MORFEI麦克风,内置了AIUI全双工语音交互解决方案,可以实现一次唤醒、连续问答。其远场语音识别技术,更是能在5米距离下达到95%以上的唤醒率、93%的识别率。
同样受益的还有汽车领域。通过融合语音、视觉等感知技术,分析驾驶行为数据,整合优质内容资源,科大讯飞推出的飞鱼智行智能车载交互系统,将语音增强、自然语言理解等技术应用于汽车,并与各场景服务深度结合。