互联网巨头AI领域混战,语音技术为何成重头戏?
扫描二维码
随时随地手机看文章
互联网的下半场,多家巨头公司将目光瞄准了人工智能( AI ),更准确的说法是,人工智能领域的语音识别技术。
锤子 M1 手机发布会上,科大讯飞快速精准的语音转换文字功能,让普通大众对语音识别技术有了直观的深刻印象。
今年的云栖大会杭州主会场与其他一些分会场上,阿里云的“小 AI”机器人即时文字传译功能暗示,机器人要来抢同声传译的饭碗了。
无独有偶,第三届世界互联网大会上,搜狗也推出了实时机器翻译产品,这款产品不仅能很快将搜狗 CEO 王小川的演讲转化为文字,而且还做出英文翻译。或许未来,语音识别技术真的会让现场的同声翻译失业。
▲ 搜狗 CEO 王小川展示语音实时翻译技术(Source:搜狗手机输入法微博)
11 月 22 日,百度宣布开放四项全新语音技术接口,分别是情感合成、远场方案、唤醒二期技术与长语音方案。百度指出,这些技术有很大的潜力,旨在解决人们使用语音识别技术时普遍感到困扰的问题。
比如远场方案可将语音识别的范围提高至 3 到 5 米,上海肯德基旗舰店的“小度机器人”使用这项技术后,可远距离随时应答。又比如情感合成,它能给合成语音加入情感,从而达到真人发声的效果。
上述互联网巨头们,尽管发力 AI 的侧重点不同,但都极为倚靠语音识别技术,这是因为语音识别是最方便的人机交互方式,是人工智能的重要入口。百度公司首席科学家吴恩达就在语音识别技术取得新突破后,自信对媒体表示,“我们已经站在人工智能的黎明”。
语音识别技术包含两个层面,一是将语音进行文字传译;二是将语音信号转换为命令,从而操控机器人运行。目前来看,语音文字传译方面已经取得了很好的成绩,有的公司语音输入准确率已经达到 97 %的水平,搜狗的语音翻译方面,准确率也已达到 90 %。
接下来,互联网公司需要提高的是语音指令,比如提高机器识别语音的速度,并作出准确的动作等。