当前位置:首页 > 嵌入式 > 嵌入式软件
[导读]语音:人机交互的新革命

语言的创造是人类的一个拐点,最初,语言是控制杆,它将我们的思想转化为工具。后来,我们适应工具,把我们的表达转化成TA的语言。今天,我们正在让工具生命化,变成耳提面命的助手。这个漫长故事的核心在于:我们与工具如何互动。苹果iPhone 4S的发布着实让Siri火了一把,人机交互的革命史又翻开了新的篇章,但是Siri并不完美,尤其对于国人来说,不支持中文是最大的不足,不过这也给其他厂商留下了机会,其中科大讯飞的语音技术最为抢眼,也使其成为了这场人机交互新革命有力的推动者之一。

前谷歌中国的高级研究员、《浪潮之巅》的作者吴军老师在微博里半开玩笑半地说:“语音识别(在产品上)忽悠人从90年代开始,大约每十年一个周期,最后的结果相同,就是大家发现这是个玩具,而不是工具。第一波人长大了,走了,对科技不敏感了,第二波人当时还在上中小学,没上过当,现在赶着来试一试。如此反复。不过我相信最后有一次不再是忽悠人,但是不是现在这一次?”

语音技术+移动终端=?

换个角度,在PC时代,为什么语音就从来没有成为过主流的人机交互方式?

虽然代表性的产品如IBM的ViaVoice已经达到了很高的识别水平。中文识别的准确率达到了95%以上,还能识别多种方言,每分钟输入150字。但它并没有能成为一款打动大众消费者的产品。

中国最大的语音技术厂商科大讯飞,长期只能在一个几十亿规模的B2B市场里打拼。在机器合成语音市场,讯飞流畅、达到播音员水准的语音产品已经占到了70%以上的份额。今天大多数企业客户服务中心的人工语音服务,都是采用科大讯飞的技术。

但这又怎样?PC是一个固定的环境,人们早已经习惯了键盘+鼠标的交互方式。大多数人已经习惯于键盘打字而不是讲话,因此,语音控制面临Dvorak键盘布局同样的应用障碍。当简单的老式QWERTY键盘供货充足并且工作的很好的时候,为什么要学习使用Dvorak键盘呢?

更要命的是,任何一款语音识别软件都需要大量的训练以便识别用户的语音特征,来提高准确性。有多少人会天天对着一台电脑喃喃自语呢?

语音技术更广泛的普及需要两件事情:更好更方便的应用和主要使用语音的生活场景。而移动互联网的勃兴正好满足了这些条件:

第一, 智能终端屏幕较小,手指输入的准确率和速度都要低于PC,这是移动互联网必须要面对的物理局限。

第二, 移动互联网终端有众多的传感器,就像人的感官,为人机交互和生活化应用创造了条件。

第三, 移动互联网使得语音识别公司采集海量语料成为可能,通过应用可以让交互更频繁,加快机器学习速度,改进用户体验。

所以,当siri遇到iPhone,奇妙的化学作用发生了,一个沉寂几十年的鸡肋技术活了。

用户到底要什么?

我老妈从来没有理解过智能手机,她只会打电话,不会发短信,更不用说其它应用。直到我的安卓手机装上了讯飞语音输入法。当我对着手机说出“吃葡萄不吐皮”的绕口令,并发出短信之时,她拿着自己500块钱的诺基亚问我:“我这个上面能用吗?”

这就是用户的需求,当然是最原始的那一种。

你如果看过好莱坞大导演斯皮尔伯格的电影《A I》,相信会对人工智能有一定了解,通过人工智能技术,机器人可以把“对话、自然语言理解、视觉、演说、机器学习、制定计划、理性思考、服务代表全部融合到一起”。Siri的技术正源自人工智能。事实上,Siri让我们看到了人机互动的一种全新可能。语言,从来都被看做是人类特有的技能,而一夕之间,一部手机拥有了这样的能力,科幻变成现实的日子呼之欲出。

更重要的是,当机器有一天能够真正理解人类的语言,并做出回应,世界打开了无限的想象空间。

说一个人名,手机就会从冗长的通讯录中找到他;语音操控汽车、语音搜索地图、语音寻找酒店;未来,在办公室里对手机说一句话,家里的厨房就开始烹饪……

好吧,我承认我的想象力还不够丰富。

“移动互联网融入了人们的生活,人们可以在任何时间任何地点接入互联网,也可以享受互联网辅助的各种生活服务。在移动互联网时代,互联网服务和生活服务的界限在消失。”名叫采铜的专业人士在知乎网站上回答“Siri会不会是一个革命?”时认为:“在服务互联网化的时代,语音将解放人们的双手,降低了移动互联网的使用门槛,让输入更便捷,服务效率更高,从而成为“移动互联网发展的一个里程碑”。

下这样的结论也许还为时略早。但看看中国大公司们的动作吧。腾讯在微信中推出语音消息、搜狐和新浪在微博中嵌入语音微博服务,百度发布语音搜素、大众点评的语音订餐……

这说明什么?只有一种可能:趋势。

想想我们人类自己吧,我们能够克服自己基因中的惰性吗?

谁更懂中文?

我们有理由着迷于Siri,无论是因为调戏它的乐趣,还是因为对苹果的崇拜。

但创新工厂的创始人李开复老师坦言:“分析苹果Siri:1)语音识别够精确,但语义理解困难,2)语义理解靠自然语言分析不够,需要海量语料和反馈自动学习,3)Siri可用度不足,苹果利用“调戏”获取语料,学习后可提升可用度,4)防噪仍是问题,苹果靠4S特殊硬件,5)应用结合困难,适合苹果封闭系统,6)用户对助手有“人智慧”的过高期望。”

所以,新iPad上还只有语音输入技术,没有Siri。

更何况,我们还不得不面对一个绕不开的问题:它目前不会讲中文。

不要忘记了那些美国互联网巨头在中国的失败,亚马逊、谷歌、Groupon,还有根本进不来的“非死不可”(Facebook)和推特。只有懂中国话,才有成功的可能,这是中国留给骄傲巨头们的教训,语言更是如此。

算算中文里仅一个“我”有多少种说法吧。这样的段子在网上很容易找到。面对全世界最复杂的语言——中文,您相信一家美国公司能在短时间内攻克吗?反正我是不信的。

Siri代表了语音交互技术的一个方向,但它不一定是中文语音识别的未来。

那么我们现在创业做一家中国的Siri怎么样?创新工厂的李开复老师在微博上提出了四点质疑:1)智能手机主界面是手触,语音助手解决了什么真正用户需求和痛处?2)如何克服后台海量数据学习技术门槛?全球只有一个公司有这个技术。3)应用谁开发?自己开发难扩张,用别人的应用整合不佳影响体验,4)语音服务器和带宽成本较大,如何克服?

你能接住他这又一盆冷水吗?

“语音技术是一个典型的交叉科学,涉及到很多方面,不是说有钱就能做的,是有相当高的门槛。你可以去APP下载一个我们的软件体验一下”。科大讯飞副总江涛坦言。

作为A股上市公司,讯飞起家于商业应用。而更多普通人认识讯飞,还是从讯飞语音输入法开始的。在没有大规模推广的情况下,安卓版讯飞输入法的下载量已经突破千万次,达到了与QQ输入法、百度输入法相同的数量级。在苹果主导的iOS平台上,用语音发短信的讯飞口讯也一直名列APP排行榜前列。

讯飞凭什么?

语音识别技术的核心竞争力在于识别率,这是毋庸置疑的事情。讯飞有效利用了自己在国内的先发优势,率先推出了语音云服务,将数据的上下行打通。在推出讯飞语音输入法的同时,与腾讯、新浪、点评等第三方公司展开技术合作,积累了2500万以上的用户。

用户体验语音服务的最初动力是好玩儿,而非实用。Siri的调戏其实同样意在快速扩充语音数据库,提高机器识别率。据科大讯飞副总裁江涛介绍,在语音云推出的一年时间里,讯飞的系统识别率从60%提高到了85%,日常用语识别率超过95%。这也是移动互联网带来的改变。

科大讯飞目前通过两种方式来培育语音识别业务,一是开发自身的产品讯飞口讯和讯飞语音输入法,发展语音云、丰富数据库,公司语音输入法目前对标准普通话的识别正确率已提升到95%以上;二是向应用软件开发商们开放语音云平台接入,目前包括挖财在内的理财记账软件、凯立德在内的地图软件,都已内置了科大讯飞的语音识别功能。

经过一年半的低调完善,现在讯飞即将发布新的语音云系统。更重要的是,讯飞要免费打开自己的云接口,让更多开发者来免费使用开发应用。本次发布的新系统加入了大量个性化服务,比如方言识别、注册用户的个性化语言识别等。

新一代的语音产品不可能仅仅满足于简单的搜索和语音识别。它能够自主分析用户发出的口语指令,并给出确切的回应和指导,完全不需要用户预选学习使用方法。换句话说,它将是具有“人智慧”的语音助手。

从一家B2B的产品公司,到一家提供云服务的B2C产品公司,这是科大讯飞的一次质变。

回到李开复四问中的第二问,他也许错了。世界上迈过了后台海量数据学习技术门槛的公司并非只有一家。所以,有没有必要去做一家中国的Siri其实是一个假问题,一定意义上说,Siri才是美国的讯飞(讯飞成立于1999年,而Siri不过是苹果收购的产物)。

2012年,对TA说?


 

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭