语音:人机交互的新革命
扫描二维码
随时随地手机看文章
语言的创造是人类的一个拐点,最初,语言是控制杆,它将我们的思想转化为工具。后来,我们适应工具,把我们的表达转化成TA的语言。今天,我们正在让工具生命化,变成耳提面命的助手。这个漫长故事的核心在于:我们与工具如何互动。苹果iPhone 4S的发布着实让Siri火了一把,人机交互的革命史又翻开了新的篇章,但是Siri并不完美,尤其对于国人来说,不支持中文是最大的不足,不过这也给其他厂商留下了机会,其中科大讯飞的语音技术最为抢眼,也使其成为了这场人机交互新革命有力的推动者之一。
前谷歌中国的高级研究员、《浪潮之巅》的作者吴军老师在微博里半开玩笑半地说:“语音识别(在产品上)忽悠人从90年代开始,大约每十年一个周期,最后的结果相同,就是大家发现这是个玩具,而不是工具。第一波人长大了,走了,对科技不敏感了,第二波人当时还在上中小学,没上过当,现在赶着来试一试。如此反复。不过我相信最后有一次不再是忽悠人,但是不是现在这一次?”
语音技术+移动终端=?
换个角度,在PC时代,为什么语音就从来没有成为过主流的人机交互方式?
虽然代表性的产品如IBM的ViaVoice已经达到了很高的识别水平。中文识别的准确率达到了95%以上,还能识别多种方言,每分钟输入150字。但它并没有能成为一款打动大众消费者的产品。
中国最大的语音技术厂商科大讯飞,长期只能在一个几十亿规模的B2B市场里打拼。在机器合成语音市场,讯飞流畅、达到播音员水准的语音产品已经占到了70%以上的份额。今天大多数企业客户服务中心的人工语音服务,都是采用科大讯飞的技术。
但这又怎样?PC是一个固定的环境,人们早已经习惯了键盘+鼠标的交互方式。大多数人已经习惯于键盘打字而不是讲话,因此,语音控制面临Dvorak键盘布局同样的应用障碍。当简单的老式QWERTY键盘供货充足并且工作的很好的时候,为什么要学习使用Dvorak键盘呢?
更要命的是,任何一款语音识别软件都需要大量的训练以便识别用户的语音特征,来提高准确性。有多少人会天天对着一台电脑喃喃自语呢?
语音技术更广泛的普及需要两件事情:更好更方便的应用和主要使用语音的生活场景。而移动互联网的勃兴正好满足了这些条件:
第一, 智能终端屏幕较小,手指输入的准确率和速度都要低于PC,这是移动互联网必须要面对的物理局限。
第二, 移动互联网终端有众多的传感器,就像人的感官,为人机交互和生活化应用创造了条件。
第三, 移动互联网使得语音识别公司采集海量语料成为可能,通过应用可以让交互更频繁,加快机器学习速度,改进用户体验。
所以,当siri遇到iPhone,奇妙的化学作用发生了,一个沉寂几十年的鸡肋技术活了。
用户到底要什么?
我老妈从来没有理解过智能手机,她只会打电话,不会发短信,更不用说其它应用。直到我的安卓手机装上了讯飞语音输入法。当我对着手机说出“吃葡萄不吐皮”的绕口令,并发出短信之时,她拿着自己500块钱的诺基亚问我:“我这个上面能用吗?”
这就是用户的需求,当然是最原始的那一种。
你如果看过好莱坞大导演斯皮尔伯格的电影《A I》,相信会对人工智能有一定了解,通过人工智能技术,机器人可以把“对话、自然语言理解、视觉、演说、机器学习、制定计划、理性思考、服务代表全部融合到一起”。Siri的技术正源自人工智能。事实上,Siri让我们看到了人机互动的一种全新可能。语言,从来都被看做是人类特有的技能,而一夕之间,一部手机拥有了这样的能力,科幻变成现实的日子呼之欲出。
更重要的是,当机器有一天能够真正理解人类的语言,并做出回应,世界打开了无限的想象空间。
说一个人名,手机就会从冗长的通讯录中找到他;语音操控汽车、语音搜索地图、语音寻找酒店;未来,在办公室里对手机说一句话,家里的厨房就开始烹饪……
好吧,我承认我的想象力还不够丰富。
“移动互联网融入了人们的生活,人们可以在任何时间任何地点接入互联网,也可以享受互联网辅助的各种生活服务。在移动互联网时代,互联网服务和生活服务的界限在消失。”名叫采铜的专业人士在知乎网站上回答“Siri会不会是一个革命?”时认为:“在服务互联网化的时代,语音将解放人们的双手,降低了移动互联网的使用门槛,让输入更便捷,服务效率更高,从而成为“移动互联网发展的一个里程碑”。
下这样的结论也许还为时略早。但看看中国大公司们的动作吧。腾讯在微信中推出语音消息、搜狐和新浪在微博中嵌入语音微博服务,百度发布语音搜素、大众点评的语音订餐……
这说明什么?只有一种可能:趋势。
想想我们人类自己吧,我们能够克服自己基因中的惰性吗?
谁更懂中文?
我们有理由着迷于Siri,无论是因为调戏它的乐趣,还是因为对苹果的崇拜。
但创新工厂的创始人李开复老师坦言:“分析苹果Siri:1)语音识别够精确,但语义理解困难,2)语义理解靠自然语言分析不够,需要海量语料和反馈自动学习,3)Siri可用度不足,苹果利用“调戏”获取语料,学习后可提升可用度,4)防噪仍是问题,苹果靠4S特殊硬件,5)应用结合困难,适合苹果封闭系统,6)用户对助手有“人智慧”的过高期望。”
所以,新iPad上还只有语音输入技术,没有Siri。
更何况,我们还不得不面对一个绕不开的问题:它目前不会讲中文。
不要忘记了那些美国互联网巨头在中国的失败,亚马逊、谷歌、Groupon,还有根本进不来的“非死不可”(Facebook)和推特。只有懂中国话,才有成功的可能,这是中国留给骄傲巨头们的教训,语言更是如此。
算算中文里仅一个“我”有多少种说法吧。这样的段子在网上很容易找到。面对全世界最复杂的语言——中文,您相信一家美国公司能在短时间内攻克吗?反正我是不信的。
Siri代表了语音交互技术的一个方向,但它不一定是中文语音识别的未来。
那么我们现在创业做一家中国的Siri怎么样?创新工厂的李开复老师在微博上提出了四点质疑:1)智能手机主界面是手触,语音助手解决了什么真正用户需求和痛处?2)如何克服后台海量数据学习技术门槛?全球只有一个公司有这个技术。3)应用谁开发?自己开发难扩张,用别人的应用整合不佳影响体验,4)语音服务器和带宽成本较大,如何克服?
你能接住他这又一盆冷水吗?
“语音技术是一个典型的交叉科学,涉及到很多方面,不是说有钱就能做的,是有相当高的门槛。你可以去APP下载一个我们的软件体验一下”。科大讯飞副总江涛坦言。
作为A股上市公司,讯飞起家于商业应用。而更多普通人认识讯飞,还是从讯飞语音输入法开始的。在没有大规模推广的情况下,安卓版讯飞输入法的下载量已经突破千万次,达到了与QQ输入法、百度输入法相同的数量级。在苹果主导的iOS平台上,用语音发短信的讯飞口讯也一直名列APP排行榜前列。
讯飞凭什么?
语音识别技术的核心竞争力在于识别率,这是毋庸置疑的事情。讯飞有效利用了自己在国内的先发优势,率先推出了语音云服务,将数据的上下行打通。在推出讯飞语音输入法的同时,与腾讯、新浪、点评等第三方公司展开技术合作,积累了2500万以上的用户。
用户体验语音服务的最初动力是好玩儿,而非实用。Siri的调戏其实同样意在快速扩充语音数据库,提高机器识别率。据科大讯飞副总裁江涛介绍,在语音云推出的一年时间里,讯飞的系统识别率从60%提高到了85%,日常用语识别率超过95%。这也是移动互联网带来的改变。
科大讯飞目前通过两种方式来培育语音识别业务,一是开发自身的产品讯飞口讯和讯飞语音输入法,发展语音云、丰富数据库,公司语音输入法目前对标准普通话的识别正确率已提升到95%以上;二是向应用软件开发商们开放语音云平台接入,目前包括挖财在内的理财记账软件、凯立德在内的地图软件,都已内置了科大讯飞的语音识别功能。
经过一年半的低调完善,现在讯飞即将发布新的语音云系统。更重要的是,讯飞要免费打开自己的云接口,让更多开发者来免费使用开发应用。本次发布的新系统加入了大量个性化服务,比如方言识别、注册用户的个性化语言识别等。
新一代的语音产品不可能仅仅满足于简单的搜索和语音识别。它能够自主分析用户发出的口语指令,并给出确切的回应和指导,完全不需要用户预选学习使用方法。换句话说,它将是具有“人智慧”的语音助手。
从一家B2B的产品公司,到一家提供云服务的B2C产品公司,这是科大讯飞的一次质变。
回到李开复四问中的第二问,他也许错了。世界上迈过了后台海量数据学习技术门槛的公司并非只有一家。所以,有没有必要去做一家中国的Siri其实是一个假问题,一定意义上说,Siri才是美国的讯飞(讯飞成立于1999年,而Siri不过是苹果收购的产物)。
2012年,对TA说?