语音：人机交互的新革命

时间：2012-03-12 04:11:46

关键字：人机交互移动互联网科大讯飞

手机看文章

扫描二维码
随时随地手机看文章

[导读]语音：人机交互的新革命

语言的创造是人类的一个拐点，最初，语言是控制杆，它将我们的思想转化为工具。后来，我们适应工具，把我们的表达转化成TA的语言。今天，我们正在让工具生命化，变成耳提面命的助手。这个漫长故事的核心在于：我们与工具如何互动。苹果iPhone 4S的发布着实让Siri火了一把，人机交互的革命史又翻开了新的篇章，但是Siri并不完美，尤其对于国人来说，不支持中文是最大的不足，不过这也给其他厂商留下了机会，其中科大讯飞的语音技术最为抢眼，也使其成为了这场人机交互新革命有力的推动者之一。

前谷歌中国的高级研究员、《浪潮之巅》的作者吴军老师在微博里半开玩笑半地说：&ldquo;语音识别（在产品上）忽悠人从90年代开始，大约每十年一个周期，最后的结果相同，就是大家发现这是个玩具，而不是工具。第一波人长大了，走了，对科技不敏感了，第二波人当时还在上中小学，没上过当，现在赶着来试一试。如此反复。不过我相信最后有一次不再是忽悠人，但是不是现在这一次？”

语音技术+移动终端=？

换个角度，在PC时代，为什么语音就从来没有成为过主流的人机交互方式？

虽然代表性的产品如IBM的ViaVoice已经达到了很高的识别水平。中文识别的准确率达到了95%以上，还能识别多种方言，每分钟输入150字。但它并没有能成为一款打动大众消费者的产品。

中国最大的语音技术厂商科大讯飞，长期只能在一个几十亿规模的B2B市场里打拼。在机器合成语音市场，讯飞流畅、达到播音员水准的语音产品已经占到了70%以上的份额。今天大多数企业客户服务中心的人工语音服务，都是采用科大讯飞的技术。

但这又怎样？PC是一个固定的环境，人们早已经习惯了键盘+鼠标的交互方式。大多数人已经习惯于键盘打字而不是讲话，因此，语音控制面临Dvorak键盘布局同样的应用障碍。当简单的老式QWERTY键盘供货充足并且工作的很好的时候，为什么要学习使用Dvorak键盘呢？

更要命的是，任何一款语音识别软件都需要大量的训练以便识别用户的语音特征，来提高准确性。有多少人会天天对着一台电脑喃喃自语呢？

语音技术更广泛的普及需要两件事情：更好更方便的应用和主要使用语音的生活场景。而移动互联网的勃兴正好满足了这些条件：

第一，智能终端屏幕较小，手指输入的准确率和速度都要低于PC，这是移动互联网必须要面对的物理局限。

第二，移动互联网终端有众多的传感器，就像人的感官，为人机交互和生活化应用创造了条件。

第三，移动互联网使得语音识别公司采集海量语料成为可能，通过应用可以让交互更频繁，加快机器学习速度，改进用户体验。

所以，当siri遇到iPhone，奇妙的化学作用发生了，一个沉寂几十年的鸡肋技术活了。

用户到底要什么？

我老妈从来没有理解过智能手机，她只会打电话，不会发短信，更不用说其它应用。直到我的安卓手机装上了讯飞语音输入法。当我对着手机说出“吃葡萄不吐皮”的绕口令，并发出短信之时，她拿着自己500块钱的诺基亚问我：“我这个上面能用吗？”

这就是用户的需求，当然是最原始的那一种。

你如果看过好莱坞大导演斯皮尔伯格的电影《A I》，相信会对人工智能有一定了解，通过人工智能技术，机器人可以把“对话、自然语言理解、视觉、演说、机器学习、制定计划、理性思考、服务代表全部融合到一起”。Siri的技术正源自人工智能。事实上，Siri让我们看到了人机互动的一种全新可能。语言，从来都被看做是人类特有的技能，而一夕之间，一部手机拥有了这样的能力，科幻变成现实的日子呼之欲出。

更重要的是，当机器有一天能够真正理解人类的语言，并做出回应，世界打开了无限的想象空间。

说一个人名，手机就会从冗长的通讯录中找到他；语音操控汽车、语音搜索地图、语音寻找酒店；未来，在办公室里对手机说一句话，家里的厨房就开始烹饪……

好吧，我承认我的想象力还不够丰富。

“移动互联网融入了人们的生活，人们可以在任何时间任何地点接入互联网，也可以享受互联网辅助的各种生活服务。在移动互联网时代，互联网服务和生活服务的界限在消失。”名叫采铜的专业人士在知乎网站上回答“Siri会不会是一个革命？”时认为：“在服务互联网化的时代，语音将解放人们的双手，降低了移动互联网的使用门槛，让输入更便捷，服务效率更高，从而成为“移动互联网发展的一个里程碑”。

下这样的结论也许还为时略早。但看看中国大公司们的动作吧。腾讯在微信中推出语音消息、搜狐和新浪在微博中嵌入语音微博服务，百度发布语音搜素、大众点评的语音订餐……

这说明什么？只有一种可能：趋势。

想想我们人类自己吧，我们能够克服自己基因中的惰性吗？

谁更懂中文？

我们有理由着迷于Siri，无论是因为调戏它的乐趣，还是因为对苹果的崇拜。

但创新工厂的创始人李开复老师坦言：“分析苹果Siri：1）语音识别够精确，但语义理解困难，2）语义理解靠自然语言分析不够，需要海量语料和反馈自动学习，3）Siri可用度不足，苹果利用“调戏”获取语料，学习后可提升可用度，4）防噪仍是问题，苹果靠4S特殊硬件，5）应用结合困难，适合苹果封闭系统，6）用户对助手有“人智慧”的过高期望。”

所以，新iPad上还只有语音输入技术，没有Siri。

更何况，我们还不得不面对一个绕不开的问题：它目前不会讲中文。

不要忘记了那些美国互联网巨头在中国的失败，亚马逊、谷歌、Groupon，还有根本进不来的“非死不可”（Facebook）和推特。只有懂中国话，才有成功的可能，这是中国留给骄傲巨头们的教训，语言更是如此。

算算中文里仅一个“我”有多少种说法吧。这样的段子在网上很容易找到。面对全世界最复杂的语言——中文，您相信一家美国公司能在短时间内攻克吗？反正我是不信的。

Siri代表了语音交互技术的一个方向，但它不一定是中文语音识别的未来。

那么我们现在创业做一家中国的Siri怎么样？创新工厂的李开复老师在微博上提出了四点质疑：1）智能手机主界面是手触，语音助手解决了什么真正用户需求和痛处？2）如何克服后台海量数据学习技术门槛？全球只有一个公司有这个技术。3）应用谁开发？自己开发难扩张，用别人的应用整合不佳影响体验，4）语音服务器和带宽成本较大，如何克服？

你能接住他这又一盆冷水吗？

“语音技术是一个典型的交叉科学，涉及到很多方面，不是说有钱就能做的，是有相当高的门槛。你可以去APP下载一个我们的软件体验一下”。科大讯飞副总江涛坦言。

作为A股上市公司，讯飞起家于商业应用。而更多普通人认识讯飞，还是从讯飞语音输入法开始的。在没有大规模推广的情况下，安卓版讯飞输入法的下载量已经突破千万次，达到了与QQ输入法、百度输入法相同的数量级。在苹果主导的iOS平台上，用语音发短信的讯飞口讯也一直名列APP排行榜前列。

讯飞凭什么？

语音识别技术的核心竞争力在于识别率，这是毋庸置疑的事情。讯飞有效利用了自己在国内的先发优势，率先推出了语音云服务，将数据的上下行打通。在推出讯飞语音输入法的同时，与腾讯、新浪、点评等第三方公司展开技术合作，积累了2500万以上的用户。

用户体验语音服务的最初动力是好玩儿，而非实用。Siri的调戏其实同样意在快速扩充语音数据库，提高机器识别率。据科大讯飞副总裁江涛介绍，在语音云推出的一年时间里，讯飞的系统识别率从60%提高到了85%，日常用语识别率超过95%。这也是移动互联网带来的改变。

科大讯飞目前通过两种方式来培育语音识别业务，一是开发自身的产品讯飞口讯和讯飞语音输入法，发展语音云、丰富数据库，公司语音输入法目前对标准普通话的识别正确率已提升到95%以上；二是向应用软件开发商们开放语音云平台接入，目前包括挖财在内的理财记账软件、凯立德在内的地图软件，都已内置了科大讯飞的语音识别功能。

经过一年半的低调完善，现在讯飞即将发布新的语音云系统。更重要的是，讯飞要免费打开自己的云接口，让更多开发者来免费使用开发应用。本次发布的新系统加入了大量个性化服务，比如方言识别、注册用户的个性化语言识别等。

新一代的语音产品不可能仅仅满足于简单的搜索和语音识别。它能够自主分析用户发出的口语指令，并给出确切的回应和指导，完全不需要用户预选学习使用方法。换句话说，它将是具有&ldquo;人智慧”的语音助手。

从一家B2B的产品公司，到一家提供云服务的B2C产品公司，这是科大讯飞的一次质变。

回到李开复四问中的第二问，他也许错了。世界上迈过了后台海量数据学习技术门槛的公司并非只有一家。所以，有没有必要去做一家中国的Siri其实是一个假问题，一定意义上说，Siri才是美国的讯飞（讯飞成立于1999年，而Siri不过是苹果收购的产物）。

2012年，对TA说？