机器会说话就一定很聪明吗?
扫描二维码
随时随地手机看文章
科幻小说中经常描绘机器具备高度智慧,并能自然地与人类互动。但机器真的能完全自然地与人类互动吗?市面上虽然已有许多不错的语音接口,但要达到完美、无缝的语音接口控制,还有许多问题要解决……
语音接口在2017年成为相当火红的话题,许多人甚至将2017年称为语音控制年。但只要接触过语音控制的用户,一定曾碰过令人头痛抓狂的时候;虽然语音有机会成为人机接口的最终选择,但现在还不是时候。在这篇文章中,我们将探讨语音控制的几个问题,以及有那些需要改进的功能。
大厂采用自家平台
目前,在语音接口领域中,最明显的首要问题就是封闭平台(walled garden)的问题——每家大厂都采用自己开发的封闭系统,想从语音接口上赚钱当然是一件棘手的事。相较于视觉媒体(visual media)——如网页浏览器、文字搜索引擎,要在语音接口上投放广告并不容易。当然,如亚马逊(Amazon)这一类的公司必须确认其语音服务是否能带来获利,因此,Alexa的重要功用之一当然就是帮助你在亚马逊网站上进行购物。
但若跟其他厂商买东西时会发生什么情况?显然地,各种语音助理分别在产品与服务中提供了封闭的系统,因而限制了用户的选择。一种可能的做法是让所有的装置与服务都能透过语音启动。之后只要透过编程,机器间就能透过语音互相沟通合作,举例来说,Alexa可以透过语音控制电视、录制用户喜爱的电视节目,而无关乎电视服务供货商是谁。这将有助于解决封闭平台的问题,并且让使用者了解机器间如何沟通。
但是,另一方面,当家中的冰箱、电视、吸尘器、灯具或其他电子装置大声沟通时,有可能使环境变得嘈杂,就像动画电影《玩具总动员》(Toy Story)里面的玩具一样。
截至目前为止,在这些情况可能实现之前,仍然有些问题要解决。在一个有关Alexa和Google语音助理之间“永无止境”的对话影片中,显示了可能发生的问题。
虽然这是预先安排好的,但由于一些意外触发所导致的干扰与技术上的小问题仍然出现,像是先前在电视新闻报导时,主播说了一句:“Alexa,帮我买一间娃娃屋。”你可以想象接下来会发生什么事情——许多观众家中的Echo意外被触发甚至下订!
虚拟语音助理能多聪明?
接着谈到下一个议题——何谓人工智能(artificial intelligence;AI)。由于深度学习(deep learning)与其他人工智能领域的长足进步,现今许多装置支持的自动语音识别(ASR)已有一定水平。但这些虚拟助理(virtual assistant)到底能聪明到什么程度?我们又能指望他们些什么呢?
在计算机科技领域,与人工智能相关且最广为人知的就是由艾伦·图灵(Alan Turing)所设计的图灵测试(Turing test)。为了通过测试,具备人工智能的机器在测试时必须与人类的反应几乎一样,电影《人造意识》(Ex Machina)就是一个很好的示范。电影中的人形机器人Ava成功地通过图灵测试,其成功的关键在于Ava能无限制地存取用户的信息,以及所有人类的兴趣、喜好与想法。电影中收集巨量资料的虚拟公司Blue Book让人联想到Google与Facebook。
电影《人造意识》(Ex Machina)中的人形机器人Ava;Alexa还要多久才能成为像Ava这样的智慧机器人?
先不管科幻小说的内容,很难说还要多久才能设计出这样智能化的机器。一方面,机器学习的发展神速,以较专家们预期更快的速度不断达到里程碑,例如AlphaGo打败韩国棋王李世石。但是许多一般的聊天机器人(chatbots)则没有这么聪明,他们会犯一般人不可能会做的错误,像是提供色情内容给孩童、不经意地说出种族歧视的字眼,甚至只是令人沮丧地健忘。由于这些情形,让我们觉得机器人要达到Ava等级的智能化似乎是遥不可及。
手动点击才能启动hand-free接口?
语音接口中最重要且最有用的功能之一是不必靠手来控制,这是它的优点之一,你可以在双手忙着做其他事情的同时,使用语音接口控制电子装置,例如开车时(「播放媒体」)、煮饭时(「设定8分钟的烹调时间」)、打字时(「要求提供『许多』同义字」)、抱小孩时(「关灯」)、手拿日用品时(「开门」)等等。其概念是让你使用你的声音控制,而不必动手。但令人困惑的是,许多语音控制的装置在启动前必须先进行手动设定,例如以手点击或滑动之后电子装置才会启动语音控制。
这样做的原因并不是什么秘密。“倾听”(listen)这个动作是主动状态,需要经过处理,因此会使用到电池,而在便携设备中,电池的容量有限。因此,为了减少耗电量,便携设备中会加入手动触发的设计。但想象一下,如果你有一个朋友或是同事,总是在做任何活动前都在睡觉,你要和他们说话前都要先戳他们一下,那就很不优了,对吧?语音控制的装置也是同样的情形,点击才能开启功能并不合理。要同时达到可携与不用手动控制的理想状况,就得有效地利用既有资源。情境处理上必须绝对有效率地处理特定功能,这就是为什么要有长时倾听(always-listening)的设计。
有一些装置已经是永远开机的状态,所以要等到这些耗电的处理器达到低功耗且永远开机的状态,还需要一些时间。最近推出的Amazon Echo Tap就是最好的左证,它可以不需要用手操作。亚马逊透过在线软件更新(over-the-air;OTA)来提供这个功能,这也突显出在快速变化的市场中,提供具有弹性、可随时更新的解决方案有多重要。(他们在为产品命名时,显然没有想到要加入更新功能。)
长时倾听(与免手动控制)的功能让语音接口变得更便利
缺点是,要达到持续更新与长时倾听的功能,电池寿命会减少到只剩8小时。在以后的报导中,我们将讨论如何增加待机时间的技术,使电池使用寿命从8小时延长到3个月!
机器真的能完全自然地与人类互动吗?现在市场上有许多不错的语音接口,但若要达到完美、无缝的语音接口控制,还有许多问题要解决。许多科幻小说中描绘机器具备高度智慧,并能自然地与人类互动。未来,我们将进一步探索那些能让我们更接近这个奇妙境界的未来科技。