Siri引领语音识别技术成熟
扫描二维码
随时随地手机看文章
一位男子在电脑前坐下,然后轻声说道:“计算机”。然而电脑并未作出任何反应,该男子对这电脑又说了一遍:“计算机”,还是没有反应。旁边的人已经没有耐心,对他说:“用用键盘”。该男子回应道:“键盘?真奇怪。”
以上场景出自1986年电影《星舰迷航记4》,工程师斯库提(Scotty)以及其他船员从23世纪穿越回地球。斯库提需要使用电脑完成一些工作,要知道他们在23世纪时全部使用的是语音命令,而不是上世纪80年代那样的复古操作。
如果上述电影场景发生在35年之后,也就是现在,斯库提仍旧会对电脑的毫无反应感到困惑。除非他拿起一款最新智能机,该智能机可以对人类声音做出回应,并成为了最新潮的人机互动方式,它就是iPhone 4S。
iPhone 4S
自从iPhone 4S十月份上市以来,人们开始购买并使用苹果新手机的Siri功能。Siri是一项语音导航助手,可以接收语音命令,确定或取消约会,发送邮件,电话呼叫,网络搜索。它能够完成秘书所做到的一切。
Siri并不只是一项语音识别工具,它可以将语音转化成文本,并以电邮或短信的方式发送出去。Siri可以对天气情况进行预测,进行汇率转换或提供股票价格,并对天气现象进行解释。
很多人认为Siri并不是一项新技术,我们多年前就可以进行语音电话呼叫,谷歌也已经提供了语音搜索应用。但是专家称,Siri可能代表的是一种更加精细的技术革命,就像iPhone在2007年1月推出时的多点触摸屏。它不仅能进行语音呼叫和语音识别,还可以将语音转化为文本,也就是“自然语言理解”(NLU)。
NLU
NLU连同图像识别、智能机器是多年来一直未能解决的计算问题,不过现在我们可以让机器强大到足以理解我们所说的话。NLU技术面临的第一个挑战就是语音向文本转换的复杂性,发音的类似将导致处理结果的不同。其次,机器需要理解字面信息和画外音。
IBM超级电脑沃森(Watson)今年2月震惊世界,它此前参加了智力竞赛节目Jeopardy,并与Jeopardy两位冠军进行PK。IBM工程师表示,参见Jeopardy节目肯定不是沃森的最终目标,它展示的是此前电脑从未展示的能力,并与拥有广泛知识词汇的人类进行互动。
沃森现在开始着手解决人类健康问题,并使用了Nuance的语音转文本技术,未来还可能用来解决一些医疗难题。
技术实现
NLU是人们多年来一直希望实现的一项技术。1996年,比尔·盖茨宣布,到2011年时,人们就能开发出具备人类语音和面部识别技术的电脑。就是在今年,如果把智能机算作电脑(最起码智能机功能能够达到2001年笔记本的水平),盖茨的预言已经实现。最新款Android智能机已经具备面部识别解锁功能,语音功能我们仍在努力实现。
然而现在的语音技术还不完美,Siri服务器已经出现了多次宕机事故。不过Nuance公司的尼尔·格兰特(Neil Grant)表示:“时间将会解决所有连接问题。”
随着技术的日益成熟,人们与电脑间的语音互动也将会逐步实现。