当前位置:首页 > 通信技术 > 通信技术
[导读]四十多年前,专家们曾宣称,语音识别将在“五到十年内”发展为一项成熟的技术。可多年过后,他们依然重复着一模一样的说辞。语音识别的发展确实费了不少工夫好在,时隔多年以后,我们总算开发出了一套质量

四十多年前,专家们曾宣称,语音识别将在“五到十年内”发展为一项成熟的技术。可多年过后,他们依然重复着一模一样的说辞。

语音识别的发展确实费了不少工夫好在,时隔多年以后,我们总算开发出了一套质量过硬的识别技术。不仅如此,我们还把这玩意应用到了移动设备上(尽管还得靠服务器提供一大堆技术支持)。

然后问题就来了有了这样的技术,我们为什么还是得整天瞅着自己的手机屏幕鼓捣来鼓捣去,却无法直接开口跟自己的手机对话交谈?

回答这个问题的关键,在于提供一个语音交互界面,远比理解一打单词来得复杂尤其是对手机而言。我们还必须得理解用户的“意图”。要知道,除了语音技术本身以外,人机语音交流中还有其他因素在作怪输出方式,互动形式还有语境。

  多元化的输出:既能秀,也能说

如今投入使用的语音系统,识别的效果一般都过于极端化要么一字不差,要么谬以千里。事实上,当我们查询一条去某大街的路线时,要是系统能精确无误地从数据库的上千个条目中识别出我们想要的那一条,还是挺令人称奇的。不幸的是,如果识别有误或者街名不准,我们的搜索就只能乖乖从头再来。

要想在现有的语音技术上有所突破,我们必须得认识到一点:我们现有的系统,不过就是最原始的识别技术而已识别技术本身没啥问题;但除了这套技术以外,我们的系统只是一个空壳罢了。而我们需要的,其实是创造一个语音交互界面说白了,就是一整套基于语音的互动模式。

理解用户的“意图”,意味着系统要判断出用户真正需要的事物,而这通常得依靠交谈来实现。这就是说,系统要了解用户为什么问这个问题一般来说,这就要求系统去知晓对方在做什么;与此同时,这也要求系统根据用户所处的情形合理应答。这可决不是一项轻松的任务毕竟,用户只是把移动设备握在手中而已,他们可能有着大把的事情,要忙着分神去处理。

互动是一种双向的沟通,意味着我们在提供输入的同时还得留意输出;而这些能发声的应用是怎么回答我们的呢?最常见的方式,是直接向用户回复他们所想要的信息。那些提供实时驾驶指南的“杀手级应用”就是个典型的例子:用户双眼注视路况,双手把好方向盘,然后严格按照语音提示说的做就行这种情况下,这样的应答方式也确实管用。

12

但另一些时候,这招就不那么灵了。比如,当我们询问下班公交什么时候到站时,让系统自顾自地把整张时刻表背下来就是个不折不扣的馊主意。即使它只是回复一句“下班车9点12分到站”,效果也好不到哪去这时候,说“下班车12分钟内到站”才是王道。

这其中的关键在于,语音只是瞬时性的一句话,说完就完了。要是我们一时不小心分神了,或者一下子没来得及把消息印到脑子里,我们就得再问一遍。说不定还得问上一遍又一遍。

这就是我们不应该抛弃用户界面的原因:它好歹能帮我们少占用一些记忆容量。未来的语音技术所迫切需要的,是多元化的输出:既能秀,也能说。举个例子,如果我正忙着赶路的话,何不让移动设备既在屏幕上给我秀一下时刻表,也在耳边跟我说一声“下班车12分钟后到站”?

理解背后的“意图”

这也引出了未来的语音技术所需的第三个,也是最重要的一个因素:语境。人们的对话里包含着丰富的语境信息:词汇表达的意思,代词指代的对象,还有那些被重读的单词。这其中牵涉到一系列细微的语言模式(心理语言学家赫伯·克拉克称其为“定位”),使得一句像“你懂了没?”这样的短问句,就足以暗示一段微妙、共有的经历因为对话中的另一方清楚你所暗指的是什么。

而这些语境,正是手机可以大展身手的场合,尤其是考虑到语音技术发展的现状与未来的话:手机知道它自己身处何处;它能够识记我在不在上班、在哪里上班;它清楚我都跟谁打过电话,谁是对我更重要的人。

如果我用的是清一色的安卓或者iOS应用的话,手机还能掌握我的邮件信息、日程安排,还有我的兴趣爱好。于是,当我问“公交是几点来着?”的时候,手机就会听懂我说的是哪趟车、哪一站、哪个方向,甚至还包括我要将花多久才能赶到车站。事实上,说不定在我发问之前,手机里的闹钟就会自动响起,提醒我该起身出门赶车去了,还能顺带一句“别忘带雨伞哦”就像一个称职的管家一样。

对语境的分析,不仅有助于我们理解一词一句,更能帮我们理解其背后的“意图”。尽管在一些手机应用中,我们多多少少已经体验到了这些功能;但就语音而言,相关技术还远未成熟。至少目前看来还言之尚早。毕竟,我们不能忽视社会因素的影响:在公共场合,我们未必会和手机“交谈”,可能是因为我们不想打扰他人,也可能是因为我们不愿暴露隐私。

但事情总是在变化的。我是美国最早用上第一代手机(摩托罗拉MicroTac)的人之一。当年我打着大哥大走在马路上的时候,周围的人看我就像看个疯子一样即使是在MIT这样遍地技术狂的校园里也毫不例外。而现在,看到那些戴着蓝牙耳机自顾自聊天的路人,我们都已经见怪不怪了要知道,从前这可都是疯子的标志呢。

12
本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭