人机交互的未来——自然语音
扫描二维码
随时随地手机看文章
随着技术的发展,人机交互界面在不断改进,从最初的命令行、窗口图形界面再到触摸屏,人机交互的方式变得越来越人性化。触摸屏之后,又会有哪种交互方式带来新的变革呢?无疑,语音技术最令人期待,因为它是人类最自然的交流方式。试想,如果你家的电器设备都能像你的朋友一样听懂你的要求,并按照你的要求作出正确的反应,那该是多么美妙的体验。时下,这种语音交互技术正越来越多地应用到我们身边的电子设备中。
早在2011年,IBM的超级电脑“沃森”战胜美国智力问答节目《危险边缘》的两名冠军选手,引起极大轰动。从某种程度上说,沃森已经可以和人类实现自如语音交流,这离不开其背后强大的计算性能。据介绍,IBM耗费数年才研制出沃森,沃森拥有10组Power 750服务器,运行linux操作系统,具有15TB内存,2880个处理器,每秒可进行80万亿次运算,而其体积有10个冰箱大小。
图 IBM沃森参加美国《危险边缘》智力问答节目现场
虽然要实现像沃森这样的自如地人机交互还挑战重重,但这并没有阻止语音技术在特定环境特定领域的应用,尤其是像车载、移动终端这样的嵌入式设备中,语音技术已经得到了消费者的认可。
语音交互在车载设备和移动终端中发展迅猛
Strategy Analytics的统计表明,2012年,中国原始设备制造商(OEM)所提供的具备语音人机接口的信息娱乐和车载信息通信系统(telematics)的出货量达到300万台,并预期在2018年达到2000万台。在北美和欧洲市场,带语音交互功能的车载设备应用已很普及。福特SYNC系统,即专为手机和数字媒体播放器配备的福特车载多媒体通信娱乐系统,是目前车载系统中采用语音交互技术的成功的案例,已经广泛应用在福特多个系列汽车中。搭载SYNC系统后,配合汽车中控台上的显示屏,可通过语音控制、兼容并操控便携式通信/娱乐设备等方式,让驾驶者在开车过程中更轻松,便捷地实现诸如语音拨号、语音播出短信内容、语音控制音乐播放等功能。
图 驾驶者双手无须离开方向盘,即可操控SYNC系统(福特福克斯中文SYNC系统)
汽车之外,移动互联网终端大概是目前最热衷采用语音交互的另一类产品,自从苹果率先在其iPhone 4中推出智能语音助理应用Siri后,Google公司也在其安卓智能手机操作系统中推出了Google Now智能语音搜索及问答服务,微软公司也将语音技术应用于其Windows Phone。现在,几乎每一家手机厂商都试图将语音技术融于其移动产品、应用和服务中。这其中最主要的一个原因就是这类终端设备外型小巧,触摸输入很不方便,这种情况下,语音交互就变成了一种非常必要的人机沟通的补充方式。这一点,笔者深有感触,自从使用安卓手机后,笔者一度不再发短信(太麻烦),现在,安装了一个讯飞语音输入法后,又开始和朋友们短信交流了,语音输入真是又方便又快捷。
图 讯飞语音输入法手机界面
语音交互需要强大的软硬件技术支持
虽然语音技术给我们带来了极大的乐趣和帮助,但要实现真正流畅自然的语音交互还需要强大的软硬件技术协作。语音技术牵涉到语音合成、语音识别、语音评测、自然语言理解等多个方面,而语言的复杂性、多样性都为语音技术的应用带来多种挑战。Nuance、科大讯飞、微软、IBM、Google都在投入力量研发语音新技术。其中,作为中文语音技术的领导者,科大讯飞已占有中文语音技术市场70%以上市场份额,其讯飞语音云合作伙伴已经超过了10000家,讯飞输入法也是深入人心。Nuance的语音识别平台在行业内也得到广泛应用,前面提到的福特SYNC系统、苹果Siri都采用了Nuance的技术。前不久,微软宣布研发出一种新型语音识别技术,这项名为“深度神经网络”的技术,能够像人类的大脑一样处理语言行为,据称该技术比目前的语音识别技术快2倍。
有了好的语音软件和算法,还必须要高性能的硬件来支持。相信,随着语音技术的发展和硬件性能的提高,自然语音将为下一代人机交互带来新的变革。