语音识别发展渐趋成熟,未来或成生物识别主流方式
扫描二维码
随时随地手机看文章
(文章来源:最极客)
语音识别技术,也被称为自动语音识别(ASR)。其目标是将人类语音中的词汇内容转换为计算机可读的数据,如字符序列或二进制编码等。不过,早在计算机发明之前,人类就已经开始了对语音识别技术的研究,早期的声码器即可看作是语音识别及合成的雏形。1920年代生产的“Radio Rex”玩具狗可能是最早的语音识别器。只要呼唤这只狗的名字,他就会从底座上弹出来。
1952年,贝尔研究所的Davis等人开发了Audrey语音识别系统,成为世界上首个能够识别10个英文数字发音的实验系统。其识别方法主要是追踪语音中的共振峰,该系统的准确率为98%。到1950年代末,College of London(伦敦学院)将语法概率加入语音识别中。
1960年,英国的Denes等人研究成功了第一个计算机语音识别系统,同时人工神经网络被引入语音识别。70年代后,语音识别在孤立词及小词汇量的识别方面取得了实质性进展。到了80年代,研究重点转向大词汇量、非特定人连续语音识别。与此同时,语音识别的研究思路由传统的基于标准模板匹配的技术转为基于HMM(统计模型)的技术,并再次提出将神经网络技术引入语音识别领域的技术思路。
1981年,日本在第五代计算机计划中提出了关于语音识别输入-输出自然语言的目标。尽管没有按照预期实现,但关于语音识别技术的研究有了大幅度的提升和进展。1987年开始,日本又出台了高级人机口语接口和自动电话翻译系统的项目。进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。
中国的语音识别发展研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。1973年,中国科学院声学所开始了对计算机语音识别的研究。由于当时被条件所限,中国语音识别研究工作一直处于缓慢发展的状态。
1986年3月,中国高科技发展计划(863计划)启动,因为语音识别是智能计算机系统研究的一个重要组成部分,故而被专门列为研究课题。在863计划的支撑下,中国开始了有组织的语音识别技术的研究。由此,中国语音识别技术进入了一个前所未有的发展阶段。
2006年深度学习兴起,2009年深度学习首次在语音识别任务中取得成功,基于深度学习的语音识别取得了很大的突破。在技术方面,语音识别从最初的前馈全连接神经网络,到之后的递归神经网络,到长短时记忆模型,再到当前包含数十层结构的深层全卷积神经网络。网络结构愈加复杂,但也越来越能够契合语音的特性从而实现建模,相应的效果也愈发显著。
当下,基于深度学习的语音识别系统已经通过海量的用户大数据训练得到了一个通用的识别系统,在日常场合已经能够实现应用。技术的成熟以及广阔的前景使得许多互联网公司也纷纷入局语音识别领域。
去年12月,阿里巴巴宣布为上海全部地铁站的售票机安装语音识别技术,用以验证上班族的身份。科大讯飞也在安徽为医疗信息提供语音签名服务,同时为警方提供语音识别服务。此外,百度、腾讯也分别在语音识别领域有所动作。由此可见,语音识别技术很可能成为继人脸识别技术后的下一个生物识别的主流方式,并逐渐受到广泛的关注和消费级的应用。但在发展过程中,仍然不可避免地会遭遇一些瓶颈。