原创

语音识别技术的发展历程

时间：2024-03-29 14:40:01

关键字：语音识别语音 AI

手机看文章

扫描二维码
随时随地手机看文章

[导读]语音识别相信大家并不陌生，近些年来语音识别技术的应用层出不穷，同时也更加智能。

语音识别相信大家并不陌生，近些年来语音识别技术的应用层出不穷，同时也更加智能。从开始我们简单的询问“你是谁”，到现在可以与我们进行多轮对话，理解我们的意思甚至是心情，语音识别已经实现了长足的发展。可能大多数人觉得语音识别是近些年才出现的技术，其实不然，下面让我们一起从语音技术的历史展开来看。

Part 01 语音识别近70年发展史

1952年，贝尔实验室发明了自动数字识别机，科学家对智能语音有了模糊的概念，可能这时科学家们就已经在畅想我们如今实现的这一切。

1964年，IBM在世界博览会上推出了数字语音识别系统，语音技术也自此走出了实验室，为更多人知晓，贝尔实验室的梦想也变成了更多人的梦想。

1980年，声龙推出了第一款语音识别产品Dragon Dictate，这是第一款面向消费者的语音识别产品。虽然梦想第一次照进了现实，但其高达9000美元的售价，很大程度增加了智能语音技术的普及难度。

1997年，IBM推出它的第一个语音识别产品Via Voice。在中国市场，IBM适配了四川、上海、广东等地方方言，Via Voice也真正的为更多消费者接触、使用到。

2011年，苹果首次在iphone4s上加入智能语音助手Siri。至此，智能语音与手机深度绑定，进入广大消费者的日常生活。随后国内各大手机厂商也先后跟进，为手机消费者提供了五彩缤纷的语音识别功能。

此后，语音识别技术的应用，并没有局限于手机，而是扩展到了各种场景。从各种智能家居，如智能机器人、智能电视、智能加湿器等，到现在智能汽车，各大传统厂商以及造车新势力纷纷积极布局智能座舱。可见智能语音技术已经在我们的衣食住行各个方面得到了广泛应用。

Part 02 语音识别技术简介

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入。语音识别技术属于人工智能方向的一个重要分支，涉及许多学科，如信号处理、计算机科学、语言学、声学、生理学、心理学等，是人机自然交互技术中的关键环节。

Part 03 语音识别基本流程

ASR：指自动语音识别技术(Automatic Speech Recognition)，是一种将人的语音转换为文本的技术。

NLU：自然语言理解(Natural Language Understanding, NLU)是所有支持机器理解文本内容的方法模型或任务的总称。

NLG：自然语言生成(Natural Language Generation，NLG)是一种通过计算机在特定交互目标下生成语言文本的自动化过程，其主要目的是能够自动化构建高质量的生成人类能够理解的语言文本。

上图展示了一个语音识别的基本流程，用户发出指令后，mic收集音频，完成声音到波形图的转换，通过波形图与人类发音的波形图做对比，可以识别出说的具体音节，通过音节，组合成词、句子，再结合大数据分析出说的最匹配的话，然后NLU模块开始工作，分析出这句话的意图(intent)、域(Domain)等各种信息。分析出意图后开始对话管理DM(Dialog Manager)，通过后台数据查询应该给用户什么反馈。然后交给NLG模块，通过查出来的信息，生成自然语言，最后通过TTS模块，将文字转回成波形图并播放声音。

上面的流程涉及到的学科、知识都比较多，由于篇幅原因，不一一展开描述，在这里我节选出ASR来进行相对详细些的学习。

Part 04 ASR实现原理简单剖析

我们首先从ASR声音源来看，当一位用户发出指令，比如说：我爱你。这时麦克风会收集音频到存储设备。我们通过音频处理软件(如Audacity)打开后可以发现音频是一段波形图。

但是这段波形图并没有什么直观的有意义的信息，它的高低只代表了声音的大小，横轴也仅仅是时间。语音识别本身是基于大数据的分析技术，分析的基础是数据的准确，声音大小和发音的时间长短很难有什么统计学的意义，所以此时我们需要对音频进行处理。(这段波形图是四句我爱你的波形图)。

处理的一种常用方法是傅里叶变换，通过傅里叶变换，我们可以将时间维度的波形图，转换成频率维度的波形图。

语音识别技术的发展历史可以追溯到20世纪50年代初期。在那个时候，人们开始尝试将语音转化为文本，以便于计算机的处理。随着计算机技术的发展，语音识别技术也逐渐得到了改进和完善。本文将详细介绍语音识别技术的发展历史。

20世纪50年代初期，贝尔实验室的研究人员开始尝试将语音转化为文本。他们使用了一种叫做“Audrey”的设备，通过对话框架来实现语音识别。这种设备仍然十分原始，只能够识别一些简单的单词和数字。

20世纪60年代，语音识别技术得到了进一步的发展。美国国防部资助了一项名为“Harpy”的研究计划，旨在开发一种可以识别语音的系统。Harpy系统可以识别1,011个单词，但是其准确率仍然较低。

20世纪70年代，语音识别技术得到了一些重大的进展。IBM公司开发了一种名为“Shoebox”的语音识别系统，可以识别1,000个单词。这种系统使用了一些新的技术，如动态时间规整(DTW)等。

美国知名投资机构Mangrove Capital Partners在《2019年语音技术报告》中，给语音下了一个宏大的定义——欢迎下一代的颠覆者。

可如果把时间倒退10年，大部分人还是会把“语音交互”定义为一场豪赌，都知道赢面比较大，却迟迟不敢下注，因为概念的落地还没有一个明确的期限，当正确的路径被走通之前，永远都存在不确定性。

不过在此前的80年里，人类对语音技术的希望从未破灭，就像是在迷宫中找寻出口一般，一遍又一遍的试错，最终找到了正确的路径。

01 漫长的孩提时代“小度小度，明天天气怎么样?”“小度小度，我想听周杰伦的歌” “小度小度，我想给爸爸打电话”，诸如这样的指令每天有几亿次发生，哪怕是牙牙学语的孩子也可以和智能音箱进行流畅的对话。

但在50年前，就职于贝尔实验室的约翰·皮尔斯却在一封公开信中为语音识别下了“死亡诊断书”：就像是把水转化为汽油、从海里提取金子、彻底治疗癌症，让机器识别语音几乎是不可能实现的事情。

彼时距离首个能够处理合成语音的机器出现已经过去30年的时间，距离发明出能够听懂从0到9语音数字的机器也过去了17个年头。这两项创造性的发明均出自贝尔实验室，但语音识别技术的缓慢进展，几乎消磨掉了所有人的耐心。

在20世纪的大部分时间里，语音识别技术就像是一场不知方向的长征，时间刻度被拉长到了10年之久：

上世纪60年代，时间规整机制、动态时间规整和音素动态跟踪三个关键技术奠定了语音识别发展的基础;

上世纪70年代，语音识别进入了快速发展的阶段，模式识别思想、动态规划算法、线性预测编码等开始应用;

上世纪80年代，语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展，基于GMM-HMM的框架成为语音识别系统的主导框架;

上世纪90年代，出现了很多产品化的语音识别系统，比如IBM的Via-vioce系统、微软的Whisper系统、英国剑桥大学的HTK系统;

但在进入21世纪后，语音识别系统的错误率依然很高，再次陷到漫长的瓶颈期。直到2006年Hiton提出用深度置信网络初始化神经网络，使得训练深层的神经网络变得容易，从而掀起了深度学习的浪潮。

只是在2009年之前70年左右的漫长岁月里，中国在语音识别技术上大多处于边缘角色，1958年中国科学院声学所利用电子管电路识别10个元音，1973年中国科学院声学所开始了计算机语音识别，然后是863计划开始开始组织语音识别技术的研究，直到百度、科大讯飞等中国企业的崛起。

02 跃进的少年时代2010年注定是语音识别的转折点。

前一年Hinton和D.Mohamed将深度神经网络应用于语音的声学建模，在小词汇量连续语音识别数据库TIMIT上获得成功。

从2010年开始，微软的俞栋、邓力等学者首先尝试将深度学习技术引入到语音识别领域，并确立了三个维度的标准：

数据量的多少，取决于搜索量、使用量的规模;

算法的优劣，顶级人才扮演者至关重要的角色;

计算力的水平，关键在于FPGA等硬件的发展。

在这三个维度的比拼中，谁拥有数据上的优势，谁聚集了顶级的人才，谁掌握着强大的计算能力，多半会成为这场较量中的优胜方。于是在语音识别的“少年时代”，终于开始了跃进式的发展，刷新纪录的时间间隔被压缩到几年到几个月。

2016年语音识别的准确率达到90%，但在这年晚些时候，微软公开表示语音识别系统的词错率达到了5.9%，等同于人类速记同样一段对话的水平，时任百度首席科学家吴恩达发声称百度在2015年末即达到了同等水平;2017年6月，Google表示语音识别的准确率达到95%，而早在10个月前的时候，李彦宏就在百度世界大会上宣布了百度语音识别准确率达到97%的消息。

一个有些“奇怪”的现象，为何在语音识别领域缺少前期积累的中国，可以在极短的时间内实现从无到有，甚至有后发先至的趋势?可以找到的原因有二：

首先，传统专利池被挑战，竞争回归技术。

语音识别进入深度学习时代，并没有背负太多的专利包袱，中美玩家们有机会站在了同一起跑线上。

比如2013年百度的语音识别技术还主要基于mel-bank的子带CNN模型;2014年就独立发展出了Sequence Discriminative Training(区分度模型);2015年初推出基于LSTM –HMM的语音识别，年底发展出基于LSTM-CTC的端对端语音识别系统;2016年和2017年将Deep CNN模型和 LSTM、CTC结合起来，2018年推出Deep Peak 2模型，2019年又发布了流式多级的截断注意力模型……

而在不久前结束的百度AI开发者大会上，百度还推出了针对远场语音交互的鸿鹄芯片，可以实现远场阵列信号实时处理，高精度超低误报语音唤醒以及离线语音识别。

其次，语音识别进入到生态化、产业化的时代。

在Google发布了语音开放API后，对Nuance产生了致命的打击，不仅仅是Google在产品和技术上的优势，也来自于Google强大的人工智能技术生态，例如以TensorFlow为代表的深度学习引擎。