微软在智能语音领域实现了重大技术突破

时间：2020-05-21 07:30:02

关键字：微软智能语音语音识别 TTS

手机看文章

扫描二维码
随时随地手机看文章

[导读] （文章来源：CSDN）微软在30多年前开办微软研究院时，已开始投入大量的人力物力在语音和语言上。近几年来，微软在语音识别上首先取得突破，在2016年，语音识别的准确度已达到跟人相似的水

（文章来源：CSDN）

微软在30多年前开办微软研究院时，已开始投入大量的人力物力在语音和语言上。近几年来，微软在语音识别上首先取得突破，在2016年，语音识别的准确度已达到跟人相似的水平。2018年，在中英机器翻译上和人类做比较，发现机器翻译的质量跟专业翻译人员的结果完全可以相媲美。

2018年9月，微软首先发布了基于神经网络的语音合成产品服务，它与人声的自然度得分的比例达到98.6%，也就是说非常接近人声。

语音识别之路微软在语音识别的具体突破有哪些？语音识别主要核心指标是词错误率，就是词识别错误占多少比例。在SwitchBoard会话数据集上，语音识别错误率开始非常高，根本不能用，到2016年，微软取得了突破，达到5.9%的错误率，2017年进一步降低到5.1%的错误率，这个错误率跟专业人员转写录音的错误率是相当的。

大家听听这个数据集的例子：电话上有两个人在交流，语音具有不连续性、噪音、口音，所以识别难度对机器来讲是非常大的，微软使用10个神经网络技术，比如：CNN、ResNet、VGG等，多模型输出打分、多系统融合，得到了这个了不起的突破。

机器翻译的里程碑从1980年的传统机器翻译，到1990年的统计机器翻译，再到2010年，深度学习机器翻译技术开始兴起。2018年，微软首度提出一个任务，把机器跟人在中英新闻翻译上做比较，让专业翻译人员和机器翻译同样的句子，翻译后请懂双语的老师和学生去对翻译结果用0-100分进行打分。

可以看到微软的Human Parity机器翻译系统已经超过或者接近专业人员的翻译水平。它的突破用到了新技术比如对偶学习，用大量无标注数据提高现有的翻译系统。还有推敲网络，先有一个初始翻译，再用另外一个网络进行再一次的修正，同时运用多系统融合技术，最终达到这个突破性的结果。

语音合成技术我们再看看语音合成技术，文字转语音这个技术也是非常悠久的语音AI技术。

最开始是基于人的发音原理的合成器，然后90 年代用拼接的方法，把一句话分成很小的单元，然后进行拼接，一开始的拼接是小语料库，自然度一般。在1999年左右，出现基于大语料库的拼接，这时需要收集到成千上万的句子，把它们切分开来，用一种选择策略去选择最合适的单元拼接在一起，自然度显著提升，但是带来新的问题，比如有些拼接不平滑。

2006年左右，基于HMM模型的合成技术兴起，它的好处是非常平滑，但是也带来负作用，就是声音过于平滑，让人听出来觉得不够具有表现力。深度学习的兴起在合成领域也得到了应用，最近两三年推出的神经网络TTS，是语音合成技术的突破。谷歌提出来Tacotron, WaveNet这些模型，把语音自然度提升新的水平。

微软在2018年，2019年提出了Transformer TTS、Fast Speech等高自然度神经网络TTS模型，并在2018年9月首度推出产品化接近人声的端到端Neural TTS。