搜狗的个性化语音识别将颠覆人机交互模式

时间：2020-05-25 22:12:01

关键字：人机交互语音识别语音识别技术人工智能

手机看文章

扫描二维码
随时随地手机看文章

[导读] 美国著名投资者红树林资本合伙人在其2019年的《语音技术报告》中表示，语音将从根本上改变人类与机器与人工智能之间的关系，并将继续成为未来十年的决定性主题之一。近年来，搜狗输入法在语音输入领域引入

美国著名投资者红树林资本合伙人在其2019年的《语音技术报告》中表示，语音将从根本上改变人类与机器与人工智能之间的关系，并将继续成为未来十年的决定性主题之一。近年来，搜狗输入法在语音输入领域引入了“个性化语音识别”，以实现“更好地理解用户”。它不仅突破了语音识别技术的瓶颈，而且大大优化了个人词汇输入的直接准确性。

在日常交流中，个人短语和习语会以很高的频率干扰双方的信息传递，特别是人机对话已经成为一个灾难性的领域。在大多数情况下，当用户使用语音输入时，他们只想输入一个名称，但输入结果显示语音与另一个结果一致。例如，当用户希望输入法显示“远”的名称时，普通的语音识别通常不包括用户的个性化内容，并且通常将“纯，产品源”列为公众常用的候选词汇。此外，用户使用的个人词汇，以及一些复音词和发音错误，对语音识别结果也有较大的影响。

为此，搜狗输入法推出了“个性化语音识别”服务，引领了语音识别技术的创新和升级。用户希望体验此功能，只需在更新应用程序后登录个人账户即可。打开后，“个性化语音识别”将为每个用户定制个性化的语音输入方法，以增强学习用户的词汇使用习惯。然后，根据语言环境和对上、下段句子的智能分析，输入法可以使用户在输入语音时快速输出符合用户思想的文本内容，大大降低了频率。用户的第二次手动更改。

搜狗的“个性化语音识别”不仅对提高用户个性化词句的识别精度非常有效，而且保证了系统的处理和反馈速度，具有全自动词汇学习的特点，使整个系统能够学习个性化功能的过程将在“毫秒级”自动完成。

搜狗输入法引入了先进的深度学习技术来模拟和训练语音识别，并利用DTSS（基于深变序列模型）端到端声学模型、神经网络语言模型和智能标点预测技术来实现语音识别。离子的准确度领先行业，并大大提高。一般场景中语音输入识别精度高。当用户输入语音时，“个性化语音识别”可以根据用户数据分析对自定义短语进行扫描和记录，优先使用用户习语进行文本输出。通过这种技术创新，搜狗输入法克服了语音识别精度的技术难题。众所周知，在保证通用识别精度的前提下，用户常用词的误码率降低了40%。

手语是人类最灵活的两个部分，是人机交互的主要手段。以前，移动智能设备中的各种触摸交互都依赖于手的操作。当语音技术和人工智能同时成熟时，可能如“2019年语音技术报告”所述：语音交互已经改变了过去人机交互的现有形式，以及基于VOIC的用户和设备之间的新关系。电子交互已经开始建立，就像以前从互联网向移动互联网的过渡一样。对底层平台的新要求也在酝酿之中。

随着新时代的到来，用户输入法的使用逐渐向语音输入转变。优化语音识别技术，为用户提供更加自然、方便、高效的语音输入服务，是智能输入法的发展趋势。与文本输入相比，语音输入在人工智能、虚拟现实等不同维度、多场景等方面具有更大的优势。语音输入注定要成为最重要的人机交互界面。

随着用户个性化词汇的不断丰富和语音识别技术的成熟，搜狗将汇聚用户级语音个性化资源，实现“个性化语音输入法”。在日常生活、医疗、法律等专业领域，每个用户都可以享受到“定制版”和“更好地了解自己”搜狗语音识别的支持。有效提高在线通信和人机通信的效率和准确性，或将成为人工智能时代输入端的全球控制器。