搜狗最新发布个性化语音识别技术

时间：2020-05-26 07:06:02

关键字：语音识别技术大数据人工智能模型

手机看文章

扫描二维码
随时随地手机看文章

[导读] 搜狗输入法发布新版本，发布“个性化语音识别”服务，用户只需更新后点击APP选择一键登陆账户，即可体验。成功开启“个性化语音识别”后，用户选择搜狗语音输入按钮，可以发现输入法已强化学习了用户的个人

搜狗输入法发布新版本，发布“个性化语音识别”服务，用户只需更新后点击APP选择一键登陆账户，即可体验。成功开启“个性化语音识别”后，用户选择搜狗语音输入按钮，可以发现输入法已强化学习了用户的个人词汇。据了解，该功能将有效提升用户个性化特色词句的语音识别准确率，降低用户在输入过程中的手动修改次数。

得益于能解放双手的便捷性，语音输入自面世以来就备受大众青睐。但如何实现“听懂”用户，并快速、准确的呈现出用户“所说”，一直是语音输入领域面临的一大技术难题，尤其是对极具用户个人属性词句的精准识别。比如，用户需要的是“刘也、梓轩、程志”，语音输入后得到的很可能是“刘烨、子萱、诚挚”……诸如此类未基于用户个人特色针对性语音识别的结果，往往需要用户再费时费力手动调整，反而在一定程度上损害了语音输入的用户体验。

针对这一问题，搜狗语音此次率先推出“个性化语音识别”，可基于其大数据及领先的AI（人工智能）语音技术的支持，构建起个人化、个性化的用户专属输入法服务，从而大幅提高“个人高频词汇”的识别精准度，降低用户的手动修改率。

可以说，凭借“个性化语音识别”，搜狗率先在语音输入领域真正实现了“更懂用户”，切实提升了每一个用户日常生活中表达、传递信息的效率。对于语音识别技术而言，目前市面上能够见到的语音输入产品和工具，在通用场景下的识别准确率基本都能“听懂”用户；但因为准确率一旦达到一定高度，相对再每提升百分之一都要面临极大的技术难度。

目前，搜狗通用语音识别已经全面使用了行业前沿的深度学习技术，其中基于DTSS（Deep Transformer-based Sequence to Sequence model）的端到端声学模型、神经网络语言模型和智能标点预测等技术，有效推动了搜狗语音识别的通用效果和体验，这在行业中处于领先水平。此番，“个性化语音识别”可以针对用户的语音输入习惯精准优化，从而使得在保障通用识别准确的情况下，用户常用语的字错误率相对下降近40%。极大的减少了修改成本，可谓是攻克中文语音识别这一“技术堡垒”至关重要的一步。

搜狗之所以能率先实现“个性化语音识别”，主要原因有二：一是用户大数据的沉淀与积累，二是搜狗本身就保持领先且持续快速发展的AI技术。

首先，搜狗输入法拥有大数据优势，这是搜狗语音输入识别的“护城河”，也是其他企业及产品难以比及的地方。以此为基础，搜狗通过大数据挖掘处理，使得语音识别准确率大幅提升。在提升识别准确率的同时，搜狗语音创新式的技术流程，让云端系统极大程度上保证了用户个性化特征的自动处理速度，实现整个学习个性化特征的过程在“毫秒级别”就可以全部自动完成。

其次，搜狗AI技术蓬勃发展，一方面，不仅拥有以语音交互为核心的人工智能平台“搜狗知音”，使得搜狗在语音识别、语义理解等方面具备领先优势，另一方面，其业界领先的语音修改能力、智能断句、标点预测、识别结果顺滑，以及成绩斐然的自然语言处理技术都能更好地帮助提升“个性化语音识别”的准确率。

语音识别一直是人机交互、人工智能链接传统产业的一项关键性技术，直接影响着未来社会的智能化发展进程。因为在智能家居、智能教育、智能医疗等与用户日常生活息息相关的各个产业领域，让智能设备“听懂”我们说话是实现自然交互的先决条件。

当前，语音识别已基本实现“出口成章”。此次搜狗的“个性化语音识别”，可谓再次撕开语音识别技术瓶颈，增加了行业对于人机交互实现“千人千面”的信心。未来，搜狗语音将会持续提高和完善语音输入识别技术，持续优化“个性化语音识别”服务。相信随着语音识别技术的不断突破和用户个性化内容的不断丰富，搜狗或将形成“消费级”的语音个性化生态资源，全面实现定制化语音输入。从而使每个用户都能使用 “更懂自己”的搜狗语音识别技术，在生活、出行、工作中大幅提升人机沟通效率，帮助人们表达和获取信息更简单。