搜狗率先发布个性化语音识别技术
扫描二维码
随时随地手机看文章
(文章来源:CCTIME飞象网)
搜狗最新推出的“个性化语音识别”服务,在语音输入识别准确率及识别速度方面实现全面提升。此次产品升级后,基于搜狗领先的语音识别技术及为用户制定的专属词汇库,搜狗语音输入就像拥有了“读心术”,大幅提升了语音识别准确率,降低了用户在语音输入后的手动调整率。这一“超能力”让用户直呼搜狗输入法越来越“懂人心”。
语音扩展了手机输入法的场景适用范围,支持用户在不方便手动输入的情况下,一键语音录入文本内容。由于语音识别的精准度会直接影响用户使用频率和使用场景,因此,如何有效提高语音识别的准确性,是输入法行业的尖端技术之争。搜狗此次突破此技术难关,在语音输入领域率先推出“个性化语音识别”,大幅优化了用户在语音内容录入时的使用体验。
同音词组、用户惯用语、口头禅等一直是语音输入的“重灾区”,搜狗输入法的“个性化语音识别”可切实解决这一类问题。比如,当用户语音录入“cheng zhi”时,输入结果显示“诚挚、橙汁、惩治”等大众通用词汇的概率比较大,一般对于人名“程志”的敏感度则不高。“个性化语音识别”在AI语音识别技术及大数据融合的基础上,挖掘用户个性化内容,可有效提升具备个人特色词句的识别准确率,降低用户语音输入过程中的手动修改率,让用户在日常生活中表达、传递信息的效率再次提高。
市场上大部分智能设备都支持语音唤醒功能,这是语音识别技术的第一阶段“听懂”,将“听懂”的语音转换成相应的文字,同时还要保证转换的准确性,这是语音识别技术的第二个阶段“读心”。
第一阶段“听懂”已经在各行业中发展成熟,是因为经过算法辅助和程序纠正,即使机器获取的语音素材不那么完整,也能理解语音基本含义,并作出相应反应。第二阶段“读心”难在如何对用户个人的语音进行精准识别,以使另一方在接受信息时,不会因为“文本畸意”产生误解。
目前,搜狗通用语音识别已全面引入了行业前沿的深度学习技术,其中基于DTSS(Deep Transformer-based Sequence to Sequence model)的端到端声学模型、神经网络语言模型和智能标点预测等技术,可有效推动搜狗语音识别的通用效果和体验,在行业中处于领先地位。此次“个性化语音识别”针对用户的语音输入习惯进行精准优化,从而使得在保障通用识别准确性的情况下,还可将用户常用语词组错误率相对下降近40%,实现语音识别第二阶段“读心”的至关技术突破。
语音输入是人与机器实现沟通的桥梁,现如今,人工智能科技发展迅速、渗入领域辽阔,AI智能科技产品种类不断丰富,这些都意味着输入领域需要更高精尖输入技术的革新。搜狗输入法在开创初期最大的特点是实现了输入法和互联网的结合,一直以来对于互联网科技的发展趋势都有着灵敏的嗅觉,“个性化语音识别”正是顺应新潮流的智慧科技产物。
不难想象,在人工智能普及的未来,通过搜狗语音个性化资源的实现,可有效提高用户人机自然交互的语音转化。除此之外,“个性化语音识别”还可根据用户私人特征和性格习惯,在智能家居、智能教育、智能医疗等与大众日常生活息息相关的各个产业领域,为用户构造专属习惯用语词库,为用户打造与AI智能设备最轻松的语音环境。
从大众化到个性化,从满足普遍适用到细化私人特征,在人工智能、机器学习引领的智慧科技时代,精准个性化用户服务是每个互联网科技产品的刚需。从“听懂”到“读心”,搜狗“个性化语音识别”增强了输入法产品的私人属性,满足了用户个性特征的表达,可赋能科技时代智慧输入法新理念。