搜狗“知音”实时翻译可实现语音识别与机器翻译融合
扫描二维码
随时随地手机看文章
在第三届世界互联网大会乌镇峰会上,搜狗在会上的一场语音实时翻译“表演”引起了人们的关注。11月21日,搜狗正式推出了这个基于语音交互引擎“知音”的实时翻译技术。
据介绍,搜狗语音实时翻译技术是搜狗自研的机器同声传译技术。基于大数据和深度学习,该技术涵盖了搜狗自主研发的语音识别、机器翻译两项重要技术,其准确率能够达到97%,支持最快400字每秒的高速听写,语音输入日频次可高达1.9亿次。
搜狗机器翻译融合端到端神经机器翻译技术以及基于实例的翻译技术,使用的端到端神经网络翻译模型通过编码端获取源端句子的分布式表示,利用注意力模型聚焦源端,使用循环神经网络生成翻译结果。
在搜狗的整个翻译系统中,第一个系统的功能是语音断句。当接受到一个特别长的语音信号时,系统通过机器学习自动判断静音与有效音;语音(1)与非语音(0)。判断方法有两种,第一是基于能量检测的方式,能量小的是静音,能量非常大的是有效音;第二就是基于深度学习模型的判断,通过大量的数据进行建模,建模之后可以通过模型自动检测,当检测到这个地方是属于非语音的概率更高,系统便认为它是非语音,当语音概率高的时候就判定为语音。
第二个系统功能是语音识别,目的是将语音信号转化为文本。语音和文本之间的影射通过一种概率目标来描述,这个概率目标希望给定当前的语音信号,最大化输出W的概率,输出对应的W区别就是最优语音识别结果。
在语音识别整体框架下涉及到两个非常重要的模型,一个是声学模型,就是人在发音每个单元的时候这个模型和声音信号之间的相似形;另一个是语言模型,描述的就是识别结果中词和词之间连接的可能性,从而更好地规范整个的输出结果,更加通顺、流畅。
整个翻译运行结构是这样的,第一部是编码端的技术,基于神经网络技术,系统将采集到的语音信号录入到一个编码器,编码器具备语译功能,能够提取语音中的特征语句并翻译成整句。之后是进入对齐模型,模型判断哪些词和哪些词可以对应在一起,并把这些词语的特征贡献到解码端得出文本,起到一个端到端的影射作用。
第二部分是Decoder技术,从准确率的实际评测来看,GRU的结构会更轻便,而且运算的速度更快,目前的同传技术里面,搜狗使用双向的GRU技术共同构建编码端的结构。解码端共同抽象以后接入到Softmax里面输出结果。这便是整个搜狗实时翻译的运行流程。
搜狗语音实时翻译技术可谓是将语音识别与机器翻译有效结合了起来。未来,在技术改变生活的道路上,也希望更多的语音翻译软件能优化语音实时翻译的性能和效果,不断给用户带来更加完善、实用的语音技术和产品,同时推动整个语音行业乃至人工智能领域的技术革新和进步。