当前位置:首页 > 公众号精选 > 中兴文档
[导读]智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。可以理解为人类与机器间通过自然语言完成信息传递的技术。语音交互的完整流程,如下图所示。通常,根据距离远近语音交互场景可分为两种:近场语音场景:通常通过按键激活,例如智能手机等便携设备。远场语音场景:通常通过唤...






智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。可以理解为人类与机器间通过自然语言完成信息传递的技术。





语音交互的完整流程,如下图所示。





通常,根据距离远近语音交互场景可分为两种:

  • 近场语音场景:通常通过按键激活,例如智能手机等便携设备。
  • 远场语音场景:通常通过唤醒词激活,例如智能音箱等固定设备。

远场语音场景下,在产品策略上通常会采取两种方案,以提高唤醒的准确率:
  • 将唤醒词的音节长度增加到4音节。这是因为音节越长,唤醒的准确率就会越高。比如:“小兴小兴”的唤醒准确率远高于“小兴”。



  • 白天只对唤醒词做本地校验,夜间则再增加云端二次校验。这是唤醒速度和准确率间的平衡策略。


    • 白天用户更看重响应速度,发生偶尔的误唤醒用户能理解或接受,这时候仅由本地的唤醒检测模块进行快速检测,保证 700 ms 内快速响应用户。

    • 晚上睡觉时用户对误唤醒是零容忍的,这时候就要偏重唤醒的准确度,将本地检测过的语音上传到云端进行二次确认,再决定本地是否响应。




语音识别阶段的主要作用是采集用于语音,并将语音转换为文字,该阶段主要做两件事情:
1. 寻向降噪。寻向的作用就是判断用户方向,由用户方向的麦克风采集语音数据,保证语音的数据是最清晰的。降噪是对环境音进行消除,提高识别准确率。
2. 识别语音并转换成文字。为提高特定内容的识别率,一般都会提供热词服务,配置的热词内容实时生效,并且会提升 ASR 结果的识别权重,在一定程度上提高 ASR 识别的准确率。



语义理解就是尝试理解人类的语言,即把语音识别的结果转成结构化的、机器能够理解的语言。

NLU 的工作逻辑是将用户的指令进行 Domain(领域)→Intent(意图)→Slot(词槽)三级拆分。
例如:“设置一个明早 8 点的闹钟”这样一条指令,经过 NLU 处理,用户的指令则被拆分为如下三级:
  • 领域:“闹钟”
  • 意图:“设置闹钟”
  • 词槽:“明早8点”





  1. 先决策。机器在对话过程中不断根据当前的状态决策下一步应该采取的最优动作。
  2. 再执行。如提供结果,询问特定限制条件,澄清或确认需求,调用各种 Skill 技能(AI 时代的 APP),从而最有效的辅助用户完成信息或服务的获取。




NLG 的主要目的是降低人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式。简单的 NLG 可以将数据进行合并处理,而高级的 NLG 则可以理解数据想要表达的意图,并考虑上下文,呈现出可以轻松阅读的内容。
目前在一些有比较明显规则的领域中,比如体育新闻,已经可以借助 NLG 进行新闻的自动发布了。也许你现在正在看的一篇文章就是由机器生成的~



将文字内容转换成语音输出,让机器跟我们对话。这涉及到两个过程:

  1. 将从文字内容转换成语音输出,让机器说话。

  2. 合成语音:狭义上专指根据音素序列(以及标注好的起止时间、频率变化等信息)生成语音,广义上它也可以包括文本处理的步骤。





家庭中语音交互的主要应用场景包括:语音查询资讯、语音控制播放、语音免提拨号、语音控制家电等。

缩略语:ASR:Automatic Speech Recognition,自动语音识别技术NLU:Natural Language Understanding,自然语言理解DM:Dialog Management,对话管理NLG:Natural Language Generation,自然语言生成TTS:Text To Speech,从文本到语音NLP:Natural Language Processing,自然语言处理IPTV:Internet Protocol Television,网际协议电视OTT:Over The Top,通过互联网向用户提供各种应用服务IMS:Interactive Multimedia Service,交互式多媒体服务IOT:Internet of Things,物联网

我们是一群平均从业年限5 的通信专业工程师。

关注我们,带你了解通信世界的精彩!


本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭