要跟机器说上话,总共分几步?
时间:2020-07-03 11:23:40
手机看文章
扫描二维码
随时随地手机看文章
[导读]智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。可以理解为人类与机器间通过自然语言完成信息传递的技术。 语音交互的完整流程,如下图所示。 通常,根据距离远近语音交互场景可分为两种: 近场语音场景:通常通过按键激活,例如
-
近场语音场景:通常通过按键激活,例如智能手机等便携设备。 -
远场语音场景:通常通过唤醒词激活,例如智能音箱等固定设备。
将唤醒词的音节长度增加到4音节。这是因为音节越长,唤醒的准确率就会越高。比如:“小兴小兴”的唤醒准确率远高于“小兴”。
白天只对唤醒词做本地校验,夜间则再增加云端二次校验。这是唤醒速度和准确率间的平衡策略。
-
白天用户更看重响应速度,发生偶尔的误唤醒用户能理解或接受,这时候仅由本地的唤醒检测模块进行快速检测,保证 700 ms 内快速响应用户。 -
晚上睡觉时用户对误唤醒是零容忍的,这时候就要偏重唤醒的准确度,将本地检测过的语音上传到云端进行二次确认,再决定本地是否响应。
-
领域:“闹钟”
-
意图:“设置闹钟”
-
词槽:“明早8点”
-
先决策。机器在对话过程中不断根据当前的状态决策下一步应该采取的最优动作。 -
再执行。如提供结果,询问特定限制条件,澄清或确认需求,调用各种 Skill 技能(AI 时代的 APP),从而最有效的辅助用户完成信息或服务的获取。
将文字内容转换成语音输出,让机器跟我们对话。这涉及到两个过程:
将从文字内容转换成语音输出,让机器说话。
合成语音:狭义上专指根据音素序列(以及标注好的起止时间、频率变化等信息)生成语音,广义上它也可以包括文本处理的步骤。
Internet,语音查询资讯 ▲
IPTV/OTT,语音播控影视 ▲
IOT智家,语音控制家电 ▲
我们是一群平均从业年限5+的通信专业工程师。
关注我们,带你了解通信世界的精彩!
乖乖地许愿个在看
免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!