AI合成主播上台，分身有术啦！

时间：2018-11-22 16:38:01

关键字： ai合成主播分身技术

手机看文章

扫描二维码
随时随地手机看文章

[导读]刚刚火了没几年的主播这一职业，已经面临沦陷的危险，当然，沦陷的不只是主播。11月7日，在第五届世界互联网大会上，惊现全球首个「AI合成主播」，AI合成主播可以模仿真实主播的音容笑貌，就连在发布会现场的

刚刚火了没几年的主播这一职业，已经面临沦陷的危险，当然，沦陷的不只是主播。

11月7日，在第五届世界互联网大会上，惊现全球首个「AI合成主播」，AI合成主播可以模仿真实主播的音容笑貌，就连在发布会现场的主持人也戏称，“让一个真实主播主持一个「AI合成主播」的发布会，向世人宣布合成主播的强大，是需要很大勇气的”。

图片来源：新华社

那么，究竟什么是「AI合成主播」呢？

新华社为新闻团队找来AI主播

「AI合成主播」是新华社新媒体中心与搜狗公司为了提升新闻视频生产效率而研发的人工智能产品。AI合成主播只需要输入文字或语音文本，就可以实时高效输出音视频合成效果，获得实时的播报视频。值得注意的是，AI合成主播不仅能用和真人一样的声音进行新闻或节目播报，连唇形、面部表情也能够吻合。

搜狗CEO王小川也表示，“由真人主播面对镜头录制一段播报新闻视频，「搜狗分身」技术凭借这段视频，就能将真人主播的声音、唇形、表情动作等特征进行提取，然后再通过语音合成、唇形合成、表情合成以及深度学习等技术，克隆出具备和真人主播一样播报能力的AI合成主播。只需要提供文字，AI合成主播就能准确无误的像真人主播一样播出新闻。”

值得注意的是，这并不是新华社首次在新闻媒体领域引入人工智能技术，早在2015年，新华社就推出可以批量编写新闻的写作机器人“快笔小新”，据了解，这一机器人已经在体育、财经领域得到应用；同年，新华社组建了国内首个新闻无人机编队，用于新闻航拍；2017年12月，新华社又推出媒体大脑（智能媒体生产平台），并在今年6月推出媒体大脑2.0。而此次与搜狗公司共同研发的「AI合成主播」也将是新华社在智媒体时代的又一次尝试，新华社副社长刘思扬在发布会现场也表示，“此举将大幅压缩新闻播报视频的后期制作成本。从今天开始，新华社AI合成主播将正式上岗，成为新华社报道队伍中新的一员。”

AI合成主播的“分身术”

此次现身的AI合成主播的亮点在于其完美的“分身术”。其实在AI合成主播出现之前已经有诸如语音类的智能音箱、虚拟的全息影像等技术模态出现，而AI合成主播的核心技术是搜狗分身技术。

搜狗分身技术是搜狗人工智能推出的多模态合成技术，可以基于少量真实音视频数据，快速迁移生成虚拟的分身模型。使用时输入一段文本，即可生成与真人无异的同步音视频。

简单来讲，AI合成主播主要有两大核心技术支撑：通过人工智能技术，采集人的面部表情并标签化，把那个根据语义合成表情；通过机器学习自动生成仿真语音。而这两大核心技术也正是基于搜狗语音合成和图像生成的两大引擎。

在语音合成引擎中，基于用户少量音频数据，使用搜狗个性化语音合成技术，快速学习用户音色、韵律、情感等多维度特征，建立输入文本与输出音频信息的关联；

在图像生成引擎中，使用搜狗人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模，建立输入文本、输出音频与输出视觉信息的关联映射，最终生成输出分身视频。

通过这项技术，不仅可以合成AI主播，甚至还可以批量复制无数个风格各异的人类形象，用于新闻播报、虚拟教师、虚拟医生、虚拟客服等诸多行业，提升不同行业和职业的信息生产传播效率。

由此，认为，新华社引入AI合成主播很可能只是一个开始，未来各行业中都会引入类似虚拟助手，而在未来这些重复性工作被取代后，在这类工作中，人类更多可能会充当两类角色：一类是培训师的角色，为这些虚拟助手提供形象及语音原型，为虚拟助手提供更多内容素材，提升虚拟助手的精准度和工作效率；另外一类是监控及维护工作，在机器发生错误或宕机时人为做出及时调整，以加强机器的容错率。

“分身术”的两大难点

据了解，在AI合成主播的构建中，即使拥有图像处理和语音处理两类技术，仍然存在两个难点：

高逼真度。以语音技术为例，苹果的Siri早在iPhone4S中就有应用，而之所以一直未能得到认可，是因为其早期版本的识别率低，另外，“机器口音”太重也使得交互体验大打折扣。而随着近年来语音技术的进步，语音识别率不断突破，现在主流语音系统的识别能力都能达到98%以上，搜狗在今年的Blizzard Challenge 2018（语音合成国际大赛）中获得可懂度和语音停顿两项子任务全球第一；另外，此次应用的搜狗分身技术能够自动生成语音、表情、唇动等信息完全一致的自然视频，据搜狗官方称，相关视频已达到商用级别，在业内尚属首次；

低成本个性化定制。当下要想生成一个稳定、高精度的AI模型，仍需要搜集大量数据，对AI模型进行训练。搜狗官方表示，搜狗分身仅需使用少量用户真实音视频数据，即可快速定制出高逼真度的分身模型。

分身术与虚拟世界

目前，语音技术及图像处理技术带来了拥有强交互能力的虚拟助手。试想，未来我们的生活中可能不止有智能音箱、智能手机，更可能有一个随叫随到的虚拟助手，而此次在互联网大会上出现的「搜狗分身术」可以理解为为这样的虚拟助手的出现提供了部分技术支持。

在渐渐触摸到虚拟世界的边界时，未来也可能会出现更多颠覆性技术和形态。