梦露、蒙娜丽莎、爱因斯坦动起来啥样？三星AI实现了

时间：2019-05-27 14:56:14

关键字： AI 人工智能电源资讯三星ai

手机看文章

扫描二维码
随时随地手机看文章

[导读]你见过蒙娜丽莎动起来的样子吗?只要一张照片，就能把静态的人物变成动态的，而且还可以根据你的表情动起来。要是用在换脸上，恐怕Deepfakes被要拍在沙滩上了。

你见过蒙娜丽莎动起来的样子吗?只要一张照片，就能把静态的人物变成动态的，而且还可以根据你的表情动起来。要是用在换脸上，恐怕Deepfakes被要拍在沙滩上了。

虽然似乎没有微笑时那么好看，但不得不承认的是，动图看起来确实跟画中的蒙娜丽莎十分相似。

除了蒙娜丽莎，爱因斯坦和玛丽莲·梦露也可以从静态图变成不同表情的动图。

这是莫斯科三星 AI 研究中心和斯科尔科沃科学技术研究院的最新成果。

跟之前的 Deepfake 技术类似，两者都是从已有图片或视频中提取特征，然后经过神经网络的加工，生成了足可以假乱真的动态图像或连贯视频。

不同的是，Deepfake 需要大量训练和数据才能生成假图像，而这项基于卷积神经网络和少样本学习的新技术，只需要非常小的数据集，甚至只靠一张图片，就可以生成图片中主人公的连贯面部动图，可以是说话的样子，也可以是其他表情，大大提升了模型的训练效率和广泛性。

研究人员还展示了 AI 如何从两张图片中提取面都特征，之后融合为一张图片，与之前英伟达的 StyleGAN 技术类似。(每刷新它一次，你都将得到一个从未存在过的人)

该研究成果以预印本论文的形式发表于 Arxiv 上。

利用少样本学习实现 AI 换脸

用 AI 实现换脸和造假人已经不是什么新鲜事，几年前大火的 Deepfake 应用和最近的英伟达 StyleGAN 都可以实现。它们还可以继续升级和改良，比如结合 Deepfake 和 GAN，从而获得更厉害的“造假”效果。

只不过这类技术都有一个缺点，就是需要针对某人、某物或某类图片(样本)进行大量训练，才能获得最佳效果。

于是研究团队希望打造一个“少样本学习(few-shot learning)”模型，在训练完成之后，可以用最少的目标图片，实现对目标的模仿，尤其是模拟出目标人物说话时的样子，包括面部表情、眼睛、神态、脸型和嘴型等变化。

少样本学习是近年深度学习领域的热门研究方向之一，旨在通过预训练模型获取先验知识，改善传统深度学习技术对海量数据的依赖，在数据缺失的情况下，还可以保持学习效率。

为了实现这一目标，研究人员采用了元学习(meta-learning)方法，让 AI 具备自学能力。

换句话说，就是让 AI 充分利用现有知识，来分析未来任务的特征，从而学会“如何学习”。比如让 AI 观看张三说话时的面部表情，提取动作特征(现有知识)，再试着看着李四的脸提取特征(新任务)，然后模拟出李四说话时的面部动作。

建立元学习架构

他们创建了三套神经网络来实现元学习架构。

第一个是嵌入器网络(Embedder)，负责将输入视频帧和人物面部特征映射成多维度向量。他们使用了开源的面部特征提取代码。训练视频的每一帧都有对应的面部特征图，由不同颜色的线条勾勒出来，里面包含的五官信息与姿势无关。

第二个是生成器网络(Generator)，将嵌入器网络没看过的新特征图和多维度向量作为输入值，穿过到多个卷积层，输出一个合成(视频)帧——会使用参考视频帧(ground truth)作为参考。生成器的训练目的是让合成帧和参考帧尽可能相似，更好地模拟目标对象的动态表情。

最后一个是鉴别器网络(Discriminator)，负责整合和处理原视频帧、合成视频帧、对应的面部特征图和训练序列。它通过序列数，判断合成帧与参考帧是否吻合，有多大差距，以及与面部特征图是否匹配。根据匹配程度，网络会计算出一个真实性得分，显示出两者之间的差别。

研究人员会通过(条件)鉴别器输出的得分对三个网络进行整体优化，感知和对抗损失函数都包含其中。

元学习模型构建完成后，研究人员使用了开源的 VoxCeleb1 和 VoxCeleb2 数据集，进行训练和测试。前者拥有 10 万多个视频样本，来自 1251 个名人，被用来与基准模型性能进行比较，后者拥有 100 多万个样本，来自 6112 个人，用于进行预训练和测试新模型效果。

在小样本学习的前提下，模型需要凭借预训练的经验，观看一小段完全没有见过的一个人的视频，在每一帧中模仿这个人的面部表情，并与真正的表情对比，得出结果。AI 可以使用的帧越多(图片越多)，比如从 1 张图增加到 32 张图，得到的最终效果就越贴近真实。

虽然从综合评分来看，模型的准确度有时不及基准模型，但这是少样本方法和模型本身导致的，还有进一步的提升空间。而且我们从结果也能看出，AI 模拟的整体效果还是可以接受的。

除此之外，研究人员还尝试了静图变动图，也就是我们最开始看到的蒙娜丽莎和爱因斯坦动图。模型可以在一定程度上模仿出相似的表情，但背景图案，尤其是有头发的地方，偶尔会出现小瑕疵。

不过瑕不掩瑜，这样一个少样本对抗网络的元学习框架，非常适合在没有大量数据的情况下实现 AI 换脸。而且还能启发类似的后续研究，在该模型的基础上改良和创新，比如通过改善面部特征提取过程，让人物表情模拟更加自然，或者加入眼神凝视等目前无法实现的高难特征提取机制。

梦露、蒙娜丽莎、爱因斯坦动起来啥样？三星AI实现了

阿维塔、赛力斯已入股！华为引望可能成“中国博世”

Trianz与AWS达成战略合作协议，彻底改变云采用和管理方式

人工智能驱动工具SODA V将颠覆汽车市场，使汽车开发时间和成本降低90%

从容应对未知风险----解密亚马逊云科技的韧性之道

中国游戏市场开始复苏！腾讯、网易等巨头缩减在日本投资

独立自主！华为董事：致力打造不依赖西方的技术

华为张平安：数字世界话语权最终由生态繁荣决定！

中国通信服务公布2024年中期业绩

NVI技术创新联盟成立！自主生态将带动产业链高速发展

软通动力与长三角投资达成战略合作共谋数字生态新发展

海南区6家凯悦系酒店与岚图达成战略合作，共同推动新能源出行体验

安岚携手妮可•巴菲特开启疗愈之旅在秋日红叶的浪漫中疗愈身心

不惧美国封锁！华为：我们给大家提供系统、存储等

尼尔森IQ深耕中国四十载，共绘未来新篇章

第二十二届跨盈年度B2B营销高管峰会2025聚焦"营销竞取，打破市场内卷实现认知进化"

恒久动力驰骋天地美孚1号携手周冠宇邀您纵擎驰骋，劲享驾趣体验

美通社母公司Cision发布CisionOne平台，进军亚太地区媒体监测市场

移远通信推出大模型解决方案，重塑千行百业智能边界

高途公布2024年第二季度未经审计业绩

华为发布AI百校计划：培养AI人才每年获最高100万支持