当前位置:首页 > 消费电子 > 消费电子
[导读]你见过蒙娜丽莎动起来的样子吗?只要一张照片,就能把静态的人物变成动态的,而且还可以根据你的表情动起来。要是用在换脸上,恐怕Deepfakes被要拍在沙滩上了。

你见过蒙娜丽莎动起来的样子吗?只要一张照片,就能把静态的人物变成动态的,而且还可以根据你的表情动起来。要是用在换脸上,恐怕Deepfakes被要拍在沙滩上了。

虽然似乎没有微笑时那么好看,但不得不承认的是,动图看起来确实跟画中的蒙娜丽莎十分相似。

除了蒙娜丽莎,爱因斯坦和玛丽莲·梦露也可以从静态图变成不同表情的动图。

这是莫斯科三星 AI 研究中心和斯科尔科沃科学技术研究院的最新成果。

跟之前的 Deepfake 技术类似,两者都是从已有图片或视频中提取特征,然后经过神经网络的加工,生成了足可以假乱真的动态图像或连贯视频。

不同的是,Deepfake 需要大量训练和数据才能生成假图像,而这项基于卷积神经网络和少样本学习的新技术,只需要非常小的数据集,甚至只靠一张图片,就可以生成图片中主人公的连贯面部动图,可以是说话的样子,也可以是其他表情,大大提升了模型的训练效率和广泛性。

研究人员还展示了 AI 如何从两张图片中提取面都特征,之后融合为一张图片,与之前英伟达的 StyleGAN 技术类似。(每刷新它一次,你都将得到一个从未存在过的人)

该研究成果以预印本论文的形式发表于 Arxiv 上。

利用少样本学习实现 AI 换脸

用 AI 实现换脸和造假人已经不是什么新鲜事,几年前大火的 Deepfake 应用和最近的英伟达 StyleGAN 都可以实现。它们还可以继续升级和改良,比如结合 Deepfake 和 GAN,从而获得更厉害的“造假”效果。

只不过这类技术都有一个缺点,就是需要针对某人、某物或某类图片(样本)进行大量训练,才能获得最佳效果。

于是研究团队希望打造一个“少样本学习(few-shot learning)”模型,在训练完成之后,可以用最少的目标图片,实现对目标的模仿,尤其是模拟出目标人物说话时的样子,包括面部表情、眼睛、神态、脸型和嘴型等变化。

少样本学习是近年深度学习领域的热门研究方向之一,旨在通过预训练模型获取先验知识,改善传统深度学习技术对海量数据的依赖,在数据缺失的情况下,还可以保持学习效率。

为了实现这一目标,研究人员采用了元学习(meta-learning)方法,让 AI 具备自学能力。

换句话说,就是让 AI 充分利用现有知识,来分析未来任务的特征,从而学会“如何学习”。比如让 AI 观看张三说话时的面部表情,提取动作特征(现有知识),再试着看着李四的脸提取特征(新任务),然后模拟出李四说话时的面部动作。

建立元学习架构

他们创建了三套神经网络来实现元学习架构。

第一个是嵌入器网络(Embedder),负责将输入视频帧和人物面部特征映射成多维度向量。他们使用了开源的面部特征提取代码。训练视频的每一帧都有对应的面部特征图,由不同颜色的线条勾勒出来,里面包含的五官信息与姿势无关。

第二个是生成器网络(Generator),将嵌入器网络没看过的新特征图和多维度向量作为输入值,穿过到多个卷积层,输出一个合成(视频)帧——会使用参考视频帧(ground truth)作为参考。生成器的训练目的是让合成帧和参考帧尽可能相似,更好地模拟目标对象的动态表情。

最后一个是鉴别器网络(Discriminator),负责整合和处理原视频帧、合成视频帧、对应的面部特征图和训练序列。它通过序列数,判断合成帧与参考帧是否吻合,有多大差距,以及与面部特征图是否匹配。根据匹配程度,网络会计算出一个真实性得分,显示出两者之间的差别。

研究人员会通过(条件)鉴别器输出的得分对三个网络进行整体优化,感知和对抗损失函数都包含其中。

元学习模型构建完成后,研究人员使用了开源的 VoxCeleb1 和 VoxCeleb2 数据集,进行训练和测试。前者拥有 10 万多个视频样本,来自 1251 个名人,被用来与基准模型性能进行比较,后者拥有 100 多万个样本,来自 6112 个人,用于进行预训练和测试新模型效果。

在小样本学习的前提下,模型需要凭借预训练的经验,观看一小段完全没有见过的一个人的视频,在每一帧中模仿这个人的面部表情,并与真正的表情对比,得出结果。AI 可以使用的帧越多(图片越多),比如从 1 张图增加到 32 张图,得到的最终效果就越贴近真实。

虽然从综合评分来看,模型的准确度有时不及基准模型,但这是少样本方法和模型本身导致的,还有进一步的提升空间。而且我们从结果也能看出,AI 模拟的整体效果还是可以接受的。

除此之外,研究人员还尝试了静图变动图,也就是我们最开始看到的蒙娜丽莎和爱因斯坦动图。模型可以在一定程度上模仿出相似的表情,但背景图案,尤其是有头发的地方,偶尔会出现小瑕疵。

不过瑕不掩瑜,这样一个少样本对抗网络的元学习框架,非常适合在没有大量数据的情况下实现 AI 换脸。而且还能启发类似的后续研究,在该模型的基础上改良和创新,比如通过改善面部特征提取过程,让人物表情模拟更加自然,或者加入眼神凝视等目前无法实现的高难特征提取机制。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭