川普跳「鸡你太美」？

时间：2021-01-08 12:27:35

关键字：图像合成对抗学习 3D

手机看文章

扫描二维码
随时随地手机看文章

[导读]来炫个球技吧，看看川普版的「鸡你太美」。

来炫个球技吧，看看川普版的「鸡你太美」：

不如跳舞：只需要一张或多张人物图像，再提供一个跳舞视频，原本静止的人物就能轻松学会跳舞。衣服等细节信息一致性良好，就是脚步有点飘……

如下视频所示，舞蹈的转身和面向背后的动作合成效果都有所提升。

据新论文《Liquid Warping GAN with Attention: A Unified Framework for Human Image Synthesis》介绍，改进版的优势在于源图像的数量从一张变为一组。以动作合成为例，源图像是一组不同视角的图像，因此合成结果从多个角度看起来效果更好。

论文地址：https://arxiv.org/pdf/2011.09055.pdf
GitHub 地址：https://github.com/iPERDance/iPERCore
项目主页：https://www.impersonator.org/work/impersonator-plus-plus.html

该研究在一个统一的框架内处理人体图像合成，包括人体动作模仿、外观迁移以及新视图合成。经过训练的模型，能够处理这些任务。现有的任务特定方法多数使用 2D 关键点（姿态）来估计人体结构。然而，此类方法只表达位置信息，既无法表征人物的个性化姿态，也不能对肢体旋转进行建模。
针对以上问题，该研究提出使用 3D 人体网格复原模块来解析人体姿态和形状，这样不仅可以对人体关节位置和旋转进行建模，还可以表征个性化的人体形状。为了保存源信息（如纹理、风格、颜色、人脸身份信息），该研究提出了一个新模型 Attentional Liquid Warping GAN，它包含 Attentional Liquid Warping Block (AttLWB)，能够在图像和特征空间中将源信息传播到合成参考中。
具体而言，为了较好地表征源图像的识别性信息，该研究采用去噪卷积自动编码器提取源特征。此外，该方法还可以支持来自多源的更灵活的 warping。为了进一步提高未知源图像的泛化能力，该研究采用了 one/few-shot 对抗学习。
具体来说，它首先在一个广泛的训练集中训练一个模型。然后，通过 one/few-sho 未知图像以自监督的方式进行模型优化，得到高分辨率（512 × 512 和 1024 × 1024）的生成结果。
同时，该研究还建立了一个新的数据集，即 Impersonator（iPER）数据集，用于评估人体运动模仿、外观迁移和新视图合成。大量的实验证明了本文所用方法在保持面部信息、形态一致性和衣服细节方面的有效性。