谷歌研发深度学习系统模拟摄影师工作,获得了专业评价
扫描二维码
随时随地手机看文章
机器学习(ML)在许多目标明确的领域有优秀的表现。具有明确正误答案区分的任务将有助于训练,而且能让算法实现预设的目标,比如准确地从图像中识别物体,或者合理的将语言进行翻译。然而,也有许多领域的任务是很难客观评价的,在诸如评价一张照片美丽与否这种太主观的问题上时这与每个人的审美有关,就不太适合用机器学习来解决了。
图:贾斯珀国家公园的一张专业摄影照
为了研究机器学习是如何学习主观概念的,Google针对艺术性的创作引入了一种试验性的深度学习系统。这个系统会模仿专业摄影师来展开工作。它的工作流程如下:从谷歌街景中浏览景观图,分析出最佳的构图,然后进行各种后期处理,从而创造出一幅赏心悦目的图像。
这位虚拟摄影师通过浏览阿尔卑斯山、加拿大的班夫及贾斯珀国家公园、加州BigSur和黄石国家公园等地的4万张全景照片,创作了许多令人印象深刻的作品,其中一些甚至达到了专业水准专业摄影师如此评价到。
训练模型虽然照片中的美感可以用类似AVA系统中的数据集来模拟,但是就这么直接的用AVA系统来处理照片,可能会在美感上有部分方面的缺失,比如做出的照片过饱和。再者,如果想通过监督学习适当地从多个方面来学习美感,所需的标签数据集会很难收集,所以这也不是一个好方法。
他们的方法只需要一些高质量的照片,不需要后期前后图像的对比或额外的标签。这个系统能自动将照片中的美感解析成不同方面,每一方面都能通过相反的图像操作产生的负面例子来单独学习。
通过使图像处理半正交化,可以找到快速和独立的最优化步骤,从构图、饱和度/HDR水平和明暗的张力上对图像进行美化:
图:图(a)是全景图,图(b)将图(a)进行裁切,图(c)是对图(b)进行饱和度和HDR优化处理,图(d)是应用戏剧张力蒙版之后的效果。
他们用传统的图像滤波器生成了包括饱和度、HDR细节和构图的负面例子,还引入了一种名为戏剧张力蒙版(dramaTIcmask)的特殊操作,它是在学习明暗张力概念的过程中一同产生的。
这些负面例子是这样生成的:应用一组图像滤波器,随机地调整高质量照片的亮度,将图片的质量变差。在训练中,他们使用生成对抗网络(GAN),在这种模式下,生成网络会创建一个蒙版来改善负面例子中的光线,判别网络则试图将光线改善后的照片与样本照片进行区分。
与vignette这样的固定形状滤波器(shape-fixedfilter)不同,戏剧张力蒙版增加了内容感知亮度调节部分。GAN训练天然的竞争性极大地丰富了调节图像特性的能力,在论文中可以看到更多的训练细节。
结果
下面是这种系统基于Google街景的一些创作。如下图所示,经过训练后能够判断美感的滤波器创造出了一些让人惊叹的照片(包括文中最初出现的照片):
图:加拿大,贾斯珀国家公园
图:瑞士,茵特拉肯
图:意大利,ParcodelleOrobieBergamasche公园
图:加拿大,贾斯珀国家公园
专业评估为了评价这个算法的效果如何,他们设计了一个类“图灵测试”实验:将这个系统创作出来的照片和其他不同质量的照片掺杂在一起,然后把它们展示给几个专业摄影师。他们要求这些摄影师为每张照片评分,分数是基于如下标准:
1分:傻瓜式拍照,照片没有考虑构图以及光线等因素。
2分:没有摄影基础的一般大众拍出来的照片,看起来还可以,但没有明显的艺术感。
3分:半专业。照片中展示出了明显的艺术感,摄影师正朝着专业摄影师迈进。
4分:专业。
在下面的图表中,曲线显示了专业摄影师为已经预估分数的图片打的分数。对于他们预估的高分图片,大约有40%收到了“半专业”或“专业”的评价。
未来的研究
街道全景图为这个项目提供了一个测试平台。有一天,这种技术甚至可以帮助我们现实世界中拍出更好看的照片。