当前位置:首页 > 物联网 > 《物联网技术》杂志
[导读]摘 要:当前,采用卷积神经网络进行图像目标检测和识别是一大研究热点,并取得了不少研究成果。这些成果在研究过程中使用大量有标签的训练样本作为训练集起了至关重要的作用。文章以人脸识别为例,阐述了多样本获取现状;讨论了基于传统方法的多样本算法研究现状和基于深度学习的多样本算法研究现状;最后展望了多样本算法未来的发展方向。

引 言

近几年,基于大量训练数据的卷积神经网络(Convolutional Neural Networks,CNN)在目标检测、目标识别、显著性检测、行为识别、人脸识别和对象分割等计算机视觉领域取得了举世瞩目的成果。这些令人鼓舞的成绩主要归功于以下几点:

(1) 将大量有标签的数据作为训练集,学习出具有百万参数的模型,从而使卷积神经网络能够有效提取对象的本质特征;

(2) 不断改进性能优异的网络结构,如VeryDeepVGG Network[1],Google Inception Network[2] 和 Deep Residual Networks[3] 等;

(3) 各种并行计算硬件设备(如 GPU)的支持,大大提高了CNN训练模型的效率。其中,将标签的大量数据作为训练集起着至关重要的作用。

本文以人脸识别为例,讨论和综述多样本算法的研究现状和发展方向。

有效的特征是目标识别的关键,对人脸识别问题来说亦如此。传统的主成分分析(Principal Component Analysis, PCA)[4,5],线性区分分析(Linear Discriminant Analysis,LDA)[6]和局部二值模式化(Local Binary Pattern,LBP)[7,8]等取得了不错的成绩。基于传统特征的人脸识别受限于环境,此类特征作用在复杂或者背景多变的人脸图像时,其识别性能往往大幅下降,如在LFW 数据集上其识别率骤然下降[9]。

采用CNN 作为特征提取模型,主要考虑到该模型的所有处理层,包括像素级别的输入层,均可从数据中学习到可调节的参数。即 CNN 能自动从大数据中学习特征,无需人工设计特征。合理有效的特征需从大量数据和大量参数中自动学习获取,从而达到优秀的识别性能。基于卷积神经网络的世界领先方法均使用了上百万的数据,其中最具有代表性的如VGG-Face 网络需要 260 万个人脸图像样本进行训练 [10], Facebook 的DeepFace 网络需要 440 万个有标签的人脸图像样本训练[11]。而Google 更使用了 2 亿样本数据来训练 FaceNet 网络[12]。

1 多样本获取现状

如引言所述, 有效合理的特征是目标识别的关键, 而CNN能从大量有标签的数据中自动学习图像的本质特征。获得图像特征的关键因素是有标签的大数据。因此许多研究的前提工作均聚焦在人工获取数据和给数据加标签方面。然而, 获取百万级的数据并非易事。大数据获取需要人工从网上下载、处理,然后给数据添加标签,耗费大量的人力物力。虽然也有一些公开免费的数据集,且收集该类数据相对比较容易, 如 CASIA-WebFace[13], 有 49万个图像, 但远少于Facebook 和Google的数据集。在这种情况下,缺乏大量样本直接阻碍了深度学习方法的使用,成为阻碍提高检测率和识别率的瓶颈。除了深度学习技术提取特征需要大量样本外,已有研究证明[14-19],基于传统方法的技术同样需要大量样本作为支撑。在这种形势下,通过图像处理与机器学习技术自动增加样本集已成为必要手段。

无论基于传统方法的识别问题,还是基于深度学习的识别问题,大量有标签的数据作为训练集在算法中起着举足轻重的作用。如果样本不足,算法往往过拟合,无法提高算法的性能。为了获得更多样本,一些研究工作从网络上获取数据,例如在IMDb上,已经把 9万有标签的数据集扩大到了26万 [10]。除此之外,Facebook获取了440万个有标签的人脸进行 DeepFace网络训练[11],而Google使用 2亿个数据训练FaceNet网络[12]。

目前获取方法具有如下局限:

(1) 现有方法耗时耗力,需要经费支持。获取百万级的数据并非易事。大数据获取需要人工从网上下载、处理,然后给数据添加标签,耗费大量的人力物力。这种情况下,只有像Facebook和 Google这样的大公司会收集大量有标签的数据进行网络训练。而大多数情况下的数据收集涉及个人隐私与财力物力等问题,对于一般的小公司或科研院所而言,收集数据普遍难度较大。

(2) 收集特殊图片困难。对于一些特殊的图像,如医学图像,遥感图像,现实中数量本身就少,加之无法直接从网上获取,因此小样本很容易导致过拟合。

2 样本集扩大算法研究现状

2.1 基于传统方法的多样本算法研究现状

对于传统的样本生成算法,如果数据集中有足够的训练样本,均可得到比较满意的识别结果,但在现实的人脸数据库中,人脸的数据样本却是有限的。文献 [20] 表明,增加图像样本的数量可以较大幅度提高识别的准确率。

为了增加样本数量,提高识别准确率,科研工作者已做了大量工作。其中,借助原始样本产生虚拟样本是一种有效的增加数据集方法。这种方法大致分为如下几类:

(1) 通过人脸图像的对称性来得到原始样本的虚拟样本, 如 Xu[14,15] 和Liu等[21] 提出借助原始图像的 对称脸 和 镜像脸 产生虚拟样本,从而扩大数据集并提高人脸识别的正确率,Song[22] 也提出相应的算法来改进人脸识别的性能;

(2) 通过改变图像的光照、姿势和表情等来产生虚拟样本,例如Boom等用一种称为VIG的方法对未知光照情况进行建模[16],Abdolali[17] 和Ho[18] 等提出了类似的算法扩大数据集;

(3) 基 于人脸图像自身的特征生成虚拟样本,Ryu等根据原始样本的分布来产生虚拟样本 [19],Liu等也根据图像本身特性来产生虚拟样本[23]。

(4) 基于数学的多样本产生方法,如 Zhang等提出利用奇异值分解的方法获得基于原始样本的虚拟样本[24]。借助图像合成方法生成的新样本如图 1所示。

基于机器学习的样本多样性算法研究

图1 借助图像合成方法生成新样本

除了借助图像处理方法获得原始样本的新样本外,还可以利用图像合成算法获取多样本,本研究做了相关实验,其结果如图1所示。假设数据集中有c类人脸图像,每类有ni个样本, 令 xj! 0h) w表示第 i类中的第 j个样本,这里 i=1,2, ,c,j=1,2, ,n,h和 w分别代表样本 xj的高和宽(均为像素值)。


用 X=[X1,X2,…,Xc] 代表所有样本,则 Xi=[xi1,xi2,…,xini], i=1,2,…,c 代表第 i 类样本。则有:


P^Xh=f^Xh=f^x1h5f^x2h5g5f^xnih,i=1,2,f,c其中,P(Xi)代表所生成的第 i类新样本,f(g)表示图像处理函数, 5代表多个样本的串联,即将多个样本联合起来得到一个类别的新样本。

2.2 基于深度学习的多样本生成算法研究现状

大量有标签的训练数据是机器学习成功的关键,尤其对于强大的深度学习技术,大数据集能提高CNN 的性能,防止过拟合[25]。为了扩充数据集,已有一些工作在不改变图像语义的情况下进行,如水平镜像 [26]、不同尺度的剪裁[27,28]、旋转[29] 和光照变化[27] 等传统方法。

DeepID[30] 采取了增大数据集手法来训练网络,只有大的数据集才能使得卷积神经网络训练得更加充分,该研究采用两种方法增大数据集:

(1) 选择采集好的数据,即映入CelebFaces数据集。

(2) 将原始数据集中的图片多尺度、多通道、多区域的切分,然后分别进行训练,再把得到的向量串联起来,即得到最后的向量。

以上方法仅局限于相对简单的图像处理技术,该类方法生成的多样本具有一定的局限性。比如,真正意义上的旋转应按一定的角度进行 3D 旋转,而不仅仅是图像本身的角度旋转。合成数据能一定程度上解决以上问题,如Shotton 等通过随机森林合成 3D 深度数据来估计人体姿势,Jaderberg 等使用合成数据来训练 CNN 模型识别自然场景下的文字[31]。这些研究的结果均优于使用剪裁,旋转等传统方法。但使用 3D 合成图像比较复杂,需要较多的前期工作。

近年来, 借助生成对抗网络(Generative Adversarial Networks,GANs) 来生成原始样本的方法吸引了很多学者。2014 年 6 月,Goodfellow 等 发 表 了 论 文《Generative Adversarial Nets》[32], 文中详尽介绍了GANs 的原理、优点及其在图像生成方面的应用,标志着 GANs 的诞生。早期的GANs 模型存在许多问题,如GANs 网络不稳定,甚至有时该网络永远不会开始学习,生成的结果无法令人满意。文献 [32] 中生成器生成的图片十分模糊,针对此问题,Denton 等提出一个被称为 LAPGANs 的模型[33],该模型用多个卷积神经网络连续生成图像,这些新图像的清晰度不断提高,最终得到高分辨率图像。GANs 除了基于图像生成图像外,还可以通过文字生成图像,如文献 [34] 搭起了文本到图像的桥梁,通过GANs 将文本直接转换成对应的图像。文献 [35] 将 GAN 应用于超分辨率中,该文献提出了全新的损失函数,使得 GANs 能对大幅降采样后的图像恢复其生动纹理和小颗粒细节。另i外,Radford等提出了名为 DCGANs的网络,该文献指出,用大数据集训练出的 GANs 能学习一整套层级的特征,并具有比其他无监督学习模型更好的效果。以上方法均为基于一大类原始样本生成另一大类图像。

基于 GAN 生成样本的过程如图 2 所示。首先将同类别的原始图像输入到生成对抗网络 GAN 的生成器网络 G 中,生成 假冒 图像 G1 和 G2,接着借助判别器D 来判断输入的图像是真实图像还是 假冒 图像。生成器 G 努力生成类似原始样本的图像,力争判别器D 难以区分真假 ;而判别器 D 应不断提高自身性能,有能力鉴别出由生成器 G 生成的图像为赝品。生成器 G 和判别器D 的价值函数如下:

基于机器学习的样本多样性算法研究


生成器 G 最小化 log(1-D(G(z))),判别器 D 最大化 logD(x),使得最大概率按照训练样本的标签分类,生成模型 G 隐式定义了一个概率分布 Pg,希望 Pg 收敛到数据真实分布 Pdata。


基于机器学习的样本多样性算法研究

图 2 GAN 生成新样本示意图


3 结 语

综上所述,基于原始样本的多样本生成算法是一个值得 深入研究探索的问题,具备清晰而明确的理论意义和现实应 用意义。虽然研究人员已经对相关问题进行了一些研究,取得 了一系列成果,但是多样本的产生方法缺乏全面、深入的理解, 尚未出现具有里程碑意义的研究成果。具体而言,本文认为, 基于原始样本的多样本生成问题需要在如下几个方面展开深入 的研究 : 

(1)在研究多样本生成算法时,保留原始样本的本质特征, 如在人脸识别中,抛弃不必要信息(光照、表情和姿势)的影 响是一项十分有意义的工作。 

(2)在合成新样本时,设计合理有效的构造元素,使合 成的新表示更接近自然亦是一个值得研究的方向。 

(3)基于生成对抗网络,研究某一类对象的生成新样本 的核心算法是一项有意义的工作。


本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭