当前位置:首页 > 工业控制 > 工业控制技术文库
[导读] 确定最佳深度可以降低运算成本,同时可以进一步提高精度。针对深度置信网络深度选择的问题,文章分析了通过设定阈值方法选择最佳深度的不足之处。从信息论的角度,验证了信息熵在每层玻尔兹曼机(RBM)训练

确定最佳深度可以降低运算成本,同时可以进一步提高精度。针对深度置信网络深度选择的问题,文章分析了通过设定阈值方法选择最佳深度的不足之处。从信息论的角度,验证了信息熵在每层玻尔兹曼机(RBM)训练达到稳态之后会达到收敛,以收敛之后的信息熵作为判断最佳层数的标准。通过手写数字识别的实验发现该方法可以作为最佳层数的判断标准。

*基金项目: 福建省自然科学基金资助项目(2014J01234);福建省教育厅基金资助项目(JA15061)

人工神经网络是从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。2006年之前,多数的分类、回归等学习方法通常都只是包含一层隐藏层的浅层学习模型,其局限性在于在有限样本和计算单元情况下对复杂函数的表示能力有限。在2006年,多伦多大学的Hinton教授提出的深度信念网络(Deep Belief Network,DBN)的深度学习,使得人工神经网络又掀起了另一次浪潮。传统的浅层神经网络随机初始化网络中的权值,容易出现收敛到局部最小值。针对这一问题,Hinton教授提出使用无监督训练的方法先初始化权值,再通过反向微调权值的方法来确定权值从而达到更好的效果。除此之外,Mikolov提出的基于时间的深度神经网络(Recurrent Neural Network,RNN)主要用于序列数据的预测,有一定的记忆效应。而之后对于DBN的研究又扩展了一些其他的变种,比如卷积深度置信网络(ConvoluTIonal Deep Belief Networks,CDBN)等。

目前深度学习在语音识别、计算机视觉等领域已经取得了巨大的成功。

但是对于深度学习的研究是近些年才开始的,建模问题是其中的关键问题之一,如何针对不同的应用构建合适的深度模型是一个很有挑战性的问题。DBN目前在应用中依然使用经验值法来判断DBN所选用的层数及其节点数,研究发现增加DBN的层数到一定的峰值之后,再次增加DBN的层数并不能提升系统性能,反而导致训练的时间过长,从而增加了计算成本。

近年来针对DBN层数的确定已经有了一些初步的进展,其中高强利用中心极限定理证明了在受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)训练达到稳态后对应的权值系数矩阵元素服从正态分布,随着层数的增加,权值系数矩阵越来越趋于正态分布,以权值权重最趋近于正态分布的程度作为确定深度信念网络层数的依据,通过求出正态分布满足率来选择合适的层数。潘广源等人利用设定重构误差的阈值来确定层数,在重构误差未达到这个阈值时则增加一层,虽然重构误差能够在一定程度上反映RBM对训练数据的似然度,不过并不完全可靠。可以看出现在的方法基本上是设定一个阈值来进行判断,这样的做法可能会导致虽然达到了阈值但是效果并不是很好的情况。综合上述情况,本文提出利用在RBM训练达到稳态后通过计算隐藏层的信息熵来判断最佳层数,当增加一层RBM后,信息熵也会增加,当信息熵不再增加时则选取该层作为最佳层数。

1深度信念网络层数的确定

2006年,Hinton等人提出了深度置信神经网络,该模型是通过若干个RBM叠加而成。RBM是一个两层模型,分别为可见层和隐藏层,RBM的训练方法为首先随机初始化可见层,然后在可见层和隐藏层之间进行Gibbs采样,通过可见层用条件概率分布P(h|v)来得到隐藏层,之后同样利用P(v|h)来计算可见层,重复该过程使得可见层与隐藏层达到平衡,训练RBM网络的目标是使得计算后的可见层的分布最大可能地拟合初始可见层的分布。而以训练数据为初始状态,根据RBM的分布进行一次Gibbs采样后所获得样本与原数据的差异即为重构误差。

引入了RBM的训练精度随着深度的增加而提高,并且证明了重构误差与网络能量正相关,之后对重构误差的值设定一个阈值,如果没有达到该阈值则增加一层;如果达到该阈值则取该层为最佳层数。通过最后的实验可以发现,虽然选取第4层为最佳层数,但重构误差在第5层和第6层依然在降低,如果阈值选取得不好,虽然重构误差能够满足阈值的条件,但是选择的层数得出的结构并不能取得很好的效果。

故本文提出利用稳定后的隐藏层的信息熵来判断最佳层数。通过信息论可知,信息熵的物理含义表示信源输出后,信息所提供的平均信息量,以及信源输出前,信源的平均不确定性,同时信息熵也可以说是系统有序化程度的一个度量,一个系统越是有序,信息熵则越低,反之信息熵越高。而训练RBM的目标是使得系统的能量函数越小,使系统越有序。所以在RBM训练完之后,信息熵将会收敛于一个较小值。

假设输入的矩阵为V=(v1,v2,v3,…,vi),经过RBM训练之后的输出矩阵为Y=(y1,y2,y3,…,yj),经过RBM的训练模型可以通过已知的可视节点得到隐藏节点的值,即:

P(Y)=S(WV+B)(1)

其中W为权重矩阵,B为偏置矩阵,S(x)为激活函数,一般选取Sigmoid函数,即:

信息熵的求解公式为:

根据Hinton提出的对比散度的算法[13],权重和偏置会根据下式进行更新:

wi,j=wi,j+[P(hi=1|V(0))v(0)j-P(hi=1|V(k))v(k)j](4)

bi=bi+[P(hi=1|V(0))-P(hi=1|V(k))](5)

当RBM训练到达终态后,则权值wi,j和偏置bi会逐渐收敛,而v是输入数据,是确定值,所以在训练达到终态后,p(yi)也会逐渐收敛,同样信息熵H(Y)会收敛于一个较小值。

当训练完一层之后,将隐藏层作为第2层的可见层输入并开始训练第2层RBM。根据信息熵的另一个物理含义平均信息量可知,在消除不确定性后,信息熵越大则表示所获得的信息量越多,则隐藏层对于抽取的特征信息量也越大。所以当信息熵不再增加时,所表示的信息量也不再增大,将每层的RBM看作为一个信源,则最后一层的RBM收敛之后信息熵应该比其他层的大,这样输入到有监督学习中的信息量才会最大。所以当信息熵不再增加时,则选择该层作为最佳层数。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭