基于RF和深度学习的中长期用电量预测研究
扫描二维码
随时随地手机看文章
引言
中长期用电量预测是智能电网建设的重要内容之一,对电网系统规划与资源合理配置具有重要意义。目前针对用电量的预测方法可分为自回归模型、统计学方法(多元回归、主成分等)、高阶数学模型)灰色系统、系统动力学等:和智能模型(BP、RBF神经网络,支持向量机等)。相较而言,传统方法操作简单、模型直观可视化,但其预测精度易受数据噪声影响,具有不确定性。智能模型对高维非线性、非结构化问题具有良好的自适应能力,能够通过自主学习、高维映射、容错、记忆等手段大量挖掘隐含信息,得出用电量变化的内在规律。智能模型中的深度学习算法通过增加网络层次结构,在语音识别、机器视觉、自动驾驶等领域获得良好应用。遂本文拟以宁夏为案例,阐释基于RF与DBN的用电量预测模型构建方法及其有效性。
1算法原理
1.1DBN网络原理
深度信念网络(DBN)是深度学习的一种典型学习框架,是由GeoffreyHinton提出的经若干个受限玻尔兹曼机(RBM)单元堆叠而成的一种生成模型。而单独的RBM是由隐含层、显示层上下双向嵌套构成的,当多个RBM堆叠时,前一个RBM的输出层作为后一个RBM单元的输入层,通过训练其神经元间的权重,构建整个神经网络结构关系。训练过程如下:
(1)利用对比散度算法进行权值初始化,运用Hinton的研究经验将初始系数赋值为1时,权值如下:
式中,a、ó分别为显示层b、隐含层h的偏置向量:w为权重。
(2)将初始化权值矩阵赋值X给显示层b,从而计算它使隐含层神经元被开启的概率:
(3)生成一个[0,1]区间上的随机数rj,并确定其权值如下:
(4)根据隐含层h的输入值,通过计算概率后重构其对应的显示层,进行GibbS抽样:
(5)生成一个[0,1]区间上的随机数bj,并运用GibbS进行抽取:
(6)再次用重构之后显示层神经元计算隐含层神经元被开启的概率,即:
(7)通过前述过程得到新的权重与偏置:
(8)通过RBM使得训练数据生成的似然分布具有因子形式,再运用前向传播算法进行监督训练[5]。
1.2RF算法原理
随机森林(RF)是Breiman等[4]集成N棵分类回归树而形成的融合算法,其基于随机子空间理论和自助聚集法对随机向量(X,Y)进行随机选取并进行树形生长成为决策树。设X、Y分别为独立随机向量(X,Y)中随机子集中的输入、输出向量,对于预测样本的输出存在泛化误差,待其构成决策树后节点的属性变量值由随机选中的几个属性子集中产生。对于测试的样本,随机森林通过自助聚集让每棵树进行投票,票数最高类别即为输出结果,即:
式中,P)λ)为随机森林组合模型结果:pi为单棵树分类模型:I为指示函数。
Gini系数是变量重要性度量方法之一,其分值越高,表明该变量重要性越大,公式如下:
2用电量数据与建模过程
2.1数据选取
以宁夏1980一2016年的全年用电量数据为建模目标变量进行预测。中长期用电量变化不仅受限于电力系统自身能效供给能力,还受用电需求、天气等多因素综合影响,因此从多层面构建用电量的解释指标因子能够更精确模拟其变化趋势。结合多位学者的研究经验[4-5],从社会经济、人口、能耗、天气等方面选取了33项因子作为解释变量,如表1所示。
2.2基于RF一DBN的电量求解流程
依据用电量与其解释变量之间的关系构建预测模型如下:
(1)采用极差法消除量纲差异。
(2)以解释变量为输入因子,用电量为输出,基于RStudiol.l软件的randomforeSt程序包进行RF算法模型训练,应用varimportance函数计算各变量的Gini系数值和移除该变量之后模型精度损失量。
(3)根据RF对各变量重要性的排序以及模型总体精度,识别重要性指标。
(4)将筛选出来的重要变量用作DBN网络结构中的输入,并实施网络训练。
(5)采用平均绝对误差MAE和均方根误差RMSE对模型精度予以评价。
3算例分析
3﹒1变量选择结果
RF对各变量的重要性进行了排序,由图1可知各变量的Gini值介于2.07~9.56之间,其中年平均湿度、第三产业人口数等5个变量的系数值高于7.50,且其误差增益值介于0.3~0.4之间,均远高于其他变量,说明其是预测模型中的最重要变量。其次是8月份相对湿度、第一产业人口数、装机容量等14个解释变量,其Gini值介于5.73~7.24之间,相应的模型误差增益值为0.14~0.27。而第三产业GDP等变量的Gini系数值相对偏小,仅介于2.07~5.04,并且其误差增益值为-0.5~0之间,表明这些变量对模型精度具有减弱效应。由此,确定年平均湿度等20个变量为重要变量,在建立用电量预测模型时应当优选,而其他为冗余变量,应当排除。
3.2模型结构优化
DBN模型中每一层RBM的隐含神经元个数对模型泛化能力影响较大,采用逐层枚举法调试。设定隐含神经元宽度为[0,100],根据MAE的大小搜寻最佳值。由于RBM运行结果具有随机性,故采用50次运行结果MAE的平均值进行衡量,如图2所示。由图可知,当第一层RBM的隐含神经元取值在40~60之间时,MAE值明显偏小,当其为52时MAE为0.72%。第二层RBM的隐含神经元数在20~30之间模型拟合较好,其最佳值为26,此时MAE为0.56%。第三层RBM隐含神经元数为31时,MAE值最小,仅为0.85%。
3.3模型预测解析
以1980一2000年的数据为训练集,2001一2016年的为验证集进行深度学习训练。为比较不同建模方案效果,运用SVM和RF算法模拟了经变量选择和未经选择后的效果,如表2所示。结果表明,不同方案下训练模型产生的MAE介于2.014~3.438亿kw·h之间,RMSE为1.011~1.709亿kw·h,相对于全年用电量来说极其微小,表明训练模型精度较高。
从算法来看,基于DBN的训练集、验证集的误差均小于RF和SVM算法的误差,说明DBN网络能够很好地解释高维数据线性、非线性关系,从而实现用电量变化趋势精确拟合;从变量选择来看,未经RF变量筛选方案下的DBN、RF和SVM训练集合验证集的误差均高于经变量选择的方案,表明本文提出的变量筛选方法有助于提高预测精度、增强模型可靠性。
4结语
为提升中长期用电量预测可靠性,本文提出了基于RF变量选择与DBN深度学习的预测方案。RF算法对变量的重要性排序过程是无偏最优的,据此识别的重要解释变量既能反映用电量变化信息,还能简化电量预测模型结构、提升训练速率和泛化能力。DBN以多层RBM为基础将历史电量信息前馈于预测期内,保留了电量的序贯变化规律,其预测性能较优于RF和SVM等回归模型。