基于联邦学习与深度强化学习的电力系统低碳调度研究

付婧怡

陕西理工大学陕西汉中 723000

摘要：虽然可再生能源的使用可以减少电力系统运行中的碳排放，但其自身的不确定性会给微电网和主电网间电力传输断面带来安全隐患，进一步增加了对电力系统的经济调度的约束条件，使得调度优化问题更加复杂。因此急需一种能够可以简化建模过程和求解过程的经济调度模型来应对日益复杂的电力系统的调度问题。为此本文研究了考虑电力传输断面功率安全的低碳经济调度问题，提出了基于深度强化学习的两阶段低碳经济调度模型。

关键词：联邦学习；深度强化学习；电力系统；低碳调度

1基于联邦学习的电力负荷预测模型

使用联邦学习框架结合预测模型实现可变时间步的电力负荷数据预测，整个过程中用户的数据不需要离开本地区域，同时可以获得动态的不断更新的预测模型，且该模型可以学到的不仅仅只有本地的数据特征，还可以学习到其他区域的数据对于本地数据的影响，实现更加准确的预测。为了实现这种效果需要每个本地服务器共同参与到联邦学习框架中，不断接收新的负荷数据，在整个框架的聚合轮数内，不断训练并更新全局预测模型G。开始整个框架模型的训练时，每个本地服务器都有一个初始化的模型参数0G，这个模型参数本文使用随机生成的参数，然后进行第一轮的模型聚合过程。整个模型的训练使用动态采集数据的方式，Sensors开始收集本地训练所需数据，数据量是从0开始，随着本地的训练过程的进行，数据量会不断增加，这相当于数据不断的被采集加入到训练数据集中。但是随着数据不断的增加，训练时间会不断增加，使训练时长能够得到限制，设计了一个最大的数据采集量MaxSampData，当数据采集量累计超过最大采集量时会将最开始采集的数据丢弃从而加入新采集的数据，每次采集的数据量的维度都是满足能够输入到本地预测模型里的维度大小。通过这样的处理就实现了数据的动态采集，L_servers也可以不断的使用新的数据进行训练，这样还可以一定程度上减少本地模型的过拟合。虽然是通过不断采集数据进行训练，但是实际在程序中还是使用历史的数据集来模拟实现这种采集方式，采集的是准备好的数据集中的相应维度大小的数据量。Sensors采集完数据后传输到各自的L_servers中去，L_servers会对收集的原始数据进行进一步处理，才能用于模型的训练。本文使用的负荷数据是单一的时序序列，没有额外特征，因此采集上来的原始数据是一个时序序列的数据，本身不存在什么表面的特征和标签，无法直接输入到模型里进行训练和损失的更新。因此本地服务器会将数据重新按照输入模型的维度将数据重新划分，并将对应维度长度原始数据序列的后一时间步的值作为真实值或者后面的多个时间步作为真实值，但是这取决于实际的任务是单个时间步还是多时间步的预测，同时对应不同任务模型的神经网络的最后输出层的维度需要做出对应调整，防止维度不匹配导致训练失败。而对于测试数据集的划分则是通过计算已经使用过的原始序列数据的结束索引往后取对应任务（单步或多步预测任务）需要使用的原始数据量进行划分输入值（“特征”）和真实值（“标签”）的操作。实际上的操作原理类似使用原始时序数据序列的索引值1到10的负荷数据进行训练数据集的构建，此时假设输入预测模型的维度为5，那么就使用索引值6到15的负荷值进行测试数据集的构建，到下一轮的聚合时，新采集的数据就会包含之前预测时间步的真实值用于新的训练，而这一轮聚合使用的构建训练数据集的索引则要与定义的最大数据采集量进行计算，累计采集的数据超过最大采集量时就需要将旧数据剔除，实际就是移动起始索引。这种数据的处理过程在每一轮的聚合中在所有的L_servers中都要进行。数据处理完成之后使用本地服务器选定的预测模型进行训练。首先搭建对应神经网络模型，输入输出维度定义为变量，可以根据实际需求更改，提高模型的灵活性。定义本地训练轮数，将处理后的训练数据输入模型进行训练，第一轮所使用的模型参数是随机初始化的。所有L_servers训练完成后，所有的模型参数都被保存，系统聚合服务器读取参数，进行加权平均计算，生成新的模型参数，此时第一轮联邦聚合已经完成，得到新的全局模型参数。第一轮聚合完成后，使用新的全局模型参数进行下一轮聚合，如果硬件条件允许可以不设最大聚合轮数，让所有的原始时序数据都被遍历一遍，也可以设置最大训练轮数，达到轮数即完成全局模型的训练。根据实际条件进行设置。

2基于深度强化学习的断面安全调度模型

2.1日前阶段

在日前的调度过程中，每一步的奖励包含两部分，分别是运行成本和传输越限的惩罚。在训练过程中，智能体根据给定策略生成调度动作，环境根据当前的动作给出奖励，智能体通过优化模型参数去调整调度策略，从而获得更大的奖励。当奖励收敛后，此时模型输出结果作为日前调度的最优策略。在本文中，微电网与主电网之间的电力交换受到微电网净出力总和负荷的影响。日前训练的过程是根据历史的电力数据进行学习，得到奖励函数的两部分参数权重和日前调度策略，再将预测的日内负荷数据、可再生能源数据输入到日前调度策略中，得到日内的具体动作安排。但是由于可再生能源的不确定性和负荷的波动性导致权重在日内失效，可能会出现能源的浪费或者越限情况。因此为了减少这种情况的出现需要进行第二阶段的调整，通过日内短时间尺度的提前预测获得更加准确的相关电力数据来获得更好的调度策略和调度动作。日前阶段使用预测的日内数据进行调度动作的生成，在训练过程中要确定合适的奖励函数中的权重参数。

2.2日内阶段

本文在日内调度阶段提出了两种提高传输功率安全的方法。第一种是采用越限惩罚权重调整的方法让智能体的策略更加关注传输功率安全，第二种是在深度强化学习环境中加入了一个更保守的安全极限约束，并且根据这个约束来重新设计训练的奖励函数。越限惩罚权重调整方法需要在日前调度的基础上才能实施。通过日前阶段得到的奖励函数中越限惩罚部分的权重，这个权重可以使智能体的策略在日前阶段的任意日期上产生不会越限的调度计划。但是日内的可再生能源和负荷的不确定性可能会使这个权重失效，因此需要在日内选择更有效的越限惩罚权重。另一种方法通过加入保守的安全极限约束使智能体的策略受到更严格的约束。该约束的设定根据已有经验基础进行。将设定的约束极限与原始的电力传输断面安全极限之间作为一个调度缓冲区域，在日内调度的深度强化学习训练环境中加入这个缓冲区域的条件约束，并且将违反该约束条件后的惩罚加入到之前设定的奖励函数中，以此让智能体在生成策略时考虑到不能使电力传输断面上的有功功率超过设定的缓冲区域。为了引导智能体的学习方向朝着不超过保守的安全极限的方向进行学习，本阶段对于奖励函数也有调整，当智能体通过当前策略生成的动作不会使电力传输断面上的有功功率超过缓冲区域时，环境给出的对应的奖励是负奖励，加上这个负奖励的奖励函数通过负号处理整体会变大，这会使下一步更新策略网络参数时向着这个方向更新。相反的当生成的动作导致电力传输断面上的有功功率超过缓冲区域时，环境给出对应的正奖励，加入到奖励函数之后，奖励函数变小，远离了学习方向，从而影响下一次更新参数。通过这种“诱导”的方式，来提高智能体的学习效率。“诱导”过程中给出的奖励大小和电力传输断面上传输功率的所处范围有关，当传输功率在安全裕度极限以下时环境会给出大的奖励，传输功率在缓冲区域内时环境会给出小的奖励，最后当传输功率超过最大安全极限时环境同样会给出“奖励”，这时的对应奖励将变成惩罚，提醒智能体当前策略学习方向需要调整。三种情况分别是传输功率在保守的安全极限之下，传输功率在缓冲区域之内，传输功率在第一阶段安全极限之上。

参考文献

[1]王博欣.基于改进拓扑聚合的输电断面搜索及双层优化潮流控制策略研究[D].合肥工业大学，2022.

*本文暂不支持打印功能