预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115640852A(43)申请公布日2023.01.24(21)申请号202211105723.9(22)申请日2022.09.09(71)申请人湖南工商大学地址410000湖南省长沙市岳麓区岳麓大道569号(72)发明人何典程雅婷李闯胡春华梁英李伊航(74)专利代理机构湖南盈奥知识产权代理事务所(普通合伙)43282专利代理师姚瑶龚燕妮(51)Int.Cl.G06N7/00(2023.01)G06N20/00(2019.01)G06F21/62(2013.01)权利要求书3页说明书12页附图2页(54)发明名称联邦学习参与节点选择优化方法、联邦学习方法及系统(57)摘要本发明公开了一种联邦学习参与节点选择优化方法、联邦学习方法及系统,本发明技术方案提出将车辆节点选择问题转换为部分马尔可夫决策过程,进而利用循环确定性策略梯度RDPG算法求解部分马尔可夫决策过程得到当前训练中参与的车辆节点。本发明通过所述节点选择优化方法,可以有效解决车联网场景下车辆等参与节点数目急剧增多的问题,此外,利用RDPG算法来寻找联邦学习中节点选择的最优解,提高联邦学习过程中全局聚合的效率与聚合质量。CN115640852ACN115640852A权利要求书1/3页1.一种基于RDPG的联邦学习参与节点选择优化方法,其特征在于:包括以下步骤:步骤S1:将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程;其中,所述车辆节点选择问题是以使用联邦学习训练模型的最小化时间开销和最大化聚合模型质量为优化目标构建的,用于选择每次模型训练中参与的车辆节点;在所述部分马尔可夫决策过程中将所述优化目标转换为计算累计回报函数的最大值;步骤S2:依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前模型训练中参与的车辆节点;其中,所述观察值表示车联网场景中被观察到的各车辆节点状态。2.根据权利要求1所述的方法,其特征在于:步骤S2中采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前训练中参与的车辆节点的过程如下:步骤S31:随机选取经验片段,并利用主critic网络分别计算出执行经验片段中各个时刻的动作at得到的预测价值,以及分别利用目标actor网络预测出经验片段中对应下一时刻的动作at+1,进而利用目标critic网络计算出执行动作at+1得到的目标价值;其中,主critic网络和目标critic网络的网络结构相同,对应的网络参数分别表示为θQ、θQ′,分别用于计算执行动作得到的预测价值、目标价值;主actor网络和目标actor网络的网络结构相同,对应的网络参数分别表示为θπ、θπ′,分别用于得到选取的车辆节点,即输出动作;动作at表示t时刻对应的车辆节点选择结果;步骤S32:基于预测价值以及目标价值之间的误差得到主critic网络的误差损失梯度,再利用所述误差损失梯度更新主critic网络的网络参数θQ;步骤S33:利用主critic网络的误差损失梯度计算主actor网络的梯度,进而更新主actor网络的网络参数θπ;步骤S34:分别根据主critic网络、主actor网络的网络参数θQ、θπ更新对应目标critic网络、目标actor网络的网络参数θQ′、θπ′;步骤S35:基于更新后的主actor网络,利用当前时刻τ1的观察值预测当前时刻τ1的动作aτ1;步骤S36:基于当前时刻τ1以及历史时刻的各个动作对应的回报,计算出执行当前时刻τ1的动作aτ1对应的累计回报;其中,按照预设的迭代轮数N,重复执行步骤S31‑步骤S36共N次,进而从中选择出累计回报最大的一轮计算得到的动作aτ1为当前时刻τ1的最优动作。3.根据权利要求2所述的方法,其特征在于:所述累计回报函数表示为:式中,γ是回报折扣因子,γ∈(0,1];T为当前轮运算中的最大时序长度,即t=1,2,3…T;R(St,at)为执行时刻t对应的动作at得到的回报;表示1,2,3…T时刻的回报期望。存在:2CN115640852A权利要求书2/3页t式中,S为t时刻对应的系统状态,为车辆vi对应的t时刻的动作,n为车辆总数,为车辆vi对应t时刻的系统总开销;dj表征车辆vi所持有的训练数据;βm是训练一次模型所需的CPU执行周期次数;ξi(t)是车辆vi对应t时刻的计算资源;τi是车辆vi可用的传输速率;|wit|是车辆vi上训练模型的模型参数的大小,表示车辆vi对应t时刻的模型训练质量;w是t时刻后所聚合的模型。4.根据权利要求2所述的方法,其特征在于:所述主critic网络的误差损失梯度以