预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113825171A(43)申请公布日2021.12.21(21)申请号202111163976.7(22)申请日2021.09.30(71)申请人新华三技术有限公司地址310052浙江省杭州市滨江区长河路466号(72)发明人王玲(74)专利代理机构北京博思佳知识产权代理有限公司11415代理人董晓盈(51)Int.Cl.H04W28/02(2009.01)H04L12/801(2013.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书13页附图3页(54)发明名称网络拥塞控制方法、装置、设备及介质(57)摘要本申请提供了一种网络拥塞控制方法、装置、设备及介质。该方法包括:基于网络设备的网络状态数据,通过预先训练好的拥塞控制神经网络,确定拥塞控制窗口的目标调整参数;按照目标调整参数,调整当前拥塞控制窗口的大小,得到调整后的拥塞控制窗口;控制网络设备通过调整后的拥塞控制窗口发送数据包。其中,预先训练好的拥塞控制神经网络基于目标奖励函数训练得到,目标奖励函数至少根据数据包的发送速率和数据包传输过程的最小往返时延确定,从而提高了训练得到的拥塞控制神经网络的准确性,而且无需使用拥塞控制信号直接调节拥塞控制窗口,而是基于训练好的拥塞控制神经网络的处理结果来进行窗口调整,从而提高了控制网络拥塞的准确率。CN113825171ACN113825171A权利要求书1/2页1.一种网络拥塞控制方法,其特征在于,所述方法包括:基于网络设备的网络状态数据,通过预先训练好的拥塞控制神经网络,确定拥塞控制窗口的目标调整参数;其中,所述网络状态数据用于指示所述网络设备的数据传输状态,所述预先训练好的拥塞控制神经网络基于目标奖励函数训练得到,所述目标奖励函数至少根据所述网络状态数据所包括的数据包的发送速率和数据包传输过程的最小往返时延确定;按照所述目标调整参数,调整当前拥塞控制窗口的大小,得到调整后的拥塞控制窗口;控制所述网络设备通过所述调整后的拥塞控制窗口发送数据包。2.根据权利要求1所述的方法,其特征在于,所述目标奖励函数根据所述网络状态数据所包括的数据包的发送速率、丢包率、数据包在发送时的排队时延以及数据包传输过程中的最小往返时延确定。3.根据权利要求2所述的方法,其特征在于,所述目标奖励函数的表达式为:其中,SR表示数据包的发送速率,LR表示丢包率,D表示数据包在发送时的排队时延,MinRtt表示数据包传输过程的最小往返时间,δ为丢包的惩罚系数,ε和ρ分别为用于引导所述拥塞控制神经网络呈现不同表现的引导参数。4.根据权利要求1所述的方法,其特征在于,所述基于网络设备的网络状态数据,通过预先训练好的拥塞控制神经网络,确定拥塞控制窗口的目标调整参数,包括:通过所述预先训练好的拥塞控制神经网络,基于所述网络状态数据,确定用于调整所述拥塞控制窗口的至少一个调整参数对应的发生概率;将对应发生概率最大的调整参数,确定为所述目标调整参数。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述调整后的拥塞控制窗口和数据包传输过程的平滑往返时间,确定数据包的发送速率。6.根据权利要求5所述的方法,其特征在于,所述控制所述网络设备通过所述调整后的拥塞控制窗口发送数据包,包括:控制所述网络设备,通过所述调整后的拥塞控制窗口,按照所述发送速率,发送所述数据包。7.根据权利要求5所述的方法,其特征在于,所述基于所述调整后的拥塞控制窗口和数据包传输过程的平滑往返时间,确定数据包的发送速率,包括:通过如下表达式,确定所述发送速率:其中,cwnd为所述调整后的拥塞控制窗口的大小,srtt为数据包传输过程的平滑往返时间。8.根据权利要求7所述的方法,其特征在于,通过如下表达式,确定所述平滑往返时间:srtt=ω×srtt+(1‑ω)×lrtt;其中,srtt为数据包传输过程的平滑往返时间,ω为平滑因子。2CN113825171A权利要求书2/2页9.根据权利要求1所述的方法,其特征在于,所述按照所述目标调整参数,调整当前拥塞控制窗口的大小,得到调整后的拥塞控制窗口,包括:根据当前拥塞控制窗口的大小与所述目标调整参数所对应的预设数值的乘积,确定所述调整后的拥塞控制窗口的大小。10.根据权利要求1所述的方法,其特征在于,所述拥塞控制神经网络的训练过程包括:获取样本网络状态数据,所述样本网络状态数据标注有样本调整参数;通过待训练的拥塞控制神经网络,对各个样本网络状态数据进行处理,得到拥塞控制窗口的第一调整参数;根据训练损失对所述待训练的拥塞控制神经网络的参数进行调整,所述训练损失包括所述目标奖励函数;在所述训练损失小于设定阈值,或者,训练迭代次数满足设