预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113746947A(43)申请公布日2021.12.03(21)申请号202110801982.4(22)申请日2021.07.15(71)申请人清华大学地址100084北京市海淀区清华园(72)发明人杨家海宋光磊何林王之梁(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人张梦瑶(51)Int.Cl.H04L29/12(2006.01)G06N20/00(2019.01)G06K9/62(2006.01)权利要求书2页说明书11页附图3页(54)发明名称基于强化学习的IPv6活跃地址探测方法和装置(57)摘要本申请提出了一种基于强化学习的IPv6活跃地址探测方法和装置,该方法包括:获取IPv6种子地址,并确定种子地址的多个高密度区域;通过预先训练的多臂老虎机模型对每个高密度区域进行迭代探测,包括:在每个高密度区域中生成预设数量的目标地址,并探测每个所述目标地址是否为活跃地址;确定所述预设数量的目标地址中的活跃地址数量和非活跃地址数量,并根据所述活跃地址数量和非活跃地址数量更新对应的高密度区域的期望奖励,重复执行上述步骤,以通过对每个高密度区域进行迭代探测,使种子地址的密度分布收敛到活跃地址的密度分布。该方法使种子地址的密度分布向实际的活跃地址分布移动,从而可以在网络中确定活跃地址的高密度区域,提高了探测活跃地址的效率。CN113746947ACN113746947A权利要求书1/2页1.一种基于强化学习的IPv6活跃地址探测方法,其特征在于,包括以下步骤:S1:获取IPv6种子地址,并确定所述种子地址的多个高密度区域;S2:通过预先训练的多臂老虎机模型对每个所述高密度区域进行探测,包括:在每个所述高密度区域中生成预设数量的目标地址,并探测每个所述目标地址是否为活跃地址;S3:确定所述预设数量的目标地址中的活跃地址数量和非活跃地址数量,并根据所述活跃地址数量和非活跃地址数量更新对应的高密度区域的期望奖励;S4:重复执行步骤S2和步骤S3,以通过对每个所述高密度区域进行迭代探测,使所述种子地址的密度分布收敛到活跃地址的密度分布。2.根据权利要求1所述的地址探测方法,其特征在于,通过密度空间树确定所述种子地址的多个高密度区域,其中,所述密度空间树的根节点表示活跃地址空间,所述密度空间树的叶节点表示所述种子地址的高密度区域,在步骤S4之后,还包括:合并所述密度空间树的叶节点至对应的父节点。3.根据权利要求2所述的地址探测方法,其特征在于,所述合并所述密度空间树的叶节点至对应的父节点,包括:对叶节点进行探测地址合并、奖励合并和空间合并,其中,通过以下公式进行所述空间合并:其中,f.var_space是父节点的变量空间,xi.var_space是任一叶节点的变量空间,j是所述父节点对应的叶节点的数量。4.根据权利要求1或2所述的地址探测方法,其特征在于,通过以下公式计算所述目标地址的预设数量:N(xi)=b*p(xi)其中,其中,N(xi)是任一高密度区域xi中生成的目标地址的数量,b表示每次迭代探测消耗的预算,p(xi)表示在所述任一高密度区域xi中生成目标地址的的概率,Ri表示任一高密度区域xi的期望奖励,Vi表示所述任一高密度区域xi的地址空间维度,n表示所述任一高密度区域xi中预设的探测区域数值。5.根据权利要求1所述的地址探测方法,通过以下公式更新对应的高密度区域的期望奖励:其中,表示第t+1次迭代后任一高密度区域xi的期望奖励,Beta表示Beta分布,表示第t次迭代后确定的任一高密度区域xi的活跃地址数量,表示第t次迭代后确定的任一**高密度区域xi的非活跃地址数量,α表示第t+1次迭代后新产生的活跃地址的数量,β表示第t+1次迭代后新产生的非活动地址的数量。6.一种基于强化学习的IPv6活跃地址探测装置,其特征在于,包括:获取模块,用于获取IPv6种子地址,并确定所述种子地址的多个高密度区域;探测模块,用于通过预先训练的多臂老虎机模型对每个所述高密度区域进行探测,所2CN113746947A权利要求书2/2页述探测模块具体用于:在每个所述高密度区域中生成预设数量的目标地址,并探测每个所述目标地址是否为活跃地址;更新模块,用于确定所述预设数量的目标地址中的活跃地址数量和非活跃地址数量,并根据所述活跃地址数量和非活跃地址数量更新对应的高密度区域的期望奖励;迭代模块,用于控制所述探测模块和所述更新模块重复运行,以通过对每个所述高密度区域进行迭代探测,使所述种子地址的密度分布收敛到活跃地址的密度分布。7.根据权利要求6所述的地址探测装置,其特征在于,所述获取模块通过密度空间树确定所述种子地址的多个高密度区域,其中,所述密度空间