预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113420495A(43)申请公布日2021.09.21(21)申请号202110596444.6G06N3/08(2006.01)(22)申请日2021.05.31G06F111/04(2020.01)G06F111/06(2020.01)(71)申请人西南电子技术研究所(中国电子科技集团公司第十研究所)地址610036四川省成都市金牛区茶店子东街48号(72)发明人马松黎伟魏迪王军李黎陈霄楠黄巍(74)专利代理机构成飞(集团)公司专利中心51121代理人郭纯武(51)Int.Cl.G06F30/27(2020.01)G06K9/62(2006.01)G06N3/04(2006.01)权利要求书3页说明书7页附图2页(54)发明名称主动诱骗式智能抗干扰方法(57)摘要本发明公开的一种主动诱骗式智能抗干扰方法,具有较低的训练复杂度和较高的资源利用率。本发明通过下述技术方实现:首先根据黑箱环境模块接收的通信波形和当前全频带感知信号强度以及下一次感知一起构造环境状态,基于观察智能干扰源的干扰行为构造样本标签模块,生成对抗样本信号的训练数据集和诱骗决策深度神经网络,以最小化干扰源的干扰期望回报值和干扰效果为目标,将诱惑样本攻击过程建模为一个关于干扰时机和干扰样本值两个变量;对更新干扰行为的观察进行迭代训练参数,计算攻击时机变量和攻击样本变量,进行干扰行为决策和攻击网络训练;引入迷惑样本,诱骗智能干扰源做出错误的干扰决策,输出对应行为的Q值和对抗样本信号。CN113420495ACN113420495A权利要求书1/3页1.一种主动诱骗式智能抗干扰方法,包括以下步骤:首先根据黑箱环境模块接收的通信波形和当前全频带感知信号强度以及下一次感知一起构造环境状态,分析智能干扰源,基于观察智能干扰源的干扰行为构造“样本标签模块”,生成对抗样本信号的训练数据集和诱骗决策“深度神经网络”,基于深度神经网络,以最小化干扰源的干扰期望回报值和干扰效果为目标,以最小化攻击次数和攻击信号强度为约束,将诱惑样本攻击过程建模为一个关于干扰时机bt和干扰样本值δt两个变量;根据深度强化学习原理对智能干扰源的各个算法模块定义干扰行为、环境状态、回报函数、干扰决策策略,将智能干扰源的回报函数R设计为最小化合法通信链路的效用函数,干扰行为设为频率选择与功率调整;构造包含输入层、多层隐藏层和输出层的智能干扰源决策神经网络;智能干扰源决策神经网络通过全频谱感知获取环境知识,全频带上感知的信号强度,对环境的感知获取环境状态和干扰行为,估计深度训练神经网络主动诱骗迷惑样本,对更新干扰行为的观察进行迭代训练参数,计算攻击时机变量bt和攻击样本变量δt,通过智能干扰源模块设计干扰行为A={fjam,Pjam},进行干扰行为决策和攻击网络训练,并根据深度神经网络计算的攻击时机和攻击样本值两个变量,通过变量求解,在频率上释放相应干扰功率的电磁信号,对合法链路进行干扰;深度神经网络基于策略值学习的机制和对应行为的概率分布,引入迷惑样本,诱骗智能干扰源做出错误的干扰决策,输出对应行为的Q值和对抗样本信号,实现通信系统的智能抗,其中,fjam表示所选干扰频率,Pjam表示对所选频率上施加的干扰功率。2.如权利要求1所述的主动诱骗式智能抗干扰方法,其特征在于:深度神经网络建立M个隐藏层,按顺序建立输入层与隐藏层的联结,建立隐藏层与输出层的联结,为每个隐藏层的每个节点选择激活函数,求解每个联结的权重和每个节点自带的bias值,输入层、隐藏层和输出层用于实现对智能干扰源干扰策略的逼近,对于基于策略学习的智能干扰源的深度神经网络,对所构造输出的深度神经网络参数θ和当前状态St输出所有行为At的分布概率表示为:π(St,At|θ),将基于值学习的深度神经网络,以Q(·)值定义当前行为与状态的匹配度表示为Q(St,At)。3.如权利要求1所述的主动诱骗式智能抗干扰方法,其特征在于:智能干扰源决策神经网络包括:基于高智能压制的深度强化学习神经网络(DQN)、DQN的智能抗干扰源神经网络和基于迷惑样本的主动干扰对抗神经网络;DQN通过神经网络近似求得值函数,输入一个状态state,s,输出值函数Q(s,a),通过神经网络得到值函数,环境先给出一个观测值(obs),智能体根据神经网络求得关于这个obs的所有值函数Q(s,a),再根据策略选择行为action并做出决策,环境接收到此action后给出一个奖励Rew及下一个obs,根据Rew去更新值函数网络的参数,接着进入下一个学习步骤step,如此循环下去,直到训练出一个好的值函数网络。4.如权利要求3所述的主动诱骗式智能抗干扰方法,其特征在于:环境首先向智能体发送一个状态(S),