预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115952736A(43)申请公布日2023.04.11(21)申请号202310005618.6(22)申请日2023.01.04(71)申请人北方工业大学地址100144北京市石景山区晋元庄路5号(72)发明人张晓平郑远鹏王力孟祥鹏吴宜通马新雨张嘉林冯辉(74)专利代理机构北京高沃律师事务所11569专利代理师韩雪梅(51)Int.Cl.G06F30/27(2020.01)G06N3/006(2023.01)权利要求书4页说明书11页附图4页(54)发明名称一种多智能体目标协同搜索方法及系统(57)摘要本发明公开一种多智能体目标协同搜索方法及系统,涉及群体智能与多智能体目标搜索技术领域,方法包括:针对搜索仿真环境中的任一智能体,获取智能体感知到的环境探测信息;基于期望收益梯度设置确定性策略动作;获取智能体执行确定性策略动作后的更新环境探测信息;基于动作情感变化数据和外在环境奖励数据确定内在奖励数据;内在奖励数据和外在环境奖励数据构成搜索整体奖励数据;搜索整体奖励数据、当前状态数据、更新后状态数据和确定性策略动作构成经验四元组;每个智能体从经验池中随机抽取经验四元组进行训练以得到并执行最优策略动作,以实现目标协同搜索。本发明解决了奖励稀疏问题,提高多智能体搜索复杂未知环境的效率。CN115952736ACN115952736A权利要求书1/4页1.一种多智能体目标协同搜索方法,其特征在于,所述多智能体目标协同搜索方法包括:构建搜索仿真环境;所述搜索仿真环境内随机设置多个智能体、多个障碍物以及多个搜索目标;每个智能体均包括Actor网络和Critic网络;所述Actor网络用于选取所述智能体的待执行动作,所述Critic网络用于评估所述智能体的期望收益;针对所述搜索仿真环境中的任一智能体,获取所述智能体感知到的环境探测信息;所述环境探测信息包括所述智能体的探测范围内所有智能体的当前状态数据;基于期望收益梯度,根据所述环境探测信息、所述Actor网络和所述Critic网络,设置确定性策略动作;获取所述智能体执行所述确定性策略动作后的更新环境探测信息;所述更新环境探测信息包括动作情感变化数据、外在环境奖励数据和更新后状态数据;基于所述动作情感变化数据和所述外在环境奖励数据确定内在奖励数据;所述内在奖励数据和所述外在环境奖励数据构成搜索整体奖励数据;所述搜索整体奖励数据、所述当前状态数据、所述更新后状态数据和所述确定性策略动作构成经验四元组;多个智能体对应的经验四元组构成经验池;每个所述智能体从所述经验池中随机抽取经验四元组,利用抽取得到的经验四元组对所述Actor网络和所述Critic网络进行训练,以得到每个智能体的最优策略动作;每个所述智能体执行对应的最优策略动作以实现目标协同搜索。2.根据权利要求1所述的多智能体目标协同搜索方法,其特征在于,所述动作情感变化数据的计算公式如下:其中,表示智能体的动作情感变化数据,θi,ηi,λi分别表示第i个智能体中第一情感、第二情感和第三情感的内部变化的权重向量,分别表示第i个智能体在一个h时间步长内到达第一情感状态、第二情感状态、第三情感状态的次数;rt表示第一情感对应af的预设内在情感奖励,rt表示第二情感对应的预设内在情感奖励,rt表示第三情感对应的预设内在情感奖励。3.根据权利要求1所述的多智能体目标协同搜索方法,其特征在于,基于所述动作情感变化数据和所述外在环境奖励数据确定内在奖励数据,具体包括:根据公式计算情感稳态值;其中,表示智能体的动作情感变化数据,表示t时刻开始之前智能体内部预设的初始情感价值,Ht表示t时刻内智能体内部的情感稳态值;根据公式计算情感函数值;其中,E表示情感函数值,Ht‑1表示t‑1时刻内智能体内部的情感稳态2CN115952736A权利要求书2/4页值;根据公式计算情感系数;其中,C表示情感系数,k表示常数系数,e表示常数e;根据公式i计算内在奖励数据;其中,T表示最大时间步长,rt表示第i个智能体的内在奖励数据,ert表示外在环境奖励数据。4.根据权利要求1所述的多智能体目标协同搜索方法,其特征在于,所述基于期望收益梯度,根据所述环境探测信息、所述Actor网络和所述Critic网络,设置确定性策略动作,具体包括:基于所述环境探测信息和所述Actor网络,随机选取待执行动作;基于所述待执行动作和所述Critic网络,采用期望收益梯度公式,计算期望收益值;判断所述期望收益值是否满足预设最优条件;若所述期望收益值满足预设最优条件,则将所述待执行动作标记为确定性策略动作;若所述期望收益值未满足预设最优条件,则依据所述期望收益值调整所述Actor网络的网络参数,然后返回基于所述环境探测信息,随机选