预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共30页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111582469A(43)申请公布日2020.08.25(21)申请号202010211670.3(22)申请日2020.03.23(71)申请人成都信息工程大学地址610225四川省成都市西南航空港经济开发区学府路一段24号(72)发明人邹长杰郑皎凌张中雷(74)专利代理机构北京元本知识产权代理事务所(普通合伙)11308代理人王红霞(51)Int.Cl.G06N3/08(2006.01)G06N3/02(2006.01)G06N20/00(2019.01)权利要求书4页说明书16页附图9页(54)发明名称多智能体协作信息处理方法、系统、存储介质、智能终端(57)摘要本发明属于人工智能技术领域,公开了一种多智能体协作信息处理方法、系统、存储介质、智能终端,每个agent在环境中每采取下一步行为在环境中留下自己的信息微量,当其它agent到达环境中状态时会先搜索周围的信息微量,把信息微量加入到神经网络中进行训练;分组模型找到多智能体之间更好的合作策略,分组模型使用多智能体之间的分组关系,预测出多智能体在下一时刻的最优分组;在每次经过G模型训练一回合结束时,把每个agent的损失函数公式看作适应度,统计每一回合智能体轨迹的损失值均值,汇总每一回合所有agent轨迹的损失值。本发明提高了多智能体的团队学习效率,实现多智能体能够团队协作更好的完成任务。CN111582469ACN111582469A权利要求书1/4页1.一种多智能体协作信息处理方法,其特征在于,所述多智能体协作信息处理方法包括以下步骤:第一步,每个agent在环境中每采取下一步行为在环境中留下自己的信息微量,当其它agent到达环境中这个状态时会先搜索周围的信息微量,把信息微量加入到神经网络中进行训练;第二步,分组模型找到多智能体之间更好的合作策略,分组模型使用RNN网络设计出多智能体之间的分组关系,称为G模型,并且通过G模型能够预测出多智能体在下一时刻的最优分组;第三步,在每次经过G模型训练一回合结束时,把每个agent的损失函数公式看作适应度,统计每一回合智能体轨迹的损失值均值,汇总每一回合所有agent轨迹的损失值。2.如权利要求1所述的多智能体协作信息处理方法,其特征在于,所述第一步每个agent在环境中每采取下一步行为在环境中留下自己的信息微量,当其它agent到达环境中这个状态时会先搜索周围的信息微量,把信息微量加入到神经网络中进行训练具体包括:n×n智能体agenti的信息微量Xi,信息微量用x表示,X=R到其中n×n表示环境大小;x′i=xi+Δs;Agenti每到达下一个状态都会更新信息微量表中对应状态的数量值,Δs表示agenti到达对应状态记为1,否则记为0;所有agent信息微量汇总方式如下:xall=λ1x1+λ2x2+…+λnxn;λi是xi的权重,如果agenti在一回合内完成目标,那么信息微量xi就是正反馈λi=1,反之λi=-1;每回合结束后环境中的信息微量汇总xall,对汇总表xall的信息微量进行归一化,两个智能体agent1和agent2,x1和x2过程如下:x1+x2=xall;得到xall后对其归一化,当agenti到达xall中某一状态是获取周围4个方向的信息微量数值,放到actor中训练,在训练过程中agenti利用这四个数值优化行为策略,在学习过程中agenti会朝信息微量相对多的方向行动的概率会增大。3.如权利要求1所述的多智能体协作信息处理方法,其特征在于,所述第二步组队策略Gt,使用分组模型找到多智能体之间更好的合作策略,分组模型使用RNN网络设计出多智能体之间的分组关系,称为G模型,并且通过G模型能够预测出多智能体在下一时刻的最优分2CN111582469A权利要求书2/4页组;每个agent通过自己的Actor网络选出下一步行为a,通过Critic网络更新Actor策略,经过G模型的组队,agent1和agent3组队训练Critic1网络,agent2和agent1、agent3组队训练Critic2网络,agent3和agent2组队训练Critic3网络用有向图表示agent组队。4.如权利要求3所述的多智能体协作信息处理方法,其特征在于,所述Gt定义;多智能体n×n分组模型Gt=R,其中n表示智能体的个数:G表示一个n×n的所有智能体组队矩阵,Gt表示t时刻的组队矩阵,用矩阵存储多智能体的组队情况,agent不能和自己连接,Gt(i)表示t时刻agenti和其它智能体的组队情况:5.如权利要求3所述的多智能体协作信息处理方法,其特征在于,通过Gt预测Gt+1,通过Gt构造拟合模型,将Gt输入该模型,得到Gt+1。6.如权