预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共34页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113807460A(43)申请公布日2021.12.17(21)申请号202111138932.9(22)申请日2021.09.27(71)申请人北京地平线机器人技术研发有限公司地址100094北京市海淀区丰豪东路9号院2号楼3层1单元302(72)发明人张海超徐伟余昊男(74)专利代理机构北京思源智汇知识产权代理有限公司11657代理人毛丽琴(51)Int.Cl.G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书21页附图10页(54)发明名称智能体动作的确定方法和装置、电子设备和介质(57)摘要本公开实施例公开了一种智能体动作的确定方法和装置、电子设备和介质,其中,智能体动作的确定方法包括:在当前时间步,基于智能体的当前状态生成第一动作序列,第一动作序列包括至少一个时间步的第一动作;基于当前状态及第一动作序列,确定第一动作序列中各第一动作对应的第一状态动作序列价值;基于第一动作序列中各第一动作对应的第一状态动作序列价值及候选动作序列中各第二动作对应的第二状态动作序列价值,确定当前要执行的目标动作序列;基于目标动作序列确定当前要执行的目标动作,以使智能体根据目标动作行动。实现了每个时间步都可以生成多步动作参与到后续目标动作的确定中,实现时间协调探索,有效提高探索效率。CN113807460ACN113807460A权利要求书1/2页1.一种智能体动作的确定方法,包括:在当前时间步,基于智能体的当前状态生成第一动作序列,所述第一动作序列包括至少一个时间步的第一动作;基于所述当前状态及所述第一动作序列,确定所述第一动作序列中各第一动作对应的第一状态动作序列价值,所述第一状态动作序列价值为状态动作序列价值函数值;基于所述第一动作序列中各第一动作对应的第一状态动作序列价值及候选动作序列中各第二动作对应的第二状态动作序列价值,确定当前要执行的目标动作序列,所述候选动作序列是前一时间步所执行动作序列中剩余的未执行动作所形成的动作序列;基于所述目标动作序列确定所述智能体当前需要执行的目标动作。2.根据权利要求1所述的方法,其中,所述在当前时间步,基于智能体的当前状态生成第一动作序列,包括:在当前时间步,获取所述智能体的当前状态;将所述当前状态输入到预先训练获得的动作序列生成器,生成所述第一动作序列,所述动作序列生成器是基于循环神经网络的动作序列生成模型。3.根据权利要求2所述的方法,其中,所述基于所述当前状态及所述第一动作序列,确定所述第一动作序列中各第一动作对应的第一状态动作序列价值,包括:将所述当前状态及所述第一动作序列,输入到预先训练获得的状态动作序列价值网络模型,获得所述第一动作序列中各第一动作对应的第一状态动作序列价值;所述状态动作序列价值网络模型的网络架构是基于循环神经网络建立的。4.根据权利要求3所述的方法,还包括:建立所述动作序列生成器对应的动作序列生成网络及所述状态动作序列价值网络模型对应的状态动作序列价值网络;将所述动作序列生成网络及所述状态动作序列价值网络置于目标学习环境中进行强化学习训练,当所述动作序列生成网络满足预设训练结束条件时,获得所述动作序列生成器和所述状态动作序列价值网络模型。5.根据权利要求1所述的方法,其中,所述基于所述第一动作序列中各第一动作对应的第一状态动作序列价值及候选动作序列中各第二动作对应的第二状态动作序列价值,确定当前要执行的目标动作序列,包括:获取学习获得的动作序列切换调节参数;基于所述第一动作序列中各第一动作对应的第一状态动作序列价值、所述候选动作序列中各第二动作对应的第二状态动作序列价值、学习获得的动作序列切换调节参数及预设动作序列切换规则,确定所述目标动作序列。6.根据权利要求1所述的方法,其中,所述基于所述目标动作序列确定所述智能体当前需要执行的目标动作,包括:基于所述目标动作序列中的当前时间步对应的动作及预设映射规则,确定所述智能体当前需要执行的目标动作,所述预设映射规则为描述动作序列中动作与要执行的动作的映射关系的规则。7.根据权利要求1‑6任一所述的方法,在所述基于所述目标动作序列确定所述智能体当前需要执行的目标动作之后,还包括:2CN113807460A权利要求书2/2页将所述智能体进入的下一时间步作为所述当前时间步,获取所述智能体的新的状态作为所述当前状态,以基于所述当前状态继续为所述智能体确定需要执行的动作。8.一种智能体动作的确定装置,包括:生成模块,用于在当前时间步,基于智能体的当前状态生成第一动作序列,所述第一动作序列包括至少一个时间步的第一动作;确定模块,用于基于所述当前状态及所述第一动作序列,确定所述第一动作