强化学习简介ppt.ppt
书生****aa
亲,该文档总共48页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
强化学习简介ppt.ppt
23456789101112131415161718192021222324252627282930313233343536373839404142434445464748
强化学习简介ppt课件.ppt
23强化学习(reinforcementlearning)与监督学习、非监督学习的区别思考:强化学习模型几个定义自治智能体Agent学习的主体,如小猫、小狗、人、机器人、控制程序等Agent的特点1、主动对环境做出试探2、环境对试探动作反馈是评价性的(好或坏)3、在行动-评价的环境中获得知识,改进行动方案,达到预期目的奖励信号(rewards)奖励信号R是一个标量信号表示agent在步骤T中所产生动作好坏Agent的任务是最大化累积奖励信号强化学习模型例子101112强化学习基本要素策略定义了agent在
强化学习简介ppt课件.ppt
23强化学习(reinforcementlearning)与监督学习、非监督学习的区别思考:强化学习模型几个定义自治智能体Agent学习的主体,如小猫、小狗、人、机器人、控制程序等Agent的特点1、主动对环境做出试探2、环境对试探动作反馈是评价性的(好或坏)3、在行动-评价的环境中获得知识,改进行动方案,达到预期目的奖励信号(rewards)奖励信号R是一个标量信号表示agent在步骤T中所产生动作好坏Agent的任务是最大化累积奖励信号强化学习模型例子101112强化学习基本要素策略定义了agent在
强化学习简介.ppt
23强化学习(reinforcementlearning)与监督学习、非监督学习的区别思考:强化学习模型几个定义自治智能体Agent学习的主体,如小猫、小狗、人、机器人、控制程序等Agent的特点1、主动对环境做出试探2、环境对试探动作反馈是评价性的(好或坏)3、在行动-评价的环境中获得知识,改进行动方案,达到预期目的奖励信号(rewards)奖励信号R是一个标量信号表示agent在步骤T中所产生动作好坏Agent的任务是最大化累积奖励信号强化学习模型例子101112强化学习基本要素策略定义了agent在
强化学习简介.ppt
23456789101112131415161718192021222324252627282930313233343536373839404142434445464748