预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共48页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

23强化学习(reinforcementlearning)与监督学习、非监督学习的区别思考:强化学习模型 几个定义 自治智能体Agent 学习的主体,如小猫、小狗、人、机器人、控制程序等 Agent的特点 1、主动对环境做出试探 2、环境对试探动作反馈是评价性的(好或坏) 3、在行动-评价的环境中获得知识,改进行动方案,达到预期目的 奖励信号(rewards) 奖励信号R是一个标量信号 表示agent在步骤T中所产生动作好坏 Agent的任务是最大化累积奖励信号强化学习模型例子101112强化学习基本要素策略定义了agent在给定时间内的行为方式,一个策略就是从环境感知的状态到在这些状态中可采取动作的一个映射。 可能是一个查找表,也可能是一个函数 确定性策略:a=π(s) 随机策略:π(a∣s)=P[At=a∣St=s]回报函数是强化学习问题中的目标,它把环境中感知到的状态映射为单独的一个奖赏 回报函数可以作为改变策略的标准值函数:一个状态起agent所能积累的回报的总和。 在决策和评价决策中考虑最多的是值函数环境模型模拟了环境的行为,即给定一个状态和动作,模型可以预测必定导致的下一个状态和下一个奖赏。模型一般用于规划 规划是算出来的,强化学习是试出来的 马尔可夫过程 马尔可夫奖励过程 马尔可夫决策过程 马尔科夫性:所谓马尔科夫性是指系统的下一个状态s(t+1)仅与当前状态s(t)有关,而与以前的状态无关。对于一个马尔科夫状态s和接下来的状态s′,状态转移概率定义为21以下状态序列称为马尔科夫链,假设从C1开始23对于游戏或者机器人,马尔科夫过程不足以描述其特点,因为不管是游戏还是机器人,他们都是通过动作与环境进行交互,并从环境中获得奖励,而马尔科夫过程中不存在动作和奖励。马尔可夫奖励过程26强化学习是找到最优的策略,这里的最优是指得到的总回报最大。当给定策略π时,假设从状态C1出发,学生状态序列可能为:当智能体采用策略π时,累积回报服从一个分布,累积回报在状态s处的期望值定义为状态值函数:例例例例贝尔曼方程 状态值函数可以分为两部分: 瞬时奖励 后继状态值函数的折扣值3536马尔可夫决策过程38价值函数41贝尔曼方程4344454647谢谢大家