预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共92页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

强化学习目录引言什么是强化学习强化学习发展史强化学习的发展历程国内发展现状工作原理举例1举例2举例3强化学习模型强化学习基本要素策略奖赏函数值函数环境模型强化信号强化信号r的取值可以是以下形式中的一种: 1)二值{-1,0},其中-1表示失败,0表示成功。 2)介于[-1,1]区间的多个离散值,分段表示失败或成功的程度。 3)介于[-1,1]区间的实数连续值,能够更加细致地刻画成功和失败的程度。什么是马尔可夫决策(MDP)马尔可夫决策本质:设系统在某任意时刻t的状态为s,则其Agent在时刻t执行动作a后使状态转变到下一状态s'的概率P(s'|s,a),以及获得的顺时奖赏值r(s,a)都仅仅依赖于当前状态s和选择的动作a,而与历史状态和历史动作无关,即“将来”与“现在”有关,而与过去有关。强化学习分类强化学习方法动态规划法蒙特卡罗方法时间差分学习方法强化学习算法顺时差分法TDQ-学习算法R-学习算法Sarsa算法函数近似强化学习函数近似法强化学习应用在控制系统中的应用在游戏比赛中的应用在人工智能问题中的应用在调度管理中的应用在机器人领域中的应用在多智能体中的应用实例1实例2课题强化学习系统结构图在课题中的应用展望