目录
目 录
I 概 述
第1章 导论 3
1.1 强化学习简介 3
1.1.1 两个主要特征 3
1.1.2 与机器学习的关系 4
1.2 强化学习发展史 5
1.2.1 试错学习 6
1.2.2 最优控制 6
1.2.3 时序差分学习 7
1.2.4 深度强化学习 7
1.3 本书的主要内容 8
1.4 本章小结 10
II 预 备 知 识
第2章 概率统计与随机过程 13
2.1 概率论 13
2.1.1 集合 13
2.1.2 概率 15
2.1.3 随机试验与随机事件 16
2.1.4 条件概率与独立事件 16
2.1.5 随机变量 18
2.1.6 期望与方差 18
2.1.7 概率分布 19
2.2 统计学基础 23
2.2.1 大数定律 23
2.2.2 中心极限定理 24
2.3 随机过程 27
2.3.1 基本概念 27
2.3.2 分布函数 29
2.3.3 基本类型 29
2.3.4 马尔可夫过程 30
2.3.5 马尔可夫链的状态分类 30
2.3.6 平稳分布 34
2.4 本章小结 36
第3章 机器学习 37
3.1 基本概念 37
3.2 线性回归 39
3.3 逻辑回归 41
3.3.1 逻辑回归模型 41
3.3.2 逻辑回归指标 43
3.3.3 逻辑回归算法 46
3.4 随机梯度下降 47
3.4.1 随机梯度下降法 47
3.4.2 基于 SGD 实现逻辑回归 49
3.5 本章小结 50
第4章 神经网络 51
4.1 神经元 51
4.2 感知机 53
4.2.1 感知机模型 53
4.2.2 感知机指标 54
4.2.3 感知机算法 55
4.3 神经网络 59
4.3.1 神经网络模型 59
4.3.2 神经网络指标 61
4.3.3 神经网络算法 61
4.3.4 梯度消失现象 66
4.4 本章小结 68
第5章 深度学习 69
5.1 深度神经网络 69
5.2 卷积神经网络 70
5.2.1 图像 70
5.2.2 卷积 71
5.2.3 填充 73
5.2.4 池化 74
5.3 循环神经网络 74
5.3.1 循环神经网络的基本结构 74
5.3.2 LSTM 结构 76
5.3.3 深度循环神经网络 77
5.4 本章小结 78
III 强化学习基础
第6章 强化学习概述 81
6.1 强化学习框架 81
6.1.1 基本框架 81
6.1.2 完全观测与不完全观测 82
6.2 强化学习要素 83
6.2.1 值函数 84
6.2.2 模型 85
6.3 本章小结 85
第7章 马尔可夫决策过程 86
7.1 马尔可夫过程 86
7.1.1 基本概念 86
7.1.2 转移概率 87
7.2 马尔可夫奖励过程 90
7.3 马尔可夫决策过程 94
7.3.1 形式化表示 94
7.3.2 策略和值函数 95
7.3.3 MDP 与 MRP 的关系 100
7.4 最优化 100
7.4.1 最优策略 100
7.4.2 贝尔曼最优方程 101
7.5 本章小结 104
IV 表格求解法
第8章 动态规划法 107
8.1 动态规划 107
8.1.1 算法基础知识 107
8.1.2 动态规划基础知识 111
8.1.3 动态规划求解 MDP 115
8.2 基于动态规划的预测(策略评估) 116
8.3 策略改进 120
8.4 基于动态规划的控制 122
8.4.1 策略迭代 122
8.4.2 值函数迭代 123
8.5 广义策略迭代 125
8.6 本章小结 125
第9章 蒙特卡洛法 126
9.1 蒙特卡洛法简介 127
9.1.1 投点法 127
9.1.2 平均值法 129
9.2 21 点游戏 132
9.2.1 游戏规则 132
9.2.2 模拟交互序列 137
9.2.3 Gym 139
9.3 蒙特卡洛预测 141
9.4 蒙特卡洛控制 145
9.5 增量均值法 152
9.6 本章小结 153
第10章 时序差分法 154
10.1 TD(0) 预测 154
10.2 TD(0) 控制:Sarsa(0) 算法 157
10.3 n 步时序差分预测 163
10.4 n 步时序差分控制:n 步 Sarsa 算法 164
10.5 本章小结 166
第11章 异策略学习概述 167
11.1 重要性采样 167
11.1.1 基本重要性采样 167
11.1.2 自归一化重要性采样 171
11.2 每次访问与异策略学习 173
11.2.1 每次访问 173
11.2.2 异策略学习 175
11.3 异策略蒙特卡洛控制 177
11.4 异策略时序差分控制:Q-Learning 180
11.5 本章小结 183
V 近似求解法
第12章 值函数近似法 187
12.1 值函数近似 187
12.2 值函数近似预测 188
12.3 值函数近似控制 190
12.4 线性函数逼近器 192
12.5 本章小结 194
第13章 策略梯度法 195
13.1 策略梯度 195
13.1.1 基本概念 195
13.1.2 策略梯度定理 196
13.2 蒙特卡洛策略梯度 198
13.3 带基线的 REINFORCE 算法 200
13.4 A-C 算法 203
13.5 PPO 算法 205
13.6 本章小结 207
第14章 深度强化学习 209
14.1 DQN 算法 209
14.2 DDPG 算法 212
14.3 本章小结 214
VI 实践与前沿
第15章 强化学习实践 219
15.1 MountainCar-v0 环境介绍 219
15.2 表格式方法 222
15.2.1 Sarsa 算法 222
15.2.2 Q-Learning 算法 224
15.3 策略梯度法 225
15.3.1 REINFORCE 算法 225
15.3.2 A-C 算法 229
15.3.3 PPO 算法 233
15.4 深度强化学习 238
15.4.1 DQN 算法 238
15.4.2 DDPG 算法 243
15.5 本章小结 246
第16章 强化学习前沿 248
16.1 深度强化学习 248
16.2 多智能体强化学习 250
16.2.1 基于值函数 250
16.2.2 基于策略 251
16.2.3 基于 A-C 框架 252
16.3 多任务强化学习 253
16.3.1 多任务强化学习算法 254
16.3.2 多任务强化学习框架 256
16.4 本章小结 258
VII 附 录
习题参考答案 (第8章 、第9章 ) 261
参考文献 268
后记 275