第 1章基本概念 .............................................................................................. 1
1.1网格世界例子 ...................................................................................... 2
1.2状态和动作 ......................................................................................... 2
1.3状态转移 ............................................................................................. 3
1.4策略 ................................................................................................... 5
1.5奖励 ................................................................................................... 7
1.6轨迹、回报、回合 ............................................................................... 9
1.7马尔可夫决策过程 ............................................................................. 11
1.8总结 ................................................................................................. 13
1.9问答 ................................................................................................. 13
第 2章状态值与贝尔曼方程 ........................................................................... 15
2.1启发示例 1:为什么回报很重要?........................................................ 16
2.2启发示例 2:如何计算回报?............................................................... 17
2.3状态值 .............................................................................................. 19
2.4贝尔曼方程 ....................................................................................... 20
2.5示例 ................................................................................................. 22
2.6矩阵向量形式 .................................................................................... 25
2.7求解状态值 ....................................................................................... 27
2.7.1方法 1:解析解 ....................................................................... 27
2.7.2方法 2:数值解 ....................................................................... 27
2.7.3示例 ....................................................................................... 28
2.8动作值 .............................................................................................. 30
2.8.1示例 ....................................................................................... 31
2.8.2基于动作值的贝尔曼方程 ......................................................... 32
2.9总结
................................................................................................. 32
2.10问答
................................................................................................ 33
第 3章最优状态值与贝尔曼最优方程 .............................................................. 35
3.
1启发示例:如何改进策略?................................................................. 36
3.
2最优状态值和最优策略 ....................................................................... 37
3.
3贝尔曼最优方程 ................................................................................. 38
3.
3.1方程右侧的优化问题 ............................................................... 39
3.3.2矩阵
-向量形式 ........................................................................ 40
3.
3.3压缩映射定理 ......................................................................... 41
3.
3.4方程右侧函数的压缩性质 ......................................................... 44
3.
4从贝尔曼最优方程得到最优策略 ......................................................... 46
3.
5影响最优策略的因素 .......................................................................... 49
3.6总结
................................................................................................. 54
3.7问答
................................................................................................. 54
第 4章值迭代与策略迭代 ............................................................................... 57
4.1值迭代算法
....................................................................................... 58
4.
1.1展开形式和实现细节 ............................................................... 59
4.1.2示例
....................................................................................... 59
4.2策略迭代算法
.................................................................................... 62
4.2.1算法概述
................................................................................ 62
4.
2.2算法的展开形式 ...................................................................... 65
4.2.3示例
....................................................................................... 66
4.
3截断策略迭代算法 ............................................................................. 68
4.
3.1对比值迭代与策略迭代 ............................................................ 68
4.
3.2截断策略迭代算法 ................................................................... 71
4.4总结
................................................................................................. 73
4.5问答
................................................................................................. 73
5.
1启发示例:期望值估计 ....................................................................... 78
5.2
MC Basic:最简单的基于蒙特卡罗的算法 ........................................... 80
5.
2.1将策略迭代算法转换为无需模型 ............................................... 80
5.2.2
MC Basic算法 ........................................................................ 81
5.2.3示例
....................................................................................... 82
5.3
MC Exploring Starts算法 .................................................................. 86
5.
3.1更高效地利用样本 ................................................................... 86
5.
3.2更高效地更新策略 ................................................................... 87
5.3.3算法描述
................................................................................ 87
5.4
MC .-Greedy算法 ............................................................................. 88
5.4.1
.-Greedy策略 ......................................................................... 89
5.4.2算法描述
................................................................................ 89
5.4.3示例
....................................................................................... 91
5.
5探索与利用:以 .-Greedy策略为例 ...................................................... 91
5.6总结
................................................................................................. 96
5.7问答
................................................................................................. 96
第 5章蒙特卡罗方法 ..................................................................................... 77
第 6章随机近似算法 ..................................................................................... 99
6.
1启发示例:期望值估计 ...................................................................... 100
6.2罗宾斯
-门罗算法 ............................................................................... 101
6.2.1收敛性质
............................................................................... 103
6.
2.2在期望值估计问题中的应用 .................................................... 106
6.3
Dvoretzky定理 ................................................................................. 107
6.3.1
Dvoretzky定理的证明 ............................................................ 108
6.
3.2应用于分析期望值估计算法 .................................................... 109
6.
3.3应用于证明罗宾斯-门罗定理 ................................................... 110
6.3.4
Dvoretzky定理的推广 ............................................................ 111
6.4随机梯度下降
................................................................................... 112
6.
4.1应用于期望值估计 .................................................................. 113
6.
4.2随机梯度下降的收敛模式 ........................................................ 114
6.
4.3随机梯度下降的另一种描述 .................................................... 116
6.
4.4小批量梯度下降 ..................................................................... 117
6.
4.5随机梯度下降的收敛性 ........................................................... 118
6.5总结
................................................................................................ 120
6.6问答
................................................................................................ 120
第 7章时序差分方法 .................................................................................... 123
7.
1状态值估计:最基础的时序差分算法 .................................................. 124
7.1.1算法描述
............................................................................... 124
7.1.2性质分析
............................................................................... 126
7.
1.3收敛性证明 ............................................................................ 127
7.2动作值估计:
Sarsa ........................................................................... 130
7.2.1算法描述
............................................................................... 131
7.
2.2学习最优策略 ........................................................................ 132
7.3动作值估计:
n-Step Sarsa................................................................. 135
7.
4最优动作值估计:Q-learning ............................................................. 137
7.4.1算法描述
............................................................................... 137
7.4.2
Off-policy和 On-policy ........................................................... 138
7.4.3算法实现
............................................................................... 140
7.4.4示例
...................................................................................... 141
7.
5时序差分算法的统一框架 .................................................................. 142
7.6总结
................................................................................................ 145
7.7问答
................................................................................................ 145
第 8章值函数方法 ........................................................................................ 149
8.
1价值表示:从表格到函数 .................................................................. 150
8.
2基于值函数的时序差分算法:状态值估计 ........................................... 153
8.2.1目标函数
............................................................................... 154
8.2.2优化算法
............................................................................... 159
8.
2.3选择值函数 ............................................................................ 160
8.2.4示例
...................................................................................... 161
8.2.5理论分析
............................................................................... 165
8.
3基于值函数的时序差分:动作值估计 .................................................. 175
8.
3.1基于值函数的 Sarsa ................................................................ 176
8.
3.2基于值函数的 Q-learning ........................................................ 177
8.4深度
Q-learning................................................................................. 178
8.4.1算法描述 ............................................................................... 179
8.4.2示例
...................................................................................... 180
8.5总结
................................................................................................ 183
8.6问答
................................................................................................ 183
第 9章策略梯度方法 .................................................................................... 187
9.
1策略表示:从表格到函数 .................................................................. 188
9.
2目标函数:定义最优策略 .................................................................. 189
9.
3目标函数的梯度 ................................................................................ 194
9.
3.1推导策略梯度:有折扣的情况 ................................................. 195
9.
3.2推导策略梯度:无折扣的情况 ................................................. 200
9.
4蒙特卡罗策略梯度(REINFORCE)................................................... 206
9.5总结
................................................................................................ 208
9.6问答
................................................................................................ 209
第 10章演员-评论家方法 .............................................................................. 211
10.
1最简单的演员-评论家算法:QAC ..................................................... 212
10.2优势演员
-评论家 ............................................................................. 213
10.
2.1基准不变性 .......................................................................... 213
10.
2.2算法描述 ............................................................................. 215
10.3异策略演员
-评论家 .......................................................................... 217
10.
3.1重要性采样 .......................................................................... 217
10.3.2
Off-policy策略梯度定理 ........................................................ 220
10.
3.3算法描述 ............................................................................. 221
10.4确定性演员
-评论家 .......................................................................... 223
10.
4.1确定性策略梯度定理 ............................................................. 223
10.
4.2算法描述 ............................................................................. 229
10.5总结
............................................................................................... 230
10.6问答
............................................................................................... 231
附录 A概率论基础 ...................................................................................... 233
附录 B测度概率论 ....................................................................................... 239
附录 C序列的收敛性 ................................................................................... 247
C.1确定性序列的收敛性 ........................................................................ 248
C.2随机序列的收敛性 ............................................................................ 250 附录 D梯度下降方法 ................................................................................... 255 符号 ............................................................................................................... 261
索引 ............................................................................................................... 262 参考文献 ........................................................................................................ 265