图书目录

第 1章基本概念 .............................................................................................. 1 

1.1网格世界例子 ...................................................................................... 2 

1.2状态和动作 ......................................................................................... 2 

1.3状态转移 ............................................................................................. 3 

1.4策略 ................................................................................................... 5 

1.5奖励 ................................................................................................... 7 

1.6轨迹、回报、回合 ............................................................................... 9 

1.7马尔可夫决策过程 ............................................................................. 11 

1.8总结 ................................................................................................. 13 

1.9问答 ................................................................................................. 13

第 2章状态值与贝尔曼方程 ........................................................................... 15 

2.1启发示例 1:为什么回报很重要?........................................................ 16 

2.2启发示例 2:如何计算回报?............................................................... 17 

2.3状态值 .............................................................................................. 19 

2.4贝尔曼方程 ....................................................................................... 20 

2.5示例 ................................................................................................. 22 

2.6矩阵向量形式 .................................................................................... 25 

2.7求解状态值 ....................................................................................... 27 

2.7.1方法 1:解析解 ....................................................................... 27 

2.7.2方法 2:数值解 ....................................................................... 27 

2.7.3示例 ....................................................................................... 28 

2.8动作值 .............................................................................................. 30 

2.8.1示例 ....................................................................................... 31 

2.8.2基于动作值的贝尔曼方程 ......................................................... 32 

2.9总结 

................................................................................................. 32 

2.10问答 

................................................................................................ 33

第 3章最优状态值与贝尔曼最优方程 .............................................................. 35 

3.

1启发示例:如何改进策略?................................................................. 36 

3.

2最优状态值和最优策略 ....................................................................... 37 

3.

3贝尔曼最优方程 ................................................................................. 38 

3.

3.1方程右侧的优化问题 ............................................................... 39 

3.3.2矩阵

-向量形式 ........................................................................ 40 

3.

3.3压缩映射定理 ......................................................................... 41 

3.

3.4方程右侧函数的压缩性质 ......................................................... 44 

3.

4从贝尔曼最优方程得到最优策略 ......................................................... 46 

3.

5影响最优策略的因素 .......................................................................... 49 

3.6总结 

................................................................................................. 54 

3.7问答 

................................................................................................. 54

第 4章值迭代与策略迭代 ............................................................................... 57 

4.1值迭代算法 

....................................................................................... 58 

4.

1.1展开形式和实现细节 ............................................................... 59 

4.1.2示例 

....................................................................................... 59 

4.2策略迭代算法 

.................................................................................... 62 

4.2.1算法概述 

................................................................................ 62 

4.

2.2算法的展开形式 ...................................................................... 65 

4.2.3示例 

....................................................................................... 66 

4.

3截断策略迭代算法 ............................................................................. 68 

4.

3.1对比值迭代与策略迭代 ............................................................ 68 

4.

3.2截断策略迭代算法 ................................................................... 71 

4.4总结 

................................................................................................. 73 

4.5问答 

................................................................................................. 73

5.

1启发示例:期望值估计 ....................................................................... 78 

5.2 

MC Basic:最简单的基于蒙特卡罗的算法 ........................................... 80 

5.

2.1将策略迭代算法转换为无需模型 ............................................... 80 

5.2.2 

MC Basic算法 ........................................................................ 81 

5.2.3示例 

....................................................................................... 82 

5.3 

MC Exploring Starts算法 .................................................................. 86 

5.

3.1更高效地利用样本 ................................................................... 86 

5.

3.2更高效地更新策略 ................................................................... 87 

5.3.3算法描述 

................................................................................ 87 

5.4 

MC .-Greedy算法 ............................................................................. 88 

5.4.1 

.-Greedy策略 ......................................................................... 89 

5.4.2算法描述 

................................................................................ 89 

5.4.3示例 

....................................................................................... 91 

5.

5探索与利用:以 .-Greedy策略为例 ...................................................... 91 

5.6总结 

................................................................................................. 96 

5.7问答 

................................................................................................. 96

第 5章蒙特卡罗方法 ..................................................................................... 77 

第 6章随机近似算法 ..................................................................................... 99 

6.

1启发示例:期望值估计 ...................................................................... 100 

6.2罗宾斯

-门罗算法 ............................................................................... 101 

6.2.1收敛性质 

............................................................................... 103 

6.

2.2在期望值估计问题中的应用 .................................................... 106 

6.3 

Dvoretzky定理 ................................................................................. 107 

6.3.1 

Dvoretzky定理的证明 ............................................................ 108 

6.

3.2应用于分析期望值估计算法 .................................................... 109 

6.

3.3应用于证明罗宾斯-门罗定理 ................................................... 110 

6.3.4 

Dvoretzky定理的推广 ............................................................ 111 

6.4随机梯度下降 

................................................................................... 112 

6.

4.1应用于期望值估计 .................................................................. 113 

6.

4.2随机梯度下降的收敛模式 ........................................................ 114 

6.

4.3随机梯度下降的另一种描述 .................................................... 116 

6.

4.4小批量梯度下降 ..................................................................... 117 

6.

4.5随机梯度下降的收敛性 ........................................................... 118 

6.5总结 

................................................................................................ 120 

6.6问答 

................................................................................................ 120

第 7章时序差分方法 .................................................................................... 123 

7.

1状态值估计:最基础的时序差分算法 .................................................. 124 

7.1.1算法描述 

............................................................................... 124 

7.1.2性质分析 

............................................................................... 126 

7.

1.3收敛性证明 ............................................................................ 127 

7.2动作值估计:

Sarsa ........................................................................... 130 

7.2.1算法描述 

............................................................................... 131 

7.

2.2学习最优策略 ........................................................................ 132 

7.3动作值估计:

n-Step Sarsa................................................................. 135 

7.

4最优动作值估计:Q-learning ............................................................. 137 

7.4.1算法描述 

............................................................................... 137 

7.4.2 

Off-policy和 On-policy ........................................................... 138 

7.4.3算法实现 

............................................................................... 140 

7.4.4示例 

...................................................................................... 141 

7.

5时序差分算法的统一框架 .................................................................. 142 

7.6总结 

................................................................................................ 145 

7.7问答 

................................................................................................ 145

第 8章值函数方法 ........................................................................................ 149 

8.

1价值表示:从表格到函数 .................................................................. 150 

8.

2基于值函数的时序差分算法:状态值估计 ........................................... 153 

8.2.1目标函数 

............................................................................... 154 

8.2.2优化算法 

............................................................................... 159 

8.

2.3选择值函数 ............................................................................ 160 

8.2.4示例 

...................................................................................... 161 

8.2.5理论分析 

............................................................................... 165 

8.

3基于值函数的时序差分:动作值估计 .................................................. 175 

8.

3.1基于值函数的 Sarsa ................................................................ 176 

8.

3.2基于值函数的 Q-learning ........................................................ 177 

8.4深度 

Q-learning................................................................................. 178 

8.4.1算法描述 ............................................................................... 179 

8.4.2示例 

...................................................................................... 180 

8.5总结 

................................................................................................ 183 

8.6问答 

................................................................................................ 183

第 9章策略梯度方法 .................................................................................... 187 

9.

1策略表示:从表格到函数 .................................................................. 188 

9.

2目标函数:定义最优策略 .................................................................. 189 

9.

3目标函数的梯度 ................................................................................ 194 

9.

3.1推导策略梯度:有折扣的情况 ................................................. 195 

9.

3.2推导策略梯度:无折扣的情况 ................................................. 200 

9.

4蒙特卡罗策略梯度(REINFORCE)................................................... 206 

9.5总结 

................................................................................................ 208 

9.6问答 

................................................................................................ 209

第 10章演员-评论家方法 .............................................................................. 211 

10.

1最简单的演员-评论家算法:QAC ..................................................... 212 

10.2优势演员

-评论家 ............................................................................. 213 

10.

2.1基准不变性 .......................................................................... 213 

10.

2.2算法描述 ............................................................................. 215 

10.3异策略演员

-评论家 .......................................................................... 217 

10.

3.1重要性采样 .......................................................................... 217 

10.3.2 

Off-policy策略梯度定理 ........................................................ 220 

10.

3.3算法描述 ............................................................................. 221 

10.4确定性演员

-评论家 .......................................................................... 223 

10.

4.1确定性策略梯度定理 ............................................................. 223 

10.

4.2算法描述 ............................................................................. 229 

10.5总结 

............................................................................................... 230 

10.6问答 

............................................................................................... 231

附录 A概率论基础 ...................................................................................... 233

附录 B测度概率论 ....................................................................................... 239 

附录 C序列的收敛性 ................................................................................... 247 

C.1确定性序列的收敛性 ........................................................................ 248 

C.2随机序列的收敛性 ............................................................................ 250 附录 D梯度下降方法 ................................................................................... 255 符号 ............................................................................................................... 261

索引 ............................................................................................................... 262 参考文献 ........................................................................................................ 265