首页 > 图书中心 > 强化学习(微课版)

目录

目   录

I 概 述

第1章  导论 3  

1.1  强化学习简介   3 

1.1.1  两个主要特征  3 

1.1.2  与机器学习的关系 4 

1.2  强化学习发展史  5 

1.2.1  试错学习 6 

1.2.2  最优控制 6 

1.2.3  时序差分学习 7 

1.2.4  深度强化学习 7 

1.3  本书的主要内容 8 

1.4  本章小结 10 

II 预 备 知 识

第2章  概率统计与随机过程 13 

2.1  概率论   13 

2.1.1  集合  13 

2.1.2  概率 15 

2.1.3  随机试验与随机事件 16 

2.1.4  条件概率与独立事件 16 

2.1.5  随机变量  18 

2.1.6  期望与方差 18 

2.1.7  概率分布  19 

2.2  统计学基础  23

2.2.1  大数定律   23 

2.2.2  中心极限定理 24 

2.3  随机过程 27 

2.3.1  基本概念 27 

2.3.2  分布函数 29 

2.3.3  基本类型 29 

2.3.4  马尔可夫过程 30 

2.3.5  马尔可夫链的状态分类 30 

2.3.6  平稳分布 34 

2.4  本章小结  36 

第3章  机器学习  37 

3.1  基本概念  37 

3.2  线性回归  39 

3.3  逻辑回归  41 

3.3.1  逻辑回归模型 41 

3.3.2  逻辑回归指标 43 

3.3.3  逻辑回归算法 46 

3.4  随机梯度下降 47 

3.4.1  随机梯度下降法  47 

3.4.2  基于 SGD 实现逻辑回归 49 

3.5  本章小结 50 

第4章  神经网络 51 

4.1  神经元  51 

4.2  感知机 53 

4.2.1  感知机模型  53 

4.2.2  感知机指标 54 

4.2.3  感知机算法 55 

4.3  神经网络 59 

4.3.1  神经网络模型 59 

4.3.2  神经网络指标 61 

4.3.3  神经网络算法 61 

4.3.4  梯度消失现象 66 

4.4  本章小结 68 

第5章  深度学习 69 

5.1  深度神经网络  69

5.2  卷积神经网络 70 

5.2.1  图像  70 

5.2.2  卷积  71 

5.2.3  填充 73 

5.2.4  池化  74 

5.3  循环神经网络 74 

5.3.1  循环神经网络的基本结构  74 

5.3.2  LSTM 结构   76 

5.3.3  深度循环神经网络  77 

5.4  本章小结  78 

III 强化学习基础

第6章  强化学习概述 81 

6.1  强化学习框架  81 

6.1.1  基本框架   81 

6.1.2  完全观测与不完全观测 82 

6.2  强化学习要素   83 

6.2.1  值函数   84 

6.2.2  模型   85 

6.3  本章小结 85 

第7章  马尔可夫决策过程   86 

7.1  马尔可夫过程  86 

7.1.1  基本概念   86 

7.1.2  转移概率  87 

7.2  马尔可夫奖励过程  90 

7.3  马尔可夫决策过程   94 

7.3.1  形式化表示 94 

7.3.2  策略和值函数 95 

7.3.3  MDP 与 MRP 的关系 100 

7.4  最优化  100 

7.4.1  最优策略 100 

7.4.2  贝尔曼最优方程 101 

7.5  本章小结  104

IV 表格求解法

第8章  动态规划法 107 

8.1  动态规划  107 

8.1.1  算法基础知识  107 

8.1.2  动态规划基础知识  111 

8.1.3  动态规划求解 MDP  115 

8.2  基于动态规划的预测(策略评估) 116 

8.3  策略改进   120 

8.4  基于动态规划的控制   122 

8.4.1  策略迭代  122 

8.4.2  值函数迭代  123 

8.5  广义策略迭代    125 

8.6  本章小结  125 

第9章  蒙特卡洛法  126 

9.1  蒙特卡洛法简介  127 

9.1.1  投点法   127 

9.1.2  平均值法  129 

9.2  21 点游戏  132 

9.2.1  游戏规则 132 

9.2.2  模拟交互序列 137 

9.2.3  Gym   139 

9.3  蒙特卡洛预测 141 

9.4  蒙特卡洛控制  145 

9.5  增量均值法  152 

9.6  本章小结  153 

第10章  时序差分法  154 

10.1  TD(0) 预测   154 

10.2  TD(0) 控制:Sarsa(0) 算法 157 

10.3  n 步时序差分预测  163 

10.4  n 步时序差分控制:n 步 Sarsa 算法 164 

10.5  本章小结  166 

第11章  异策略学习概述 167 

11.1  重要性采样  167

11.1.1  基本重要性采样  167 

11.1.2  自归一化重要性采样  171 

11.2  每次访问与异策略学习 173 

11.2.1  每次访问 173 

11.2.2  异策略学习  175 

11.3  异策略蒙特卡洛控制  177 

11.4  异策略时序差分控制:Q-Learning   180 

11.5  本章小结   183 

V 近似求解法

第12章  值函数近似法   187 

12.1  值函数近似   187 

12.2  值函数近似预测  188 

12.3  值函数近似控制   190 

12.4  线性函数逼近器  192 

12.5  本章小结   194 

第13章  策略梯度法 195 

13.1  策略梯度   195 

13.1.1  基本概念    195 

13.1.2  策略梯度定理  196 

13.2  蒙特卡洛策略梯度 198 

13.3  带基线的 REINFORCE 算法 200 

13.4  A-C 算法  203 

13.5  PPO 算法  205 

13.6  本章小结   207 

第14章  深度强化学习  209 

14.1  DQN 算法  209 

14.2  DDPG 算法  212 

14.3  本章小结   214 

VI 实践与前沿

第15章  强化学习实践   219 

15.1  MountainCar-v0 环境介绍 219

15.2  表格式方法  222 

15.2.1  Sarsa 算法  222 

15.2.2  Q-Learning 算法 224 

15.3  策略梯度法  225 

15.3.1  REINFORCE 算法 225 

15.3.2  A-C 算法  229 

15.3.3  PPO 算法 233 

15.4  深度强化学习   238 

15.4.1  DQN 算法   238 

15.4.2  DDPG 算法  243 

15.5  本章小结  246 

第16章  强化学习前沿  248 

16.1  深度强化学习   248 

16.2  多智能体强化学习  250 

16.2.1  基于值函数   250 

16.2.2  基于策略  251 

16.2.3  基于 A-C 框架  252 

16.3  多任务强化学习  253 

16.3.1  多任务强化学习算法  254 

16.3.2  多任务强化学习框架   256 

16.4  本章小结   258 

VII 附 录

习题参考答案 (第8章 、第9章 )   261 

参考文献   268 

后记    275

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘