目录
第 1章动态规划算法 ...................................................................................................... 1
1.1概述.................................................................................................................... 1
1.2基本问题 ............................................................................................................. 8
1.3算法...................................................................................................................12
1.4状态增广和其他重新建模.....................................................................................24
1.5一些数学问题 .....................................................................................................29
1.6动态规划和极小化极大控制 .................................................................................32
1.7注释、参考文献和习题 ........................................................................................35
第 2章确定性系统和最短路径问题 .................................................................................44
2.1有限状态系统和最短路径.....................................................................................44
2.2一些最短路径的应用 ...........................................................................................47
2.2.1关键路径分析 ...........................................................................................47
2.2.2隐马尔可夫模型和瓦特比算法....................................................................48
2.3最短路径算法 .....................................................................................................53
2.3.1标签纠正方法 ...........................................................................................55
2.3.2标签纠正变形-A*算法 ..............................................................................60
2.3.3分支定界..................................................................................................61
2.3.4约束与多目标问题 ....................................................................................63
2.4注释、参考文献和习题 ........................................................................................67
第 3章确定性连续时间最优控制 ....................................................................................72
3.1连续时间最优控制...............................................................................................72
3.2哈密尔顿-雅可比-贝尔曼方程 ...............................................................................74
3.3庞特里亚金最小值原理 ........................................................................................79
3.3.1使用 HJB方程的非正式推导 .....................................................................79
3.3.2一种基于变分思想的推导 ..........................................................................86
3.3.3离散时间问题的最小值原理 .......................................................................89
3.4最小值原理推广 ..................................................................................................90
3.4.1固定的末端状态........................................................................................91
3.4.2自由初始状态 ...........................................................................................93
3.4.3自由终止时间 ...........................................................................................94
3.4.4时变系统与费用........................................................................................97
动态规划与最优控制——近似动态规划 (第 I卷)
3.4.5奇异问题..................................................................................................97
3.5注释、参考文献和习题 ........................................................................................99
第 4章具有精确状态信息的问题 .................................................................................. 103
4.1线性系统和二次型费用 ...................................................................................... 103
4.2库存控制 .......................................................................................................... 112
4.3动态资本分析 ................................................................................................... 119
4.4最优停止问题 ................................................................................................... 122
4.5调度与交换的理由............................................................................................. 130
4.6不确定性的集合隶属度描述 ............................................................................... 133
4.6.1集合隶属度估计...................................................................................... 133
4.6.2具有未知且有界扰动的控制 ..................................................................... 138
4.7注释、参考文献和习题 ...................................................................................... 140
第 5章不精确状态信息的问题...................................................................................... 152
5.1化简为精确信息的情形 ...................................................................................... 152
5.2线性系统和二次型费用 ...................................................................................... 160
5.3线性系统的最小方差控制................................................................................... 165
5.4充分统计量....................................................................................................... 176
5.4.1条件状态分布 ......................................................................................... 177
5.4.2有限状态系统 ......................................................................................... 180
5.5注释、参考文献和习题 ...................................................................................... 190
第 6章近似动态规划 ................................................................................................... 198
6.1确定性等价和自适应控制................................................................................... 199
6.1.1谨慎、探测和对偶控制............................................................................ 203
6.1.2两阶段控制和识别能力............................................................................ 204
6.1.3确定性等价控制和可辨识性 ..................................................................... 205
6.1.4自调节调节器 ......................................................................................... 209
6.2开环反馈控制 ................................................................................................... 210
6.3有限前瞻策略 ................................................................................................... 213
6.3.1有限前瞻策略的性能界............................................................................ 214
6.3.2有限前瞻中的计算问题............................................................................ 217
6.3.3问题近似——强化分解 ............................................................................ 219
6.3.4集结 ...................................................................................................... 223
6.3.5后续费用的参数化近似............................................................................ 227
6.4滚动算法 .......................................................................................................... 234
6.4.1离散确定性问题...................................................................................... 239
6.4.2由仿真评价的 Q-因子 ............................................................................. 251
目录 IX
6.4.3 Q-因子近似 ............................................................................................ 253
6.5模型预测控制及相关方法................................................................................... 255
6.5.1滚动时段近似 ......................................................................................... 255
6.5.2模型预测控制中的稳定性问题.................................................................. 257
6.5.3结构受限的策略...................................................................................... 262
6.6近似动态规划中的额外主题 ............................................................................... 266
6.6.1离散化 ................................................................................................... 266
6.6.2其他近似方法 ......................................................................................... 268
6.7注释、参考文献和习题 ...................................................................................... 269
第 7章无限阶段问题介绍 ............................................................................................ 280
7.1概览................................................................................................................. 280
7.2随机最短路径问题............................................................................................. 282
7.3折扣问题 .......................................................................................................... 290
7.4每阶段平均费用问题 ......................................................................................... 293
7.5半马尔可夫问题 ................................................................................................ 303
7.6注释、参考文献和习题 ...................................................................................... 310
附录 A数学知识复习 ................................................................................................... 320
A.1集合................................................................................................................ 320
A.2欧氏空间 ......................................................................................................... 321
A.3矩阵................................................................................................................ 321
A.4分析................................................................................................................ 324
A.5凸集和凸函数 .................................................................................................. 325
附录 B优化理论 .......................................................................................................... 327
B.1最优解............................................................................................................. 327
B.2最优性条件 ...................................................................................................... 328
B.3二次型最小化................................................................................................... 329
附录 C概率论 ............................................................................................................. 330
C.1概率空间 ......................................................................................................... 330
C.2随机变量 ......................................................................................................... 330
C.3条件概率 ......................................................................................................... 331
附录 D关于有限状态马尔可夫链................................................................................... 333
D.1平稳马尔可夫链 ............................................................................................... 333
D.2状态分类 ......................................................................................................... 334
D.3极限概率 ......................................................................................................... 334
动态规划与最优控制——近似动态规划 (第 I卷)
D.4首达时间 ......................................................................................................... 335
附录 E卡尔曼滤波 ....................................................................................................... 336
E.1最小二乘估计................................................................................................... 336
E.2线性最小二乘估计 ............................................................................................ 337
E.3状态估计——卡尔曼滤波器 ............................................................................... 342
E.4稳定性方面 ...................................................................................................... 346
E.5高斯-马尔可夫估计器........................................................................................ 347
E.6确定性最小二乘估计......................................................................................... 349
附录 F随机线性系统模型 ............................................................................................. 351
F.1具有随机输入的线性系统 .................................................................................. 351
F.2具有有理数谱的过程......................................................................................... 352
F.3 ARMAX模型 .................................................................................................. 353
附录 G不确定性下的决策问题建模 ............................................................................... 354
G.1不确定性下的决策问题 ..................................................................................... 354
G.2期望效用理论和风险 ........................................................................................ 357
G.3随机最优控制问题............................................................................................ 365
参考文献 ........................................................................................................................ 369