图书目录

目录

第Ⅰ部分 导  论

第1章 序贯决策问题 3

1.1 目标读者 6

1.2 序贯决策问题领域 6

1.3 通用建模框架 8

1.4 序贯决策问题的策略设计 11

1.4.1 策略搜索 12

1.4.2 基于前瞻近似的策略 13

1.4.3 混合和匹配 14

1.4.4 4类的最优性 14

1.4.5 概述 14

1.5 学习 15

1.6 主题 16

1.6.1 混合学习和优化 16

1.6.2 将机器学习桥接到序贯决策 16

1.6.3 从确定性优化到随机优化 17

1.6.4 从单个智能体到多个智能体 19

1.7 建模方法 20

1.8 如何阅读本书 21

1.8.1 主题编排 21

1.8.2 如何阅读每一章 23

1.8.3 练习分类 24

1.9 参考文献注释 25

练习 25

参考文献 28

第2章 典型问题及其应用 29

2.1 典型问题 29

2.1.1 随机搜索——基于导数和无导数 30

2.1.2 决策树 32

2.1.3 马尔可夫决策过程 33

2.1.4 最优控制 35

2.1.5 近似动态规划 37

2.1.6 强化学习 37

2.1.7 最优停止 39

2.1.8 随机规划 41

2.1.9 多臂老虎机问题 42

2.1.10 模拟优化 44

2.1.11 主动学习 44

2.1.12 机会约束规划 45

2.1.13 模型预测控制 45

2.1.14 鲁棒优化 46

2.2 序贯决策问题的通用建模框架 47

2.2.1 序贯决策问题的通用模型 47

2.2.2 紧凑型建模 49

2.2.3 MDP/RL与最优控制建模框架 50

2.3 应用 51

2.3.1 报童问题 51

2.3.2 库存/储存问题 53

2.3.3 最短路径问题 55

2.3.4 一些车队管理问题 57

2.3.5 定价 59

2.3.6 医疗决策 59

2.3.7 科学探索 60

2.3.8 机器学习与序贯决策问题 61

2.4 参考文献注释 62

练习 66

参考文献 68

第3章 在线学习 69

3.1 序贯决策的机器学习 69

3.1.1 随机优化中的观察和数据 70

3.1.2 索引输入xn和响应yn+1 70

3.1.3 正在学习的函数 71

3.1.4 序贯学习:从很少的数据到更多的数据 72

3.1.5 近似策略 72

3.1.6 从数据分析到决策分析 74

3.1.7 批量学习与在线学习 75

3.2 使用指数平滑的自适应学习 75

3.3 使用频率更新的查找表 76

3.4 使用贝叶斯更新的查找表 77

3.4.1 独立信念的更新公式 77

3.4.2 相关信念的更新 78

3.4.3 高斯过程回归 81

3.5 计算偏差和方差* 82

3.6 查找表和聚合* 84

3.6.1 分层聚合 84

3.6.2 不同聚合水平的估计 86

3.6.3 组合多个聚合级别 89

3.7 线性参数模型 91

3.7.1 线性回归 92

3.7.2 稀疏加性模型和Lasso 93

3.8 线性模型的递归最小二乘法 94

3.8.1 平稳数据的递归最小二乘法 95

3.8.2 非平稳数据的递归最小二乘法* 96

3.8.3 使用多次观察的递归估计* 97

3.9 非线性参数模型 98

3.9.1 最大似然估计 98

3.9.2 采样信念模型 99

3.9.3 神经网络——参数* 100

3.9.4 神经网络的局限性 104

3.10 非参数模型* 105

3.10.1 k-最近邻 106

3.10.2 内核回归 106

3.10.3 局部多项式回归 108

3.10.4 深度神经网络 108

3.10.5 支持向量机 109

3.10.6 索引函数、树结构和聚类 110

3.10.7 非参数模型评注 111

3.11 非平稳学习* 112

3.11.1 非平稳学习I——鞅真理 112

3.11.2 非平稳学习II——瞬时真理 113

3.11.3 学习过程 113

3.12 维数灾难 114

3.13 自适应学习中的近似架构设计 116

3.14 为什么有效** 117

3.14.1 递归估计公式的推导 117

3.14.2 谢尔曼-莫里森更新公式 119

3.14.3 分层估计中的相关性 120

3.14.4 命题3.14.1的证明 122

3.15 参考文献注释 124

练习 125

参考文献 128

第4章 随机搜索简介 129

4.1 基本随机优化问题阐释 130

4.2 确定性方法 133

4.2.1 “随机”最短路径问题 133

4.2.2 具有已知分布的报童问题 133

4.2.3 机会约束优化 134

4.2.4 最优控制 134

4.2.5 离散马尔可夫决策过程 135

4.2.6 备注 136

4.3 采样模型 136

4.3.1 建立采样模型 137

4.3.2 收敛性 139

4.3.3 创建采样模型 140

4.3.4 分解策略* 142

4.4 自适应学习算法 143

4.4.1 建模自适应学习问题 143

4.4.2 在线与离线的应用 144

4.4.3 用于学习的目标函数 145

4.4.4 设计策略 148

4.5 小结 148

4.6 参考文献注释 149

练习 150

参考文献 154

第Ⅱ部分 随机搜索

第5章 基于导数的随机搜索 156

5.1 一些示例应用程序 158

5.2 建模不确定性 160

5.2.1  训练不确定性160

5.2.2 模型不确定性S0 160

5.2.3 测试不确定性 161

5.2.4 策略评估 162

5.2.5 结束语 162

5.3 随机梯度法 162

5.3.1 随机梯度算法 163

5.3.2 步长简介 164

5.3.3 评估随机梯度算法 165

5.3.4 符号注释 166

5.4 梯度样式 166

5.4.1 梯度平滑 166

5.4.2 二阶方法 167

5.4.3 有限差分 168

5.4.4 SPSA 169

5.4.5 约束问题 170

5.5 神经网络参数优化* 171

5.5.1 计算梯度 172

5.5.2 随机梯度算法 173

5.6 作为序贯决策问题的随机梯度算法 174

5.7 实证问题 175

5.8 瞬态问题* 176

5.9 理论性能* 176

5.10 为什么有效 177

5.10.1 概率论基础知识 177

5.10.2 一个旧证明* 178

5.10.3 更现代的证明** 181

5.11 参考文献注释 186

练习 187

参考文献 191

第6章 步长策略 192

6.1 确定性步长策略 194

6.1.1 收敛性 194

6.1.2 确定性策略集锦 196

6.2 自适应步长策略 199

6.2.1 自适应步长的情况 200

6.2.2 收敛条件 200

6.2.3 随机策略集锦 201

6.2.4 实验笔记 204

6.3 最优步长策略* 204

6.3.1 平稳数据的最佳步长 205

6.3.2 非平稳数据的最佳步长1 207

6.3.3 非平稳数据的最佳步长2 208

6.4 近似值迭代的最佳步长* 212

6.5 收敛 214

6.6 如何选择步长策略 214

6.7 为什么有效* 216

6.8 参考文献注释 218

练习 218

参考文献 222

第7章 无导数随机搜索 223

7.1 无导数随机搜索概述 225

7.1.1 应用和时间尺度 225

7.1.2 无导数随机搜索领域 226

7.1.3 多臂老虎机故事 226

7.1.4 从被动学习到主动学习再到老虎机问题 228

7.2 无导数随机搜索建模 229

7.2.1 通用模型 229

7.2.2 示例:优化制造过程 231

7.2.3 主要问题类别 232

7.3 设计策略 232

7.4 策略函数近似 235

7.5 成本函数近似 236

7.6 基于价值函数近似的策略 238

7.6.1 最优策略 239

7.6.2 贝塔-伯努利信念模型 240

7.6.3 后向近似动态规划 241

7.6.4 稳态学习的Gittins指数* 243

7.7 基于直接前瞻模型的策略 247

7.7.1 何时需要前瞻策略 247

7.7.2 单周期前瞻策略 248

7.7.3 有约束的多周期前瞻 250

7.7.4 多周期确定性前瞻 252

7.7.5 多周期随机前瞻策略 253

7.7.6 混合直接前瞻 256

7.8 知识梯度(续)* 257

7.8.1 信念模型 257

7.8.2 使最终回报最大化的知识梯度 258

7.8.3 累积回报最大化的知识梯度 262

7.8.4 采样信念模型的知识梯度* 263

7.8.5 相关信念的知识梯度 267

7.9 批量学习 272

7.10 模拟优化* 273

7.10.1 无差异区域算法 273

7.10.2 最优计算预算分配 274

7.11 评估策略* 276

7.11.1 备选方案性能指标* 276

7.11.2 最优视角* 281

7.12 设计策略 283

7.12.1 策略的特点 283

7.12.2 缩放效果 284

7.12.3 调整 285

7.13 扩展* 286

7.13.1 非平稳环境中的学习 286

7.13.2 设计策略的策略 287

7.13.3 瞬态学习模型 288

7.13.4 瞬态问题的知识梯度 288

7.13.5 使用大型或连续选择集学习 289

7.13.6 利用外部状态信息学习——上下文老虎机问题 291

7.13.7 状态相关问题与状态无关问题 293

7.14 参考文献注释 294

练习 296

参考文献 304

第Ⅲ部分 状态相关问题

第8章 状态相关的应用 307

8.1 图问题 308

8.1.1 随机最短路径问题 309

8.1.2 漂泊的货车司机 309

8.1.3 变压器更换问题 310

8.1.4 资产评估 311

8.2 库存问题 313

8.2.1 基本库存问题 313

8.2.2 进阶库存问题 314

8.2.3 滞后资产收购问题 315

8.2.4 批量补货问题 316

8.3 复杂的资源配置问题 318

8.3.1 动态分配问题 318

8.3.2 血液管理问题 321

8.4 状态相关的学习问题 326

8.4.1 医疗决策 327

8.4.2 实验室实验 327

8.4.3 广告点击竞价 328

8.4.4 信息收集最短路径问题 328

8.5 问题类序列 329

8.6 参考文献注释 330

练习 330

参考文献 333

第9章 序贯决策问题建模 334

9.1 简单建模 337

9.2 符号风格 340

9.3 时间建模 342

9.4 系统的状态 344

9.4.1 定义状态变量 344

9.4.2 系统的三种状态 347

9.4.3 初始状态与后续状态“” 349

9.4.4 滞后状态变量* 350

9.4.5 决策后状态变量* 351

9.4.6 最短路径图解 353

9.4.7 信念状态* 354

9.4.8 潜在变量* 355

9.4.9 滚动预测* 356

9.4.10 平面与因子状态表示* 357

9.4.11 程序员对状态变量的看法 357

9.5 建模决策 358

9.5.1 决策类型 359

9.5.2 初始决策与后续决策“” 360

9.5.3 战略、战术和执行决策 360

9.5.4 约束 361

9.5.5 策略介绍 362

9.6 外生信息过程 362

9.6.1 信息过程的基本符号 362

9.6.2 结果和场景 364

9.6.3 滞后的信息过程* 365

9.6.4 信息过程模型* 366

9.6.5 监督过程* 368

9.7 转移函数 368

9.7.1 通用模型 369

9.7.2 无模型动态规划 370

9.7.3 外生转移 370

9.8 目标函数 371

9.8.1 性能指标 371

9.8.2 优化策略 372

9.8.3 最优策略对的依赖性 372

9.8.4 状态相关的变量 373

9.8.5 不确定算子 374

9.9 示例:能量储存模型 375

9.9.1 使用时间序列价格模型 376

9.9.2 使用被动学习 376

9.9.3 使用主动学习 377

9.9.4 使用滚动预测 377

9.10 基本模型和前瞻模型 378

9.11 问题的分类* 379

9.12 策略评估* 381

9.13 高级概率建模概念** 383

9.13.1 信息的测度论视角** 383

9.13.2 策略和可测量性 386

9.14 展望 387

9.15 参考文献注释 388

练习 390

参考文献 399

第10章 不确定性建模 400

10.1 不确定性来源 401

10.1.1 观察的误差 402

10.1.2 外生的不确定性 403

10.1.3 预测的不确定性 404

10.1.4 推断(或诊断)的不确定性 405

10.1.5 实验的可变性 406

10.1.6 模型的不确定性 407

10.1.7 转移的不确定性 408

10.1.8 控制/实现的不确定性 409

10.1.9 通信误差和偏差 409

10.1.10 算法的不稳定性 409

10.1.11 目标的不确定性 410

10.1.12 政治/监管的不确定性 410

10.1.13 讨论 411

10.2 建模案例研究:COVID-19疫情 411

10.3 随机建模 412

10.3.1 外生信息采样 412

10.3.2 分布类型 413

10.3.3 建模样本路径 413

10.3.4 状态动作相关过程 414

10.3.5 相关性建模 415

10.4 蒙特卡洛模拟 416

10.4.1 生成均匀分布[0,1]随机变量 416

10.4.2 均匀和正态随机变量 417

10.4.3 从逆累积分布生成随机变量 419

10.4.4 分位数分布的逆累积 420

10.4.5 不确定参数分布 420

10.5 案例研究:电价建模 422

10.5.1 均值回归 423

10.5.2 跳跃—扩散模型 423

10.5.3 分位数分布 424

10.5.4 机制转变 424

10.5.5 交叉时间 425

10.6 采样与采样模型 426

10.6.1 迭代采样:一种随机梯度算法 426

10.6.2 静态采样:求解一个采样模型 427

10.6.3 贝叶斯更新采样表示 427

10.7 结束语 428

10.8 参考文献注释 428

练习 429

参考文献 431

第11章 策略设计 432

11.1 从优化到机器学习再到序贯决策问题 433

11.2 策略类别 434

11.3 策略函数近似 437

11.4 成本函数近似 439

11.5 价值函数近似 440

11.6 直接前瞻近似 441

11.6.1 基本理念 441

11.6.2 前瞻问题建模 443

11.6.3 策略中的策略 444

11.7 混合策略 445

11.7.1 成本函数近似与策略函数近似 445

11.7.2 具有价值函数近似的前瞻策略 446

11.7.3 具有成本函数近似的前瞻策略 447

11.7.4 具有卷展栏启发式和查找表策略的树搜索 447

11.7.5 兼具策略函数近似的价值函数近似 447

11.7.6 使用ADP和策略搜索拟合价值函数 448

11.8 随机策略 449

11.9 示例:重新审视储能模型 450

11.9.1 策略函数近似 450

11.9.2 成本函数近似 450

11.9.3 价值函数近似 451

11.9.4 确定性前瞻 451

11.9.5 混合前瞻—成本函数近似 451

11.9.6 实验测试 451

11.10 选择策略类 452

11.10.1 策略类 453

11.10.2 策略复杂性——计算权衡 456

11.10.3 筛选问题 458

11.11 策略评估 459

11.12 参数调整 460

11.12.1 软问题 461

11.12.2 跨策略类搜索 462

11.13 参考文献注释 463

练习 463

参考文献 466

第Ⅳ部分 策略搜索

第12章 策略函数近似和策略搜索 469

12.1 作为序贯决策问题的策略搜索 470

12.2 策略函数近似的分类 471

12.2.1 查找表策略 472

12.2.2 离散动作的玻尔兹曼策略 472

12.2.3 线性决策规则 473

12.2.4 单调策略 473

12.2.5 非线性策略 474

12.2.6 非参数/局部线性策略 475

12.2.7 上下文策略 476

12.3 问题特征 476

12.4 策略查询的类型 477

12.5 基于数值导数的策略搜索 479

12.6 无导数策略搜索方法 480

12.6.1 信念模型 480

12.6.2 通过扰动PFA学习 481

12.6.3 学习CFA 483

12.6.4 使用知识梯度的DLA 484

12.6.5 说明 486

12.7 连续序贯问题的精确导数* 486

12.8 离散动态规划的精确导数** 487

12.8.1 随机策略 488

12.8.2 目标函数 489

12.8.3 策略梯度定理 489

12.8.4 计算策略梯度 490

12.9 监督学习 491

12.10 有效的原因 493

12.11 参考文献注释 495

练习 496

参考文献 501

第13章 成本函数近似 502

13.1 参数CFA的一般公式 504

13.2 目标修正的CFA 504

13.2.1 线性成本函数修正 504

13.2.2 动态分配问题的CFA 505

13.2.3 动态最短路径 506

13.2.4 动态交易策略 509

13.2.5 讨论 511

13.3 约束修正的CFA 511

13.3.1 约束修正CFA的通用公式 512

13.3.2 血液管理问题 513

13.3.3 滚动预测的储能示例 514

13.4 参考文献注释 520

练习 520

参考文献 522

第Ⅴ部分 前瞻策略

第14章 精确动态规划 527

14.1 离散动态规划 528

14.2 最优方程 529

14.2.1 贝尔曼方程 530

14.2.2 计算转移矩阵 533

14.2.3 随机贡献 533

14.2.4 使用算子符号的贝尔曼方程* 534

14.3 有限时域问题 535

14.4 具有精确解的连续问题 537

14.4.1 赌博问题 537

14.4.2 持续预算问题 539

14.5 无限时域问题* 540

14.6 无限时域问题的值迭代* 542

14.6.1 高斯-塞德尔变体 543

14.6.2 相对值迭代 543

14.6.3 收敛界限和速度 544

14.7 无限时域问题的策略迭代* 546

14.8 混合值—策略迭代* 548

14.9 平均回报动态规划* 549

14.10 动态规划的线性规划方法** 550

14.11 线性二次调节 550

14.12 有效的原因** 552

14.12.1 最优方程 552

14.12.2 值迭代的收敛性 556

14.12.3 值迭代单调性 560

14.12.4 从值迭代中界定误差 561

14.12.5 随机化策略 562

14.13 参考文献注释 563

练习 563

参考文献 570

第15章 后向近似动态规划 571

15.1 有限时域问题的后向近似动态规划 572

15.1.1 准备工作 572

15.1.2 使用查找表的后向ADP 574

15.1.3 具有连续近似的后向ADP算法 575

15.2 无限时域问题的拟合值迭代 578

15.3 价值函数近似策略 579

15.3.1 线性模型 579

15.3.2 单调函数 580

15.3.3 其他近似模型 582

15.4 计算观察 582

15.4.1 后向ADP的实验基准 582

15.4.2 计算注意事项 586

15.5 参考文献注释 586

练习 587

参考文献 590

第16章 前向ADP I:策略价值 591

16.1 对策略价值进行采样 592

16.1.1 有限时域问题的直接策略评估 592

16.1.2 无限时域问题的策略评估 593

16.1.3 时间差分更新 595

16.1.4 TD(𝜆) 596

16.1.5 TD(0)和近似值迭代 597

16.1.6 无限时域问题的TD学习 598

16.2 随机近似方法 600

16.3 使用线性模型的贝尔曼方程* 601

16.3.1 基于矩阵的推导** 602

16.3.2 基于模拟的实现 604

16.3.3 最小二乘时间差分学习 604

16.3.4 最小二乘法策略评估 605

16.4 使用单一状态分析TD(0)、LSTD和LSPE* 605

16.4.1 递归最小二乘法和TD(0) 606

16.4.2 LSPE 607

16.4.3 LSTD 607

16.4.4 讨论 607

16.5 基于梯度的近似值迭代方法* 608

16.5.1 线性模型的近似值迭代** 608

16.5.2 线性模型的几何视图* 612

16.6 基于贝叶斯学习的价值函数近似* 613

16.6.1 最小化无限时域问题的偏差 614

16.6.2 具有相关信念的查找表 614

16.6.3 参数模型 615

16.6.4 创建先验 615

16.7 学习算法和步长 616

16.7.1 最小二乘时间差分 616

16.7.2 最小二乘法策略评估 617

16.7.3 递归最小二乘法 617

16.7.4 近似值迭代的1/n收敛界 618

16.7.5 讨论 619

16.8 参考文献注释 620

练习 621

参考文献 623

第17章 前向ADP II:策略优化 624

17.1 算法策略概述 625

17.2 使用查找表的近似值迭代和Q学习 627

17.2.1 使用决策前状态变量的值迭代 627

17.2.2 Q学习 628

17.2.3 使用决策后状态变量的值迭代 630

17.2.4 使用反向传播的值迭代 632

17.3 学习方式 635

17.3.1 离线学习 635

17.3.2 从离线到在线 636

17.3.3 评估离线学习策略和在线学习策略 637

17.3.4 前瞻策略 638

17.4 使用线性模型的近似值迭代 638

17.5 在线策略学习与离线策略学习以及探索—利用问题 640

17.5.1 术语 641

17.5.2 使用查找表学习 641

17.5.3 使用广义信念模型学习 642

17.6 应用 644

17.6.1 美国期权定价 644

17.6.2 逆向井字棋 647

17.6.3 确定性问题的近似动态规划 648

17.7 近似策略迭代 648

17.7.1 使用查找表的有限时域问题 649

17.7.2 使用线性模型的有限时域问题 650

17.7.3 使用线性模型求解无限时域问题的LSTD 651

17.8 演员—评论家范式 653

17.9 最大算子的统计偏差* 655

17.10 使用线性模型的线性规划方法* 657

17.11 稳态应用的有限时域近似 660

17.12 参考文献注释 661

练习 662

参考文献 666

第18章 前向ADP III:凸性资源分配问题 667

18.1 资源分配问题 669

18.1.1 报童问题 669

18.1.2 两阶段资源分配问题 671

18.1.3 一个通用多周期资源分配模型* 672

18.2 价值与边际价值 674

18.3 标量函数的分段线性近似 675

18.3.1 调平算法 676

18.3.2 CAVE算法 677

18.4 回归方法 678

18.5 可分的分段线性近似 680

18.6 非可分近似的Benders分解** 682

18.6.1 两阶段问题的Benders分解 682

18.6.2 具有正则化的Benders的渐近分析** 686

18.6.3 正则化Benders 688

18.7 高维应用的线性近似 689

18.8 具有外生信息状态的资源分配 690

18.9 结束语 691

18.10 参考文献注释 691

练习 693

参考文献 697

第19章 直接前瞻策略 698

19.1 使用前瞻模型的最优策略 700

19.2 创建近似前瞻模型 703

19.2.1 前瞻模型建模 704

19.2.2 近似前瞻模型策略 704

19.3 前瞻模型中的修改目标 708

19.3.1 风险管理 708

19.3.2 多目标问题的效用函数 712

19.3.3 模型折扣 713

19.4 评估DLA策略 713

19.4.1 在模拟器中评估策略 714

19.4.2 评估风险调整策略 715

19.4.3 在现场评估策略 716

19.4.4 调整直接前瞻策略 716

19.5 使用DLA的原因 717

19.6 确定性前瞻 718

19.6.1 确定性前瞻:最短路径问题 719

19.6.2 参数化前瞻策略 721

19.7 随机前瞻策略简介 722

19.7.1 前瞻PFA 722

19.7.2 前瞻CFA 723

19.7.3 前瞻模型的前瞻VFA 724

19.7.4 前瞻模型的前瞻DLA 724

19.7.5 讨论 725

19.8 离散决策的蒙特卡洛树搜索 725

19.8.1 基本思路 725

19.8.2 蒙特卡洛树搜索的步骤 726

19.8.3 讨论 729

19.8.4 乐观蒙特卡洛树搜索 731

19.9 向量决策的两阶段随机规划* 732

19.9.1 基本两阶段随机规划 732

19.9.2 序贯问题的两阶段近似 734

19.9.3 讨论 736

19.10 对DLA策略的评论 736

19.11 参考文献注释 737

练习 739

参考文献 741

第Ⅵ部分 多智能体系统

第20章 多智能体建模与学习 744

20.1 多智能体系统概述 745

20.1.1 多智能体系统维度 745

20.1.2 通信 746

20.1.3 多智能体系统建模 747

20.1.4 控制架构 750

20.2 学习问题——流感缓解 751

20.2.1 模型1:静态模型 751

20.2.2 流感模型的变体 752

20.2.3 双智能体学习模型 755

20.2.4 双智能体模型的转移函数 757

20.2.5 流感问题的策略设计 758

20.3 POMDP角度* 762

20.4 双智能体报童问题 764

20.5 多个独立智能体——HVAC控制器模型 768

20.5.1 建模 768

20.5.2 设计策略 769

20.6 合作智能体——空间分布血液管理问题 771

20.7 结束语 773

20.8 有效的原因 774

20.9 参考文献注释 775

练习 776

参考文献 780