清华大学出版社-图书前言

首页 > 图书中心 > 动态规划与最优控制——近似动态规划

前言

序言

这是第II卷的一次重要修订，增加了大量新内容，并对原有内容进行了重新组织。与第三版相比，篇幅增加了逾60%，大部分原有内容被重新组织并/或修订。第II卷现在超过700页，在篇幅上超过了第I卷。这几乎可以被视为一本新书！

近似动态规划已成为第II卷的核心内容，占据全书超过一半的内容（最后两章的全部以及第1～3章的大部分内容）。所以，第II卷可被视作我1996年的《神经元动态规划》一书（与JohnTsitsiklis合著）的续作。现在这本书着重关注1996年之后新的研究成果。另一方面，本书保留了作为教科书的体系，一些内容以形象的甚至是不严格的程度来解释，并引用期刊论文或《神经元动态规划》一书参考更数学化的处理。

在扩展与重新组织的过程中，本书的结构变得更加模块化，更适合课堂教学的使用。可在一学期约三分之一至一半时间内讲完的核心内容，包括第1章（除了1.3节、1.4节与特定应用对应的内容），第2章和第6章合在一起自成体系。这些内容集中在折扣问题，可通过第3章和7.1节的随机最短路问题的内容进行补充。实际上，这构成了我在麻省理工学院的课堂上讲授的内容的一半（剩下的一半来自第I卷，包括那一卷的第6章，讨论有限阶段近似动态规划问题）。在第5章、7.2节、7.4节中的平均费用问题的内容，正和负动态规划模型的高级内容（7.3节）是最后的内容，可由教师根据实际情况选用。

因为本书的重点发生了转移，我将更多的重心放在新近的研究成果上，包括近似动态规划和基于仿真的方法，还包括异步迭代方法，这一方法以仿真为中心视角，因为仿真是天然异步的。许多这些内容源自从前一版发行以来六年时间里我自己以及合作的研究内容。其中一些重点，按照在文中出现的顺序，如下：

(1) 一般的折扣动态规划问题的计算方法（2.5节和2.6节），包括2.5节中近似涉及的误差界，2.6.2节和2.6.3节中的异步乐观策略迭代方法，以及在博弈与极小极大问题，约束策略迭代和Q-学习中的应用。

(2) 涉及不合适策略随机最短路问题的策略迭代方法（包括异步乐观的版本）（3.4节）。

(3) 在6.3节～6.6 节中的多种基于仿真的近似值迭代和近似策略迭代方法的大量新增内容。

(4) 乐观策略迭代新的可靠的Q-学习算法（2.6.3节和6.6.2节）。

(5) 多步方法的新的仿真技术，比如几何采样和自由形式采样（6.4.1节和7.3.3节）。

(6) 7.3节中蒙特卡罗线性代数的大量新增内容（主要是大规模线性方程的基于仿真和近似解），这部分内容扩展了近似策略评价的动态规划方法。

(1)～(5) 中的许多研究内容基于我与Janey(Huizhen)Yu的工作，而(6)中的大部分研究是基于我与JaneyYu和MengdiWang的工作。我与Janey和Mengdi的合作对本书有重要影响，在此深表感谢。我们的一些工作只以总结形式涉及，并稍作修改以适应本书的体系与目的；自然地，其表述上的不足应由我承担全部责任。请读者参阅我们的合作以及各自的学术论文，那里更全面地描述了我们的研究，包括本书不能涵盖的内容。

我向在近似动态规划的研究中合作的同事一并致谢，他们以不同形式为这本书做出了贡献，特别是VivekBorkar、AngeliaNedic和BenVanRoy。特别感谢JohnTsitsiklis，我与他在动态规划与异步算法上有着逾三十年的交流与合作。我还想感谢来自许多同事的有益的交流，包括VivekFarias、EugeneFeinberg、WarrenPowell、MartinPuterman、UrielRothblum和BrunoScherrer。最后，我想感谢近十年来我动态规划课堂上的诸多学生，他们耐心地使用尚在建设中的教材，并通过涉及广泛应用领域的研究课题贡献了他们的想法和经验。

Dimitri P. Bertsekas

2012 年春

Python语言简介