动态规划与最优控制——近似动态规划
本书系统性介绍动态规划,特别是近似动态规划,包括折扣问题的理论与计算方法、随机最短路问题、无折扣问题、平均费用问题、折扣与无折扣问题的近似动态规划等。

作者:[美]德梅萃 P. 博塞克斯(Dimitri P. Bertsekas)著 贾庆山 译

丛书名:信息技术和电气工程学科国际知名教材中译本系列

定价:129元

印次:1-4

ISBN:9787302561460

出版日期:2021.02.01

印刷日期:2024.10.29

图书责编:崔彤

图书分类:教材

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

本书系统性介绍动态规划,特别是近似动态规划,包括折扣问题的理论与计算方法、随机最短路问题、无折扣问题、平均费用问题、折扣与无折扣问题的近似动态规划等。

贾庆山,清华大学自动化系副教授,2002年和2006年分别于清华大学自动化系获工学学士、博士学位,同年留校任教。2006、2010、2013年分别任美国哈佛大学、香港科技大学、美国麻省理工学院访问学者。作为负责人先后承担国家自然科学基金青年基金、面上项目、优秀青年基金,参加国家自然科学基金重点项目、重大研究计划培育项目和集成项目。承担多个国际合作项目。任IEEE Transactions on Automation Science and Engineering、Discrete Event Dynamic Systems - Theory and Applications等国际期刊副编辑,IIE Transactions领域编辑。发表国际期刊论文和国际会议论文逾八十篇,合著英文专著一部,合编英文专著一部,合译教材一本。

序言 这是第II卷的一次重要修订,增加了大量新内容,并对原有内容进行了重新组织。与第三版相比,篇幅增加了逾60%,大部分原有内容被重新组织并/或修订。第II卷现在超过700页,在篇幅上超过了第I卷。这几乎可以被视为一本新书! 近似动态规划已成为第II卷的核心内容,占据全书超过一半的内容(最后两章的全部以及第1~3章的大部分内容)。所以,第II卷可被视作我1996年的《神经元动态规划》一书(与JohnTsitsiklis合著)的续作。现在这本书着重关注1996年之后新的研究成果。另一方面,本书保留了作为教科书的体系,一些内容以形象的甚至是不严格的程度来解释,并引用期刊论文或《神经元动态规划》一书参考更数学化的处理。 在扩展与重新组织的过程中,本书的结构变得更加模块化,更适合课堂教学的使用。可在一学期约三分之一至一半时间内讲完的核心内容,包括第1章(除了1.3节、1.4节与特定应用对应的内容),第2章和第6章合在一起自成体系。这些内容集中在折扣问题,可通过第3章和7.1节的随机最短路问题的内容进行补充。实际上,这构成了我在麻省理工学院的课堂上讲授的内容的一半(剩下的一半来自第I卷,包括那一卷的第6章,讨论有限阶段近似动态规划问题)。在第5章、7.2节、7.4节中的平均费用问题的内容,正和负动态规划模型的高级内容(7.3节)是最后的内容,可由教师根据实际情况选用。 因为本书的重点发生了转移,我将更多的重心放在新近的研究成果上,包括近似动态规划和基于仿真的方法,还包括异步迭代方法,这一方法以仿真为中心视角,因为仿真是天然异步的。许多这些内容源自从前一版发行以来六年时间里我自己以...

暂无课件

样章下载

暂无网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情
目录

第1章  折扣问题——理论 1

1.1  总费用最小化——介绍 1

1.1.1  有限阶段动态规划算法 3

1.1.2  符号简写与单调性 4

1.1.3  无穷阶段结果的预览 6

1.1.4  随机的和依赖历史的策略 7

1.2  折扣问题——各阶段费用有界 9

1.3  调度与多柄老虎机问题 15

1.3.1  项目的指标 16

1.3.2  项目逐个退出策略 17

1.4  折扣连续时间问题 23

1.5  压缩映射的作用 32

1.5.1  极大模压缩 33

1.5.2  折扣问题——单阶段费用无界 38

1.6  折扣动态规划的一般形式 40

1.6.1  压缩与单调性的基本结论 44

1.6.2  折扣动态博弈 49

1.7  注释、参考文献及习题 50

习题 51

第2章  折扣问题——计算方法 57

2.1  马尔可夫决策问题 57

2.2  值迭代 59

2.2.1  值迭代的单调误差界 59

2.2.2  值迭代的变形 65

2.2.3  Q-学习 67

2.3  策略迭代 69

2.3.1  针对费用的策略迭代 69

2.3.2  Q-因子的策略迭代 72

2.3.3  乐观策略迭代 73

2.3.4  有限前瞻策略和滚动 75

2.4  线性规划方法 79

2.5  一般折扣问题的方法 81

2.5.1  采用近似的有限前瞻策略 83

2.5.2  推广的值迭代 85

2.5.3  近似值迭代 86

2.5.4  推广的策略迭代 87

2.5.5  推广的乐观策略迭代 90 ...

本书系统性介绍动态规划,特别是近似动态规划,包括折扣问题的理论与计算方法、随机最短路问题、无折扣问题、平均费用问题、折扣与无折扣问题的近似动态规划等。