清华大学出版社--图书详情

+教师申领样书

首页 > 图书 > 图书详情

阿尔法零对最优模型预测自适应控制的启示

国际控制与决策领域知名专家学者、美国工程院院士Bertsekas教授2022新作，审视阿尔法零无师自通，通过亿万次自我博弈实现卓越性能背后的数学原理，分析对更广泛的控制与决策问题的应用与借鉴价值。

作者：[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas）著贾庆山李岩译

丛书名：信息技术和电气工程学科国际知名教材中译本系列

定价：69元

印次：1-1

ISBN：9787302660361

出版日期：2024.06.01

印刷日期：2024.05.28

图书责编：古雪

图书分类：教材

电子书

在线购买

京东天猫电子书

内容简介

作者简介

前言序言

资源下载

查看详情查看详情查看详情

大致内容：第一章，从阿尔法零的卓越性能出发，深入解读其背后着实不易的成长历程，揭示其数学模型。第二章，从确定性和随机动态规划问题入手，介绍决策问题的数学模型。第三章，从抽象视角回顾纷繁复杂的强化学习算法，揭示值函数近似与滚动改进的重要作用。第四章，从经典的线性二次型**控制问题入手，分析从阿尔法零的成功中学到的经验。第五章，分别从鲁棒、自适应、模型预测控制等问题入手，分析值函数近似与滚动改进对算法性能的提升潜力。第六章，从离散优化的视角审视阿尔法零的成功经验。第七章，总结全书。适合作为本领域研究者作为学术专著阅读，也适合作为研究生和本科生作为参考书使用。

贾庆山，清华大学长聘教授。主要研究信息物理融合能源系统的优化理论与方法。发表四十篇IEEE汇刊论文。获得2009年国家自然科学奖二等奖、2018年国家自然科学奖二等奖、2020年教育部自然科学奖二等奖，多次获得国际期刊、国际会议**论文奖。担任IEEE Internet of Things Activity Board委员、IEEE控制系统协会Board of Governors委员、IEEE控制系统协会北京分会主席、IEEE机器人与自动化协会智能建筑专业委员会副主席、IFAC智慧城市控制专业委员会主席。曾任IEEE控制系统协会离散事件系统专业委员会主席。担任中国自动化学会第十一届控制理论专业委员会委员兼副秘书长，中国自动化学会第一届工业控制系统信息安全专业委员会委员。

序言用四个参数我可以拟合出一头大象，用五个参数我可以让它摆动身体。①( ——约翰?冯?诺依曼这本学术专著的目的是提出并构建近似动态规划和强化学习的新的理论框架。这一框架以两类算法为中心，这两类算法在很大程度上彼此独立地被设计出来并通过牛顿法的有力机制融洽地合作使用。我们将这两类算法分别称为离线训练算法和在线学习算法；其名称取自一些强化学习取得显著成功的游戏。主要的例子包括近期（2017 年）的阿尔法零程序（AlphaZero 下国际象棋），以及具有类似结构的早期（20 世纪90 年代）的时序差分西洋双陆棋程序（TD-Gammon 下西洋双陆棋）。在这些游戏的背景下，离线训练算法用于教会程序如何评价位置并在任意给定位置产生好的走法，而在线学习算法用于实时与人类或者计算机对战。阿尔法零和时序差分西洋双陆棋程序都在离线时使用神经网络和近似策略迭代进行大量训练（策略迭代是动态规划的基础算法）。然而，离线获得的阿尔法零玩家程序并没有直接用于在线游戏（离线神经网络训练内在的近似误差使这一玩家程序不太准确）。取而代之的是，使用另一个在线玩家程序选择走棋，该程序使用了多步前瞻最小化和终止位置评价器，其中终止位置评价器通过与离线玩家程序的对战经验训练获得。在线玩家程序进行了某种形式的策略改进，并没有受到神经网络近似的影响而导致性能下降。结果，这种在线的策略改进显著提升了原离线玩家程序的性能。类似地，时序差分西洋双陆棋程序使用单步或者双步前瞻最小化进行在线策略改进，其性能并未受到神经网络近似产生负面影响。该程序使用了通过离线神经网络训练获得的终止位置评估器，更重要的是...

暂无课件

样章下载

暂无网络资源

版权信息

扫描二维码
下载APP了解更多

荐语

查看详情查看详情

第 1 章阿尔法零、离线训练和在线学习 1

1.1 离线训练和策略迭代 3

1.2 在线学习与值空间近似——截断滚动 4

1.3 阿尔法零的经验 6

1.4 强化学习的一种新概念框架 8

1.5 注释与参考文献 9

第 2 章确定性和随机的动态规划 13

2.1 无限时段上的最优控制 14

2.2 值空间近似 18

2.3 注释与参考文献 . 21

第 3 章强化学习的抽象视角 22

3.1 贝尔曼算子 23

3.2 值空间近似和牛顿法 28

3.3 稳定域 32

3.4 策略迭代、滚动和牛顿法 36

3.5 在线对弈对于离线训练过程有多敏感？ 41

3.6 何不直接训练策略网络并在使用时摒弃在线对弈呢？ 43

3.7 多智能体问题和多智能体滚动 44

3.8 在线简化策略迭代 47

3.9 例外情形 52

3.10 注释与参考文献 57

第 4 章线性二次型情形——例证 59

4.1 最优解 60

4.2 稳定线性策略的费用函数 61

4.3 值迭代 63

4.4 单步和多步前瞻——牛顿步的解释 64

4.5 灵敏度问题 67

4.6 滚动和策略迭代 . 69

4.7 截断滚动——前瞻长度问题 71

4.8 线性二次型问题中的例外行为 73

4.9 注释与参考文献 . 74

第 5 章自适应和模型预测控制 75

5.1 具有未知参数的系统——鲁棒和 PID 控制 76

5.2 值空间近似、滚动和自适应控制 .... 查看详情

本书的目的是提出并构建近似动态规划和强化学习的理论框架。这一框架以两个算法为中心，这两个算法在很大程度上彼此独立地设计出来并通过牛顿法的有力机制融洽地合作使用。本书是原作者在美国亚利桑那州立大学讲课过程中完成。课程视频和课件可从作者网站下载。查看详情

同系列产品

查看详情

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

同系列产品