清华大学出版社--图书详情

+教师申领样书

首页 > 图书 > 图书详情

强化学习与最优控制

美国国家工程院院士，MIT博塞克斯教授**力作的翻译版，以全新的视角，架设人工智能与**控制之间的桥梁！

作者：[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas）著李宇超译

丛书名：信息技术和电气工程学科国际知名教材中译本系列

定价：139元

印次：1-2

ISBN：9787302656449

出版日期：2024.04.01

印刷日期：2024.12.25

图书责编：古雪

图书分类：教材

电子书

在线购买

京东天猫电子书

内容简介

作者简介

前言序言

资源下载

查看详情查看详情查看详情

本书的目的是考虑大型且具有挑战性的多阶段决策问题，这些问题原则上可以通过动态规划和**控制来解决，但它们的精确解决方案在计算上是难以处理的。本书讨论依赖于近似的解决方法，以产生具有足够性能的次优策略。这些方法统称为增强学习，也可以叫做近似动态规划和神经动态规划等。本书的主题产生于**控制和人工智能思想的相互作用。本书的目的之一是探索这两个领域之间的共同边界，并架设一座具有任一领域背景的专业人士都可以访问的桥梁。

李宇超，瑞典皇家理工学院决策与控制专业博士在读。博士期间研究课题为强化学习，**控制，以及相关理论在智能交通领域的应用。他于2015年在哈尔滨工业大学机械制造及其自动化专业获得本科学位，并在1年后从现就读学院的机电一体化专业获得硕士学位。

序言转而投身于现代计算机的怀抱，让我们放弃所有分析工具。（Turning to the succor of modern computing machines, let us renounce all analytic tools.）（理查德·贝尔曼[Bel57]）从目的论的角度来看，任何特定方程组的特定数值解都远不如理解的性质重要。（From a teleological point of view the particular numerical solution of any particular set of equations is of far less importance than the understanding of the nature of the solution.）（理查德·贝尔曼[Bel57]）在本书中，我们考虑大规模且具有挑战性的多阶段决策问题。原则上，该类问题可以通过动态规划（dynamic programming，DP）来求解。但是，对于许多实际问题以该方法进行数值求解是难以实现的。本书探讨的求解方法通过采用相关的近似，能够给出满足性能要求的次优策略。此类方法有几个不同的但本质上等价的名称：强化学习（reinforcement learning）、近似动态规划（approximate dynamic programming）和神经元动态规划（neuro-dynamic programming）。在本书中，我们将使用其最通俗的名称：强化学习。我们所讲的学科从最优控制和人工智能这两个领域的...

暂无课件

暂无样章

暂无网络资源

版权信息

扫描二维码
下载APP了解更多

荐语

查看详情查看详情

第 1 章精确动态规划 1

1.1 确定性动态规划 1

1.1.1 确定性问题. 1

1.1.2 动态规划算法 5

1.1.3 值空间的近似 9

1.2 随机动态规划 10

1.3 例子、变形和简化. 13

1.3.1 确定性最短路径问题 14

1.3.2 确定性离散优化问题 15

1.3.3 含终止状态的问题 18

1.3.4 预报 20

1.3.5 含不可控状态组分的问题 21

1.3.6 不完整的状态信息和置信状态 25

1.3.7 线性二次型最优控制 28

1.3.8 含未知参数的系统——自适应控制 30

1.4 强化学习与最优控制——一些术语 32

1.5 注释和资源 34

第 2 章值空间的近似 36

2.1 强化学习中的近似方法. 36

2.1.1 值空间近似的一般问题 39

2.1.2 离线与在线方法 40

2.1.3 针对前瞻最小化的基于模型的简化 40

2.1.4 无模型的离线 Q 因子近似 41

2.1.5 基于值空间近似的策略空间近似 43

2.1.6 值空间的近似何时有效 44

2.2 多步前瞻. 45

2.2.1 多步前瞻与滚动时域 46

2.2.2 多步前瞻与确定性问题 47

2.3 问题近似. 48

2.3.1 强制解耦 49

2.3.2 随机问题中的近似——确定性等价控制 . 54

2.4 策略前展与策略改进原... 查看详情

"本书通过**控制与动态规划的视角介绍和解读强化学习，对不同领域中给出的类似的重要概念加以梳理澄清，并将许多行之有效的方法置于统一的理论框架中。这有助于读者宏观、全面地理解该学科的经典理论与前沿研究，进而激发相关的研究兴趣。
"

查看详情

同系列产品

查看详情

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

同系列产品