译者序
强化学习是一种重要的机器学习范式,智能体通过与环境的交互,根据环境给予的奖励信号不断优化其动作策略,从而最大化累积回报。这一范式的兴起,推动了大模型与智能体时代的到来。近年来,基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)成为关键算法之一,它通过优化大模型的奖励模型,将人类的价值观与偏好纳入人工智能系统的学习过程,极大地提升了模型对人类意图的对齐能力。在此基础上,Google Research团队进一步提出了基于人工智能反馈的强化学习(Reinforcement Learning from AI Feedback,RLAIF),这一方法为强化学习提供了新的可扩展途径,不再依赖高昂且耗时的人类标注收集,却依然能够获得与人类反馈相当的性能表现。值得一提的是,在DeepSeek-R1-Zero和DeepSeek-R1模型中,研究者直接应用了强化学习以及群体相对策略优化(Group Relative Policy Optimization,GRPO)等新型算法,显著增强了大模型的推理能力,标志着大模型的发展进入了新的阶段。
1. 为什么向读者推荐本书
在翻译、出版《深度强化学习图解》之后,我被强化学习中蕴含的数学建模思想深深吸引,由此萌生了进一步研读相关著作的念头。一次偶然的契机使我在Warren B. Powell教授团队CASTLE Labs的主页上发现了这本堪称“宝藏”的著作。在深入了解Powell教授的学术经历后,我更为其深厚的学识与卓越的贡献所折服。
Warren B. Powell教授曾任普林斯顿大学教授,是CASTLE Labs和PENSA的创始人。四十余年来,他在强化学习与随机优化领域作出了开创性的贡献。本书正是其长期研究与不断探索的结晶,历经十余年,不断发展与完善。其源头可追溯至2011年出版的Approximate Dynamic Programming: Solving the Curses of Dimensionality与2012年出版的Optimal Learning。这两部著作为动态优化与学习领域的重要成果奠定了基础。
在随后的十余年中,作者不断探索、思考并总结研究成果,提出了以“先建模、后求解”为核心的全新理念,并构建了“序贯决策”的通用框架。书中系统阐述了四类通用策略(PFA、CFA、VFA、DLA)的设计与学习方法,涵盖混合学习与优化、机器学习与序贯决策的桥接、从确定性优化到随机优化、从单智能体到多智能体等广阔主题。近年来,Powell教授还在丰田北美总部的演讲中提出人工智能的七个层级,其中将“序贯决策”定位为第六级人工智能,认为其是支撑大模型(第四级人工智能)推理与智能决策的核心方法。他再次强调了“先建模、后求解”的理念及四类通用策略的价值与实现路径。
本书不仅在内容上具有经典性与权威性,也在方法论与实践路径上为计算随机优化与学习、大模型智能体优化提供了系统而深刻的框架。其所提出的决策与推理建模思想,既是学术探索的指引,也是实践落地的指南。无论是致力于大模型、智能体推理与优化等前沿领域的研究者,还是希望夯实理论、拓展视野的读者,都能从本书中获益良多。强烈推荐!
2. 如何使用本书
本书内容涵盖广泛的理论与数学公式,难度较高,常令读者在面对密集的推导与表达时汗流浃背甚至望而却步。为帮助读者更好地理解并掌握书中的思想,我在此提供学习路径与相关资源,协助读者循序渐进地进入本书的知识体系,并将其有效运用于学业与工作中。
1) 学习方法
(1) 整体把握,建立框架:建议读者首先关注作者提出的建模思想、框架、策略与实现路径,从整体上理解其技术体系与方法论。
(2) 专题研读,结合实践:在总体理解的基础上,选择某一专题深入研究,准确把握公式的理论含义,并通过Python或MATLAB编写代码,将理论与实践紧密结合起来。
(3) 迁移应用,发挥价值:结合自身研究方向或工作实践,将相关的建模思想与理论方法加以运用,力求真正发挥其价值。
2) 学习路线
(1) 通读本书,掌握范式:建议先通读本书,从整体上掌握作者的技术体系和方法论。
(2) 专题拓展,研读资源:针对感兴趣的专题,进一步学习作者提供的在线资源。
(3) 延伸阅读,代码实践:重点推荐阅读作者的两部著作——Sequential Decision Analytics and Modeling与A Modern Approach to Teaching an Introduction to Optimization(扫描下方二维码即可延伸阅读),并结合作者在GitHub发布的源码进行实战操作。
(4) 前沿动态,实时更新:若读者希望及时了解人工智能大模型与强化学习的最新技术进展,可扫描下方二维码,查看我整理的《AI大模型强化学习技术进展》PPT,以获得持续更新的参考资料。
(5) 获取学习资源:本书作者提供了配套的PPT资源以及370个代码示例,扫描下方二维码即可下载。
3. 为什么要翻译本书
读完本书后,我对作者的学术经历、研究成果以及全书的宏阔视野深感震撼。心念至此,既然作者已将自己与团队多年来在该领域积累的心血汇聚成书,我为何不将这一宝贵成果译为中文,使更多读者能够领略其中的思想与方法呢?
“道阻且长,行则将至;行而不辍,未来可期。”这句话正是本书翻译过程的真实写照。三年半的时间里,翻译之路漫长而艰辛。反复重译、不断打磨的过程几近无数;为追求术语的准确性与表达的地道性,不得不多次向业内学者请教。时而在心理压力下濒临崩溃,时而又从作者网站的思想与精神中汲取力量,不断重建信心,最终才得以完成本书的翻译工作。
原著堪称鸿篇巨制,也是迄今为止我翻译过篇幅最长、耗时最久的一部著作。由于书中涉及的强化学习与随机过程的理论体系宏大、术语纷繁,而国内学界对部分概念的译法尚存分歧,为确保本书术语的一致性,我在充分研读相关文献的基础上,参考了以下出版物的译法与表述:北京大学董豪等著的《深度强化学习:基础、研究与应用》、上海交通大学俞勇教授团队编写的《动手学强化学习》、中国科学院计算技术研究所赵地研究员团队翻译的《强化学习》、上海交通大学计算机科学与工程系俞凯教授翻译的《强化学习》(第2版)、刘次华编写的《随机过程》(第5版)、胡奇英等编写的《随机过程》(第2版)、刘澍编写的《随机过程》。此外,谨向清华大学出版社的编辑、校对与排版团队致以诚挚谢意,他们为保证本书的高质量出版付出了大量心血。
本书内容宏富而深刻,而译者水平有限,译文中难免有不足之处,诚恳期待各位读者批评、指正。
致谢
本书主要讲述序贯决策问题的建模框架,涉及搜索4类决策策略。我们之所以需要所有4类策略,是因为我们处理的问题涉及的领域广泛,包括货物运输(几乎所有模式)、能源、卫生、电子商务、金融,甚至材料科学。
关于序贯决策的研究涉及大量的计算工作,离不开CASTLE实验室的许多学生和工作人员的努力。在普林斯顿大学任教的39年生涯中,我与70名研究生和博士后同事以及9名专业人员朝夕相处,受益匪浅。衷心地感谢这群才华横溢的研究者所作的贡献,是他们使我有机会加入这个“通过计算方法解决广泛问题”的挑战。也正是这种问题的多样性激励着我研究解决问题的不同方法。在这个过程中,我遇到了来自“丛林”对面的研究者,通过阅读他们的论文,与他们交谈,甚至帮助他们攻克难题,我学会了他们的语言。
我还要感谢我在指导两百余篇高级论文的过程中所获得的感悟。虽然本科生的研究较为浅显,但他们确实帮助我接触到了更广泛的问题,这些主题涵盖了体育、卫生、城市交通、社交网络、农业、制药,甚至希腊货船优化等领域。2008年,正是这些本科生加快了我进入能源领域的步伐,使我得以尝试建模并解决各种问题,包括微电网、太阳能电池阵列、储能、需求管理和风暴应对等。这段经历使我接触到了新的挑战、新的方法,而最重要的是帮助我接触到了工程和经济的新领域。
鉴于CASTLE实验室的学生和工作人员太多,无法在这里全数列出,我特意在实验室网站中列出了一幅学术谱系图,并在此向名单上的每一个人致以最诚挚的感谢!
特别感谢CASTLE实验室的资助者,其中不乏众多的政府资助机构,如美国国家科学基金会、美国空军科学研究办公室、DARPA、美国能源部(经由哥伦比亚大学和特拉华大学引荐)和劳伦斯利弗莫尔国家实验室(我的首位能源领域的资助者)。特别感谢AFOSR的优化和离散数学项目,该项目为我提供了近30年的持续资助。我要向ODM的项目经理表示感谢,他们是Neal Glassman(帮助我启动了该项目)、Donald Hearn(向我引荐了材料科学项目)、Fariba Fahro(其对这项研究的热情决定了该项研究在AFOSR的生死存亡)和Warren Adams。感谢这些项目经理多年来所发挥的举足轻重的作用,正是他们将学术研究人员和决策者(将研究成果出售给美国国会的人)连接起来。
我想感谢业界赞助商以及助力这项研究的专业人员。CASTLE实验室最鲜明的特点之一是,不仅撰写学术论文和运行计算机模拟,还在实地开展研究。我们会与某家公司合作,找出问题,建立一个模型,然后观察它是否有效,但它通常无效。这才是真正的研究,我曾经在一本名为From the Laboratory to the Field, and Back(《从实验室到现场,再回到实验室》)的小册子中记录了整个过程。正是这个反复的过程让我学会了如何建模和解决实际问题。我们在早期取得过一些成功,随后在解决更困难的问题时又经历了一段失败。但在21世纪初,我们取得了两项惊人的成功:在诺福克南部铁路使用近似动态规划实现了机车优化系统,并为施耐德公司(美国最大的卡车运输公司之一)提供了战略车队模拟器。该软件后来被授权给Optimal Dynamics,由其在卡车装载行业实施该技术。业界赞助商在助力我们的研究时没有得到任何保证,但是他们对我的(有时甚至是错位的)信心在我们的学习过程中发挥了至关重要的作用。
大学(尤其是普林斯顿这样的大学)研究实验室与业界合作,会带来少有人理解的管理方面的挑战。普林斯顿大学的资助官员John Ritter愿意就公司资助研究并获得软件授权的合同进行谈判,才使我能与业界达成合作。正是因为他们使用了软件,我才能了解哪些有效,哪些无效。John十分清楚,大学的首要任务是支持教师及其研究任务,而非提高许可费用。我想我可以自豪地说,我职业生涯中的5000万美元的研究经费给普林斯顿大学带来了不错的回报。
最后,我还要感谢一些专业人员的付出,是他们的努力使这些工业项目变得可能。其中表现最突出的是Hugo Simao,他是我指导的第一个博士生,毕业后在巴西任教,并于1990年回美国帮助创办了CASTLE实验室。Hugo贡献颇多,其中最重要的是其作为许多重大项目的首席开发人员,为实验室的发展奠定基础,尤其是与Yellow Freight System/YRC维持了长达数十年的关系。他也是为施耐德公司开发的获奖模型的首席开发人员,该模型后来被授权给Optimal Dynamics公司;此外,他还带领团队开发了用于模拟PJM电网的大型能源模型SMART-ISO,这已远远超出了研究生的能力范畴。而且从20世纪90年代开始,在工具还较粗糙的时期,Hugo就能把他的天赋应用于开发复杂系统。Hugo还曾在指导学生(研究生和本科生)处理软件项目的过程中发挥了重要作用,那时恰逢20世纪90年代,当许多人从Fortran语言过渡到C语言之时,我退出了编程界。Hugo的天赋、耐心和崇高的职业操守为CASTLE实验室的壮大奠定了良好的基础。后来加入实验室与Hugo并肩作战的还有Belgacem Bouzaiene Ayari,他在实验室工作了近20年,是诺福克南部铁路获奖项目的首席开发人员,作出过许多贡献。与业界赞助人合作所带来的价值无法用言语衡量,但可以肯定的是,如果没有像Hugo和Belgacem这样的天才研究人员,这项研究是万万不可能实现的。
Warren B. Powell
前言
本书浓缩了我毕生对序贯决策问题的研究,这可以追溯到1982年,当时我初次接触卡车(如优步/来福的卡车)装载运输中出现的问题,考虑到未来客户需求的高度随机性,包括运输整车货物的请求,我们必须权衡分配哪个司机来运输货物,以及哪些货物需要被运走。
我花了20年的时间才找到解决这个问题的实用算法,由此才出版了我的第一本关于近似动态规划的书(2007),其主要突破是引入了决策后状态,并使用分层聚合来近似价值函数以解决这些高维问题。然而,我现在想说的是(当时我已意识到了这一点),书中最重要的第5章仅仅提及了如何针对这些问题建模,而并没有提及解决问题的算法。当时,我确定了序贯决策问题的5个要素,从而得出了如下的目标函数:
直到该书第2版发行(2011),我才意识到近似动态规划(具体来说是基于价值函数的策略)不是解决这些问题的唯一方法;相反,4类策略中只有一类使用价值函数。该书的2011年版列出了本书中描述的4类策略中的3类,但该书的大部分内容仍然侧重于近似价值函数。在2014年的论文Clearing the Jungle of Stochastic Optimization(《扫除随机优化“丛林”之障碍》)中,我才首次确定了现在使用的4类策略。之后,在2016年,我意识到这4类策略可以分成两种主要策略:策略搜索策略——搜索一系列函数以找到最有效的那个;前瞻策略——通过近似当前决策的下游影响来做出好的决策。
最后,我在2019年发表于European Journal for Operational Research(《欧洲运筹学杂志》)的一篇论文A Unified Framework for Random Optimization(《随机优化的统一框架》)中整合了这些想法,并且更充分地理解了以下主要问题:状态无关问题(包括基于导数的随机搜索和无导数随机搜索的纯学习问题)和更一般的状态相关问题;累积回报和最终回报目标函数;“任何自适应搜索算法都是一个序贯决策问题”。2019年论文中的材料实际上是本书的提纲。
本书以我2011年出版的聚焦于近似动态规划的书为基础,收录了上一本书的很多章节(部分章节改动巨大),因此也可以称本书为“第3版”。不过,两个版本的框架完全不同。“近似动态规划”(approximate dynamic programming,ADP)这一术语仍然用于指代基于“近似处于某状态的下游价值”的理念来做决策。经过对此方法(其在本书中所占篇幅长达5章)的几十年的研究,我现在可以满怀信心地说,尽管价值函数近似(value function approximation)备受关注,但仅能处理极少的决策问题。
相反,我终于可以肯定:这4类策略具有普适性。这意味着任何决策方法都归属于这4类中的一类,或者算是两类或更多类的混合体。这将重点从算法(决策方法)转移到模型(特别是上述优化问题,以及状态转移函数和外生信息过程模型)上。这意味着,在设计决策策略之前,要先列出问题的要素。我称之为:
先建模,后求解。
研究序贯决策问题的各领域非常关注方法,我以前研究近似动态规划时也是如此。问题是,任何特定的方法本质上都局限于一类问题。在本书中,我演示了如何处理一个简单的库存问题,然后调整数据,以使4类策略中的每一类都能最有效地发挥作用。
这开辟了一种全新的方法来处理问题类。因此,在撰写本书的最后一年,我开始称之为“序贯决策分析”(sequential decision analytics),其可以是由以下序列组成的任何问题:
决策、信息、决策、信息……
决策包括二元选择(出售资产)、离散选择(在计算机科学中备受青睐),乃至运筹学中流行的高维资源分配问题。这种方法从一个问题开始,转移到建模不确定性这一挑战性任务,最后设计策略以做出优化某些指标的决策。该方法实用、可扩展且应用广泛。
能够创建一个跨越15个不同领域的通用框架,并使其代表解决序贯决策问题的所有可能方法,这无疑是令人兴奋的。有一种通用语言来模拟任何序贯决策问题,并结合4类策略的一般方法,这显然是有价值的,但这个框架是基于前人的成果而开发的。我不得不选择最优的符号和建模约定,但我的框架包含了为解决这些问题而开发的所有方法。我曾经与大量研究人员一样,只推广特定的算法策略。但我如今的目标是提升所有方法的知名度,从而使试图解决实际问题的人能够尽可能地使用最全的工具箱,而不是局限于某个特定领域开发的工具。
本书书名中的“强化学习”(reinforcement learning,RL)一词必须拿出来单独地讲一讲。在本书的撰写期间,人们对“强化学习”产生了极大的兴趣,它最初是以近似动态规划的形式出现的(我曾将ADP和RL喻为美式英语和英式英语)。然而,随着RL领域不断发展并开始致力于解决更棘手的问题,该领域人员与我和其他ADP研究人员得出了相同的结论:价值函数近似不是万能的——通常无法发挥作用。因此,RL领域开始尝试其他方法(正如我所做的那样),如“策略梯度法”(英文为policy gradient method,我称之为策略函数近似)、上置信区间(英文为upper confidence bounding,成本函数近似的一种形式)、Q学习(英文为Q-learning,基于价值函数近似生成策略),以及蒙特卡洛树搜索(英文为Monte Carlo tree search,基于直接前瞻近似的策略)。所有这些方法都可以在Sutton和Barto的里程碑式代表作Reinforcement Learning: An introduction(《强化学习:导论》)的第2版中找到,但仅作为特定方法,而非一般的类。相较之下,本书更深入,并确定了一般类。
这种从一种核心方法到所有4类策略的演变正在“随机优化丛林”的其他领域中重复进行。随机搜索、模拟优化和老虎机问题的所有方法都来自这4类策略。随着时间的推移,我越来越清楚地意识到所有这些领域(包括强化学习)都在追随前人的研究,即最优控制(和随机控制)。最优控制领域率先引入并认真探索了价值函数近似(他们称之为代价函数,英文为cost-to-go function)、线性决策规则(策略函数近似的一种形式)和主力“模型预测控制”(简单的滚动时域法的“大名”,本书称之为“直接前瞻近似”)。我还发现,我的建模框架与最优控制相关文献中使用的框架最为接近,相较于其他大多数领域对转移函数概念的视而不见,最优控制是第一个引入这一功能强大的建模方法的领域。我做了一些小调整,例如使用状态St而非xt;使用决策xt(其广泛用于数学规划领域)而非ut。
随后,我又引入了一个大的变化,以充分利用所有的4类策略。也许本书最重要的创新是打破了优化策略之间近乎自动的联系,然后假设将根据贝尔曼(Bellman)方程或哈密顿-雅可比(Hamilton-Jacobi)方程来计算最优策略。这些方程几乎不可用于计算实际问题,于是人们认为下一步自然是近似这些方程。然而,几十年的研究证明了这一点是错误的,人们已经开发出了不依赖于HJB方程的方法。我意识到,本研究的主体是通过将所有4类策略原理写入上述优化问题的原始语句来开发不同的策略。
不同领域的人需要花费一些时间学习这种通用语言。更有可能的是,现有的建模语言将适应这个框架。例如,最优控制领域可以保留该领域的符号,但要学会像前面展示的那样编写其目标函数,并意识到对策略的搜索需要跨越所有4个类(需要指出的是,该领域已经在使用了)。我希望采用离散动作符号a的强化学习领域能学会使用更通用的x(就像老虎机问题领域目前所做的那样)。
本书旨在吸引该领域的新手,以及具有处理决策和不确定性的一个或多个子领域背景知识的人;在撰写本书时,我意识到满足这两个广泛的群体无疑是最大的挑战。本书篇幅很长。我通过在许多章节中标记*来标明首次阅读时可以跳过的章节,从而方便新手阅读。我还希望本书能够获得各应用领域研究者的青睐。然而,本书主要面向意图通过建模应用程序并在软件中加以实现来解决实际问题的人。设计符号是为了便于编写计算机程序,其中数学模型和软件之间应该有直接的关系。在对信息流进行建模时,这一点尤为重要;不过,在主流强化学习相关论文中,这一点经常被忽视。
Warren B. Powell
新泽西州普林斯顿
2021年8月
