


作者:[美] 沃伦·B. 鲍威尔(Warren B. Powell)著 郭涛 译
定价:256元
印次:1-1
ISBN:9787302697145
出版日期:2025.09.01
印刷日期:2025.09.10
图书责编:王军
图书分类:零售
"由“决策、信息、决策、信息”组成的序贯决策问题无处不在,几乎涵盖了人类的所有活动,包括商业应用、卫生(个人健康、公共卫生和医疗决策)、能源、科学、各工程领域、金融和电子商务等。应用的多样性吸引了至少15个不同研究领域的关注,使用了8种不同的符号系统,产生了大量的分析工具。而其弊端是,由某一领域开发的强大工具可能不为其他领域所知。 本书提供了一个可以借助5个核心组件(状态变量、决策变量、外部信息变量、转移函数和目标函数)对任何序贯决策问题进行建模的通用框架;强调了可能影响任何模型的12种不确定性,并将做决策的各种方法(称为策略)归纳为4个基本类别,涵盖学术文献中提出的或实践中使用的所有方法。 本书是一本探讨如何对不同方法进行均衡处理,以便建模和解决序贯决策问题的开创性图书,承袭了大多数聚焦机器学习、优化和模拟的书籍的风格。本书专为具有概率和统计背景知识并对建模和应用程序感兴趣的读者而设计。线性规划有时用于特定的问题类型。本书专为刚接触这一领域的读者以及对不确定优化有一定了解的读者而著。 本书提及了100多种不同应用,包括纯学习问题、动态资源分配问题、一般状态相关问题和混合学习/资源分配问题(如COVID-19全球流行期间出现的问题)。全书共有370个练习,分为7组,包括复习问题、建模问题、计算练习、求解问题、理论问题、编程练习和读者在本书伊始选择的“每日一问”,且“每日一问”为本书其余问题的基础。"
沃伦·B. 鲍威尔博士是普林斯顿大学(Princeton University)运筹学与金融工程荣誉退休教授,在该校任教39年。他是CASTLE实验室的创始人兼主任,该实验室作为一个研究单位,与行业伙伴合作,检验运筹学研究中发现的新想法。他指导过70名研究生和博士后,与他们合著了250多篇论文。他目前是Optimal Dynamics的首席分析官,Optimal Dynamics是一家实验室分支机构,负责将他的研究结果引入行业内。
译者序 强化学习是一种重要的机器学习范式,智能体通过与环境的交互,根据环境给予的奖励信号不断优化其动作策略,从而最大化累积回报。这一范式的兴起,推动了大模型与智能体时代的到来。近年来,基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)成为关键算法之一,它通过优化大模型的奖励模型,将人类的价值观与偏好纳入人工智能系统的学习过程,极大地提升了模型对人类意图的对齐能力。在此基础上,Google Research团队进一步提出了基于人工智能反馈的强化学习(Reinforcement Learning from AI Feedback,RLAIF),这一方法为强化学习提供了新的可扩展途径,不再依赖高昂且耗时的人类标注收集,却依然能够获得与人类反馈相当的性能表现。值得一提的是,在DeepSeek-R1-Zero和DeepSeek-R1模型中,研究者直接应用了强化学习以及群体相对策略优化(Group Relative Policy Optimization,GRPO)等新型算法,显著增强了大模型的推理能力,标志着大模型的发展进入了新的阶段。 1. 为什么向读者推荐本书 在翻译、出版《深度强化学习图解》之后,我被强化学习中蕴含的数学建模思想深深吸引,由此萌生了进一步研读相关著作的念头。一次偶然的契机使我在Warren B. Powell教授团队CASTLE Labs的主页上发现了这本堪称“宝藏”的著作。在深入了解Powell教授的学术经历后,我更为其深厚的学识与卓越的贡献所折服。 Warren B. Powell...
第Ⅰ部分 导 论
第1章 序贯决策问题 3
1.1 目标读者 6
1.2 序贯决策问题领域 6
1.3 通用建模框架 8
1.4 序贯决策问题的策略设计 11
1.4.1 策略搜索 12
1.4.2 基于前瞻近似的策略 13
1.4.3 混合和匹配 14
1.4.4 4类的最优性 14
1.4.5 概述 14
1.5 学习 15
1.6 主题 16
1.6.1 混合学习和优化 16
1.6.2 将机器学习桥接到序贯决策 16
1.6.3 从确定性优化到随机优化 17
1.6.4 从单个智能体到多个智能体 19
1.7 建模方法 20
1.8 如何阅读本书 21
1.8.1 主题编排 21
1.8.2 如何阅读每一章 23
1.8.3 练习分类 24
1.9 参考文献注释 25
练习 25
参考文献 28
第2章 典型问题及其应用 29
2.1 典型问题 29
2.1.1 随机搜索——基于导数和无导数 30
2.1.2 决策树 32
2.1.3 马尔可夫决策过程 33
2.1.4 最优控制 35
2.1.5 近似动态规划 37
2.1.6 强化学习 37
2.1.7 最优停止 39
2.1.8 随机规划 41
2.1.9 多臂老虎机问题 42
2.1.10 模拟优化 44
2.1.11 主动学习 44
2.1.12 机会约束规划 45
2.1.13 模型预测控制 45
2.1.14 鲁棒优化 46
2.2 序贯决策问题的通用建模框架 47
2.2.1 序贯决策问题的通用模型 47
... 查看详情
"如何使用本书
本书内容涵盖广泛的理论与数学公式,难度较高,常令读者在面对密集的推导与表达时
汗流浃背甚至望而却步。为帮助读者更好地理解并掌握书中的思想,我在此提供学习路径与相关资源,协助读者循序渐进地进入本书的知识体系,并将其有效运用于学业与工作中。
1)学习方法
(1)整体把握,建立框架:建议读者首先关注作者提出的建模思想、框架、策略与实现路径,从整体上理解其技术体系与方法论。
(2)专题研读,结合实践:在总体理解的基础上,选择某一专题深入研究,准确把握公式的理论含义,并通过Python或MATLAB编写代码,将理论与实践紧密结合起来。
(3)迁移应用,发挥价值:结合自身研究方向或工作实践,将相关的建模思想与理论方法加以运用,力求真正发挥其价值。
2)学习路线
(1)通读本书,掌握范式:建议先通读本书,从整体上掌握作者的技术体系和方法论。
(2)专题拓展,研读资源:针对感兴趣的专题,进一步学习作者提供的在线资源。
(3)延伸阅读,代码实践:重点推荐阅读作者的两部著作--Sequential Decision Analytics and Modeling与A Modern Approach to Teaching an Introduction to Optimization(扫描译者序中二维码即可延伸阅读),并结合作者在GitHub发布的源码进行实战操作。
(4)前沿动态,实时更新:若读者希望及时了解人工智能大模型与强化学习的**技术进展,可扫描译者序中二维码,查看我整理的《AI大模型强化学习技术进展》PPT,以获得持续更新的参考资料。
(5)获取学习资源:本书作者提供了配套的PPT资源以及370个代码示例,扫描译者序中二维码即可下载。"

