强化学习的数学原理
"本书将通过数学的视角向读者清晰地呈现强化学习中的基本概念、基本问题和经典算法。其中数学部分的介绍清晰而严谨,丰富的例子能够帮助读者更好的理解相关问题。相信本书能够帮助读者跨过强化学习的门槛,进入到这个有趣而生机勃勃的领域。 "

作者:赵世钰

定价:108元

印次:1-4

ISBN:9787302685678

出版日期:2025.04.01

印刷日期:2025.06.10

图书责编:郭赛

图书分类:教材

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

"本书将从强化学习最基本的概念开始介绍,将介绍基础的分析工具包括贝尔曼公式和贝尔曼**公式,之后会推广到基于模型的和无模型的强化学习算法,最后会推广到基于函数逼近的强化学习方法。本书强调从数学的角度接引入概念、分析问题、分析算法。并不强调算法的编程实现,因为目前已经有很多这方面的书籍,本书将不再重复造轮子。 本书面向对强化学习感兴趣的本科生、研究生、研究人员和企业研究所从业者。 它不需要读者有任何关于强化学习的背景,因为它会从最基本的概念开始介绍。如果读者已经有一些 强化学习的背景,这本书也可以帮助他们更深入地理解一些问题或者带来新的视角。 本书要求读者具备一定的概率论和线性代数知识。本书的附录中包含了一些必需的数学基础知识。"

"赵世钰目前是西湖大学工学院特聘研究员、博士生导师、智能无人系统实验室主任、国家海外高层次人才引进计划(青年项目)获得者。他本硕毕业于北京航空航天大学,博士毕业于新加坡国立大学。他2019年回国加入西湖大学工学院,回国之前在英国谢菲尔德大学自动控制与系统工程系担任讲师和博士生导师,该系是英国**一个专注于自动控制领域的院系。赵世钰在系统与控制领域具有丰富的理论和实践研究经验,他已在控制与机器人领域的国际期刊和会议发表研究论文50余篇。主要代表性研究成果为多机器人协同控制与估计,特别是方位刚性理论及其在网络系统中的应用,相关成果以综述论文的形式发表在IEEE控制系统学会**官方杂志IEEE Control Systems Magazine。他是绝大多数控制和机器人领域的国际**期刊和会议的审稿人。他是多个国际重要会议的编委(包括IEEE IROS, CDC, ACC, ICCA, ICARCV, ICUAS),IEEE控制系统协会编委会委员,并担任ICCA2018的英国区域主席和ICCA2019的程序委员会主席。此外,他是国际期刊Unmanned Systems的编委。赵世钰曾获得领跑者5000——中国精品科技期刊**论文、2014年第33届中国控制会议关肇直奖。"

本书旨在成为一本数学但是友好的教材,能帮助读者“从零开始”实现对强化学习原理的“透彻理解”。本书的特点如下所述。 . 第一,从数学的角度讲故事,让读者不仅了解算法的流程,更能理解为什么一个算法最初设计成这个样子、为什么它能有效地工作等基本问题。 . 第二,数学的深度被控制在恰当的水平,数学内容也以精心设计的方式呈现,从而确保本书的易读性。读者可以根据自己的兴趣选择性地阅读灰色方框中的数学材料。 . 第三,提供了大量例子,能够帮助读者更好地理解概念和算法。特别是本书广泛使用了网格世界的例子,这个例子非常直观,对理解概念和算法非常有帮助。 . 第四,在介绍算法时尽可能将其核心思想与一些不太重要但是可能让算法看起来很复杂的东西分离开来。通过这种方式,读者可以更好地把握算法的核心思想。 . 第五,本书采用了新的内容组织架构,脉络清晰,易于建立宏观理解,内容层层递进,每一章都依赖于前一章且为后续章节奠定基础。 本书适合对强化学习感兴趣的高年级本科生、研究生、科研人员和工程技术人员阅读。由于本书会从最基本的概念开始介绍,因此不要求读者有任何强化学习的背景。当然,如果读者已经有一些强化学习的背景,我相信本书可以帮助大家更深入地理解一些问题或者提供不同的视角。此外,本书要求读者具备一些概率论和线性代数的知识,这些知识在本书附录中已经给出。 自 2019年以来,我一直在教授研究生的强化学习课程,我要感谢课程中的学生对我的教学提出的反馈建议。自 2022年 8月把这本书的草稿在线发布在 GitHub,到目前为止我收到了许多读者的宝贵反馈,在此对这...

目录
荐语
查看详情 查看详情

第 1章基本概念 .............................................................................................. 1 

1.1网格世界例子 ...................................................................................... 2 

1.2状态和动作 ......................................................................................... 2 

1.3状态转移 ............................................................................................. 3 

1.4策略 ................................................................................................... 5 

1.5奖励 ................................................................................................... 7 

1.6轨迹、回报、回合 ............................................. 查看详情

"·从零开始到透彻理解,知其然并知其所以然;
·本书在GitHub收获5000+星;
·课程视频全网播放超过100万;
·国内外读者反馈口碑爆棚;
·教材、视频、课件三位一体。"

查看详情