强化学习——从原理到实践
"对强化学习算法进行综合性讲解,包括算法的设计思路和实现过程 助力读者快速掌握强化学习算法的设计原理,研发自己的强化学习算法 "

作者:李福林

丛书名:跟我一起学人工智能

定价:69元

印次:1-1

ISBN:9787302682417

出版日期:2025.03.01

印刷日期:2025.02.28

图书责编:赵佳霓

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

"本书是对强化学习算法的综合性讲解书籍,内容包括主要的强化学习算法的实现思路讲解,以及主要的优化方法的原理讲解。本书介绍的每个算法都分为原理讲解和代码实现两部分,代码实现是为了通过实验验证原理部分的可行性。通过本书的学习,读者可以快速地了解强化学习算法的设计原理,掌握强化学习算法的实现过程,并能研发属于自己的强化学习算法,了解各个算法的优缺点,以及各个算法适用的场景。 本书共18章,分为强化学习基础篇(第1章和第2章)介绍了强化学习中的基本概念。强化学习基础算法篇(第3~6章)介绍了QLearning算法、SARSA算法、DQN算法、Reniforce算法。强化学习高级算法篇(第7~12章)介绍了AC演员评委算法、A2C优势演员评委算法、PPO近端策略优化算法、DDPG深度确定性策略梯度算法、TD3双延迟深度确定性策略梯度算法、SAC柔性演员评委算法、模仿学习算法。多智能体篇(第13章和第14章),介绍了在一个系统中存在多智能体时,各个智能体之间的合作、对抗等关系,以及各个智能体之间的通信策略。扩展算法篇(第15~17章)介绍了CQL离线学习算法、MPC环境学习算法、HER目标导向算法。SB3强化学习框架篇(第18章),介绍了强化学习框架SB3的使用方法。 本书将使用最简单浅显的语言,带领读者快速地了解各个主要的强化学习算法的设计思路,以及实现过程。通过本书各个章节的学习,读者可以掌握主流的强化学习算法的原理和实现方法,能够让读者知其然也知其所以然,做到融会贯通。 "

"李福林,一个在IT领域摸爬滚打十多年的老程序员、培训师,精通多种IT技术。分享了多部AI技术教程,受到了读者的广泛赞誉。现任职于阳狮集团,担任算法工程师。教学风格追求化繁为简,务实而不空谈,课程设计思路清晰,课程演绎说理透彻,对AI领域技术有自己独到的见解。"

前言 笔者自从学习人工智能相关的技术以来,一直觉得强化学习相关的资料相对偏少,无论是实体的书籍,还是网络上的各种文章,普遍存在重复量大,解释咬文嚼字,充斥着抽象的数学公式,很多时候对于一个算法的设计思路只是简单地列出几条公式就算强行解释过了,虽然在理解了这些算法之后,也能理解作者为什么会做出这样的解释,因为确实有些算法的设计思路是很抽象的。还有的算法纯粹是从数学层面推导出来的,单纯看最后的实现过程是完全没有任何道理的,只有理解了它背后的数学推导过程,才能理解为什么它是那样的一个实现过程,所以在某种程度上也能理解作者为什么要那样古板地解释算法的设计思路。 不过笔者还是希望尽自己所能,从更加感性、更加形象化的角度去解释各个强化学习算法的设计思路。笔者一直认为,万事开头难,学习数据库最困难的部分,可能就是成功地安装一个数据库。如果初期能顺利地入门,后期再去慢慢摸索算法中的各个细节,则可能会更容易一些。 出于以上原因,笔者想要尽自己所能,以自己对强化学习各个算法的理解,尽量简单明了地向读者介绍各个算法的设计思路,以帮助读者能够进入强化学习这座大厦的大门,未来读者可以自己在这座大厦里开启自己的冒险,乃至为这座大厦添砖加瓦。 前面谈到强化学习方面的理论往往解释得很生硬,其实相比原理解释上的问题,还有代码实现的质量也比较差,也许人工智能领域的工程师更偏向数学理论,在代码实现上普遍质量不高。代码里经常可以见到无意义的函数封装、冗余的代码块、无意义的判断、永远只循环一次的循环体等问题,让原本就复杂的程序更加难以读懂。 本书配套的代码都是笔者亲手编写的,全套代码...

暂无课件

样章下载

暂无网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情

本书源码

附赠资源

基础篇

第1章强化学习概述

1.1强化学习的定义

1.2玩耍和学习

1.3对比传统方法

1.4基于表格的直观示例

1.5一般的学习过程

1.6小结

第2章Q函数和时序差分

2.1一个直观的例子

2.2数学描述

2.3精确计算Q函数是困难的

2.4寻求Q函数

2.5小结

基础算法篇

第3章基于表格的强化学习方法

3.1代码运行环境说明

3.2游戏环境

3.2.1Gym包介绍

3.2.2定义游戏环境

3.2.3游戏环境操作方法介绍

3.3定义Q表

3.4强化学习的一般过程

3.4.1数据池的必要性

3.4.2异策略和同策略

3.5定义play函数和数据池

3.5.1定义play函数

3.5.2定义数据池

3.6使用时序差分方法更新Q表

3.7QLearning算法

3.8SARSA算法

3.9实现无数据池的SARSA算法

3.10小结

第4章DQN算法

4.1DQN算法介绍

4.2平衡车游戏环境

4.3定义神经网络模型

4.4数据部分的修改

4.4.1play函数的修改

4.4.2数据池的修改

4.5实现DQN算法

4.6双模型

4.7加权的数据池

4.8Double DQN

4.9Dueling DQN

4.10Noise DQN

4.11小结

第5章策略梯度...

"内容全面:本书是一本对强化学习算法的综合性讲解书籍,既有理论基础,也有代码实现,并包括设计原理的讲解。
语言简洁:本书尽量以简洁的语言书写,每个章节之间的内容尽量独立,使读者可以跳跃阅读而没有障碍。
代码清晰:本书的代码也尽量以简洁的形式书写。每个代码块都是一个单元测试,读者可以按照每个代码块从上到下的顺序执行测试,从一个个小知识点聚沙成塔,融会贯通。
"