清华大学出版社--图书详情

+教师申领样书

首页 > 图书 > 图书详情

强化学习（微课版）

本书可作为强化学习技术的基础入门教材，提供公式推导过程及算法实现代码。有教学课件、教学大纲、教学计划、教学视频、源代码

作者：袁莎、白朔天、唐杰

丛书名：面向新工科专业建设计算机系列教材

定价：69元

印次：1-5

ISBN：9787302587941

出版日期：2021.10.01

印刷日期：2025.07.11

图书责编：杨帆

图书分类：教材

电子书

在线购买

京东天猫电子书

内容简介

作者简介

前言序言

资源下载

查看详情查看详情查看详情

本书构建了一个完整的强化学习入门路径，深入浅出地介绍了强化学习算法的基本原理和实现方法。本书首先回顾了相关预备知识，包括数学基础和机器学习基础，然后先介绍强化学习的基本概念，给出强化学习的数学框架（马尔可夫决策过程），随后介绍强化学习的求解算法，包括表格求解法（动态规划法、蒙特卡洛法和时序差分法），以及近似求解法（值函数近似法、策略梯度法和深度强化学习）。本书最后一部分为实践与前沿，实践部分基于一个相同的例子实现了强化学习领域的主流基础算法，前沿部分介绍了强化学习领域的** 研究进展。本书配有相当数量的习题供练习，配套代码基于 Python 实现，源代码均已开源，可开放获取。本书可作为理工科本科生、研究生的“强化学习”课程的教材，也可作为相关从业者掌握强化学习的入门参考书。

袁莎，清华大学计算机系博士后，合作导师为唐杰教授，主持一项国家自然科学基金青年基金项目和一项博士后科学基金面上项目。唐杰 IEEE Fellow，清华大学计算机系教授、系副主任，获国家杰出青年科学基金、王选杰青奖。研究人工智能、认知图谱、数据挖掘、社交网络和机器学习。发表论文300余篇，获ACM SIGKDD Test-of-Time Award（十年**论文）。主持研发了超大规模预训练模型“悟道”，参数规模超过1.75万亿。之前还研发了研究者社会网络挖掘系统AMiner，吸引全球220个国家/地区2000多万用户。担任国际期刊IEEE T. on Big Data、AI OPEN主编以及WWW’23大会主席。获国家科技进步二等奖、北京市科技进步一等奖、北京市专利奖一等奖、人工智能学会科技进步一等奖、KDD杰出贡献奖。

前言人工智能的发展经历了三次浪潮，从空中楼阁到象牙之塔，现今走进了万间广厦。近十年，以深度学习为发端的第三次人工智能浪潮带来很多变化，有别于前两次浪潮的大浪淘沙，这次人工智能浪潮正呈席卷之势，引领新一代科学技术的发展，改变着每个领域、每个行业，也普惠着生活在这个时代的每一个人。人工智能技术已经融入越来越多的行业，应用在越来越广的场景之中。人工智能开发的难易程度，也从十年前的高不可攀到如今走进千家万户，未来可期成为多数工程师的必备技能，这背后自然离不开每一位教育工作者的艰苦努力，也离不开每一本技术专著作者的辛勤付出。回看我国高校人工智能专业的发展历史，系统化的学科建设时间还不算长，从完备的学科设置到专业的师资队伍建设，再到相匹配的教材研发还需要进一步加强和完善。在我任教的清华大学，对于新兴学科，师资、教研、教辅等方面与时俱进，但若想更多更广地惠及对人工智能技术感兴趣的大学生群体或相关技术人员，还需要把这门学科的门槛尽快降低。本书的出发点正是秉持这一要旨，将强化学习技术的学习与运用的门槛尽可能地降低。强化学习是机器学习的重要分支，在学习强化学习的过程中会涉及概率、统计、运筹等数理知识。同时，强化学习又是一门实践性非常强的技术，市面上现有的强化学习书籍的学习门槛还相对较高，对初学者不够友好。因此，本书的目标定位是面向所有具有相关计算机和数学基础的大学生、工程技术人员，旨在让本书的读者在强化学习领域从零起步了解并掌握算法，快速应用这些思想、技术和方法。本书通过严谨简明的预备知识介绍，有的放矢地为读者梳理强化学习中涉及的数学知识，然后以强化学习拟解决的问题为着眼点...

课件下载

样章下载

暂无网络资源

版权信息

扫描二维码
下载APP了解更多

荐语

查看详情查看详情

I 概述

第1章导论 3

1.1 强化学习简介 3

1.1.1 两个主要特征 3

1.1.2 与机器学习的关系 4

1.2 强化学习发展史 5

1.2.1 试错学习 6

1.2.2 最优控制 6

1.2.3 时序差分学习 7

1.2.4 深度强化学习 7

1.3 本书的主要内容 8

1.4 本章小结 10

II 预备知识

第2章概率统计与随机过程 13

2.1 概率论 13

2.1.1 集合 13

2.1.2 概率 15

2.1.3 随机试验与随机事件 16

2.1.4 条件概率与独立事件 16

2.1.5 随机变量 18

2.1.6 期望与方差 18

2.1.7 概率分布 19

2.2 统计学基础 23

2.2.1 大数定律 23

2.2.2 中心极限定理 24

2.3 随机过程 27

2.3.1 基本概念 27

2.3.2 分布函数 29

2.3.3 基本类型 29

2.3.4 马尔可夫过程 30

2.3.5 马尔可夫链的状态分类 30

2.3.6 平稳分布 34

2.4 本章小结 36

第3章机器学习 37

3.1 基本概念 37

3.2 线性回归 39

3.3 逻辑回归 41

3.3.1 逻辑回归模型 41

3.3.2 逻辑回归指标 43

3.3.3 逻辑回归算法 46

3... 查看详情

本书是强化学习领域的入门书籍。本书结合大量清晰易懂的实际用用案例，能够帮助读者更好地理解强化学习各个算法的实现原理，降低了强化学习入学门槛。书中架构安排合理，语言表达准确，推理证明齐全。查看详情

同系列产品

查看详情

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

同系列产品