清华大学出版社--图书详情

+教师申领样书

首页 > 图书 > 图书详情

强化学习基础、原理与应用

从理论到实践，涵盖机器人控制、游戏、金融投资、自动驾驶等多个应用场景。

作者：张百珂

定价：99元

印次：1-1

ISBN：9787302685913

出版日期：2025.05.01

印刷日期：2025.04.24

图书责编：魏莹

图书分类：零售

电子书

在线购买

京东天猫电子书

内容简介

作者简介

前言序言

资源下载

查看详情查看详情查看详情

"《强化学习基础、原理与应用》循序渐进地讲解了使用Python语言实现强化学习的核心算法开发的知识，内容涵盖了数据处理、算法、大模型等知识，并通过具体实例的实现过程演练了各个知识点的使用方法和使用流程。《强化学习基础、原理与应用》共分为17章，主要内容包括强化学习基础、马尔可夫决策过程、蒙特卡洛方法、Q-learning与贝尔曼方程、时序差分学习和SARSA算法、DQN算法、DDQN算法、竞争DQN算法、REINFORCE算法、Actor-Critic算法、PPO算法、TRPO算法、连续动作空间的强化学习、值分布式算法、基于模型的强化学习、多智能体强化学习实战：Predator-Prey 游戏及自动驾驶系统。本书内容简洁而不失技术深度，以极简的文字介绍了复杂的案例，易于阅读和理解。《强化学习基础、原理与应用》适用于已经了解Python语言基础语法的读者，想进一步学习强化学习、机器学习、深度学习及相关技术的读者，还可作为大专院校相关专业的师生用书和培训机构的教材使用。 "

张百珂，计算机硕士，前百度云研发工程师，在大规模机器学习、深度学习、数据搜索、行业垂直应用、研发管理等领域拥有丰富经验。在企业智能化转型、业务线上化经营，拥有丰富的大规模搜索架构、个性化推荐架构、机器学习系统架构经验和技术团队管理经验。现在从事与城市大数据中心的开发和建设工作，将深度学习运用到数字经济利领域。

前言　　近年来，随着人工智能技术的不断发展，强化学习作为一种重要的机器学习方法，受到了广泛关注并得到大量应用。强化学习借助智能体与环境的交互进行学习，在未知环境和复杂任务面前展现出了强大优势。其应用场景从智能游戏、金融交易，延伸至自动驾驶系统，越来越多样化，且在各领域的成功案例不断出现。　　尽管强化学习的理论基础已相对成熟，但在实际应用中仍面临诸多挑战。从算法的理论设计到具体项目的落地实践，都需要深入理解强化学习的核心原理、常用算法，以及开发技术。所以，一本系统且全面介绍强化学习核心算法开发技术的实践指南就显得极为重要。　　本书将理论与实践相结合，深入解析强化学习的核心原理、经典算法及其在实际项目中的应用。通过深入浅出的讲解，读者将能够掌握强化学习的基本概念、常用算法和开发技术，从而能够更好地应用强化学习技术，解决实际问题。　　本书的特色 1. 全面、系统的学习路线　　本书遵循逻辑严谨的学习路线，从强化学习的基础概念和理论入手，逐步深入介绍马尔可夫决策过程、蒙特卡洛方法、Q-learning(Q 学习)、DQN(Deep Q-Networks，深度Q网络)等经典算法，再到更高级的算法[如Actor-Critic(演员-评论家)算法、PPO(Proximal Policy Optimization，近端策略优化)算法等]，以及模型预测控制、值分布式算法等内容，覆盖了强化学习领域的主要理论和算法。 2. 理论与实践相结合　　本书不但介绍强化学习的理论知识，还通过大量实例和项目案例，把理论知识与实际项目相结合，助力读者深入理解和掌握强化学习技术。 3...

暂无课件

样章下载

暂无网络资源

版权信息

扫描二维码
下载APP了解更多

荐语

查看详情查看详情

第1章强化学习基础 1

1.1 强化学习概述 2

1.1.1 强化学习的背景 2

1.1.2 强化学习的核心特点 3

1.1.3 强化学习与其他机器学习方法的区别 3

1.2 强化学习的应用领域 4

1.2.1 机器人控制与路径规划 4

1.2.2 游戏与虚拟环境 5

1.2.3 金融与投资决策 6

1.2.4 自动驾驶与智能交通 6

1.2.5 自然语言处理 7

1.3 强化学习中的常用概念 8

1.3.1 智能体、环境与交互 8

1.3.2 奖励与回报的概念 9

1.3.3 马尔可夫性质与马尔可夫决策过程 9

1.3.4 策略与价值函数 10

第2章马尔可夫决策过程 11

2.1 马尔可夫决策过程的定义 12

2.1.1 马尔可夫决策过程的核心思想 12

2.1.2 马尔可夫决策过程的形式化定义 12

2.2 马尔可夫决策过程的组成要素 13

2.2.1 状态空间与状态的定义 13

2.2.2 行动空间与行动的定义 14

2.2.3 奖励函数的作用与定义 14

2.2.4 转移概率函数的意义与定义 15

2.2.5 实例分析：构建一个简单的MDP 16

2.3 值函数与策略 18

2.3.1 值函数与策略的定义 18

2.3.2 值函数与策略的用法举例 18

2.4 贝尔曼方程 20

2.4.1 贝尔曼预测方程与策略评估 20

2.4.2 贝尔曼最优性方程与值函数之间的关系 22

2.4.3 贝尔曼最优性方程与策略改进 25 ... 查看详情

《强化学习基础、原理与应用》全面介绍强化学习领域的核心开发技术和项目实践。书中涵盖了强化学习领域的广泛内容，从算法到应用，从理论到实践，涵盖机器人控制、游戏、金融投资、自动驾驶等多个场景，让读者不仅能理解理论，还能将其应用到实际项目中。

查看详情

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持