清华大学出版社--图书详情

+教师申领样书

首页 > 图书 > 图书详情

深度强化学习——原理、算法与PyTorch实战（微课视频版）

提供课件、大纲、源文件、微课视频等，咨询QQ：2301891038（仅限教师）。本书围绕着MDP模型，以实例为导向，深度浅出地讲解动态规划、蒙特卡罗、动态规划等有穷表格式强化学习方法。

作者：刘全、黄志刚

丛书名：大数据与人工智能技术丛书

定价：59.8元

印次：1-4

ISBN：9787302578208

出版日期：2021.08.01

印刷日期：2024.07.15

图书责编：温明洁

图书分类：教材

电子书

在线购买

京东天猫电子书

内容简介

作者简介

前言序言

资源下载

查看详情查看详情查看详情

本书基于PyTorch框架，用通俗易懂的语言深入浅出地介绍了强化学习的基本原理，包括传统的强化学习基本方法和目前流行的深度强化学习方法。在对强化学习任务建模的基础上，首先介绍动态规划法、蒙特卡洛法、时序差分法等表格式强化学习方法，然后介绍在PyTorch框架下，DQN、DDPG、A3C等基于深度神经网络的大规模强化学习方法。全书以一个扫地机器人任务贯穿始终，并给出具有代表性的实例，增加对每个算法的理解。全书配有PPT和视频讲解，对相关算法和实例配有代码程序。全书共分三部分：第一和第二部分（第1～8章）为表格式强化学习部分，着重介绍深度强化学习概述、环境的配置、数学建模、动态规划法、蒙特卡洛法、时序差分法、n步时序差分法、规划和蒙特卡洛树搜索；第三部分（第9～14章）为深度强化学习部分，着重介绍深度学习、PyTorch与神经网络、深度Q网络、策略梯度、基于确定性策略梯度的深度强化学习、AC框架的拓展。全书提供了大量的应用实例，每章章末均附有习题。本书既适合作为高等院校计算机、软件工程、电子工程等相关专业高年级本科生、研究生的教材，又可为人工智能、机器学习等领域从事项目开发、科学研究的人员提供参考。

前言近年来，强化学习和深度学习相结合形成的深度强化学习方法已经是人工智能领域中新的研究热点。在许多需要智能体（Agent）同时具备感知和决策能力的场景中，深度强化学习方法具备了与人类相媲美的智能。其中深度学习（Deep Learning，DL）和强化学习（Reinforcement Learning，RL）是机器学习领域中最重要的两个研究方向。深度学习方法侧重于对事物的感知与表达，其基本思想是面向高维数据，通过多层的网络结构和非线性变换，组合低层特征，形成抽象的、易于区分的高层表示，以发现数据的分布式特征表示。深度学习已经在图像识别与理解、智能语音、机器翻译等领域取得了非凡的成果。强化学习与基于监督训练的深度学习不同，更加侧重于学习解决问题的策略，其基本思想是智能体通过试错的机制与环境进行不断地交互，从而最大化智能体从环境中获得的累计奖赏值。强化学习已经广泛应用于游戏博弈、机器人操控、参数优化等领域。传统的强化学习算法主要针对输入状态规模较小的决策问题，这种小规模强化学习算法可通过表格式的存储方式来评价每个状态或者状态动作对的好坏。然而当状态或动作空间维度很高时（例如图片或视频数据），传统的强化学习方法会因缺乏感知和泛化高维输入数据的能力而导致算法性能急剧下降。随着人类社会的飞速发展，未来的人工智能系统不仅需要具备很强的感知与表达能力，而且需要拥有一定的决策能力。因此，人们将具有感知能力的深度学习和具有决策能力的强化学习相结合，形成直接从输入原始数据到输出动作控制的完整智能系统，这就是深度强化学习（Deep Reinforcement Learning，DRL）...

课件下载

样章下载

暂无网络资源

版权信息

扫描二维码
下载APP了解更多

荐语

查看详情查看详情

随书资源

第一部分：预备知识及环境安装

第1章深度强化学习概述

1.1引言

1.2深度学习

1.3强化学习

1.4深度强化学习

1.5小结

1.6习题

第2章环境的配置

2.1PyTorch简介

2.2PyTorch和TensorFlow

2.3强化学习的开发环境

2.3.1Anaconda环境搭建

2.3.2Anaconda环境管理

2.3.3PyTorch的安装

2.3.4Jupyter Notebook的安装

2.3.5Jupyter Notebook的使用

2.3.6Gym的安装

2.3.7Gym案例

2.4小结

2.5习题

第二部分：表格式强化学习

第3章数学建模

3.1马尔可夫决策过程

3.2基于模型与无模型

3.3求解强化学习任务

3.3.1策略

3.3.2奖赏与回报

3.3.3值函数与贝尔曼方程

3.3.4最优策略与最优值函数

3.4探索与利用

3.5小结

3.6习题

第4章动态规划法

4.1策略迭代

4.1.1策略评估

4.1.2策略迭代

4.2值迭代

4.3广义策略迭代

4.4小结

4.5习题

第5章蒙特卡洛法

5.1蒙特卡洛法的基本概念

5.1.1MC的核心要素

5.1.2MC的特点

5.2蒙特卡洛预测

5.3蒙特卡洛评估

5.4蒙特卡洛控制... 查看详情

强化学习是目前机器学习领域最热门的方向之一，本书经多年的实践教学经验的积累，形成了一套完整的教学体系。并结合流行的深度学习框架PyTorch，该书在理论和应用上都是较先进的。本书理论结合实践，深入浅出地讲解相关算法和实例。查看详情

同系列产品

查看详情

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

同系列产品