首页 > 图书中心 >图书详情

深度强化学习

提供课件、大纲、源文件、微课视频等,咨询QQ:2301891038(仅限教师)。本书围绕着MDP模型,以实例为导向,深度浅出地讲解动态规划、蒙特卡罗、动态规划等有穷表格式强化学习方法。

作者:刘全、黄志刚
定价:59.80
印次:1-3
ISBN:9787302578208
出版日期:2021.08.01
印刷日期:2023.11.15

本书基于PyTorch框架,用通俗易懂的语言深入浅出地介绍了强化学习的基本原理,包括传统的强化学习基本方法和目前流行的深度强化学习方法。在对强化学习任务建模的基础上,首先介绍动态规划法、蒙特卡洛法、时序差分法等表格式强化学习方法,然后介绍在PyTorch框架下,DQN、DDPG、A3C等基于深度神经网络的大规模强化学习方法。全书以一个扫地机器人任务贯穿始终,并给出具有代表性的实例,增加对每个算法的理解。全书配有PPT和视频讲解,对相关算法和实例配有代码程序。 全书共分三部分: 第一和第二部分(第1~8章)为表格式强化学习部分,着重介绍深度强化学习概述、环境的配置、数学建模、动态规划法、蒙特卡洛法、时序差分法、n步时序差分法、规划和蒙特卡洛树搜索; 第三部分(第9~14章)为深度强化学习部分,着重介绍深度学习、PyTorch与神经网络、深度Q网络、策略梯度、基于确定性策略梯度的深度强化学习、AC框架的拓展。全书提供了大量的应用实例,每章章末均附有习题。 本书既适合作为高等院校计算机、软件工程、电子工程等相关专业高年级本科生、研究生的教材,又可为人工智能、机器学习等领域从事项目开发、科学研究的人员提供参考。

more >

前言 近年来,强化学习和深度学习相结合形成的深度强化学习方法已经是人工智能领域中新的研究热点。在许多需要智能体(Agent)同时具备感知和决策能力的场景中,深度强化学习方法具备了与人类相媲美的智能。其中深度学习(Deep Learning,DL)和强化学习(Reinforcement Learning,RL)是机器学习领域中最重要的两个研究方向。深度学习方法侧重于对事物的感知与表达,其基本思想是面向高维数据,通过多层的网络结构和非线性变换,组合低层特征,形成抽象的、易于区分的高层表示,以发现数据的分布式特征表示。深度学习已经在图像识别与理解、智能语音、机器翻译等领域取得了非凡的成果。强化学习与基于监督训练的深度学习不同,更加侧重于学习解决问题的策略,其基本思想是智能体通过试错的机制与环境进行不断地交互,从而最大化智能体从环境中获得的累计奖赏值。强化学习已经广泛应用于游戏博弈、机器人操控、参数优化等领域。传统的强化学习算法主要针对输入状态规模较小的决策问题,这种小规模强化学习算法可通过表格式的存储方式来评价每个状态或者状态动作对的好坏。然而当状态或动作空间维度很高时(例如图片或视频数据),传统的强化学习方法会因缺乏感知和泛化高维输入数据的能力而导致算法性能急剧下降。 随着人类社会的飞速发展,未来的人工智能系统不仅需要具备很强的感知与表达能力,而且需要拥有一定的决策能力。因此,人们将具有感知能力的深度学习和具有决策能力的强化学习相结合,形成直接从输入原始数据到输出动作控制的完整智能系统,这就是深度强化学习(Deep Reinforcement Learning,DRL)方法。该方法从本质上解决了传统强化学习智能体缺乏感知和泛化高维度输入数据能力的问题,从而适用于一系列大规模的决策任务。例如,谷歌旗下的DeepMind公司将深度学习中的卷积神经网络(Convolutional Neural Network,CNN)和强化学习中Q学习算法(QLearning)相结合,提出深度Q网络(Deep QNetwork,DQN)模型。该模型可直接将原始的游戏视频画面作为输入状态,游戏得分作为强化学习中的奖赏信号,并通过深度Q学习算法进行训练。最终该模型在许多Atari 2600视频游戏上的表现已经赶上甚至超过了专业人类玩家的水平。该项研究工作是深度强化学习方法形成的重要标志。此后,DeepMind团队又开发出一款被称为AlphaGo的围棋算法。该算法一方面利用深度学习通过有信号的监督来模拟人类玩家的走子方式,另一方面利用强化学习来进行自我对抗,从而进一步提高智能体取胜的概率。最终AlphaGo以悬殊的比分先后击败当时的欧洲围棋冠军和世界围棋冠军。深度强化学习的基本思想可以描述为: 利用深度学习的强大感知能力来提取大规模输入数据的抽象特征,并以此特征为依据进行自我激励的强化学习,直至求解出问题的最优策略。AlphaGo事件正式将深度强化学习技术推向了一个高峰。随着国内外对于深度强化学习理论和应用的不断完善,目前深度强化学习技术已经在游戏、机器人操控、自动驾驶、自然语言处理、参数优化等领域得到了广泛的应用。此外,深度强化学习也被认为是实现通用人工智能(General Artificial Intelligence,GAI)的一个重要途径。 本书深入浅出、内容翔实全面,全书配有PPT和视频讲解,对相关算法和实例配有代码程序。本书既适合强化学习零基础的本科生、研究生入门学习,也适合相关科研人员研究参考。 本书作者多年来一直从事强化学习的研究和教学工作,在国家自然科学基金、博士后基金、教育部科学研究重点项目、软件新技术与产业化协同创新中心、江苏高校优势学科建设工程资助项目、江苏省高校自然科学基金项目、苏州大学研究生精品课程项目等的资助下,提出了一些深度强化学习理论,解决了一系列核心技术,并将这些理论和方法用于解决实际问题。 本书总体设计、修改和审定由刘全完成,参加撰写的有黄志刚、翟建伟、吴光军、徐平安、欧阳震、寇俊强、郝少璞、李晓牧、顾子贤、叶倩等,对以上作者付出的艰辛劳动表示感谢!本书的撰写参考了国内外有关研究成果,他们的丰硕成果和贡献是本书学术思想的重要来源,在此对涉及的专家和学者表示诚挚的谢意。本书也得到了苏州大学计算机学院及智能计算与认知软件课题组部分老师和同学们的大力支持和协助,在此一并表示感谢。他们是: 朱斐、凌兴宏、伏玉琛、章宗长、章晓芳、徐云龙、陈冬火、王辉、金海东、王浩、曹家庆、张立华、徐进、梁斌、姜玉斌、闫岩、胡智慧、陈红名、吴金金、李斌、何斌、时圣苗、张琳琳、范静宇、傲天宇、李洋、张建行、代珊珊、申怡、王逸勉、徐亚鹏、栗军伟、乌兰、王卓、杨皓麟、施眉龙、张雄振等。 机器学习是一个快速发展、多学科交叉的研究方向,其理论及应用均存在大量的亟待解决的问题。限于作者的水平,书中难免有不妥和错误之处,敬请同行专家和读者指正。 刘全 2021年1月

more >
扫描二维码
下载APP了解更多

同系列产品more >

Spark基础编程

曹如军
定 价:45元

查看详情
MATLAB人工智能算法实战

丁伟雄
定 价:89.80元

查看详情
工业互联网技术导论

黄源
定 价:59.80元

查看详情
Python数据挖掘算法与应用

刘金岭、马甲林
定 价:59.80元

查看详情
Python视觉分析应用案例实战

丁伟雄
定 价:99.80元

查看详情
图书分类全部图书
more >

  • 强化学习是目前机器学习领域最热门的方向之一,本书经多年的实践教学经验的积累,形成了一套完整的教学体系。并结合流行的深度学习框架PyTorch,该书在理论和应用上都是较先进的。本书理论结合实践,深入浅出地讲解相关算法和实例。
more >
  • 目录

    随书资源

    第一部分: 预备知识及环境安装

    第1章深度强化学习概述

    1.1引言

    1.2深度学习

    1.3强化学习

    1.4深度强化学习

    1.5小结

    1.6习题

    第2章环境的配置

    2.1PyTorch简介

    2.2PyTorch和TensorFlow

    2.3强化学习的开发环境

    2.3.1Anaconda环境搭建

    2.3.2Anaconda环境管理

    2.3.3PyTorch的安装

    2.3.4Jupyter Notebook的安装

    2.3.5Jupyter Notebook的使用

    2.3.6Gym的安装

    2.3.7Gym案例

    2.4小结

    2.5习题

    第二部分: 表格式强化学习

    第3章数学建模

    3.1马尔可夫决策过程

    3.2基于模型与无模型

    3.3求解强化学习任务

    3.3.1策略

    3.3.2奖赏与回报

    3.3.3值函数与贝尔曼方程

    3.3.4最优策略与最优值函数

    3.4探索与利用

    3.5小结

    3.6习题

    第4章动态规划法

    4.1策略迭代

    4.1.1策略评估

    4.1.2策略迭代

    4.2值迭代

    4.3广义策略迭代

    4.4小结

    4.5习题

    第5章蒙特卡洛法

    5.1蒙特卡洛法的基本概念

    5.1.1MC的核心要素

    5.1.2MC的特点

    5.2蒙特卡洛预测

    5.3蒙特卡洛评估

    5.4蒙特卡洛控制...

精彩书评more >

标题

评论

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘