强化学习
由浅及深,在强化学习基础知识之上,讲述了强化学习的**学习法

作者:魏庆来、王飞跃

定价:59.8元

印次:1-2

ISBN:9787302589723

出版日期:2022.07.01

印刷日期:2024.06.17

图书责编:贾斌

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

强化学习是目前机器学习乃至人工智能领域发展最快的分支之一。强化学习的基本思想是通过与环境的交互、智能体或智能算法获取相关智能,其具体过程就是根据环境反馈得到的奖励不断调整自身的策略进而获得**奖励决策的学习历程。本书主要讲述了强化学习的基本原理和基本方法,基于强化学习的控制、决策和优化方法设计与理论分析,深度强化学习原理以及平行强化学习等未来强化学习的发展新方向,展示从先行后知到先知后行,再到知行合一的混合平行智能思路。 本书可作为高等学校人工智能、机器学习、智能控制、智能决策、智慧管理、系统工程以及应用数学等专业的本科生或研究生教材,亦可供相关专业科研人员和工程技术人员参考。

魏庆来,中国科学院自动化研究所研究员,博士生导师,复杂系统管理与控制国家重点实验室副主任。2009年毕业于东北大学获控制理论与控制工程专业博士学位,同年到中国科学院自动化研究所工作至今。主要从事自学习控制,自适应动态规划,智能控制,最优控制,智能电网及其工业应用等方面的研究工作。在国内外主流学术期刊和高水平国际会议上发表百余篇,出版专著3部,主持基金课题十余项,授权专利十余项,软件著作权登记十余项。获2017年国家自然科学基金优秀青年基金,2017年中国自动化学会杨嘉圳科技奖, 2017年中国自动化学会青年科学家奖,2016年亚太神经网络学会青年学者奖,2015年张嗣瀛优秀青年论文奖, 2015年北京市科学技术奖,2014年江苏省双创人才奖,2011年自动化学报优秀论文奖等。是国内自学习最优控制领域的优秀青年科学家。王飞跃,中国科学院自动化研究所研究员,博士生导师,复杂系统管理与控制国家重点实验室主任,国防科技大学军事计算实验与平行系统技术研究中心主任,中国科学院大学中国经济与社会安全研究中心主任,青岛智能产业技术研究院院长。曾任中国科学院自动化研究所副所长。1990年获美国伦塞利尔理工学院(RPI)计算与系统工程博士学位。1990年起在美国亚利桑那大学先后任助教授、副教授和教授,机器人与自动化实验室主任,复杂系统高等研究中心主任。1998年作为国家计划委员会“引入海外杰出人才计划”和中国科学院“百人计划”人才回国工作,2011年追溯为首位国防领域“千人计划”国家特聘专家。智能控制、智能机器人、无人驾驶、智能交通等领域早期开拓者之一。现已完成“Advanced Studies of Flexible Robotic Manipulators: Modeling, Design, Control and Application”、“Autonomous Rock Excavation: Intelligent Control Techniques and Experimentation”、“Advanced Motion Control and Sensing for Intelligent Vehicles”、“Advances in Computational Intelligence: Theory and Applications”、《社会计算》等十余本学术专著,皆为相关领域的首部学术著作。自二十一世纪,发起并开拓了社会计算、社会制造、平行智能、平行控制、平行管理、知识自动化等新的研究领域。现任IEEE计算社会系统汇刊(IEEE Transactions on Computational Social Systems)、指挥与控制学报主编,1996创办Int’l J. of Intelligent Control and Systems和World Scientific Series on Intelligent Control and Intelligent Automation,曾任自动化学报、IEEE/CAA Journal of Automatica Sinica(自动化学报英文刊)、IEEE智能交通系统汇刊(IEEE Transactions on Intelligent Transportation Systems)、国际智能控制与系统杂志和IEEE智能系统(IEEE Intelligent Systems)主编及多份IEEE以及其它国际期刊主编、副主编或编委。曾任IEEE智能交通系统学会主席(2005–2007年)、旅美科协主席(2005年)、北美竺可桢教育基金会会长(2007–2008年)。任中国自动化学会副理事长兼秘书长、IEEE射频识别理事会(IEEE Council on RFID)候任主席。2003年起先后当选IEEE、INCOSE、IFAC、ASME和AAAS等国际学术组织Fellow。2007年获国家自然科学二等奖和ACM杰出科学家称号,2014年获IEEE诺伯特?维纳奖。

前言 强化学习: 迈向知行合一的智能机制与算法 人工智能的异军突起,除计算能力和海量数据外,最大的贡献者当属机器学习,其中最引人注目的核心技术与基础方法就是深度学习和强化学习(Reinforcement Learning),前者是台前的“明星”,后者是幕后的“英雄”。与新兴的深度学习相比,强化学习相对“古老”,其思想源自人类“趋利避害”和“吃一堑、长一智”的朴素意识,其最初的“尝试法”或“试错法”,远在人工智能技术出现之前就在各行各业广为流行,并成为人工智能起步时的核心技术之一。AlphaGo在围棋人机大战取得的胜利,使社会大众普遍认识到有监督的深度学习和无监督的强化学习的威力。近年来,人工智能算法在一些多角色游戏中大胜人类顶级专业选手,更使人们对强化学习的功能有了更加深刻的印象和理解。 例如,以强化学习为核心技术之一的人工智能系统Pluribus在六人桌无限制的得州扑克比赛中,在一万手回合里分别以其单机对五人和五机对单人的方式,共击败15名全球最佳专业玩家,突破了过去人工智能仅能在国际象棋等二人游戏中战胜人类的局限,成为游戏中机器胜人又一个里程碑性的事件,被《科学》杂志评选为2019年十大科学突破之一。Pluribus这项工作之所以重要的主要原因是:  人工智能算法必须处理不完备信息,需要在不知对手策略和资源的情况下进行决策,并在不同博弈之间寻求平衡;  博弈最佳的理论结果是纳什平衡,但随着玩家数目的增加,求解纳什平衡的计算复杂度呈指数级增长,算法要求的算力在物理上不可能实现,必须引入智力;  掌握“诈唬”等心理技巧是游戏胜利的关键之一,必须考...

目录
荐语
查看详情 查看详情

目录

第1章强化学习概论

1.1引言

1.2强化学习的发展历程

1.3强化学习的研究现状

1.4本书内容架构

参考文献

第2章马尔可夫决策过程

2.1马尔可夫决策过程

2.2策略与代价函数

2.3最优策略与最优代价函数

参考文献

第3章动态规划

3.1动态规划的兴起

3.2动态规划基本思想: 多级决策过程

3.3最优性原理与递推方程

3.4离散时间动态规划

3.5连续时间动态规划

3.6动态规划的挑战

参考文献

第4章蒙特卡洛学习方法

4.1蒙特卡洛方法背景

4.1.1蒙特卡洛方法的由来

4.1.2基于模型的算法与无模型算法比较

4.1.3蒙特卡洛模拟的思路

4.2蒙特卡洛预测

4.2.1初次访问蒙特卡洛预测

4.2.2历次访问蒙特卡洛预测

4.2.3增量计算技巧

4.3蒙特卡洛控制

4.3.1初始探索问题

4.3.2在策方法: ε贪心算法

4.3.3脱策算法: 重要性采样

4.4蒙特卡洛强化学习算法总结

参考文献

第5章时序差分学习

5.1时序差分学习基本概念

5.2时序差分学习算法

5.3n步回报 

5.4TD(λ)算法

参考文献

第6章神经网络

6.1神经网络的发展历史

6.2MP神经元模型

6.3前馈神经网络

6.3.1感知机

6.3.2... 查看详情

本书针对的是人工智能、机器学习和自动控制中的前沿技术——强化学习,论述了强化学习的基本知识,还阐述了强化学习中的**学习方法。并结合当下热点—深度学习,对深度学习与强化学习结合的产物—深度强化学习,进行了介绍与展望。同时,本书每章节均配有示例与名人传记,方便读者掌握方法的具体发展过程。 查看详情