


作者:魏庆来、王飞跃
定价:59.8元
印次:1-2
ISBN:9787302589723
出版日期:2022.07.01
印刷日期:2024.06.17
图书责编:贾斌
图书分类:零售
强化学习是目前机器学习乃至人工智能领域发展最快的分支之一。强化学习的基本思想是通过与环境的交互、智能体或智能算法获取相关智能,其具体过程就是根据环境反馈得到的奖励不断调整自身的策略进而获得**奖励决策的学习历程。本书主要讲述了强化学习的基本原理和基本方法,基于强化学习的控制、决策和优化方法设计与理论分析,深度强化学习原理以及平行强化学习等未来强化学习的发展新方向,展示从先行后知到先知后行,再到知行合一的混合平行智能思路。 本书可作为高等学校人工智能、机器学习、智能控制、智能决策、智慧管理、系统工程以及应用数学等专业的本科生或研究生教材,亦可供相关专业科研人员和工程技术人员参考。
前言 强化学习: 迈向知行合一的智能机制与算法 人工智能的异军突起,除计算能力和海量数据外,最大的贡献者当属机器学习,其中最引人注目的核心技术与基础方法就是深度学习和强化学习(Reinforcement Learning),前者是台前的“明星”,后者是幕后的“英雄”。与新兴的深度学习相比,强化学习相对“古老”,其思想源自人类“趋利避害”和“吃一堑、长一智”的朴素意识,其最初的“尝试法”或“试错法”,远在人工智能技术出现之前就在各行各业广为流行,并成为人工智能起步时的核心技术之一。AlphaGo在围棋人机大战取得的胜利,使社会大众普遍认识到有监督的深度学习和无监督的强化学习的威力。近年来,人工智能算法在一些多角色游戏中大胜人类顶级专业选手,更使人们对强化学习的功能有了更加深刻的印象和理解。 例如,以强化学习为核心技术之一的人工智能系统Pluribus在六人桌无限制的得州扑克比赛中,在一万手回合里分别以其单机对五人和五机对单人的方式,共击败15名全球最佳专业玩家,突破了过去人工智能仅能在国际象棋等二人游戏中战胜人类的局限,成为游戏中机器胜人又一个里程碑性的事件,被《科学》杂志评选为2019年十大科学突破之一。Pluribus这项工作之所以重要的主要原因是: 人工智能算法必须处理不完备信息,需要在不知对手策略和资源的情况下进行决策,并在不同博弈之间寻求平衡; 博弈最佳的理论结果是纳什平衡,但随着玩家数目的增加,求解纳什平衡的计算复杂度呈指数级增长,算法要求的算力在物理上不可能实现,必须引入智力; 掌握“诈唬”等心理技巧是游戏胜利的关键之一,必须考...
目录
第1章强化学习概论
1.1引言
1.2强化学习的发展历程
1.3强化学习的研究现状
1.4本书内容架构
参考文献
第2章马尔可夫决策过程
2.1马尔可夫决策过程
2.2策略与代价函数
2.3最优策略与最优代价函数
参考文献
第3章动态规划
3.1动态规划的兴起
3.2动态规划基本思想: 多级决策过程
3.3最优性原理与递推方程
3.4离散时间动态规划
3.5连续时间动态规划
3.6动态规划的挑战
参考文献
第4章蒙特卡洛学习方法
4.1蒙特卡洛方法背景
4.1.1蒙特卡洛方法的由来
4.1.2基于模型的算法与无模型算法比较
4.1.3蒙特卡洛模拟的思路
4.2蒙特卡洛预测
4.2.1初次访问蒙特卡洛预测
4.2.2历次访问蒙特卡洛预测
4.2.3增量计算技巧
4.3蒙特卡洛控制
4.3.1初始探索问题
4.3.2在策方法: ε贪心算法
4.3.3脱策算法: 重要性采样
4.4蒙特卡洛强化学习算法总结
参考文献
第5章时序差分学习
5.1时序差分学习基本概念
5.2时序差分学习算法
5.3n步回报
5.4TD(λ)算法
参考文献
第6章神经网络
6.1神经网络的发展历史
6.2MP神经元模型
6.3前馈神经网络
6.3.1感知机
6.3.2... 查看详情

