本书的目的是提出并构建近似动态规划和强化学习的理论框架。这一框架以两个算法为中心,这两个算法在很大程度上彼此独立地设计出来并通过牛顿法的有力机制融洽地合作使用。本书是原作者在美国亚利桑那州立大学讲课过程中完成。课程视频和课件可从作者网站下载。