图书前言

前 言

经过近 20年的发展,“机器学习及其应用”研讨会已成为国内机器学习界的著名学术品牌,其历史大致可以分为四个阶段。“机器学习及其应用”研讨会的创始阶段是 2002—2004年,它起源于 2002年陆汝钤院士在复旦大学智能信息处理实验室发起组织的“智能信息处理系列研讨会”,被列为当年支持的研讨会之一。是年 11月,第一届“机器学习及其应用”研讨会邀请了 10 余位专家闭门研讨,在复旦大学成功举办。 2004年 11月周志华教授与王珏研究员在复旦大学主持举办了第二届“机器学习及其应用”研讨会。此次研讨会除邀请报告人外,还吸引了闻讯自发与会旁听的学者和研究生 100余人。自此,研讨会的模式从闭门的学术讨论变成了开放的学术交流。

“机器学习及其应用”研讨会的起步阶段是 2005—2010年。由于当时机器学习受到的关注和支持较少,组织者和主办单位需承担较多压力, 2005年研讨会移师南京大学计算机软件新技术国家重点实验室,周志华教授和王珏研究员主持举办了第三届研讨会,吸引了来自全国近 10个省市的 250余人旁听。此次研讨会确定了会议不征文、不收费、报告人由组织者邀请,以及“学术至上、其余从简”的办会宗旨,同时确定了研讨会举办的时间,如无特殊,则为当年 11月份的第一个周末。此后,组织者争取到兄弟单位给予协助,2006年、2007年分别由南京航空航天大学信息科学与技术学院、南京师范大学数学与计算机学院协办了第四届和第五届研讨会,均吸引了来自全国 10余个省市的约 300人旁听;2008年举办的第六届研讨会,适逢南京大学计算机学科建立 50周年,与会人数达到了 380余人; 2009年和 2010年在南京大学分别举办了第七届和第八届研讨会,均有 400余人旁听。这一时期为国内机器学习界的“垦荒”阶段,众多学者为研讨会作出了重要贡献。研讨会在国内机器学习领域乃至整个计算机领域逐渐产生了重要的影响,学界美名为“南京会议”。

“机器学习及其应用”研讨会的发展阶段是 2011—2016年。随着国内科研条件的改善,机器学习逐渐获得更多关注和支持。为进一步推动机器学习在国内的发展,从 2011年起,研讨会的举办地开始走出南京。 2011年和 2012年由张长水教授和杨强教授主持,

机器学习及其应用 2021 

清华大学自动化系、智能科学与系统国家重点实验室、清华大学信息科学与技术国家实验室(筹)举办了第九届和第十届研讨会,两次会议均有 500多人参加。 2013年、2014年由张军平教授和高新波教授主持,分别在复旦大学计算机科学技术学院和上海市智能信息处理实验室举办了第十一届研讨会,在西安电子科技大学举办了第十二届研讨会,这两次会议分别有 600多人和 800多人参加。2015年和 2016年,研讨会再次回到南京大学举办,南京航空航天大学协办。此时国内机器学习研究和应用已经发展到一个新的高峰,这两次会议均有约 1400人参加。至此,研讨会已经成为备受国内机器学习及相关领域研究人员关注的盛会。

自 2017年起,“机器学习及其应用”研讨会进入定型阶段,采用“一年外地、一年南京”的模式举行。 2017 年,第十五届研讨会由北京交通大学主办,北京大学协办。 2018年,第十六届研讨会在南京大学举行。这两届研讨会的参会人数都超过了预期,由此采取了预注册的方式,两次会议参会人数分别超过 1500人与 2000人。2019年,第十七届研讨会由天津大学主办,参会人数超过了 2200人。2020年,第十八届研讨会在南京大学举行,受疫情影响采用线上与线下结合的形式进行。综合疫情防控及场地因素,此次研讨会线下参会人数约 700人,线上参会人数约 4.5万人。

研讨会自发起之日起,清华大学出版社敏锐地了解到这一学术动态。研讨会主要组织者与清华大学出版社达成共识,每两年对研讨会上专家交流的部分技术内容,经过整理结集成书,以飨读者。十余年来,陆续出版了《机器学习及其应用》《机器学习及其应用 2007》《机器学习及其应用 2009》《机器学习及其应用 2011》《机器学习及其应用 2013》《机器学习及其应用 2015》《机器学习及其应用 2017》《机器学习及其应用 2019》等系列图书。本书是以上系列图书的延续。

本书是对第十七届和第十八届中国“机器学习及其应用”研讨会交流内容的部分总结,共邀请了与会的 14位专家就其研究领域撰文,以综述的形式探讨了机器学习不同分支及相关领域的研究进展。全书共分 14章,涉及深度学习、监督学习、因果学习、鲁棒优化、强化学习、对抗学习等,以及机器学习在视觉大数据、自然语言处理、脑影像分析等方面的应用。

王立威教授对深度学习中的优化方法进行了研究,从理论上证明了使用梯度下降方法优化过的参数化 ResNet可以收敛至全局最优值,并提出了一种对足够宽的神经网络具有二阶收敛保障的高效优化算法。

吴建鑫教授介绍了基于结构化剪枝的深度神经网络压缩技术,包括结构化剪枝的基本方式以及三种深度模型结构化剪枝方法,并对结构化剪枝的应用和未来发展进行了总结展望。

秦涛博士讨论了基于深度神经网络的高效语音合成问题,介绍了作者在模型推断、训练数据、模型参数三方面效率问题上的研究工作。刘成林研究员讨论了面向开放世界的分类器学习问题,包括面向开放集的分类决策规则、分类器设计与学习以及作者提出的一种开放集卷积原型网络。耿新教授介绍了一种新型监督学习技术——标记增强,从理论解释、增强方法、应用背景三个方面对标记增强技术做了系统总结。张坤博士讨论了因果关系研究的两个主要方向——因果推断与因果性学习,并从经典方法、隐变量场景以及非稳态/异质数据场景三个方面介绍了相关研究进展。苏文藻教授介绍了基于Wasserstein距离的分布鲁棒优化模型及其在结构风险最小化和对抗训练问题中的应用,并讨论了该方向有待研究的问题。俞扬教授对基于环境模型的强化学习进行了总结,包括环境模型学习相关背景、基于对抗生成的环境模型学习以及在两种具体推荐任务中的应用。韩亚洪教授分析了基于迁移和基于决策的深度神经网络黑盒攻击方法的缺陷,介绍了作者提出的基于迁移的黑盒攻击方法以及基于决策的黑盒攻击方法。易津锋博士从对抗攻击、对抗防御以及模型鲁棒性评估三个方面介绍了对抗机器学习领域的最新进展,并基于产业界应用需求展望了该领域未来研究方向。华先胜博士围绕基于城市视觉大数据的交通预测与调度具体任务,介绍了感知推理层、预测层以及干预层三个层面上的算法研究进展与实际应用示例。黄萱菁教授梳理了基于深度学习的命名实体识别现有工作,并介绍了作者在未登陆词表示等四个方面所做的系列研究工作。邱锡鹏教授梳理了自然语言表示学习的主要架构和预训练模型,并对预训练模型的未来研究趋势进行了总结展望。张道强教授介绍了基于机器学习的脑解码方法最新进展,并对面向脑影像分析的脑解码未来研究方向进行了展望。

本书概括了国内机器学习及其应用的最新研究进展,可供计算机、自动化、信息处理及其他相关专业的研究人员、教师、研究生和工程技术人员参考,也可作为人工智能、机器学习课程的辅助内容,希望对有志于从事机器学习研究的人员有所帮助。

张敏灵 胡清华 李宇峰 

2021年 6月 22日