图书前言

    机器学习致力于“利用经验来改善系统自身的性能”。在计算机系统中,“经验”通常是以数据的形式存在的,要利用经验就不可避免地要对数据进行分析。因此,机器学习已逐渐成为计算机数据分析技术的源泉之一。随着人类收集和存储数据能力的不断增长以及计算机运算能力的飞速发展,利用计算机来分析数据的要求越来越广泛,越来越迫切,从而使得机器学习的重要性越来越显著。2001年,美国航空航天局JPL实验室的科学家在Science上撰文指出,机器学习对科学研究的整个过程正起到越来越大的支持作用,并预计该领域将取得稳定而快速的发展;2003年,美国国防部高级研究计划局(DARPA)开始启动了以机器学习为核心的PAL计划,将机器学习技术的重要性上升到国家安全的高度来考虑;2006年,美国卡内基梅隆大学专门成立了机器学习系。这些情况表明,机器学习已经成为计算机科学技术中最受关注的领域之一。

    2002年,陆汝钤院士在复旦大学智能信息处理实验室发起并组织了“智能信息处理系列研讨会”,并将“机器学习及其应用”列为当年支持的研讨会之一。2002年11月,研讨会成功举行,并确定了会议不征文、不收费,以及“学术至上,其他从简”的办会宗旨。2004年11月,在复旦大学举行了第二届“机器学习及其应用”研讨会,两天半的会议一直有100余人旁听,这令与会专家深受鼓舞,于是商定从此次会议开始,将“机器学习及其应用”发展成为一个系列研讨会,在每年11月上旬的一个周末举行。2005年11月,南京大学计算机软件新技术国家重点实验室举办了第三届研讨会,吸引了来自全国近十个省市的250余人旁听;2006年11月,南京大学计算机软件新技术国家重点实验室和南京航空航天大学信息科学与技术学院联合举办了第四届研讨会,吸引了来自全国十余个省市的300余人旁听。同时,为了促进研究生之间以及研究生与资深学者之间的交流,在第四届研讨会期间还举行了“第一届机器学习及其应用学生研讨会”,由一些受到邀请的研究生介绍自己的研究成果,以夜间墙展的方式进行,也吸引了100余人参加。

    清华大学出版社对推介信息科学技术领域的研究进展一直抱有极大的热情。早在“第二届机器学习及其应用研讨会”举行期间清华大学出版社就参与其中,并为该研讨会专门出版了文集,即2006年出版发行的《机器学习及其应用》一书。2005年第三届研讨会期间,清华大学出版社和与会专家商定,以后每两届研讨会的部分内容将编辑成书,以《机器学习及其应用:出版年》的形式冠名。

    本书是清华大学出版社邀请第三届和第四届“机器学习及其应用研讨会”的部分专家将其报告内容总结成文所得的文集。书中各章按作者的姓氏拼音为序,每一章将讨论一个论题,以综述的形式对该方面的研究进展加以介绍,并将报告人自己的一些研究工作嵌入其中。书中章节不仅涉及支持向量机、聚类分析、特征选择、维数削减、强化学习等传统研究领域,还涉及到流形学习、半监督学习、异构数据分析、商空间等新领域,以及图像理解、网络分析、自然语言处理等应用问题。需要注意的是,书中各章的内容仅表达该章作者本人的见解,并不代表清华大学出版社、编者及其他各章作者的学术观点。本书的出版得到了陆汝钤院士的支持和指导,并得到清华大学出版社计算机专著出版基金的资助,在此谨表示衷心的感谢。