前 言
数据挖掘出现于20世纪80年代后期,随着信息化技术的持续发展,它不断汲取统计学、机器学习、数据库技术、人工智能、模式识别和数据可视化等多学科领域的知识,无可争议地成为当今利用大数据分析获取知识的核心利器。
本教材是浙江省“十三五”优势专业(经济统计学)、浙江省一流学科(统计学)、浙江省优势特色学科(统计学)的建设成果之一,具有以下显著特点:
(1) 重视数据挖掘项目实现的整个流程,除了包含数据挖掘的经典理论与方法,还详细介绍了数据挖掘工具、挖掘的数据类型和存储环境、大数据平台及数据预处理方法。
(2) 重视数据挖掘理论和方法的基本思想,在不失严谨的前提下,略过了一些复杂程度高,但又不影响理解的数学推导,将各个知识点言简意赅地阐述透彻。
(3) 重视实际案例应用及实现,每类方法结合多个案例,以运用恰当的方法解决实际问题为导向,以培养分析问题能力为重点,详细介绍IBM SPSS Modeler和R软件的实现过程。
本教材共分为8章:第1章为数据挖掘概述,主要介绍数据挖掘的发展历程、相关技术与发展趋势等;第2~3章主要介绍数据挖掘工具、数据类型及数据平台;第4章介绍数据预处理相关技术;第5~8章介绍了各种数据挖掘经典算法原理、案例应用及实现。
本教材主要针对统计学、大数据相关专业的高年级本科生和硕士研究生编写,以学生深入理解并掌握数据挖掘的基本方法、了解相关的应用环境、熟练运用相关软件进行数据挖掘为目标,也可作为其他各专业读者学习数据挖掘方法与应用的教材或参考书。
本教材教学资源丰富,除了教学课件之外,还提供了每章的案例数据,读者可以通过http://www.tupwk.com.cn下载使用。
本教材由浙江工商大学徐雪琪副教授结合十多年的教学工作经验编写而成。结合笔者的教学实践,以48学时为例(一学期16周,每周3学时),本教材的理论教学内容可安排33学时,第5~8章的应用部分可安排15学时实验教学。在编写过程中,笔者参考了国内外数据挖掘领域许多学者的研究成果,在此深表谢意!
笔者虽已尽心竭力,但限于水平和时间仓促,书中谬误之处在所难免,敬请读者批评指正。
徐雪琪
2020年4月