前 言
数据挖掘是知识发现不可缺少的部分,是将未加工的数据转换为有用信息的过程。为了贯彻国家大数据战略,尽快帮助应用型院校学生学习和掌握数据挖掘的基本知识以及基本应用技能,我们以通俗、简明并结合实际应用的方式编写了本教材。
本教材讲述了数据挖掘概念、数据挖掘的常用方法,包括分类方法、聚类方法和关联规则方法。此外,本教材还从实际应用出发,讲解了日志的挖掘与应用方法,以及多个数据挖掘应用案例。
分类是数据挖掘中的一种重要方法,在给定数据基础上构建分类函数或分类模型,该函数或模型能够将数据归类为给定类别中的某一类别。一般通过构建分类器实现具体分类,分类器是对样本进行分类的方法统称。本教材将对分类的基本概念及知识,如决策树、分类器、贝叶斯分类器、支持向量机等内容进行讲解和研究。聚类的过程,就是将相似数据归并到一类,使数据形成同类对象具有共同特征,不同类对象之间有显著区别的形态。聚类的目的是通过数据间的相似性将数据归类,并根据数据的概念描述来制定对应的策略。本教材将对聚类基本概念及常用算法进行讲解,着重研究聚合分析方法,并介绍聚类方法应用场景。此外,本教材还详细讲解了聚类方法的实现例子。
关于关联规则,我们从营销界流传的“啤酒与尿布”经典案例入手,介绍关联规则的概念、定义和分类,并分析关联规则的挖掘过程,包括频繁项集产生、强关联规则和关联规则评价标准,重点介绍关联规则的经典算法—Apriori 算法,并分析关联规则挖掘技术在国内外的应用现状,以及关联规则挖掘实例。
综合实战—日志的挖掘与应用章节讲述了日志概念、日志处理、日志分析原理及工具、日志挖掘应用,以及日志分析挖掘实例。
我们衷心希望本教材可以帮助读者学习数据挖掘的基础知识,掌握数据挖掘的基本方法,并体会到数据挖掘在实际应用中的精妙之处。
感谢编写组的全体老师,他们相互鼓励、相互学习、相互促进,为本教材的编写付出了辛勤的劳动!本书的问世也要感谢清华大学出版社王莉编辑给予的宝贵意见和指导。
编者
2023 年1 月