自本书第1版于2020年出版以来,人工智能发展迅猛,成为科技领域的最大亮点。人工智能经历了从技术突破到产业落地的全面跃升,成为驱动全球经济社会变革的核心力量;大语言模型爆发,展示出强大的语言理解与生成潜力,模型性能持续优化。数据挖掘是计算机科学和人工智能中非常重要的一个领域,融合了数据库、人工智能、统计学、机器学习、模式识别等多领域的理论与技术,大数据和人工智能更是已经上升到国家战略。
人工智能的发展也促使了数据挖掘技术的进步,特别是大语言模型的广泛应用,结合教学实践的反馈升级,本书第2版在第1版的基础上全面修订,全面调整了本书的内容和结构,保留了数据挖掘的经典算法内容(数据探索与预处理、关联规则、聚类分析和分类等),删减了部分陈旧而网络上容易获得的基础算法描述和Python程序实现,删去了部分陈旧的案例项目,并将部分经典算法代码通过电子形式提供。为了适应人工智能技术的广泛应用,本版增加并强化了集成学习、神经网络、深度学习、强化学习和大语言模型等人工智能的理论和实践等内容,增加了大语言模型微调和数据挖掘项目案例,每章还增加了实验题目便于读者实践练习使用。同时本书中提供的经典算法、应用案例和实验题目均配有相关实验数据和Python程序代码。
本书作为该领域的基础教材,内容上除了尽可能涵盖数据挖掘经典算法及应用,及时反映人工智能技术发展的前沿,增加机器学习算法和大语言模型的内容。全书共13章,大致分为3个部分:第1部分(第1~6章)介绍数据挖掘的基础知识(数据挖掘过程、数据探索和数据预处理)和经典算法(关联规则、聚类、分类等);第2部分(第7~9章)讨论机器学习的经典算法,第7章集成学习,讨论并行集成的随机森林算法和串行集成的AdaBoost算法,第8章神经网络和深度学习,讨论神经网络、卷积神经网络,循环神经网络等经典网络,自注意力机制和Transformer模型,第9章强化学习,讨论马尔可夫决策过程和动态规划等;第3部分(第10~13章)是算法应用部分,介绍了4个真实案例,这4个案例包括大语言模型及微调技术、阿里百炼平台和华为云ModelArts平台大语言模型微调技术及情感识别分类应用等。通过对案例的数据挖掘过程进行深入浅出的剖析,使用大语言模型进行微调和数据分析,并使用Python语言实现案例的全过程,读者在不知不觉中加深了对经典算法和大语言模型的理解,获得了数据挖掘项目经验,提高了编程能力,同时快速领悟看似难懂的数据挖掘理论。
本书3部分内容呈现递增深入,第1部分是经典数据挖掘算法,第2部分是经典机器学习算法,第3部分是大语言模型及经典算法应用案例。本书通过经典算法、大语言模型、Python实现和实际项目应用案例的“四位一体法”,强化对经典算法和前沿大语言模型的理解和掌握,对经典算法做到“精”和“通”。根据课时情况,一个学期32学时的本科生和研究生课程可考虑选择讲授前6章中的部分经典内容;一个学期48学时的本科生课程可考虑讲授前9章的经典内容。第3部分的应用案例对想更深入学习的读者可以选择使用或全部使用。
本书的第1~3章和第6~13章由孙家泽编写,第4~5章由路龙宾编写,孙家泽负责全书的校稿工作。感谢西安邮电大学智能软件技术团队的各位老师和同学给予的帮助和支持,同时还要感谢很多领域的专家在网络上共享的资源,对于本书的编写有很大的启发,在此一并表示感谢。这里还要特别感谢本书编辑龙启铭,没有龙启铭编辑热情和专业的帮助,就没有本书的出版。
数据挖掘、机器学习和人工智能技术发展日新月异,大数据和人工智能作为国家战略产业,与很多学科深度交叉融合,罕有人士能对其众多分支领域精深理解。笔者才疏学浅,领域仅略知皮毛,时间和精力所限,书中错误及疏漏之处在所难免,恳请读者批评指正,不胜感激。
??????编者??????
2026年1月
II
数据挖掘算法与应用(Python实现)(第2版)
II
第2章 Linux操作基础
