图书前言

前言

近年来,大数据和人工智能技术取得了突破性进展,对人类社会产生了深远的影响。在商业、制造、医疗、金融、科研等领域,数据的规模与多样性正以惊人的速度增长。然而,数据本身并不能直接带来价值,唯有通过深入分析,从数据中发现隐藏的模式,提取出知识,才能充分发挥数据的价值。数据挖掘就是从海量数据中提取有价值信息和模式的技术。它帮助人们做出更加科学的决策,优化资源配置,推动创新发展。随着技术的进步,数据挖掘的应用领域也在持续拓展。从精准医疗到智能制造,从个性化推荐到社会治理,数据挖掘正在推动各行业的变革。随着数据规模的增大与复杂性的提升,数据挖掘将在社会经济发展中扮演更为重要的角色,成为驱动创新与进步的核心力量。

目前已有一些优秀的数据挖掘著作,在推动学科进步和普及应用方面发挥了重要作用。但是多数书籍面向计算机专业人员,着重数据挖掘算法的实现,在如何应用这些方法解决实际问题方面着墨不多。还有一些书籍侧重代码实现或工具使用,对数据挖掘理论阐述不足。本书力求在理论与实践之间架起桥梁,系统介绍数据挖掘理论与方法,同时结合实际案例展示这些方法的应用。本书使用可视化工具RapidMiner,结合Python语言,针对实际案例详细介绍数据挖掘过程,帮助读者快速理解数据挖掘理论,掌握数据挖掘技能。

近年来,数据挖掘技术发展日新月异,尤其是深度学习技术已经在分类、聚类、异常检测等任务中得到广泛应用。然而,大多数现有书籍对这些进展的讨论较为零散,或者仅局限于技术概述。本书特别关注这一领域的最新研究,在典型的数据挖掘任务中引入与深度学习相关的内容,帮助读者把握技术前沿。

文本是信息的主要载体,近年来大语言模型(如BERT、GPT)在文本处理领域取得了革命性突破。然而,文本挖掘在许多数据挖掘书籍中占比较少。本书从文本预处理、文本表示、文本分类、主题建模和情感分析等方面,探讨了文本挖掘这一方向。对基于规则、基于机器学习、基于深度学习的文本处理技术进行了介绍,形成基本的文本挖掘知识体系,为读者掌握文本挖掘技术提供支持。

本书共9章。第1章介绍数据挖掘的概念、发展历程和典型任务,以及数据挖掘方法论。第2章介绍数据准备的全过程,包括数据清洗、集成、约简和转换等,强调数据质量对数据挖掘的影响。第3章~第8章分别涵盖分类、回归分析、聚类分析、关联分析、异常检测等典型任务,每一章首先介绍基本概念、经典算法、最新进展,并引入若干案例,展示该类任务的特点,介绍如何开展数据挖掘。第9章讨论文本挖掘,从基础任务到高级模型,突出其在大语言模型背景下的特殊价值。附录

部分对RapidMiner进行概括性介绍,通过一个数据挖掘实例,帮助读者快速了解工具的使用,为开展数据挖掘实践提供基础。

本书的完成离不开多方面的支持。书中部分研究得到广东省普通高校人文社科重点研究基地(2022WZJD012)、粤港澳大湾区高质量发展重大问题研究课题(XK223007)的资助。作者张发所在单位广东科技学院,王淞春、唐茜、田艳所在单位北京理工大学(珠海),为本书写作提供了有力支持。硕士生何兴文对书中的程序进行了调试和完善。本书编审人员提出了许多建设性意见和建议,在此表示衷心感谢。

因作者能力有限,书中难免有不当之处,恳请广大读者批评指正。