清华大学出版社--图书前言

图书前言

前言

近年来，大数据和人工智能技术取得了突破性进展，对人类社会产生了深远的影响。在商业、制造、医疗、金融、科研等领域，数据的规模与多样性正以惊人的速度增长。然而，数据本身并不能直接带来价值，唯有通过深入分析，从数据中发现隐藏的模式，提取出知识，才能充分发挥数据的价值。数据挖掘就是从海量数据中提取有价值信息和模式的技术。它帮助人们做出更加科学的决策，优化资源配置，推动创新发展。随着技术的进步，数据挖掘的应用领域也在持续拓展。从精准医疗到智能制造，从个性化推荐到社会治理，数据挖掘正在推动各行业的变革。随着数据规模的增大与复杂性的提升，数据挖掘将在社会经济发展中扮演更为重要的角色，成为驱动创新与进步的核心力量。

目前已有一些优秀的数据挖掘著作，在推动学科进步和普及应用方面发挥了重要作用。但是多数书籍面向计算机专业人员，着重数据挖掘算法的实现，在如何应用这些方法解决实际问题方面着墨不多。还有一些书籍侧重代码实现或工具使用，对数据挖掘理论阐述不足。本书力求在理论与实践之间架起桥梁，系统介绍数据挖掘理论与方法，同时结合实际案例展示这些方法的应用。本书使用可视化工具RapidMiner，结合Python语言，针对实际案例详细介绍数据挖掘过程，帮助读者快速理解数据挖掘理论，掌握数据挖掘技能。

近年来，数据挖掘技术发展日新月异，尤其是深度学习技术已经在分类、聚类、异常检测等任务中得到广泛应用。然而，大多数现有书籍对这些进展的讨论较为零散，或者仅局限于技术概述。本书特别关注这一领域的最新研究，在典型的数据挖掘任务中引入与深度学习相关的内容，帮助读者把握技术前沿。

文本是信息的主要载体，近年来大语言模型（如BERT、GPT）在文本处理领域取得了革命性突破。然而，文本挖掘在许多数据挖掘书籍中占比较少。本书从文本预处理、文本表示、文本分类、主题建模和情感分析等方面，探讨了文本挖掘这一方向。对基于规则、基于机器学习、基于深度学习的文本处理技术进行了介绍，形成基本的文本挖掘知识体系，为读者掌握文本挖掘技术提供支持。

本书共9章。第1章介绍数据挖掘的概念、发展历程和典型任务，以及数据挖掘方法论。第2章介绍数据准备的全过程，包括数据清洗、集成、约简和转换等，强调数据质量对数据挖掘的影响。第3章~第8章分别涵盖分类、回归分析、聚类分析、关联分析、异常检测等典型任务，每一章首先介绍基本概念、经典算法、最新进展，并引入若干案例，展示该类任务的特点，介绍如何开展数据挖掘。第9章讨论文本挖掘，从基础任务到高级模型，突出其在大语言模型背景下的特殊价值。附录

部分对RapidMiner进行概括性介绍，通过一个数据挖掘实例，帮助读者快速了解工具的使用，为开展数据挖掘实践提供基础。

本书的完成离不开多方面的支持。书中部分研究得到广东省普通高校人文社科重点研究基地（2022WZJD012）、粤港澳大湾区高质量发展重大问题研究课题（XK223007）的资助。作者张发所在单位广东科技学院，王淞春、唐茜、田艳所在单位北京理工大学（珠海），为本书写作提供了有力支持。硕士生何兴文对书中的程序进行了调试和完善。本书编审人员提出了许多建设性意见和建议，在此表示衷心感谢。

因作者能力有限，书中难免有不当之处，恳请广大读者批评指正。

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

图书前言