图书前言

前    言

15年前,Michael和我合写了这本书的第一版。那本书400页多一点,通过弥合技术和实践之间的差距,通过帮助商业人士了解数据挖掘技术以及帮助技术人员理解这些技术的商业应用,从而满足了我们调查数据挖掘领域的目标。当Wiley出版社的编辑Bob Elliott让我们撰写Data Mining Techniques的第3版时,我们欣然同意,浑然忘记了撰写一本书给我们的个人生ai ok de 活所带来的牺牲。我们也知道新版本将会大幅改写以前的两个版本。

在过去的15年中,这个领域无论是在内涵上还是在字面上都已经得到了扩展,这本书中同样如此。2004年出版了第2版,这一版本增加到了600页,并引入了两个新的章节,分别介绍了生存分析和统计算法这两种新的关键技术,它们对于数据挖掘人员而言已经变得(并依然)越来越重要。现在的这个版本将再度引入新的技术领域——尤其是文本挖掘和主成分分析,同时在所有章节中引入了丰富的新实例,并增强了技术描述。这些例子来自各行各业,其中包括金融服务、零售、电信、媒体、保险、保健和基于Web的服务。

作为该领域的从业人员,我们也一直在学习。我们现在大约已经有半个世纪的数据挖掘方面的经验。自1999年以来,Michael和我一直在通过SAS研究所的业务知识系列(本系列与业务的软件方面分离,引入外部专家讲授非软件特定的课程)、数据仓库研究所以及许多不同企业的现场课程进行授课。我们在这些课程中的讲师角色使我们有机会接触成千上万各种行业中的不同业务人员。其中商业数据挖掘技术这门课程就是基于这本书的第二版。这些课程提供了大量有关数据挖掘主题的反馈,比如现实世界的人们正在做什么,以及如何以最佳方式来表示这些思想,从而使它们易于理解。大部分的反馈在这个新版本中都有所反映。我们从学生那里学到的东西看起来与学生从我们这里学到的一样多。

过去两年,Michael也一直在波士顿大学的卡罗尔管理学院讲授市场营销分析课程。Data Mining Techniques的前两个版本在许多学院和大学的课程中也广受欢迎,包括商业课程,以及越来越多的数据挖掘课程——在过去十年中其已在各大学中出现。虽然并不打算作为教科书,但是Data Mining Techniques为所有类型的学生提供了一个出色的概述。多年来,我们已经在我们的网站上提供了各种可用的数据集,讲师可以在课程中使用它们。

这本书分为4个部分。第一部分讨论数据挖掘的业务上下文。第1章对数据挖掘进行了概述,并给出了如何将其用于现实世界的例子。第2章解释了数据挖掘的良性循环,以及数据挖掘如何帮助理解客户。这一章有几个例子,显示了如何在整个客户生命周期中使用数据挖掘。第3章是数据挖掘方法的概述。第5章和第12章对整体方法进行了精化,分别对应于有指导和无指导数据挖掘。第4章涉及商业统计学知识,介绍了一些贯穿整本书其余部分的关键技术思想。这一章还扩展了MyBuys的案例研究,显示了用于分析A/B营销测试结果的不同方法的长处和短处。

早期版本把所有的数据挖掘技术都放在一个单一的部分。我们现在决定把这些技术划分为两个不同的类别,因此有指导和无指导技术分别拥有它们各自的章节。有指导数据挖掘部分首先在第3章针对有指导数据挖掘对数据挖掘方法进行了精化。后续章节则介绍各种有指导数据挖掘技术,其中包括统计技术、决策树、神经网络、基于记忆的推理、生存分析以及遗传算法。

在第2版中已经覆盖了所有的有指导数据挖掘技术。然而,我们在几个重要方面对它们进行了增强,特别是包含了更多在现实世界中使用它们的例子。第7章现在包括一个关于美国银行提升建模的案例研究,同时还介绍了支持向量机。第8章讨论了径向基函数神经网络。第9章现在有两个很有趣的案例研究,一个是关于Shazam如何识别歌曲,另一个使用MBR帮助放射学家确定X线检查是正常还是异常。第10章介绍生存分析,其中包括了一个针对客户价值的急需的讨论。第11章介绍了遗传算法,其中还包括群体智慧——另一个来自“计算生物学”世界的相关概念,其在数据挖掘领域具有广阔的应用前景。

第三部分专门讨论了无指导数据挖掘技术。第12章解释了四种不同类型的无指导数据挖掘。聚类算法分成两章。其中第13章重点介绍了最常见的聚类技术——K-均值聚类及其三个变体:K-中位数、K-中心点和K-众数。同时它还扩展了关于群集解释的讨论,无论采用哪种技术来识别群集,解释群集都非常重要。第14章介绍了许多技术,包括层次聚类、分裂聚类、自组织网络和高斯混合模型(期望值最大化聚类),它在此版本中是新的内容。第15章的购物篮分析在例子方面进行了加强,这些例子超越了关联规则,其中还包括一个关于种族营销的案例研究。第16章是无指导数据挖掘部分的最后一章,在20世纪90年代,当我们写这本书的第1版时,它几乎还处于外围。现在,它已经处于相当中央的位置,正如这一章的三个案例研究所示。

这本书的最后一部分专注于数据挖掘这一名称中的数据。第17章介绍支持数据的计算机体系结构,例如关系数据库、数据仓库和数据集市。同时,它还介绍了Hadoop和分析沙箱,它们都用于处理不适合关系数据库和传统数据挖掘工具的数据。两个早期的版本也有一章介绍数据挖掘的数据准备。由于这个问题如此重要,所以这个版本将该主题分成三章。第18章是关于如何在数据中发现客户和构建客户签名,这是一种许多数据挖掘算法所使用的数据结构。第19章涉及派生变量,以及如何定义变量以帮助模型表现更好的提示和技巧。第20章侧重于如何减少变量的数量,无论是针对诸如神经网络之类的喜欢较少变量的技术,还是出于数据可视化的目的。这一章的关键技术之一——主成分,在这个版本中是新的内容。

第21章涉及的主题本身也可以是一本书,这一主题就是文本挖掘。由于分析文本是构建在本书之前所介绍的许多思想之上,所以我们认为涉及文本挖掘的章节必须放在这本书的最后。其压轴出场凸显了文本挖掘是贯穿本书所覆盖主题的高潮部分。来自DIRECTV的最后一个案例研究,不仅是针对业务客户服务方面的一个有趣的文本挖掘应用,同时也是一个极佳的实践中的数据挖掘例子。

与前两个版本一样,这本书的读者对象也是当前的和未来的数据挖掘从业人员和他们的经理。它不适合寻找如何实现各种数据挖掘算法详细说明的软件开发人员,也不适合试图改进这些算法的研究人员,虽然这两组人都可以通过了解这种软件如何使用而受益。各种思想均是以非技术语言提出,其中尽量减少数学公式和神秘行话的使用。整本书的重点既包括技术解释,也包括数据挖掘的实际应用,因此这些技术都包含了实际业务上下文的例子。

总之,我们试图写这样一本书:当我们开始自己的数据挖掘职业生涯时,也会想要阅读它。

——Gordon S. Linoff,2011年1月于纽约