图书前言

什么是数据挖掘?什么是预测分析

数据挖掘是从大型数据集合中发现有用的模式和趋势的过程。

预测分析是从大型数据集合中抽取信息以便对未来的情况做出预测和估计的过程。

由Daniel Larose 和 Chantal Larose合著的《数据挖掘与预测分析(第2版)》一书能够确保读者成为这一前沿且大有前途的领域的专家。

为什么需要本书

根据MarketsandMarkets研究公司的调查,从2013年~2018年,全球大数据市场有望以每年26%的速度增长,将从2013年的148.7亿美元增加到2018年的463.4亿美元 。世界范围内的公司和团体正在学习如何应用数据挖掘和预测分析以增加利润。尚未应用数据挖掘和预测分析的公司将会在21世纪经济的全球竞争中落伍。

在大多数领域中,人类都被数据所淹没。遗憾的是,这些花费庞大成本收集得到的数据多数都被遗弃在数据仓库中。问题是,缺乏足够的、受过良好训练的、具备将这些数据转换为人类需要的知识并就此将分类树转换为智慧的分析人员。这也是编写本书的目的所在。

McKinsey Global Institute报告指出 :

公司在利用大数据的技能需求方面将会存在人才短缺现象。从大数据中获取价值的制约主要体现在缺乏必要的人才,特别是缺乏那些掌握统计和机器学习专门知识的人才,缺乏能够使用从大数据中获取的见识来运营公司的管理人员和分析人员。我们认为对大数据世界开展分析工作的职位比目前能够提供的缺少大约140 000~190 000个。此外,我们认为在美国额外还将需要150万位能够提出正确问题并能够有效利用大数据分析结果的管理和分析人员。

本书试图帮助解决数据分析人员短缺的问题。

数据挖掘得到越来越广泛的应用,因为它有助于增强公司从其已有的数据集合中发现有利的模式和趋势的能力。公司和团体花费了大量的金钱,收集到海量的数据,但是未能很好地利用隐藏在其数据仓库中的有价值的和可操作的信息。然而,随着数据挖掘实践变得越来越广泛,无法应用这些技术的公司将存在落后于市场的危险,将逐渐失去市场份额,因为他们的竞争对手都在使用数据挖掘,从而赢得竞争优势。

谁将从本书获益

《数据挖掘和预测分析(第2版)》一书通过逐步动手解决现实世界的现实问题,介绍了当前广泛运用于现实世界数据集合中的数据挖掘技术,这一方式将吸引管理人员、首席信息官、首席执行官、首席财务官、数据分析人员、数据库分析人员以及其他需要了解最新方法以提高投资回报率的群体的注意。

利用《数据挖掘与预测分析(第2版)》,你将学习什么类型的分析能够从数据中发现最有益的知识,同时避免进入可能会导致公司投入大量资金而不能带来相应利益的误区。你将通过真正实践数据挖掘和预测分析来学习数据挖掘和预测分析。

危险!数据挖掘容易被搞砸

能够开展数据挖掘工作的新的现有软件平台不断涌现,这将带来新的危险。这些应用处理数据非常方便,强大的数据挖掘算法以黑盒方式嵌入到软件中,导致滥用情况出现的比例更高,从而带来巨大的危险。

简言之,数据挖掘工作不容易做好。将强大的模型应用于海量数据时,一知半解特别危险。例如,对未经过预处理的数据开展分析工作可能会得出错误的结论,或者对数据集采用不适当的分析方法,又或者模型构建基于完全不正确或似是而非的假设之上。如果进行了部署,分析中存在的这些错误可能会让你付出昂贵的代价。《数据挖掘与预测分析(第2版)》一书有助于使你成为一名能够避免进入这些昂贵陷阱的精明的分析人员。

“白盒”方法

了解基本算法和模型结构

数据挖掘和预测分析出现问题的症结在于盲目采用“黑盒”方法,避免代价昂贵错误的最佳方法是转而采用“白盒”方法,白盒方法强调要求对软件中基本算法和统计模型结构的了解。

《数据挖掘与预测分析(第2版)》通过如下方式应用白盒方法:

● 明确地揭示为什么需要运用某一特定方法或算法。

● 让读者了解某个算法或方法是如何工作的,采用实例(小型数据集)解释,以便读者逐步了解其中的逻辑关系,从而以白盒方法了解方法或算法的内部工作模式。

● 提供将方法应用于大型、现实世界数据集的实例。

● 通过练习测试读者对概念和算法的理解程度。

● 为读者提供将数据挖掘应用于大型数据集的经验。

算法概览

《数据挖掘与预测分析(第2版)》将利用小型数据集,指引读者学习各种算法的操作和细微差异,让读者真正理解算法的内部工作情况。例如,在第21章中,我们将逐步利用小型数据库,应用BIRCH聚类算法(BIRCH是层次聚类的一种方法)学习平衡迭代消减和聚类,精确地展示BIRCH如何针对数据集选择优化的聚类解决方法。正如我们所知,此类演示是本书针对BIRCH算法的独特方法。同样,在第27章中,我们将通过使用选择、交叉和变异操作算子,针对小型数据集逐步发现优化解决方案,以便读者能够更好地理解所涉及的过程。

将算法和模型应用到大型数据库

《数据挖掘与预测分析(第2版)》提供了大量将数据分析方法应用于大型数据库的示例。例如,第9章通过利用实际数据库,解析营养等级与谷物含量之间的关系。在第4章中,我们将主成分分析应用于实际的加利福尼亚州的人口普查数据中。所有数据集均可从本书网站www.dataminingconsultant.com中获得。

章节练习:检查并确认读者是否了解了本章内容

《数据挖掘与预测分析(第2版)》一书的各章中包含大约750个练习,有助于读者了解自己对各章提供材料的理解程度,并从中体验与数字和数据打交道的乐趣。这些练习包含概念辨析类型的练习,可帮助读者进一步梳理清楚数据挖掘中某些更具有挑战性的概念;利用数据开展工作的练习,帮助读者将特定数据挖掘算法应用到小型数据集中,从而能够逐步实现较好的解决方案。例如,在第14章中,我们要求读者通过该章提供的数据集获得最大后验分类。

动手实践:通过实际编写数据挖掘算法学习数据挖掘

本书大多数章节为读者提供了动手实践分析问题,为读者提供了运用新学的数据挖掘专业知识,解决大型数据集实际问题的方法。许多人都喜欢边学边做,而《数据挖掘与预测分析(第2版)》为读者提供了一个边学边做的框架。例如,在第13章中,读者将采用实际的信用卡审批分类数据集,构建自己的最佳logistic回归模型,尽可能利用从该章中学习到的方法,提供对模型强大的、可解释的支持,包括对获取的变量及标识变量的解释。

令人兴奋的新主题

《数据挖掘与预测分析(第2版)》一书还提供大量令人兴奋的新主题,主要包括:

● 通过利用数据驱动的误分类开销实现成本-效益分析

● 独立或多元分类模型的成本-效益分析

● 分类模型的图形化评估方法

● BIRCH聚类

● 分段模型

● 集成方法:bagging和boosting方法

● 模型投票与趋向平均

● 缺失数据的填补方法

R语言开发园地

R语言是一种探索及分析数据集的功能强大的开源语言。使用R语言的分析人员可以利用大量免费的程序包、例程和图形用户界面来解决大多数数据分析问题。本书大多数章节中都为读者提供R语言开发园地,用R语言获得章节中涉及内容的结果,以及部分输出的截图。

附录:数据汇总与可视化

一些读者可能不大容易理解某些统计和图形化概念,这些概念通常会在统计课程中学习。《数据挖掘与预测分析(第2版)》一书提供了介绍常见概念和术语的附录,为读者更好地理解本书的相关材料奠定基础。

案例研究:分析方法汇总

《数据挖掘与预测分析(第2版)》最后提供了详细的案例研究。通过对案例的研究,读者能够了解怎样将自己从书中学习到的方法融会贯通,以建立可操作的、有益的解决方案。详细的案例研究包括在以下4章中:

● 第29章  案例研究,第1部分:业务理解、数据预处理和探索性数据分析。

● 第30章  案例研究,第2部分:聚类与主成分分析。

● 第31章  案例研究,第3部分:建模与评估性能和可解释性。

● 第32章  案例研究,第4部分:高性能建模与评估

案例研究中包含大量图形、探索数据分析、预测模型、客户分析,并提供针对不同用户需求的解决方案。采用定制的数据驱动成本效益表的模型评估方法,反映分类误差的真正开销,而不是采用常见的诸如总体误差率等评估方法。因此,分析人员能够使用每位客户接触的开销对模型进行比较工作,给予接触客户的数量,预测模型能够实现多少利润。

本书组织结构

《数据挖掘与预测分析(第2版)》一书的组织结构有助于读者直接发现相关的逻辑。共设32章,包含8个主要部分:

● 第Ⅰ部分是数据准备,包含有关数据预处理、探索性数据分析、降维方法等章节。

● 第Ⅱ部分是统计分析,提供开展数据分析工作常见的经典统计方法,包括单变量统计分析及多元变量统计分析、简单及多元线性回归方法、为构建模型准备数据、模型构建等章节。

● 第Ⅲ部分是分类,包含9章,是本书涉及内容最多的部分:其中包含k-最近邻算法、决策树、神经元网络、logistic回归、朴素贝叶斯与贝叶斯网络、模型评估技术、基于数据驱动成本的成本-效益分析、二元及k元分类模型、分类模型的图形化评估等。

● 第Ⅳ部分是聚类,包含层次聚类和k-均值聚类、Kohonen网络、BIRCH聚类、度量簇的优劣等。

● 第Ⅴ部分是关联规则,本部分仅包含一章内容,涵盖A Priori关联规则以及广义规则归纳。

● 第Ⅵ部分是模型性能强化,提供细分模型、集成方法:bagging和boosting、模型投票与趋向平均等章节。

● 第Ⅶ部分介绍针对预测建模的其他方法,包括缺失数据填补以及遗传算法等。

● 第Ⅷ部分是案例研究:针对直邮市场的预测响应,包括4章,给出如何从直邮市场营销活动中获取最大利润的完整案例分析方法。

软件

本书使用的软件包括:

● IBP SPSS Modeler数据挖掘软件套件

● R开放源代码统计分析软件

● SAS Enterprise Miner

● SAS统计分析软件

● Minitab统计分析软件

● Weka开放源代码数据挖掘软件

IBM SPSS Modeler是数据挖掘领域应用最广泛的数据挖掘软件套件,该软件由SPSS开发(www-01.ibm.com/software/analytics/spss/products/modeler/),本书采用了其基本软件。SAS Enterprise Miner比IBM Modeler功能更强大,但学习该软件比较困难。SPSS可以获得免费试用版(通过Google搜索“spss”即可下载)。Minitab是简单易用的统计软件包,可以在该公司提供的网站www.minitab.com下载试用版。

Weka:开源软件

Weka机器学习平台是一种基于GNU通用公共许可证发布的开源软件,它包括实现多数数据挖掘任务所需要的工具集合。《数据挖掘与预测分析(第2版)》利用Weka 3.6开发动手实践、一步一步实例教程等,该软件可从本书的相关网站www.dataminingconsultant.com获得。读者可以使用Weka执行如下类型的分析:logistic回归(见第13章)、朴素贝叶斯分类(见第14章)、贝叶斯网络分类(见第14章)、遗传算法(见第27章)。有关Weka的更多信息可参考www.cs.waikato.ac.nz/ml/weka。作者非常感谢James Steck提供了大量的Weka实例和练习。James Steck(jame_steck@comcast.net)是2005年康涅狄格州州立中央大学最早获得数据挖掘学科硕士学位的学生之一,也是最早获得研究生学术研究奖的学生。

本书网站www.dataminingconsultant.com

读者可以获得由Daniel Larose和Chantal Larose撰写的、Wiley InterScience出版的数据挖掘书籍相关材料。通过该网站,或扫描本书封底的二维码,可以下载本书用到的大多数数据集,方便读者动手实践开发各种本书提到的分析方法和模型。网站还包括勘误表和比较完整的数据挖掘相关资源,涉及数据集链接、数据挖掘研究组链接以及相关的研究论文等。

然而,本网站真正强大的原因还在于可供讲授本书的教师使用,提供的资源包括:

● 所有练习的答案,包括动手实践分析。

● 各章的PPT,可方便教学工作。

● 示例数据挖掘课程项目,由作者亲自编写,可以在你的课程讲授中采用。

● 实际的数据集,可用于课程学习参考。

● 每章所涉及的网络资源。

作为教材的《数据挖掘与预测分析(第2版)》

《数据挖掘与预测分析(第2版)》自然适合作为1学期或2学期课程的课本,2学期课程内容可分为数据挖掘介绍和中级数据挖掘。教师在授课时可获得如下好处:

● 数据挖掘过程介绍。

● “白盒”方法,强调理解基本算法的结构:

?  利用玩具数据集讲授算法概览。

?  将算法应用于大型数据集。

?  超过300幅图、275张表。

?  包含750道章节练习和动手实践分析。

● 大量令人兴奋的新专题,例如基于数据驱动误分类开销的成本-效益分析。

● 详细的案例研究,有助于融会贯通前28章介绍的内容。

● 附录:数据汇总与可视化,包含读者可能比较生疏的统计和图形方面的概念综述。

● 对应Web网站,提供了上述内容详细的资源列表。

《数据挖掘与预测分析(第2版)》可作为本科高年级或研究生课程内容。若先有选修统计方面的课程更好,但并非必需。读者不需要具备计算机编程经验或数据库的专门知识。