首页 > 图书中心 > Python商业数据挖掘(第6版)

前言

前  言

本书最早出版于2007年年初,已被众多学生、从业人员和任课老师采用,包括我本人,在过去15 年里,在线授课和面对面授课都以本书为重要参考书。本书的第1 版是基于Excel 加载项(加载程序是Analytic Solver Data Mining,早先的名称是XLMiner)的,此后不断推出JMP 版本、R 版本和现在的Python 版本,并推出了本书的合作站点——www.dataminingbook.com。

新推出的Python 版本使用了免费开源的Python 程序设计语言。本书提供了Python 程序的输出结果以及生成这些结果的代码,也包含相关程序包和函数的使用说明,其中的核心是scikit-learn 包。不同于计算机科学教材或统计学教材,本书的重点在于数据挖掘的基本概念以及如何用Python 实现相关算法。我们假设读者基本熟悉Python 语言。

对于新推出的Python 版本,增加了另一位共同作者——Peter Gedeck,他在商业领域里具有丰富的数据科学经验。除了提供Python 代码和输出结果外,本书也增加了最新内容和反馈意见。这些意见来自教授MBA 课程、MS 课程、本科生课程、文凭课程和经理人培训课程的老师及学生。最重要的是,本书首次引入了有关数据伦理的内容(详见2.9 节)。

本书还包含原书第3 版新增的如下内容:

● 社交网络分析

● 文本挖掘

● 集成方法

● 增益模型协同过滤

自第2 版开始(基于Analytic Solver),以本书为教材的课程大量增加。最初,本书主要用于一学期的MBA 选修课,现在已被用在许多商业分析学位课的教学大纲里和证书课程的教学计划里。从本科生教学计划到研究生和经理人培训计划,这些项目里的课程、时间长短不一,深浅不同。在很多情形

下,本书可用在多门课程里。本书的设计思想是继续支持通用的“预测分析”或“数据挖掘”课程,但是也支持专用的商业分析教学大纲。

在专用的商业分析教学大纲中,以下课程曾使用本书。

● 预测分析——监督学习:在专用的商业分析项目里,对于预测分析主题,通常包括一系列课程。第一门课程包括本书的第Ⅰ部分至第Ⅳ部分内容。教授这门课程的老师通常根据课时适当地选择第Ⅳ部分的内容。在这类课程中,建议包括第13 章的集成学习和第Ⅶ部分的数据分析。

● 预测分析——无监督学习:本课程介绍数据探索和可视化、降维、挖掘关系和聚类(第Ⅲ部分和第Ⅴ部分)。如果这门课程也按照“预测分析——监督学习”课程的教学计划,那么有必要分析综合应用无监督学习和监督学习的例子和方法。

● 预测分析:专门用于时间序列预测的课程需要用到第Ⅵ部分的内容。

● 高级分析:本课程综合了全部的预测分析内容(包括监督学习和无监督学习)。这门课程的重点应放在第Ⅶ部分。这部分包含了社交网络分析和文本挖掘。有的老师也会在这类课程中选择第21 章中的案例。

在以上所有课程中,我们强烈建议增加课程设计项目,要求学生自己收集数据,或利用老师提供的数据(例如,现在有很多供数据挖掘使用的数据集)。根据我们和其他老师的经验,这些项目可让学生巩固所学的知识,并且能给学生提供一个机会,以便更好地理解数据挖掘的强大功能以及在挖掘过程中遇到的问题。

——Galit Shmueli、Peter C. Bruce、Peter Gedeck 和Nitin R. Patel

2019 年

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘