数据挖掘与预测分析(第2版)
由数据挖掘专家执笔,提供了从数据准备到探索新数据分析、数据建模及模型评估等整个数据分析过程的内容

作者:[美]Daniel T. Larose,Chantal D. Larose 著 王念滨 宋敏 裴大茗 译

丛书名:数据科学与大数据技术

定价:198元

印次:1-7

ISBN:9787302459873

出版日期:2017.02.01

印刷日期:2024.01.25

图书责编:王军

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

通过做数据分析学习数据分析   《数据挖掘与预测分析(第2版)》提供了从数据准备到探索性数据分析、数据建模及模型评估等整个数据分析过程的内容。《数据挖掘与预测分析(第2版)》不仅提供了理解软件底层算法的“白盒”方法,而且提供了能够使读者利用现实世界数据集开展数据挖掘与预测分析的应用方法。 第2版的新内容: ● 添加了500多页的新内容,包括20个新章节,例如,数据建模准备、成本-效益分析、缺失数据填充、聚类优劣度量以及细分模型等。 ● 针对前沿主题的新章节,例如,多元分类模型、BIRCH聚类、集成学习(bagging及boosting)、模型投票与趋向平均等。 ● 每章节后均附有R语言开发园地,读者可以获得完成书中分析所需的R语言源代码,以及通过R代码生成的图、表和结果。 ● 书中的附录为那些对统计基础生疏的读者提供了了解基本概念的材料。 ● 超过750个章节练习,使读者能够自己测试对所学知识的掌握程度,并着手开展数据挖掘与预测分析工作。   《数据挖掘与预测分析(第2版)》将对数据分析人员、数据库分析人员以及CIO具有极大的吸引力,通过学习将使他们知道何种类型的分析将会增加其投资回报。

Daniel T. Larose博士,美国中康涅狄格州立大学数学科学教授,数据挖掘项目负责人。出版与数据挖掘、Web挖掘和统计理论等相关论著多本。他也是《微软》、《福布斯》杂志以及《经济学人》杂志等数据挖掘与统计分析领域的顾问。Chantal D. Larose是美国康涅狄格大学的在读博士。其研究领域包括缺失数据填补以及基于模型的聚类等。她已获得美国新帕尔兹纽约州立大学商学院决策科学领域助理教授的职位。

什么是数据挖掘?什么是预测分析 数据挖掘是从大型数据集合中发现有用的模式和趋势的过程。 预测分析是从大型数据集合中抽取信息以便对未来的情况做出预测和估计的过程。 由Daniel Larose 和 Chantal Larose合著的《数据挖掘与预测分析(第2版)》一书能够确保读者成为这一前沿且大有前途的领域的专家。 为什么需要本书 根据MarketsandMarkets研究公司的调查,从2013年~2018年,全球大数据市场有望以每年26%的速度增长,将从2013年的148.7亿美元增加到2018年的463.4亿美元 。世界范围内的公司和团体正在学习如何应用数据挖掘和预测分析以增加利润。尚未应用数据挖掘和预测分析的公司将会在21世纪经济的全球竞争中落伍。 在大多数领域中,人类都被数据所淹没。遗憾的是,这些花费庞大成本收集得到的数据多数都被遗弃在数据仓库中。问题是,缺乏足够的、受过良好训练的、具备将这些数据转换为人类需要的知识并就此将分类树转换为智慧的分析人员。这也是编写本书的目的所在。 McKinsey Global Institute报告指出 : 公司在利用大数据的技能需求方面将会存在人才短缺现象。从大数据中获取价值的制约主要体现在缺乏必要的人才,特别是缺乏那些掌握统计和机器学习专门知识的人才,缺乏能够使用从大数据中获取的见识来运营公司的管理人员和分析人员。我们认为对大数据世界开展分析工作的职位比目前能够提供的缺少大约140 000~190 000个。此外,我们认为在美国额外还将需要150万位能够提出正确问题并能够有效利用大数据分析结果的管理和分析人员。 本书...

目录
荐语
查看详情 查看详情
第Ⅰ部分  数据准备

第1章  数据挖掘与预测分析概述 3

1.1  什么是数据挖掘和预测分析 3

1.2  需求:数据挖掘技术人员 4

1.3  数据挖掘离不开人的参与 5

1.4  跨行业数据挖掘标准过程:

CRISP-DM 6

1.5  数据挖掘的谬误 8

1.6  数据挖掘能够完成的任务 9

1.6.1  描述 9

1.6.2  评估 10

1.6.3  预测 11

1.6.4  分类 11

1.6.5  聚类 13

1.6.6  关联 14

R语言开发园地 15

R参考文献 16

练习  16

第2章  数据预处理 17

2.1  需要预处理数据的原因 17

2.2  数据清理 18

2.3  处理缺失数据 19

2.4  识别错误分类 22

2.5  识别离群值的图形方法 22

2.6  中心和散布度量 24

2.7  数据变换 26

2.8  min-max规范化 26

2.9  Z-score标准化 27

2.10  小数定标规范化 28

2.11  变换为正态数据 28

2.12  识别离群值的数值方法 34

2.13  标志变量 35

2.14  将分类变量转换为数值变量 35

2.15  数值变量分箱 36

2.16  对分类变量重新划分类别 37

2.17  添加索引字段 37

2.18  删除无用变量 38

2.19  可能不应该删除的变量 38

2.20  删除重复记录 39

2.21  ID字段简述 39

R语言开发园地 39

R参考文献 45

练习  45

第3... 查看详情

本书提出的方法和技术全面、深入,几乎涵盖了当前应用中常见的各类挖掘与分析方法。对方法的介绍从概念、算法、评价等部分着手,深入浅出地加以介绍。在介绍方法的章节中增加了R语言开发园地,帮助读者利用R语言开展实际设计和开发工作,获得章节中涉及内容的结果,便于读者掌握所学内容。 查看详情