图书目录

目    录

第1章  大数据基础 1

1.1  大数据概述 1

1.1.1  什么是大数据 1

1.1.2  大数据生态圈简介 2

1.1.3  大数据应用场景 2

1.1.4  数据与数据科学 3

1.2  大数据的特点 4

1.2.1  数据量大 5

1.2.2  数据类型繁多 6

1.2.3  处理速度快 7

1.2.4  价值密度低 7

1.3  大数据计算模式 8

1.3.1  批处理计算 8

1.3.2  流计算 8

1.3.3  图计算 9

1.3.4  查询分析计算 9

1.4  大数据产业结构 9

1.5  大数据常见应用 10

1.6  大数据、云计算与物联网 11

1.6.1  云计算 11

1.6.2  物联网 14

1.6.3  大数据、云计算及物联网的

关系 18

1.7  本章小结 19

习题 19

第2章  数据采集方法 20

2.1  大数据采集概述 20

2.1.1  大数据分类 20

2.1.2  数据库采集 22

2.2  系统日志采集 22

2.2.1  Flume基本概念 22

2.2.2  Flume使用方法 23

2.2.3  Flume应用案例 24

2.2.4  日志采集的目的 25

2.2.5  日志采集过程 26

2.3  网络数据采集方法 27

2.3.1  网络爬虫工作原理 28

2.3.2  网络爬虫工作流程 29

2.3.3  网页搜索策略 29

2.3.4  网页分析算法 33

2.3.5  网络爬虫框架 34

2.4  本章小结 35

习题 36

第3章  数据预处理 37

3.1  数据预处理研究现状 37

3.1.1  数据清洗的研究现状 37

3.1.2  数据规约的研究现状 38

3.2  数据集成和数据转换 40

3.2.1  数据集成 40

3.2.2  数据转换 40

3.3  数据清洗技术 42

3.3.1  数据缺失值的处理方法 42

3.3.2  噪声数据的处理方法 44

3.3.3  冗余数据的处理方法 46

3.3.4  数据格式与内容的

处理方法 46

3.3.5  数据消减 47

3.3.6  重复数据处理 48

3.4  数 据 规 约 48

3.4.1  维度规约 49

3.4.2  数据规约 50

3.5  数据清洗工具 50

3.6  本章小结 51

习题 51

第4章  主成分分析 52

4.1  主成分分析概述 52

4.1.1  基本思想 52

4.1.2 主成分分析法的基本原理 54

4.1.3  主成分分析的主要作用 55

4.1.4  主成分分析法的定义和导出 55

4.1.5 主要性质 56

4.1.6  主成分分析法优缺点 58

4.2  样本主成分分析 58

4.2.1  样本主成分的定义和性质 58

4.2.2 相关矩阵的特征值分解算法 60

4.2.3  应用案例:啤酒风味指标及

差异性 61

4.3  本章小结 65

习题 65

第5章  预测分析 66

5.1  概述 66

5.2  线性回归 69

5.2.1  什么是线性回归 70

5.2.2  建立模型基本形式 71

5.2.3  衡量预测值与真实值的距离 71

5.2.4  建立目标函数 72

5.2.5  评价指标 74

5.2.6  模型复杂度 76

5.3  Logistic回归 77

5.3.1  二分类逻辑回归模型 77

5.3.2  二分类Logistic回归训练 79

5.3.3  Logistic回归和softmax的

应用 81

5.4  决策树 81

5.4.1  决策树模型 82

5.4.2  决策树的训练 83

5.5  神经网络 87

5.5.1  生物神经元和人工神经元 87

5.5.2  感知机 88

5.5.3  BP神经网络 89

5.5.4  Sklearn中的神经网络 91

5.6  本章小结 92

习题 92

第6章  集成学习 93

6.1  集成学习概述 93

6.2  装袋法(Bagging) 94

6.2.1  Bagging集成策略 94

6.2.2  随机森林模型结构 95

6.2.3  随机森林训练算法 96

6.3  Boosting集成学习方法 97

6.4  集成学习的评估 98

6.5  本章小结 98

习题 99

第7章  预测模型评估 100

7.1  模型评估 100

7.2  数据集拆分 102

7.2.1  数据集的划分 102

7.2.2  数据集的划分方法 103

7.2.3  模型的拟合问题 104

7.3  分类模型的性能测算 104

7.4  模型性能指标 107

7.5  预测分析模型的其他性能测算

指标 108

7.6  本章小结 113

习题 113

第8章  描述性分析 114

8.1  概述 114

8.2  关联规则 114

8.2.1  关联规则概述 114

8.2.2  关联分析过程 116

8.2.3  Apriori算法 116

8.3  聚类 118

8.4  本章小结 118

习题 119

第9章  生存分析 120

9.1  概述 120

9.2  基本概念 120

9.3  生存分析研究的主要内容 122

9.4  Kaplan-Meier分析 123

9.5  比例风险回归 125

9.5.1  Cox比例风险回归分析的

基本原理 125

9.5.2  Cox回归模型的基本形式 126

9.5.3  Cox回归模型的建模假设 126

9.6  生存分析模型的扩展 127

9.7  本章小结 128

习题 128

第10章  社交网络分析 129

10.1  概述 129

10.2  社交网络定义 129

10.3  社交网络的本质 130

10.4  社交网络指标 130

10.5  社交网络学习 131

10.6  相关邻居分类器 133

10.6.1  KNN概述 133

10.6.2  KNN算法的决策过程 135

10.7  本章小结 139

习题 139

第11章  数据处理技术 140

11.1  合并数据集 140

11.1.1  索引合并 140

11.1.2  轴向连接 143

11.2  数据转换 147

11.2.1  移除重复数据 147

11.2.2  利用函数进行数据转换 148

11.2.3  替换值 149

11.2.4  重命名轴索引 150

11.2.5  离散化数据 150

11.2.6  检测异常值 152

11.2.7  排列和随机采样 153

11.2.8  哑变量 154

11.3  字符串操作 155

11.3.1  内置字符串方法 155

11.3.2  正则表达式 157

11.4  本章小结 160

习题 161

第12章  数据分析技术 162

12.1  NumPy工具包 162

12.1.1  创建数组 163

12.1.2  选择NumPy数组元素 163

12.1.3  NumPy的数值类型 164

12.1.4  切片 164

12.1.5  形状操作 165

12.1.6  复制和视图 168

12.1.7  NumPy实用技巧 169

12.2  Pandas工具包 170

12.2.1  Series 170

12.2.2  DataFrame 172

12.3  Scikit - Learn工具包 174

12.3.1  逻辑回归 174

12.3.2  朴素贝叶斯 175

12.3.3  决策树 175

12.3.4  支持向量机 177

12.3.5  优化算法参数 178

12.4  本章小结 186

习题 187

第13章  数据可视化技术 188

13.1  数据可视化简介 188

13.1.1  数据可视化的重要性 188

13.1.2  可视化的发展历程 188

13.1.3  数据可视化的过程 189

13.2  Matplotlib绘图 189

13.2.1  Matplotlib API入门 190

13.2.2  Figure和Subplot的

画图方法 194

13.2.3  调整子图(Subplot)周围的

间距 199

13.2.4  颜色、标记和线型的设置 199

13.2.5  刻度、标签和图例 200

13.3  Mayavi2绘图 202

13.3.1  使用mlab快速绘图 203

13.3.2  Mayavi嵌入界面中 204

13.4  其他图形化工具 207

13.5  本章小结 208

习题 208

第14章  Hadoop生态系统 209

14.1  Hadoop系统架构 209

14.2  HDFS(分布式文件系统) 210

14.2.1  HDFS体系结构 211

14.2.2  HDFS存储结构 213

14.2.3  数据容错与恢复 214

14.2.4  Hadoop安装 215

14.3  分布式存储架构 220

14.3.1  HBase系统架构 220

14.3.2  数据模型与存储模式 222

14.3.3  HBase数据读写 226

14.3.4  数据仓库工具Hive 228

14.3.5  HBase安装与配置 229

14.4  资源管理与作业调度 232

14.4.1  分布式协同管理组件

ZooKeeper 232

14.4.2  作业调度与工作流引擎

Oozie 234

14.4.3  集群资源管理框架YARN 235

14.5  本章小结 238

习题 238

第15章  互联网电商数据应用分析 239

15.1  电商流程管理分析 239

15.1.1  行业背景与业务问题 239

15.1.2  分析方法与过程 240

15.2  案例:电商用户行为与销售分析 243

15.2.1  案例准备 243

15.2.2  数据采集与存储 246

15.2.3  数据仓库与离线处理分析 248

15.2.4  实时计算与分析 249

15.2.5  任务调度与数据可视化 250

15.2.6  案例总结 251