目 录
第1章 大数据基础 1
1.1 大数据概述 1
1.1.1 什么是大数据 1
1.1.2 大数据生态圈简介 2
1.1.3 大数据应用场景 2
1.1.4 数据与数据科学 3
1.2 大数据的特点 4
1.2.1 数据量大 5
1.2.2 数据类型繁多 6
1.2.3 处理速度快 7
1.2.4 价值密度低 7
1.3 大数据计算模式 8
1.3.1 批处理计算 8
1.3.2 流计算 8
1.3.3 图计算 9
1.3.4 查询分析计算 9
1.4 大数据产业结构 9
1.5 大数据常见应用 10
1.6 大数据、云计算与物联网 11
1.6.1 云计算 11
1.6.2 物联网 14
1.6.3 大数据、云计算及物联网的
关系 18
1.7 本章小结 19
习题 19
第2章 数据采集方法 20
2.1 大数据采集概述 20
2.1.1 大数据分类 20
2.1.2 数据库采集 22
2.2 系统日志采集 22
2.2.1 Flume基本概念 22
2.2.2 Flume使用方法 23
2.2.3 Flume应用案例 24
2.2.4 日志采集的目的 25
2.2.5 日志采集过程 26
2.3 网络数据采集方法 27
2.3.1 网络爬虫工作原理 28
2.3.2 网络爬虫工作流程 29
2.3.3 网页搜索策略 29
2.3.4 网页分析算法 33
2.3.5 网络爬虫框架 34
2.4 本章小结 35
习题 36
第3章 数据预处理 37
3.1 数据预处理研究现状 37
3.1.1 数据清洗的研究现状 37
3.1.2 数据规约的研究现状 38
3.2 数据集成和数据转换 40
3.2.1 数据集成 40
3.2.2 数据转换 40
3.3 数据清洗技术 42
3.3.1 数据缺失值的处理方法 42
3.3.2 噪声数据的处理方法 44
3.3.3 冗余数据的处理方法 46
3.3.4 数据格式与内容的
处理方法 46
3.3.5 数据消减 47
3.3.6 重复数据处理 48
3.4 数 据 规 约 48
3.4.1 维度规约 49
3.4.2 数据规约 50
3.5 数据清洗工具 50
3.6 本章小结 51
习题 51
第4章 主成分分析 52
4.1 主成分分析概述 52
4.1.1 基本思想 52
4.1.2 主成分分析法的基本原理 54
4.1.3 主成分分析的主要作用 55
4.1.4 主成分分析法的定义和导出 55
4.1.5 主要性质 56
4.1.6 主成分分析法优缺点 58
4.2 样本主成分分析 58
4.2.1 样本主成分的定义和性质 58
4.2.2 相关矩阵的特征值分解算法 60
4.2.3 应用案例:啤酒风味指标及
差异性 61
4.3 本章小结 65
习题 65
第5章 预测分析 66
5.1 概述 66
5.2 线性回归 69
5.2.1 什么是线性回归 70
5.2.2 建立模型基本形式 71
5.2.3 衡量预测值与真实值的距离 71
5.2.4 建立目标函数 72
5.2.5 评价指标 74
5.2.6 模型复杂度 76
5.3 Logistic回归 77
5.3.1 二分类逻辑回归模型 77
5.3.2 二分类Logistic回归训练 79
5.3.3 Logistic回归和softmax的
应用 81
5.4 决策树 81
5.4.1 决策树模型 82
5.4.2 决策树的训练 83
5.5 神经网络 87
5.5.1 生物神经元和人工神经元 87
5.5.2 感知机 88
5.5.3 BP神经网络 89
5.5.4 Sklearn中的神经网络 91
5.6 本章小结 92
习题 92
第6章 集成学习 93
6.1 集成学习概述 93
6.2 装袋法(Bagging) 94
6.2.1 Bagging集成策略 94
6.2.2 随机森林模型结构 95
6.2.3 随机森林训练算法 96
6.3 Boosting集成学习方法 97
6.4 集成学习的评估 98
6.5 本章小结 98
习题 99
第7章 预测模型评估 100
7.1 模型评估 100
7.2 数据集拆分 102
7.2.1 数据集的划分 102
7.2.2 数据集的划分方法 103
7.2.3 模型的拟合问题 104
7.3 分类模型的性能测算 104
7.4 模型性能指标 107
7.5 预测分析模型的其他性能测算
指标 108
7.6 本章小结 113
习题 113
第8章 描述性分析 114
8.1 概述 114
8.2 关联规则 114
8.2.1 关联规则概述 114
8.2.2 关联分析过程 116
8.2.3 Apriori算法 116
8.3 聚类 118
8.4 本章小结 118
习题 119
第9章 生存分析 120
9.1 概述 120
9.2 基本概念 120
9.3 生存分析研究的主要内容 122
9.4 Kaplan-Meier分析 123
9.5 比例风险回归 125
9.5.1 Cox比例风险回归分析的
基本原理 125
9.5.2 Cox回归模型的基本形式 126
9.5.3 Cox回归模型的建模假设 126
9.6 生存分析模型的扩展 127
9.7 本章小结 128
习题 128
第10章 社交网络分析 129
10.1 概述 129
10.2 社交网络定义 129
10.3 社交网络的本质 130
10.4 社交网络指标 130
10.5 社交网络学习 131
10.6 相关邻居分类器 133
10.6.1 KNN概述 133
10.6.2 KNN算法的决策过程 135
10.7 本章小结 139
习题 139
第11章 数据处理技术 140
11.1 合并数据集 140
11.1.1 索引合并 140
11.1.2 轴向连接 143
11.2 数据转换 147
11.2.1 移除重复数据 147
11.2.2 利用函数进行数据转换 148
11.2.3 替换值 149
11.2.4 重命名轴索引 150
11.2.5 离散化数据 150
11.2.6 检测异常值 152
11.2.7 排列和随机采样 153
11.2.8 哑变量 154
11.3 字符串操作 155
11.3.1 内置字符串方法 155
11.3.2 正则表达式 157
11.4 本章小结 160
习题 161
第12章 数据分析技术 162
12.1 NumPy工具包 162
12.1.1 创建数组 163
12.1.2 选择NumPy数组元素 163
12.1.3 NumPy的数值类型 164
12.1.4 切片 164
12.1.5 形状操作 165
12.1.6 复制和视图 168
12.1.7 NumPy实用技巧 169
12.2 Pandas工具包 170
12.2.1 Series 170
12.2.2 DataFrame 172
12.3 Scikit - Learn工具包 174
12.3.1 逻辑回归 174
12.3.2 朴素贝叶斯 175
12.3.3 决策树 175
12.3.4 支持向量机 177
12.3.5 优化算法参数 178
12.4 本章小结 186
习题 187
第13章 数据可视化技术 188
13.1 数据可视化简介 188
13.1.1 数据可视化的重要性 188
13.1.2 可视化的发展历程 188
13.1.3 数据可视化的过程 189
13.2 Matplotlib绘图 189
13.2.1 Matplotlib API入门 190
13.2.2 Figure和Subplot的
画图方法 194
13.2.3 调整子图(Subplot)周围的
间距 199
13.2.4 颜色、标记和线型的设置 199
13.2.5 刻度、标签和图例 200
13.3 Mayavi2绘图 202
13.3.1 使用mlab快速绘图 203
13.3.2 Mayavi嵌入界面中 204
13.4 其他图形化工具 207
13.5 本章小结 208
习题 208
第14章 Hadoop生态系统 209
14.1 Hadoop系统架构 209
14.2 HDFS(分布式文件系统) 210
14.2.1 HDFS体系结构 211
14.2.2 HDFS存储结构 213
14.2.3 数据容错与恢复 214
14.2.4 Hadoop安装 215
14.3 分布式存储架构 220
14.3.1 HBase系统架构 220
14.3.2 数据模型与存储模式 222
14.3.3 HBase数据读写 226
14.3.4 数据仓库工具Hive 228
14.3.5 HBase安装与配置 229
14.4 资源管理与作业调度 232
14.4.1 分布式协同管理组件
ZooKeeper 232
14.4.2 作业调度与工作流引擎
Oozie 234
14.4.3 集群资源管理框架YARN 235
14.5 本章小结 238
习题 238
第15章 互联网电商数据应用分析 239
15.1 电商流程管理分析 239
15.1.1 行业背景与业务问题 239
15.1.2 分析方法与过程 240
15.2 案例:电商用户行为与销售分析 243
15.2.1 案例准备 243
15.2.2 数据采集与存储 246
15.2.3 数据仓库与离线处理分析 248
15.2.4 实时计算与分析 249
15.2.5 任务调度与数据可视化 250
15.2.6 案例总结 251
