目录
目 录
第1章 大数据处理技术概述 1
1.1 对大数据的认知 1
1.1.1 从数据分析决策认识大数据
——啤酒与尿布案例 1
1.1.2 大数据的概念与发展 5
1.2 大数据技术与大数据处理技术 7
1.2.1 大数据技术架构 7
1.2.2 大数据处理技术 9
1.2.3 大数据处理流程 11
1.2.4 大数据技术生态 12
1.3 大数据处理技术构成 13
1.4 大数据分析的4种典型工具 15
1.5 大数据应用的未来发展趋势 16
课后练习题 16
第2章 大数据采集及预处理 18
2.1 大数据采集 18
2.1.1 大数据采集的概念 18
2.1.2 数据的分类 19
2.1.3 数据的来源 19
2.1.4 大数据采集方法分类 20
2.1.5 大数据采集的技术方法 20
2.2 数据存储——HDFS与CSV 21
2.2.1 分布式文件系统HDFS 21
2.2.2 HDFS文件转换 23
2.2.3 HDFS文件系统读写原理 27
2.2.4 CSV文件 28
2.3 大数据预处理 30
2.4 特征工程 32
2.4.1 特征工程的定义 33
2.4.2 特征工程处理流程 33
2.5 大数据采集及预处理主要工具示例 39
课后练习题 40
第3章 大数据分析概论 41
3.1 大数据分析的概念与方法 41
3.2 大数据分析流程 42
3.2.1 数据理解与提出问题 43
3.2.2 数据统计分析与挖掘 45
3.2.3 数据可视化 47
3.3 大数据分析的主要技术 48
3.3.1 深度学习 48
3.3.2 知识计算 50
3.4 大数据分析系统简介 50
3.4.1 大数据分析系统的构成 50
3.4.2 大数据分析系统应用 51
3.5 大数据分析的应用 51
课后练习题 52
第4章 大数据可视化 54
4.1 大数据可视化内容与过程 54
4.1.1 数据可视化与大数据
可视化 55
4.1.2 大数据可视化过程 55
4.2 大数据可视化工具 59
4.2.1 Tableau 59
4.2.2 ECharts 65
课后练习题 68
第5章 Hadoop概论 69
5.1 Hadoop简介 69
5.2 Hadoop的组成与架构 71
5.2.1 Hadoop组件 71
5.2.2 HDFS文件系统 73
5.2.3 HDFS文件系统的局限性与
高可用模式保障 80
5.2.4 HDFS文件系统操作实例
——shell命令 81
5.2.5 MapReduce 84
5.2.6 Hadoop排序 93
5.2.7 Yarn工作机制 95
5.2.8 Hadoop文件系统 96
5.3 Hadoop应用分析 102
5.3.1 Hadoop应用场景 102
5.3.2 Hadoop企业级应用 103
课后练习题 106
第6章 Common与Hadoop项目
源码结构 109
6.1 Common概述 110
6.2 Hadoop项目源码结构 111
6.3 Hadoop运行环境搭建 113
6.3.1 Hadoop的用户权限与集群操作常用命令 113
6.3.2 Hadoop运行环境搭建 115
6.4 Hadoop开源工具 123
课后练习题 125
第7章 MapReduce执行框架与
项目源码结构 126
7.1 MapReduce工作流程 127
7.1.1 MapReduce作业执行流程 127
7.1.2 MapReduce计算过程 130
7.2 MapReduce执行框架 132
7.3 Map和Reduce任务与工作流程 136
7.4 MapReduce项目源码结构 139
7.4.1 MapReduce作业 139
7.4.2 MapReduce项目源码结构 140
课后练习题 158
第8章 Hadoop数据库访问 159
8.1 数据库基础知识 160
8.1.1 对数据库的认识 160
8.1.2 数据库集群与分布式
数据库 161
8.2 NoSQL技术 162
8.2.1 NoSQL简介 162
8.2.2 NoSQL相关技术基础 163
8.2.3 NoSQL数据库 167
8.3 Hadoop数据库访问 169
8.4 典型的NoSQL工具——HBase 173
8.4.1 HBase数据库概况 173
8.4.2 HBase数据库的结构 173
8.4.3 HBase数据库系统架构与
工作机制 177
8.4.4 HBase数据库与BigTable
数据库的区别及HBase
数据库访问接口 183
课后练习题 184
第9章 Spark概论 187
9.1 Spark平台简介 187
9.2 Spark系统架构 190
9.2.1 Spark数据抽取运算模型 190
9.2.2 Spark生态系统及其处理
架构 191
9.3 Spark开发示例 194
9.4 Spark的应用 198
9.5 Spark在国内外的现状以及未来的
展望 201
课后练习题 202
第10章 云计算与大数据 203
10.1 云计算简介 204
10.2 云计算模型 205
10.3 云计算与大数据的关系 208
10.4 云计算核心技术 209
10.4.1 虚拟化技术 209
10.4.2 资源池化技术 213
10.5 云计算与大数据相关技术 215
课后练习题 218
第11章 一个离线大数据分析/挖掘
案例 219
11.1 案例综述 220
11.1.1 案例概况 220
11.1.2 案例采用的大数据处理
流程 220
11.1.3 案例采用的核心技术与
工具 221
11.2 案例需求分析 223
11.2.1 案例背景 223
11.2.2 功能性需求分析 223
11.2.3 非功能性需求分析 228
11.2.4 开发环境分析 228
11.3 案例系统设计 229
11.3.1 系统功能结构设计 229
11.3.2 数据库结构设计 229
11.3.3 系统动态建模 231
11.4 案例系统实现 238
11.4.1 数据处理 238
11.4.2 软件系统实现 246
参考文献 258