首页 > 图书中心 > 大数据处理技术概论(微课版)

目录

目    录

第1章  大数据处理技术概述 1

1.1  对大数据的认知 1

1.1.1  从数据分析决策认识大数据

——啤酒与尿布案例 1

1.1.2  大数据的概念与发展 5

1.2  大数据技术与大数据处理技术 7

1.2.1  大数据技术架构 7

1.2.2  大数据处理技术 9

1.2.3  大数据处理流程 11

1.2.4  大数据技术生态 12

1.3  大数据处理技术构成 13

1.4  大数据分析的4种典型工具 15

1.5  大数据应用的未来发展趋势 16

课后练习题 16

第2章  大数据采集及预处理 18

2.1  大数据采集 18

2.1.1  大数据采集的概念 18

2.1.2  数据的分类 19

2.1.3  数据的来源 19

2.1.4  大数据采集方法分类 20

2.1.5  大数据采集的技术方法 20

2.2  数据存储——HDFS与CSV 21

2.2.1  分布式文件系统HDFS 21

2.2.2  HDFS文件转换 23

2.2.3  HDFS文件系统读写原理 27

2.2.4  CSV文件 28

2.3  大数据预处理 30

2.4  特征工程 32

2.4.1  特征工程的定义 33

2.4.2  特征工程处理流程 33

2.5  大数据采集及预处理主要工具示例 39

课后练习题 40

第3章  大数据分析概论 41

3.1  大数据分析的概念与方法 41

3.2  大数据分析流程 42

3.2.1  数据理解与提出问题 43

3.2.2  数据统计分析与挖掘 45

3.2.3  数据可视化 47

3.3  大数据分析的主要技术 48

3.3.1  深度学习 48

3.3.2  知识计算 50

3.4  大数据分析系统简介 50

3.4.1  大数据分析系统的构成 50

3.4.2  大数据分析系统应用 51

3.5  大数据分析的应用 51

课后练习题 52

第4章  大数据可视化 54

4.1  大数据可视化内容与过程 54

4.1.1  数据可视化与大数据

可视化 55

4.1.2  大数据可视化过程 55

4.2  大数据可视化工具 59

4.2.1  Tableau 59

4.2.2  ECharts 65

课后练习题 68

第5章  Hadoop概论 69

5.1  Hadoop简介 69

5.2  Hadoop的组成与架构 71

5.2.1  Hadoop组件 71

5.2.2  HDFS文件系统 73

5.2.3  HDFS文件系统的局限性与

高可用模式保障 80

5.2.4  HDFS文件系统操作实例

——shell命令 81

5.2.5  MapReduce 84

5.2.6  Hadoop排序 93

5.2.7  Yarn工作机制 95

5.2.8  Hadoop文件系统 96

5.3  Hadoop应用分析 102

5.3.1  Hadoop应用场景 102

5.3.2  Hadoop企业级应用 103

课后练习题 106

第6章  Common与Hadoop项目

源码结构 109

6.1  Common概述 110

6.2  Hadoop项目源码结构 111

6.3  Hadoop运行环境搭建 113

6.3.1  Hadoop的用户权限与集群操作常用命令 113

6.3.2  Hadoop运行环境搭建 115

6.4  Hadoop开源工具 123

课后练习题 125

第7章  MapReduce执行框架与

项目源码结构 126

7.1  MapReduce工作流程 127

7.1.1  MapReduce作业执行流程 127

7.1.2  MapReduce计算过程 130

7.2  MapReduce执行框架 132

7.3  Map和Reduce任务与工作流程 136

7.4  MapReduce项目源码结构 139

7.4.1  MapReduce作业 139

7.4.2  MapReduce项目源码结构 140

课后练习题 158

第8章  Hadoop数据库访问 159

8.1  数据库基础知识 160

8.1.1  对数据库的认识 160

8.1.2  数据库集群与分布式

数据库 161

8.2  NoSQL技术 162

8.2.1  NoSQL简介 162

8.2.2  NoSQL相关技术基础 163

8.2.3  NoSQL数据库 167

8.3  Hadoop数据库访问 169

8.4  典型的NoSQL工具——HBase 173

8.4.1  HBase数据库概况 173

8.4.2  HBase数据库的结构 173

8.4.3  HBase数据库系统架构与

工作机制 177

8.4.4  HBase数据库与BigTable

数据库的区别及HBase

数据库访问接口 183

课后练习题 184

第9章  Spark概论 187

9.1  Spark平台简介 187

9.2  Spark系统架构 190

9.2.1  Spark数据抽取运算模型 190

9.2.2  Spark生态系统及其处理

架构 191

9.3  Spark开发示例 194

9.4  Spark的应用 198

9.5  Spark在国内外的现状以及未来的

展望 201

课后练习题 202

第10章  云计算与大数据 203

10.1  云计算简介 204

10.2  云计算模型 205

10.3  云计算与大数据的关系 208

10.4  云计算核心技术 209

10.4.1  虚拟化技术 209

10.4.2  资源池化技术 213

10.5  云计算与大数据相关技术 215

课后练习题 218

第11章  一个离线大数据分析/挖掘

案例 219

11.1  案例综述 220

11.1.1  案例概况 220

11.1.2  案例采用的大数据处理

流程 220

11.1.3  案例采用的核心技术与

工具 221

11.2  案例需求分析 223

11.2.1  案例背景 223

11.2.2  功能性需求分析 223

11.2.3  非功能性需求分析 228

11.2.4  开发环境分析 228

11.3  案例系统设计 229

11.3.1  系统功能结构设计 229

11.3.2  数据库结构设计 229

11.3.3  系统动态建模 231

11.4  案例系统实现 238

11.4.1  数据处理 238

11.4.2  软件系统实现 246

参考文献 258

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘