图书目录

目    录

第1篇  准    备

第1章  了解Hadoop和Spark 2

1.1  什么是大数据处理 2

1.1.1  大数据概述 2

1.1.2  数据处理的挑战 4

1.2  为什么选择Hadoop和Spark 5

1.2.1  Hadoop的优势 5

1.2.2  Spark的优势 6

1.3  典型的大数据应用案例 8

1.3.1  行业应用案例 8

1.3.2  成功案例分析 10

1.4  Hadoop和Spark的设计理念 12

1.4.1  设计初衷 12

1.4.2  解读Hadoop和Spark的特性 13

1.5  本章小结 15

第2章  快速搭建Hadoop和Spark学习环境 16

2.1  Hadoop简介 16

2.1.1  起源与发展 16

2.1.2  核心组件介绍 17

2.2  基础环境的安装与配置 19

2.2.1  基础软件下载 19

2.2.2  实例:Linux操作系统的安装与配置 20

2.2.3  实例:SSH的安装与配置 22

2.2.4  实例:Java运行环境的安装与配置 24

2.2.5  实例:安装与配置Zookeeper 26

2.3  Hadoop和Spark环境搭建 30

2.3.1  实例:Hadoop环境搭建 31

2.3.2  实例:Spark环境搭建 46

2.4  Hadoop MapReduce基础 48

2.4.1  MapReduce编程模型之Map阶段 48

2.4.2  MapReduce编程模型之Reduce阶段 49

2.5  本章小结 51

2.6  习题 51

第2篇  入    门

第3章  Hadoop高级特性 54

3.1  HDFS架构深度解析 54

3.1.1  HDFS架构 54

3.1.2  数据块管理 56

3.1.3  命名空间 57

3.1.4  数据一致性 58

3.2  YARN调度器与资源管理 60

3.2.1  YARN基本原理 60

3.2.2  资源分配策略 62

3.3  Hadoop数据安全性 63

3.3.1  安全策略概述 64

3.3.2  Kerberos认证 65

3.4  Hadoop性能调优 68

3.4.1  集群性能监控 68

3.4.2  参数调优指南 69

3.5  Hadoop实战案例 71

3.5.1  实际问题解决 71

3.5.2  最佳实践分享 73

3.6  本章小结 77

3.7  习题 77

第4章  Spark基础特性 78

4.1  Spark简介 78

4.1.1  Spark发展历程 78

4.1.2  Spark核心思想 79

4.2  Spark核心组件 80

4.2.1  Spark Core 81

4.2.2  Spark SQL 83

4.3  Spark基本数据结构 85

4.3.1  RDD概述 85

4.3.2  DataFrame和DataSet介绍 88

4.4  内存管理 96

4.4.1  内存分配策略 96

4.4.2  内存回收机制 101

4.5  本章小结 104

4.6  习题 104

第5章  Spark高级特性 105

5.1  Spark SQL与结构化数据处理 105

5.1.1  使用Spark SQL进行数据查询和分析 105

5.1.2  Spark SQL数据类型与函数使用 109

5.2  Spark Streaming与实时数据处理 117

5.2.1  Spark Streaming的基本概念与架构 117

5.2.2  Spark Streaming与Kafka的集成与应用 122

5.3  Spark MLlib与机器学习 124

5.3.1  Spark MLlib的常用算法与应用场景 125

5.3.2  Spark MLlib与TensorFlow的比较与集成 132

5.4  Spark GraphX与图计算 134

5.4.1  图计算的基本概念与Spark GraphX的架构 134

5.4.2  Spark GraphX的常用算法与图数据处理 140

5.5  本章小结 147

5.6  习题 147

第6章  大数据安全 148

6.1  大数据安全性挑战 148

6.1.1  大数据安全的重要性 148

6.1.2  Hadoop与Spark安全特性 149

6.2  Hadoop安全架构 151

6.2.1  Hadoop安全模型 152

6.2.2  HDFS与YARN的安全机制 153

6.3  Spark安全实践 155

6.3.1  Spark的安全配置 155

6.3.2  Spark应用程序的访问控制 158

6.4  数据加密与隐私保护 164

6.5  身份认证与授权 174

6.6  本章小结 176

6.7  习题 176

第3篇  进    阶

第7章  数据采集与清洗 178

7.1  Hadoop数据采集 178

7.1.1  数据源与采集工具 178

7.1.2  Hadoop数据采集流程与案例 181

7.2  Spark数据采集 185

7.2.1  Spark数据源接入方式 185

7.2.2  Spark数据采集的实践与优化 193

7.3  Hadoop数据清洗 197

7.3.1  数据清洗的基本概念与策略 197

7.3.2  使用MapReduce进行数据清洗 198

7.4  Hadoop与Spark数据处理对比 202

7.5  本章小结 204

7.6  习题 204

第8章  数据存储与管理 205

8.1  大数据存储架构 205

8.1.1  存储架构的演变 205

8.1.2  存储架构选择指南 207

8.2  存储格式与压缩 214

8.2.1  数据格式比较 214

8.2.2  压缩算法分析 216

8.3  数据分区与分桶 217

8.3.1  数据分区 218

8.3.2  数据分桶 226

8.4  数据仓库设计 229

8.5  本章小结 231

8.6  习题 232

第9章  数据分析与挖掘 233

9.1  大数据分析 233

9.2  数据挖掘算法 237

9.2.1  数据挖掘算法的分类与应用场景 237

9.2.2  常见的大数据挖掘算法及其实现原理 239

9.3  特征工程 250

9.3.1  特征提取与构建 251

9.3.2  特征类型与数据分析方法 252

9.4  本章小结 256

9.5  习题 257

第10章  实时数据处理 258

10.1  实时处理概念 258

10.1.1  实时数据处理的定义 258

10.1.2  实时数据处理与批处理对比 260

10.2  Spark Streaming 262

10.2.1  DStream概述 263

10.2.2  实时数据处理模型 266

10.3  实时数据处理工具比较 271

10.3.1  Spark与Flink对比分析 271

10.3.2  Kafka实时计算引擎选型实践 275

10.4  本章小结 284

10.5  习题 284

第4篇  项 目 实 战

第11章  一站式数据分析系统设计与实现 286

11.1  大数据分析系统 286

11.1.1  大数据分析系统的价值 286

11.1.2  大数据分析系统的目的 287

11.1.3  大数据分析系统的应用场景 288

11.2  大数据分析系统架构 289

11.2.1  大数据分析系统的体系架构 289

11.2.2  设计大数据分析系统的核心模块 291

11.3  实现大数据分析系统 292

11.3.1  数据采集 292

11.3.2  数据存储 295

11.3.3  数据分析 302

11.3.4  数据服务 304

11.4  本章小结 306

11.5  习题 306

第12章  ChatGPT赋能Hadoop与Spark大数据分析 307

12.1  ChatGPT与大数据的智能融合探索 307

12.1.1  ChatGPT全面解析 307

12.1.2  ChatGPT在大数据分析中的角色 313

12.2  构建智能化的大数据处理引擎 316

12.2.1  ChatGPT与Spark的集成实现 316

12.2.2  ChatGPT与Spark应用案例分析 320

12.3  ChatGPT与Spark数据分析与挖掘实践 324

12.3.1  ChatGPT与Spark技术整合 324

12.3.2  ChatGPT在Spark数据分析中的应用 326

12.4  本章小结 328

12.5  习题 328