图书目录

第1章大数据技术概述1

1.1大数据产品诞生1

1.2什么是大数据2

1.3大数据解决的问题场景4

1.4大数据与Google5

习题17

第2章计算广告介绍与课程应用实践8

2.1计算广告8

2.1.1互联网广告介绍8

2.1.2互联网广告效果评估9

2.1.3如何计算10

2.1.4计算广告系统11

2.2应用实践12

2.2.1应用实践数据12

2.2.2CTR预测13

2.2.3项目实践1: 了解应用实践数据14

2.2.4项目实践2: 实践环境搭建14

习题215

第3章大数据采集与处理16

3.1网络爬虫16

3.1.1网络爬虫介绍16

3.1.2构建一个网络爬虫的实践经验17

3.1.3HTTP介绍18

3.1.4网页解析与CSS选择器20

3.1.5项目实践3: 抓取网页并提取标题和正文21

3.2Apache Kafka253.2.1系统架构25

3.2.2消息、主题和Schema26

3.2.3分区26

3.2.4生产者与消费者27

3.2.5代理31

3.2.6Kafka关键特性32

3.2.7项目实践4: 通过Kafka进行数据处理34

3.2.8构建一个真实数据通道需要考虑的问题37

3.3ETL、Apache Flume和其他框架39

3.3.1ETL39

3.3.2Apache Flume41

3.3.3其他大数据采集处理框架42

习题345

〖3〗大数据分析技术与应用实践目录〖3〗第4章大数据存储与查询46

4.1HDFS46

4.1.1从设计一个分布式系统开始46

4.1.2HDFS的架构设计48

4.1.3NameNode和DataNode51

4.1.4文件系统的名字空间52

4.1.5数据块53

4.1.6数据复制53

4.1.7文件系统元数据的持久性55

4.1.8HDFS中的文件访问权限56

4.1.9稳健性56

4.1.10文件读取剖析57

4.1.11文件写入剖析59

4.1.12文件压缩60

4.1.13项目实践5: 应用HDFS存储实践数据61

4.2HBase64

4.2.1HBase的系统架构64

4.2.2HBase的数据模型65

4.2.3HBase数据写入与存储67

4.2.4预写日志68

4.2.5HBase过滤器68

4.2.6HBase的应用场景70

4.2.7HBase与传统关系数据库的区别71

4.2.8项目实践6: 使用HBase管理用户数据71

习题475

第5章大数据计算与分析76

5.1Hadoop & MapReduce76

5.1.1用MapReduce解决一个问题77

5.1.2MapReduce模型79

5.1.3Hadoop中的MapReduce80

5.1.4Hadoop Streaming81

5.1.5MapReduce作业运行机制89

5.1.6Hadoop Shuffle92

5.1.7项目实践7: 使用MapReduce构造特征98

5.2Hive106

5.2.1Hive架构106

5.2.2Hive的数据模型108

5.2.3Hive表109

5.2.4存储格式110

5.2.5项目实践8: 使用Hive管理实践数据112

5.3Tez113

5.3.1Tez数据引擎114

5.3.2DAG114

5.3.3Tez的其他优化116

5.4特征工程116

5.4.1特征工程概述116

5.4.2特征提取117

5.4.3特征预处理121

5.4.4特征选择123

5.4.5特征降维125

习题5126

第6章Spark和机器学习127

6.1Spark127

6.1.1Spark设计理念127

6.1.2Spark RDD128

6.1.3Spark应用架构128

6.1.4项目实践9: 开始使用Spark130

6.1.5DataFrame、Dataset、Schema133

6.1.6项目实践10: 使用Spark DataFrame了解数据133

6.1.7Spark SQL134

6.1.8结构化API执行过程141

6.1.9Spark RDD存储结构实现原理143

6.1.10Spark RDD 算子144

6.1.11Shuffle147

6.1.12RDD Persistence149

6.1.13Spark 失败重试151

6.1.14闭包——变量的范围和生命周期151

6.1.15项目实践11: 使用Spark处理实践数据154

6.2机器学习理论166

6.2.1回归分析166

6.2.2聚类分析169

6.2.3分类分析172

6.2.4机器学习测试177

6.3从图像分类上详解机器学习技术181

6.4Spark机器学习192

6.4.1Spark机器学习流程193

6.4.2Spark机器学习举例195

6.4.3Parameter Server的分布式计算方法196

6.4.4项目实践12: 使用Spark ML库进行CTR预测204

习题6206

第7章数据可视化207

7.1数据可视化简介207

7.1.1可视化的挑战与发展趋势208

7.1.2Python可视化工具210

7.2Matplotlib211

7.2.1Matplotlib简介211

7.2.2项目实践13: 使用Matplotlib对数据进行简单可视化211

7.3tSNE高维数据可视化216

7.3.1tSNE基本原理217

7.3.2tSNE推导过程217

7.3.3tSNE的实质218

7.3.4项目实践14: 用Matplotlib和tSNE可视化实验效果219

习题7221