图书目录

目录

第1篇: 大数据理论基础

第1章大数据分析概述3

1.1什么是大数据3

1.1.1大数据的起源与发展3

1.1.2大数据的4V特点4

1.1.3大数据与云计算5

1.1.4大数据与人工智能6

1.1.5大数据的典型应用场景6

1.2大数据分析技术体系7

1.2.1大数据分析基础框架7

1.2.2大数据处理过程10

1.2.3大数据分析应用13

1.2.4大数据可视化15

1.2.5大数据安全与治理18

1.3大数据处理的技术体系21

本章小结23

思考题24第2章主流大数据处理框架25

2.1Hadoop生态系统简介25

2.1.1Hadoop起源和特点25

2.1.2Hadoop架构与核心部件26

2.1.3Hadoop的版本选择27

2.2Spark处理框架28

2.2.1Spark的起源和特点28

2.2.2弹性分布式数据集——RDD29

2.2.3Spark的生态圈31

2.3流处理框架Storm34

2.3.1Storm的起源和应用场景34

2.3.2Storm的架构和原理特性34

2.3.3Hadoop、Spark和Storm的对比35

2.4大数据处理框架36

2.4.1Oracle大数据处理框架36

2.4.2IBM大数据处理框架38

2.4.3SAP Hana大数据处理框架39

2.4.4Teradata大数据处理框架40

2.4.5大数据框架之间的对比42

本章小结42

思考题43第3章大数据分析算法基础44

3.1大数据分析简介44

3.2机器学习算法45

3.2.1回归分析45

3.2.2分类分析46

3.2.3集成学习54

3.3深度学习基础与神经网络模型58

3.3.1深度学习58

3.3.2人工神经网络59

3.3.3激活函数69

3.4常用数据分析工具71

3.4.1Mahout71

3.4.2Hive72

本章小结73

思考题73

第2篇: 大数据配置与环境搭建

第4章大数据分析环境搭建77

4.1操作系统与环境需求77

4.1.1Linux简介77

4.1.2Linux安装78

4.2Hadoop集群配置与部署86

4.2.1安装环境准备86

4.2.2安装CM95

4.2.3安装CDH98

4.3Spark环境配置105

4.4数据库与数据存储配置109

4.4.1Hive数据仓库109

4.4.2Hbase数据库110

本章小结114

思考题114第5章大数据可视化技术115

5.1可视化技术简介115

5.2数据可视化技术119

5.2.1文本数据可视化119

5.2.2网络数据可视化127

5.2.3时空数据可视化128

5.2.4多维数据可视化129

5.3常用的可视化工具131

5.3.1Tableau131

5.3.2ECharts133

5.3.3R语言135

5.3.4GeoFlow137

本章小结138

思考题138

第3篇: 实践案例分析

第6章微博热点与情感分析案例实践141

6.1数据采集与预处理141

6.1.1数据集说明141

6.1.2数据质量及统计分析142

6.2数据分析算法介绍142

6.2.1DBSCAN算法142

6.2.2DFA算法145

6.2.3TFIDF算法146

6.2.4TextRank算法146

6.3数据分析算法应用147

6.3.1城市热点区域分析147

6.3.2情感倾向分析149

6.3.3热点主题分析151

6.3.4敏感词监控152

本章小结155

思考题156第7章基于协同过滤的新闻推荐系统157

7.1推荐系统基础157

7.2协同过滤算法实现160

7.2.1基于浏览喜好的推荐算法160

7.2.2基于标签的推荐算法162

7.3系统设计与实现165

7.3.1新闻推荐系统界面实现165

7.3.2新闻推荐系统关键代码说明168

本章小结170

思考题170第8章基于图神经网络的电影数据分析及可视化实践171

8.1数据获取与处理171

8.1.1数据爬取分析与实现171

8.1.2数据处理178

8.1.3数据爬取代码分析181

8.2电影数据分析案例182

8.2.1归纳协同过滤182

8.2.2数据集划分183

8.2.3矩阵分解185

8.2.4推荐模型实现186

8.3可视化设计与实现189

8.3.1系统可视化数据设计189

8.3.2系统可视化结果演示190

本章小结194

思考题195第9章基于知识图谱的人物关系分析196

9.1知识图谱基础196

9.2人物关系数据获取与处理197

9.2.1人物关系数据爬取197

9.2.2利用Pandas进行关系的对称填补198

9.3关系查询与最短关系路径的计算201

9.3.1Neo4j201

9.3.2Cypher203

9.3.3关系查询的具体实现203

9.3.4最短关系路径计算203

9.4问答系统分类模型设计205

9.4.1系统整体架构设计205

9.4.2模块说明206

本章小结210

思考题210第10章基于大数据的新闻评论情感分析系统实践211

10.1新闻评论数据获取与处理211

10.2情感分析算法应用213

10.2.1训练集介绍213

10.2.2数据预处理213

10.2.3TextCNN神经网络215

10.2.4模型训练流程216

10.3系统设计与实现217

10.3.1大数据后端架构217

10.3.2大数据前端搭建219

10.4系统界面展示222

10.4.1后端管理界面展示222

10.4.2前端可视化界面展示226

本章小结226

思考题226第11章基于深度学习的城市交通统计与预测228

11.1深度学习在城市交通中的应用228

11.2数据获取与处理229

11.2.1交通卡口的过车数据229

11.2.2出租车的GPS记录230

11.2.3相关数据的分析231

11.3模型训练与优化233

11.3.1Faster RCNN233

11.3.2RNN239

11.3.3LSTM241

11.4结果分析与预测准确性评估243

本章小结245

思考题246参考文献247