目录
第1篇: 大数据理论基础
第1章大数据分析概述3
1.1什么是大数据3
1.1.1大数据的起源与发展3
1.1.2大数据的4V特点4
1.1.3大数据与云计算5
1.1.4大数据与人工智能6
1.1.5大数据的典型应用场景6
1.2大数据分析技术体系7
1.2.1大数据分析基础框架7
1.2.2大数据处理过程10
1.2.3大数据分析应用13
1.2.4大数据可视化15
1.2.5大数据安全与治理18
1.3大数据处理的技术体系21
本章小结23
思考题24第2章主流大数据处理框架25
2.1Hadoop生态系统简介25
2.1.1Hadoop起源和特点25
2.1.2Hadoop架构与核心部件26
2.1.3Hadoop的版本选择27
2.2Spark处理框架28
2.2.1Spark的起源和特点28
2.2.2弹性分布式数据集——RDD29
2.2.3Spark的生态圈31
2.3流处理框架Storm34
2.3.1Storm的起源和应用场景34
2.3.2Storm的架构和原理特性34
2.3.3Hadoop、Spark和Storm的对比35
2.4大数据处理框架36
2.4.1Oracle大数据处理框架36
2.4.2IBM大数据处理框架38
2.4.3SAP Hana大数据处理框架39
2.4.4Teradata大数据处理框架40
2.4.5大数据框架之间的对比42
本章小结42
思考题43第3章大数据分析算法基础44
3.1大数据分析简介44
3.2机器学习算法45
3.2.1回归分析45
3.2.2分类分析46
3.2.3集成学习54
3.3深度学习基础与神经网络模型58
3.3.1深度学习58
3.3.2人工神经网络59
3.3.3激活函数69
3.4常用数据分析工具71
3.4.1Mahout71
3.4.2Hive72
本章小结73
思考题73
第2篇: 大数据配置与环境搭建
第4章大数据分析环境搭建77
4.1操作系统与环境需求77
4.1.1Linux简介77
4.1.2Linux安装78
4.2Hadoop集群配置与部署86
4.2.1安装环境准备86
4.2.2安装CM95
4.2.3安装CDH98
4.3Spark环境配置105
4.4数据库与数据存储配置109
4.4.1Hive数据仓库109
4.4.2Hbase数据库110
本章小结114
思考题114第5章大数据可视化技术115
5.1可视化技术简介115
5.2数据可视化技术119
5.2.1文本数据可视化119
5.2.2网络数据可视化127
5.2.3时空数据可视化128
5.2.4多维数据可视化129
5.3常用的可视化工具131
5.3.1Tableau131
5.3.2ECharts133
5.3.3R语言135
5.3.4GeoFlow137
本章小结138
思考题138
第3篇: 实践案例分析
第6章微博热点与情感分析案例实践141
6.1数据采集与预处理141
6.1.1数据集说明141
6.1.2数据质量及统计分析142
6.2数据分析算法介绍142
6.2.1DBSCAN算法142
6.2.2DFA算法145
6.2.3TFIDF算法146
6.2.4TextRank算法146
6.3数据分析算法应用147
6.3.1城市热点区域分析147
6.3.2情感倾向分析149
6.3.3热点主题分析151
6.3.4敏感词监控152
本章小结155
思考题156第7章基于协同过滤的新闻推荐系统157
7.1推荐系统基础157
7.2协同过滤算法实现160
7.2.1基于浏览喜好的推荐算法160
7.2.2基于标签的推荐算法162
7.3系统设计与实现165
7.3.1新闻推荐系统界面实现165
7.3.2新闻推荐系统关键代码说明168
本章小结170
思考题170第8章基于图神经网络的电影数据分析及可视化实践171
8.1数据获取与处理171
8.1.1数据爬取分析与实现171
8.1.2数据处理178
8.1.3数据爬取代码分析181
8.2电影数据分析案例182
8.2.1归纳协同过滤182
8.2.2数据集划分183
8.2.3矩阵分解185
8.2.4推荐模型实现186
8.3可视化设计与实现189
8.3.1系统可视化数据设计189
8.3.2系统可视化结果演示190
本章小结194
思考题195第9章基于知识图谱的人物关系分析196
9.1知识图谱基础196
9.2人物关系数据获取与处理197
9.2.1人物关系数据爬取197
9.2.2利用Pandas进行关系的对称填补198
9.3关系查询与最短关系路径的计算201
9.3.1Neo4j201
9.3.2Cypher203
9.3.3关系查询的具体实现203
9.3.4最短关系路径计算203
9.4问答系统分类模型设计205
9.4.1系统整体架构设计205
9.4.2模块说明206
本章小结210
思考题210第10章基于大数据的新闻评论情感分析系统实践211
10.1新闻评论数据获取与处理211
10.2情感分析算法应用213
10.2.1训练集介绍213
10.2.2数据预处理213
10.2.3TextCNN神经网络215
10.2.4模型训练流程216
10.3系统设计与实现217
10.3.1大数据后端架构217
10.3.2大数据前端搭建219
10.4系统界面展示222
10.4.1后端管理界面展示222
10.4.2前端可视化界面展示226
本章小结226
思考题226第11章基于深度学习的城市交通统计与预测228
11.1深度学习在城市交通中的应用228
11.2数据获取与处理229
11.2.1交通卡口的过车数据229
11.2.2出租车的GPS记录230
11.2.3相关数据的分析231
11.3模型训练与优化233
11.3.1Faster RCNN233
11.3.2RNN239
11.3.3LSTM241
11.4结果分析与预测准确性评估243
本章小结245
思考题246参考文献247
