目 录
第1章 了解大数据 1
1.1 大数据处理的基础技术 1
1.1.1 大数据相关概念 1
1.1.2 大数据处理流程 2
1.1.3 大数据处理基础技术 3
1.2 主流大数据技术 6
1.2.1 主流大数据技术各阶段 6
1.2.2 Hadoop生态系统 6
1.2.3 Hadoop核心组件简介 7
1.3 大数据平台解决方案 8
1.3.1 Cloudera 8
1.3.2 Hortonworks 8
1.3.3 MapR 9
1.3.4 FusionInsight 9
1.3.5 Transwarp Data Hub 10
1.4 大数据发展现状和趋势 11
1.4.1 大数据市场规模 11
1.4.2 国内大数据发展面临的问题 11
1.4.3 大数据发展趋势 11
1.5 习题 12
第2章 大数据基础软件 14
2.1 Linux基础介绍 14
2.1.1 用户和用户组管理 14
2.1.2 文件和目录操作 19
2.1.3 文本编辑器 23
2.2 Java基础介绍 25
2.2.1 Java基础 25
2.2.2 编程开发 29
2.2.3 Java开发环境配置 29
2.3 SQL语言基础介绍 32
2.3.1 数据库基础 32
2.3.2 SQL简介 34
2.3.3 SQL语法 34
2.3.4 SQL基础语法 36
2.4 实验一:在Linux中安装和使用Java 38
2.4.1 本实验目标 38
2.4.2 本实验知识点 38
2.4.3 项目实施过程 39
2.4.4 常见问题 45
2.5 实验二:在Linux中安装和使用MySQL 46
2.5.1 本实验目标 46
2.5.2 本实验知识点 46
2.5.3 项目实施过程 47
2.5.4 常见问题 54
2.6 习题 55
第3章 大数据采集 59
3.1 大数据采集技术介绍 59
3.2 常见采集工具和厂商 60
3.2.1 搜索引擎查看 60
3.2.2 工具分类 61
3.3 八爪鱼采集器介绍 63
3.3.1 八爪鱼采集原理 63
3.3.2 八爪鱼实现的功能 63
3.4 爬山虎采集器介绍 65
3.4.1 爬山虎介绍 65
3.4.2 产品特点和核心技术 65
3.4.3 软件界面 66
3.5 流数据采集工具Flume 68
3.5.1 Flume背景 68
3.5.2 Flume NG基本架构 68
3.5.3 Flume案例分析 70
3.6 数据传输工具Sqoop介绍 73
3.6.1 Sqoop工具介绍 73
3.6.2 Sqoop2特性 74
3.6.3 Sqoop案例 76
3.6.4 Sqoop问题集 77
3.7 实验三:Sqoop的安装配置及使用 78
3.7.1 本实验目标 78
3.7.2 本实验知识点 79
3.7.3 项目实施过程 79
3.7.4 常见问题 87
3.8 实验四:Kafka的安装、配置及使用 90
3.8.1 本实验目标 90
3.8.2 本实验知识点 90
3.8.3 项目实施过程 91
3.8.4 常见问题 97
第4章 大数据存储 99
4.1 数据库和数据仓库 99
4.1.1 数据库类型简介 99
4.1.2 数据仓库介绍 101
4.2 分布式文件系统HDFS 103
4.2.1 HDFS介绍 103
4.2.2 HDFS体系结构 106
4.3 分布式分析引擎Kylin介绍 108
4.3.1 Kylin简介 108
4.3.2 Kylin基本原理和架构 109
4.3.3 Kylin的最新特性 114
4.4 大数据仓库Hive 115
4.4.1 Hive简介 115
4.4.2 Hive体系结构 116
4.4.3 Hive数据存储模型 118
4.4.4 Hive应用场景 121
4.5 NoSQL数据库 122
4.5.1 NoSQL简介 122
4.5.2 NoSQL在系统架构中的应用 125
4.6 键-值存储数据库Memcached、Redis 128
4.6.1 Redis基本介绍 128
4.6.2 Redis命令总结 128
4.7 面向文档数据库MongoDB介绍 130
4.7.1 MongoDB简介 130
4.7.2 MongoDB深入剖析 131
4.8 实验五:Hadoop的安装、配置及HDFS使用 133
4.8.1 本实验目标 133
4.8.2 本实验知识点 133
4.8.3 项目实施过程 133
4.8.4 常见问题 147
4.9 实验六:Redis数据库的安装与使用 148
4.9.1 本实验目标 148
4.9.2 本实验知识点 148
4.9.3 项目实施过程 148
4.9.4 常用命令及配置文件介绍 154
4.10 实验七:HBase的安装和配置 158
4.10.1 本实验目标 158
4.10.2 本实验知识点 159
4.10.3 项目实施过程 159
4.10.4 常见问题 165
4.11 习题 167
第5章 Spark内存计算框架 170
5.1 Spark简介 170
5.2 Spark技术原理 173
5.2.1 Spark与Hadoop的对比 173
5.2.2 Spark运行架构 175
5.2.3 RDD基本概念 177
5.3 Spark SQL介绍 181
5.4 Spark Streaming实时处理技术 183
5.5 Spark MLlib数据挖掘库 184
5.5.1 机器学习定义 184
5.5.2 Spark MLlib的优势 187
5.5.3 Spark MLlib支持的机器学习类型 187
5.6 Spark GraphX图处理技术 188
5.7 Spark编程实例 190
第6章 大数据分析挖掘 194
6.1 大数据分析概述 194
6.1.1 数据分析与数据挖掘的区别 194
6.1.2 常见数据分析挖掘工具 195
6.1.3 数据挖掘十大算法介绍 197
6.2 分类算法概述 199
6.2.1 分类预测常见算法 199
6.2.2 分类预测实现过程 199
6.3 决策树算法介绍 201
6.3.1 决策树的定义 201
6.3.2 决策树的优缺点 202
6.3.3 决策树的发展 202
6.3.4 决策树的构造流程 202
6.3.5 决策树的相关指标 203
6.3.6 常见决策树算法 204
6.4 推荐算法介绍 208
6.4.1 常用推荐算法介绍 208
6.4.2 主要推荐方法对比 210
6.5 Apriori算法介绍 211
6.5.1 Apriori算法 211
6.5.2 频繁项集的评估标准 211
6.5.3 Apriori算法思想 212
6.5.4 Apriori算法流程 213
6.5.5 Apriori算法小结 214
第7章 大数据可视化 215
7.1 大数据可视化概述 215
7.1.1 数据可视化概述 215
7.1.2 数据可视化流程 216
7.1.3 数据可视化展现形式 217
7.2 大数据可视化工具概述 229
7.3 Tableau大数据可视化技术简介 230
7.4 Power BI大数据可视化技术简介 231
7.5 实验八:ECharts的安装与使用 232
7.5.1 本实验目标 232
7.5.2 本实验知识点 232
7.5.3 项目实施过程 232
7.5.4 常见问题 243
第8章 大数据安全 246
8.1 大数据安全的挑战与对策 246
8.2 数据管理安全 248
8.3 数据安全分析 250
第9章 大数据应用 253
9.1 企业大数据应用 253
9.1.1 中国企业大数据现状 253
9.1.2 企业大数据应用需求 254
9.2 互联网大数据 256
9.2.1 互联网行业拥有大数据的关键因素 256
9.2.2 大数据方案后的价值体现 256
9.3 零售大数据 258
9.4 医疗大数据 262
9.5 大数据未来展望 263
9.6 大数据和云计算的关系 265
9.6.1 云计算的特征 265
9.6.2 云计算与大数据的关系 265
9.6.3 云计算及其分布式结构是重要途径 266
9.6.4 云数据库的必然 267
9.6.5 云数据库需满足的要求 267
9.6.6 云计算能为大数据带来的变化 268
参考文献 269