图书目录

目    录

项目1  认识大数据 1

任务1.1  大数据时代 2

1.1.1  大数据时代的来临 2

1.1.2  大数据时代的发展 5

【任务评估】 9

任务1.2  什么是大数据 11

1.2.1  大数据的定义 11

1.2.2  大数据的特征 12

1.2.3  大数据的结构类型 13

1.2.4  数据科学与大数据 14

【任务评估】 15

任务1.3  大数据与其他新兴技术 17

1.3.1  云计算 17

1.3.2  物联网 19

1.3.3  人工智能 20

【任务评估】 21

项目总结 23

项目拓展训练 23

项目评价 25

项目2  了解大数据产业 27

任务2.1  区域大数据发展水平 28

2.1.1  总体概况 29

2.1.2  基础环境 31

2.1.3  产业发展 33

2.1.4  行业应用 34

【任务评估】 37

任务2.2  行业大数据发展水平 39

2.2.1  总体评价 39

2.2.2  发展特点 40

【任务评估】 43

任务2.3  大数据企业发展水平 45

2.3.1  大数据企业榜单 45

2.3.2  大数据企业细分领域 47

【任务评估】 49

任务2.4  大数据产业发展规划及

发展趋势 51

2.4.1  大数据产业发展规划 51

2.4.2  大数据产业发展趋势 54

【任务评估】 57

任务2.5  大数据产业人才需求 59

2.5.1  大数据产业人才需求概况 59

2.5.2  大数据产业人才能力要求 60

2.5.3  大数据产业人才及岗位分类 61

2.5.4  大数据产业人才与专业的

关系 61

【任务评估】 63

项目总结 65

项目拓展训练 65

项目评价 67

项目3  大数据平台与生态圈 69

任务3.1  认识Hadoop大数据平台 70

3.1.1  Hadoop的前世今生 71

3.1.2  Hadoop的特性 73

3.1.3  Hadoop核心组件 73

【任务评估】 79

任务3.2  Hadoop生态圈 81

3.2.1  Hadoop生态圈组件 81

3.2.2  Hadoop版本介绍 85

【任务评估】 87

任务3.3  认识Spark技术架构 89

3.3.1  Spark的发展 89

3.3.2  Spark与Hadoop的区别 90

3.3.3  Spark的运行架构与运行

流程 91

3.3.4  Spark生态圈 93

3.3.5  Spark运行模式 94

3.3.6  Spark的应用场景 95

【任务评估】 97

任务3.4  大数据计算架构 99

3.4.1  离线计算架构 99

3.4.2  实时计算架构 100

【任务评估】 103

项目总结 105

项目拓展训练 105

项目评价 107

项目4  大数据采集 109

任务4.1  了解大数据采集 110

4.1.1  数据采集的概念 110

4.1.2  数据采集的数据源 111

【任务评估】 113

任务4.2  大数据采集的方法与工具 115

4.2.1  日志采集系统 115

4.2.2  网络数据采集 116

4.2.3  数据库采集 118

4.2.4  分布式消息订阅 118

【任务评估】 121

项目总结 123

项目拓展训练 123

项目评价 125

项目5  大数据存储 127

任务5.1  大数据存储概述 128

5.1.1  大数据存储的概念 128

5.1.2  大数据存储的类型 129

5.1.3  大数据存储的关键技术 131

【任务评估】 133

任务5.2  大数据存储的方式 135

5.2.1  分布式存储 135

5.2.2  数据仓库 139

5.2.3  NoSQL数据库 143

5.2.4  NewSQL数据库 144

5.2.5  云数据库 145

【任务评估】 147

任务5.3  了解NoSQL数据库工具 149

5.3.1  HBase 149

5.3.2  MongoDB 150

5.3.3  Redis 153

5.3.4  LevelDB 154

5.3.5  Neo4j 155

【任务评估】 157

任务5.4  大数据安全 159

5.4.1  大数据安全概述 159

5.4.2  大数据安全体系 160

5.4.3  大数据安全关键技术 161

5.4.4  大数据安全法律法规 161

【任务评估】 165

项目总结 167

项目拓展训练 167

项目评价 169

项目6  大数据预处理 171

任务6.1  认识数据清洗 173

6.1.1  数据清洗的定义 173

6.1.2  数据清洗的原理 173

6.1.3  数据清洗的流程 174

6.1.4  数据清洗的方法 175

6.1.5  认识ETL 180

【任务评估】 183

任务6.2  数据清洗的常用工具 185

6.2.1  Excel 185

6.2.2  Kettle 186

6.2.3  DataCleaner 186

6.2.4  OpenRefine 187

6.2.5  Smartbi 187

【任务评估】 189

任务6.3  数据转换 191

6.3.1  数据离散化 191

6.3.2  数据平滑 193

6.3.3  属性构造 194

6.3.4  数据聚合 195

6.3.5  数据规范化 196

【任务评估】 199

任务6.4  数据标准 201

6.4.1  数据标准的概念 201

6.4.2  数据标准的分类 201

6.4.3  数据标准的管理 202

6.4.4  数据标准与数据资产的

关系 205

【任务评估】 207

任务6.5  数据质量与数据脱敏 209

6.5.1  数据质量的定义 209

6.5.2  数据质量的常见问题 210

6.5.3  数据脱敏 211

【任务评估】 213

项目总结 215

项目拓展训练 215

项目评价 217

项目7  大数据分析与挖掘 219

任务7.1  大数据分析 220

7.1.1  大数据分析的概念 221

7.1.2  大数据分析的流程 222

7.1.3  大数据分析的方法 222

7.1.4  大数据分析工具库 225

【任务评估】 229

任务7.2  数据挖掘 231

7.2.1  数据挖掘的概念 231

7.2.2  数据挖掘算法 234

7.2.3  大数据挖掘工具 235

【任务评估】 237

项目总结 239

项目拓展训练 239

项目评价 241

项目8  大数据可视化 243

任务8.1  数据可视化基础 244

8.1.1  数据可视化的概念 244

8.1.2  数据可视化的发展 244

8.1.3  数据可视化的优势 246

8.1.4  数据可视化的方法 247

【任务评估】 249

任务8.2  数据可视化常用图表 251

8.2.1  常用图表介绍 251

8.2.2  图表的选择与应用 260

【任务评估】 261

任务8.3  大数据可视化常用工具 263

8.3.1  大数据可视化工具 263

8.3.2  大数据可视化开源库 263

【任务评估】 265

项目总结 267

项目拓展训练 267

项目评价 269

项目9  中国信创与大数据中台 271

任务9.1  什么是信创 273

9.1.1  信创的概念 273

9.1.2  信创的发展历程 274

【任务评估】 277

任务9.2  信创的现状和发展前景 279

9.2.1  信创的现状 279

9.2.2  信创的发展前景 282

【任务评估】 285

任务9.3  信创之大数据中台 287

9.3.1  产品概述 287

9.3.2  产品优势 289

9.3.3  产品架构 291

9.3.4  产品适用场景 293

【任务评估】 297

项目总结 299

项目拓展训练 299

项目评价 301

项目10  大数据应用综合平台

典型案例 303

任务10.1  某市智慧城市建设项目

案例 304

10.1.1  项目背景 304

10.1.2  建设目标 305

10.1.3  技术架构 305

10.1.4  建设成效 306

【任务评估】 309

任务10.2  某市高新区城市驾驶舱平台

建设项目案例 311

10.2.1  项目背景 311

10.2.2  建设目标 311

10.2.3  技术架构 311

10.2.4  建设成效 312

【任务评估】 315

任务10.3  养老保险全国统筹数据平台

建设项目案例 317

10.3.1  项目背景 317

10.3.2  建设目标 317

10.3.3  技术架构 318

10.3.4  建设成效 319

【任务评估】 321

项目总结 323

项目拓展训练 323

项目评价 325

参考文献 327