前 言
当今社会,随着信息技术的深入应用,全球数据呈现出爆发式增长、海量聚集的发展态势。大数据被认为是继信息化和互联网后信息革命的又一次高峰,“跨界、融合、基础、突破”是大数据落地的关键,其在“产业化、行业化、智能化”方面不断赋能实体经济,成为产业关注重点。“数据驱动”更加深入人心,数据成为新型的生产要素;数据要素市场的培育是重中之重,“数据要素”“数据治理”“数据安全”成为大数据发展的关键词。
2021年3月,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》指出:迎接数字时代,激活数据要素潜能,推进网络强国建设,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革。
2021年11月,国家发布了《“十四五”大数据产业发展规划》,在该规划文件的指导思想中提出要以释放数据要素价值为导向,同时,“安全”也成为该规划文件中出现的高频词之一,“安全保障”成为大数据五大产品和服务体系的重要组成部分,数据安全产业成为大数据产业的发力重点。随着大数据产业的深入发展,数据已广泛应用于民生服务、产业变革、经济发展等方面,且发挥了重要作用,并作为新的生产要素参与价值分配。因此,进一步激活并释放数据要素价值成为大数据产业高质量发展的关键,以大数据为重点的数字产业迎来了新的发展机遇。
大数据产业是以数据采集、交易、存储、加工、分析、服务为主的各类经济活动,包括数据资源建设、大数据软/硬件产品的开发、销售和租赁活动,以及相关信息技术服务。从整体来看,数据资源、基础设施、数据服务、融合应用、安全保障是大数据产业的五大组成部分,形成了完整的大数据产业生态。
信创(信息技术应用创新)产业发展是目前的一项国家战略,也是当今形势下国家经济发展的新动能。信创产业发展已经成为经济数字化转型、提升产业链发展的关键。从技术体系引进、强化产业基础、加强保障能力等方面着手,促进信创产业在本地落地生根,能带动传统IT产业转型,构建区域级产业聚集集群。我们要逐步建立基于自主的IT底层架构和标准,形成自主开放生态,而这也是信创产业的核心。在我国信创产业背景下,大数据中台产品应运而生。
根据以上介绍可以看出,在当前我国信创产业背景下,全面认识和了解大数据技术、大数据产业显得尤为重要。因此,本书作者主要面向高等院校高职高专、职业本科及应用型本科电子信息大类各专业的学生学习大数据技术概论编写了此书,同时本书也可作为大数据技术领域相关工作人员的参考书。
本书共分为10个项目,各项目内容介绍如下。
项目1主要介绍了大数据时代背景、什么是大数据以及大数据与其他新兴技术之间的联系等内容。通过对本项目的学习与实践,读者可以认识和了解大数据的概念,大数据时代的发展,大数据的定义、特征、类型,以及大数据与云计算、物联网、人工智能等新技术的关系。
项目2主要介绍了区域大数据发展水平、行业大数据发展水平、大数据企业发展水平、大数据产业发展规划及发展趋势、大数据产业人才需求等内容。通过对本项目的学习与实践,读者可以基本学会如何从中国大数据产业发展演进、基础设施、政策体系、创新载体、人才培育等产业发展要素的现状了解大数据产业发展水平,并学会评估、分析大数据发展的基本思路,研判大数据在软/硬件产品、基础设施和应用服务等领域的热点布局,从而提出大数据产业发展的新趋势,以及学会了解与收集大数据产业人才需求信息。
项目3主要介绍了Hadoop大数据平台、Hadoop生态圈、Spark技术架构,以及大数据离线计算架构、实时计算架构等内容。通过对本项目的学习与实践,读者可以了解大数据Hadoop平台及生态圈技术,以及基于大数据平台的离线计算架构和实时计算架构。
项目4主要介绍了什么是大数据采集技术、数据源的类别,以及大数据采集的方法和工具等内容。通过对本项目的学习与实践,读者可以了解大数据采集的概念、大数据采集的数据来源的分类,以及多种大数据采集工具,包括日志采集工具、网络数据采集工具、数据库采集工具等,并学会根据不同的应用场景选用不同的采集工具。
项目5主要介绍了大数据存储的概念、大数据存储的类型、大数据存储的关键技术、大数据存储的方式、NoSQL数据库工具及大数据安全等内容。通过对本项目的学习与实践,读者可以学习并了解大数据存储的概念、类型、关键技术,以及大数据存储方式的选择、NoSQL数据库工具的使用、大数据安全技术等内容。
项目6主要介绍了数据清洗的定义、原理、流程、方法及ETL,以及数据清洗的常用工具、数据转换、数据标准、数据质量与数据脱敏等大数据预处理技术相关内容。通过对本项目的学习与实践,读者可以学习并了解数据清洗、数据标准、ETL、数据清洗工具的使用、数据转换方法、数据质量与数据脱敏算法的使用等大数据预处理技术。
项目7主要介绍了大数据分析的概念、流程、方法、工具库,以及数据挖掘的概念、算法、工具等大数据分析与挖掘技术的相关内容。通过对本项目的学习与实践,读者可以了解大数据分析的概念、流程、方法及分析工具的使用,以及数据挖掘算法和大数据挖掘工具的使用等大数据分析与挖掘技术。
项目8主要介绍了大数据可视化的概念、发展、优势,数据可视化的方法,以及常用图表、大数据可视化工具、大数据可视化开源库等大数据可视化技术相关内容。通过对本项目的学习与实践,读者可以了解大数据可视化的相关知识,理解常用的可视化方法论,掌握简单的可视化工具的使用方法。
项目9主要介绍了信创的概念、信创的发展历程、信创的现状和发展前景、大数据中台产品等内容。通过对本项目的学习与实践,读者可以了解信创的概念、信创的时代背景、信创的发展历程、信创的现状及信创的发展前景,掌握大数据中台产品的研发背景、产品目标、产品定位、产品优势、产品的功能架构、产品的技术架构,以及大数据中台产品的适用场景。
项目10主要介绍了三个大数据应用综合平台典型案例,分别是某市智慧城市建设项目案例、某市高新区城市驾驶舱平台建设项目案例及养老保险全国统筹数据平台建设项目案例。通过对本项目的学习与实践,读者可以了解三个大数据应用案例的背景、建设目标、技术架构、建设成效等方面的内容,为日后从事大数据技术相关工作岗位及编制大数据治理综合应用平台行业解决方案提供案例项目参考。
本书由重庆城市管理职业学院汪忆、周沁、张二兵以及中国电子系统技术有限公司胡斌编写,具体分工为:项目1、项目2、项目5、项目9由汪忆编写,项目3、项目4由张二兵编写,项目6、项目7、项目8由周沁编写,项目10由胡斌编写。汪忆负责全书的逻辑框架设计与统稿工作,中国电子系统技术有限公司熊小东、任冬梅、孙亮参与了本书的审阅、勘误和资料整理工作,中国电子系统技术有限公司提供了飞瞰数据中台产品、典型项目案例资料并参与了本书案例的设计。同时,本书的编写工作得到了学校领导、同事的大力支持和帮助,在此一并表示衷心的感谢!
本书在编写过程中参考了许多相关的文献资料,在此向这些文献的作者表示衷心的感谢!虽然编者在编写过程中进行了精心组织,但限于经验和水平,书中难免存在疏漏和不足之处,在此,恳请广大读者给予批评和指正,以便在今后的修订中改进完善。
编 者