图书前言

前言

随着第三次信息化浪潮的推进,物联网、互联网、社交媒体的协同发展催生了大数据,云技术和人工智能则是大数据的两翼,使得大数据拥有了强大的生命力和价值。大数据不仅改变了我们的生活方式,还在经济和社会领域产生了深远影响: 从人类认知范式的变革,到社会组织、群体结构及其联动方式的改变;从社会治理模式的重塑,到新兴商业模式的兴起、跨界管理创新模式的形成。数据正在重构各产业,流量正在改写未来,世界正变得越来越数字化,大数据正在以这种或那种方式深刻改变着我们的思维方式、教育模式和经济发展。

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,已成为国家基础性战略资源,是经济加速发展的新引擎,也是企业高质量发展的使能器。大数据专业人才需求旺盛且急剧上升,急需具有高效数据分析能力、实际应用能力、数据管理实践能力的人才,特别是在金融、电商、制造业、医疗、交通等领域。

本书面向“双一流”建设,聚焦“一流”本科教育,依据教育部高等学校管理科学与工程类专业教学指导委员会对“大数据管理与应用”专业核心课程的目标和要求编写。本书基于对大数据产业的实地调研紧扣“大数据管理决策”和“大数据技术应用”两个方向的人才需求,以行业应用场景为出发点,从方法知识体系和实践案例两方面出发,帮助读者树立大数据思维意识,学习大数据管理与应用的知识体系,掌握基本的数据处理方法、大数据分析方法、大数据管理方法。本书内容体系分3部分,共9章。各章前面的内容导读指出本章最重要的内容,并通过思维导图展现概念间的关联;同时每章最后附上本章课后习题。

第一部分是大数据基础知识,由第1章构成,从大数据的概念入手,详细介绍大数据的结构与特征、对经济社会发展的影响以及应用的意义与挑战。

第二部分是大数据应用方法及其技术,由第2~6章构成,从大数据全生命周期出发,讲解大数据的获取方法、数据预处理技术、大数据存储技术、大数据分析与数据可视化展示技术,每章都附有实践案例,帮助读者在掌握理论的同时,增强实践能力。

第2章在介绍大数据来源与分类的基础上,重点介绍网络爬虫与数据解析等关键技术,并结合具体框架与工具对比多种互联网数据获取方法(如网络爬虫框架、采集器软件)及离线数据获取方法(传感器、系统日志),最后通过“无人潜水器”专利数据采集的实践案例,演示从分析到应用的全流程操作,帮助读者掌握不同场景下的数据获取技能。第3章主要讲解数据预处理的四个必要性任务及其方法手段,涵盖数据清洗(缺失值处理、重复值处理、异常值处理、逻辑错误清洗)、数据集成、数据变换(简单函数变换、数据标准化、数据离散化、数据编码)与数据归约(数量归约、维度归约)等关键技术,最后通过专利情报数据预处理实践案例,展示从原始数据到高质量数据集的完整处理流程。

第4章主要讲解3种典型的大数据存储方式,包括基于文件系统的数据存储、基于关系数据库的数据存储、NoSQL数据存储,并对新一代大数据存储技术(云存储技术、NewSQL)进行讲解,最后介绍一个Neo4j导入药材供应链数据的实践案例。

第5章在介绍大数据分析类型的基础上,主要讲解大数据分析与挖掘的经典模型(分类算法、聚类算法、回归分析算法、关联规则挖掘算法)、现代模型(神经网络、深度学习、强化学习、大模型)、应用场景(文本、图像、音频等数据分析),最后详细讲解基于某社交平台的推文内容分析、基于水下无人潜水器技术专利的Kmeans聚类分析实践案例。

第6章在介绍数据可视化的概念、流程的基础上,重点讲解大数据可视化的图表类型与应用方法,最后介绍一个基于某社交平台帖子数据的可视化实践案例。

第三部分是大数据管理,由第7~9章构成,主要探讨大数据管理的内涵及大数据驱动下的管理模式变革、数据质量管理、数据开放共享,帮助读者理解大数据管理及数据治理的实际应用。

第7章主要介绍大数据时代的管理思维变革、组织结构变革、运营模式变革、管理决策变革,并对商务、交通、医疗大数据决策应用中的实际数据来源、类别和应用场景进行了具体说明。

第8章在介绍数据质量概念、管理技术及工具的基础上,重点讲解数据质量评估方法(定性、定量和综合评估)、数据质量提升方法(事前、事中和事后),最后介绍一个社交媒体平台数据质量评估的实践案例。

第9章在介绍大数据开放共享的定义、框架、技术、风险的基础上,探讨大数据开放共享面临的挑战,最后介绍贵州省政府数据开放共享应用实践案例,帮助读者全面理解本章核心概念与方法。

本书可作为大数据管理与应用相关专业的教材,也可作为大数据领域的专业人员、研究人员以及对大数据感兴趣的初学者的参考书。本书参考学时数为48,提供各种形式的教学资源,包括电子教案、教学课件、练习与习题、实践数据及源代码等。

本书第1、2、3、6章由丁晟春编写,第4、5章由吴鹏编写,第7章由徐车编写,第8、9章由孙炀炀编写。全书由丁晟春统稿。此外,孙思亮、张文静、蔡梓润、朱泓瑾、邹家玄、苏婧雯、公婧泽等参与了部分章节和实践案例的编写,在此表示感谢!

本书的编写参考了大量近年来出版的相关文献,吸取了许多专家和同仁的宝贵经验,在此深表谢意。

由于大数据技术发展迅速,编者学识有限,书中误漏之处难免,恳请广大读者批评指正。

编者

2026年3月