前言
前言
“大数据模型与应用”不仅是大数据专业的核心课程,也是计算机程序设计的重要理论技术基础和专业基础课程。随着网络、计算机技术与大数据的广泛应用,“大数据模型与应用”课程也逐渐成为其他相关专业的重要主修或选修课。本书是为“大数据模型与应用”课程编写的教材,其内容选择符合教学大纲要求,并兼顾计算机理论及应用、计算机相关专业(学科)(如数据科学与大数据技术、信息管理与信息系统、电子商务、大数据管理与应用等相关专业)的宽泛和深层次的知识点,适用面广。
本书共6章。第1章常用的算法模型及应用——大数据建模的预备知识,描述了部分常用模型的理论、模型及应用、运行程序的模拟动态执行结果,以奠定全书的学习基础;第2章给出了预测模型的框架及各类预测模型的建模及应用;第3章通过关联规则的概念和规则形成的理论及原理,描述了关联规则的案例的计算过程及未来的发展;第4章给出了常用的分类的概念与算法模型的应用;第5章给出了聚类的概念、理论方法与模型应用;第6章介绍大数据应用工具与模型及热点内容研究。
本书除了各章节介绍的各种模型实现方法之外,还给出了每章的重点与难点知识点的微课视频讲授内容;着重从读者的阅读需求出发,将教材中的大多数算法对应程序加上其模拟计算机执行程序的动态显示结果,以达到快速掌握和理解其模型知识点的目的。
本书采用逐步演算和编程运行相结合的方式,并分别使用C语言和Python作为问题对应算法的描述语言。本书对所涉及的多数模型算法均给出了相应的Python实现代码,除此之外,第1章介绍的所有算法还给出了C语言的运行代码,便于读者将算法的逻辑步骤与上机实现步骤进行对照,加深读者对大数据算法基础模型的理解。特别地,针对更为复杂的算法,以第1章的汉诺塔递归为例,本书采用图示的方式显示了每一次进入递归与跳出递归时圆盘数量以及栈中参数的变化情况,在一定程度上降低了理解递归算法的难度;另外,还在单层递归基础上追加了嵌套递归(多层递归)的阿克曼函数算法及程序运行的全部模拟过程,为大数据专业学生提供独特的掌握复杂递归的阅读方法。本书给出同样的递归方法的还有图的深度优先搜索、迷宫问题的求解等算法。为使读者熟练掌握分类和聚类算法,将分类算法和聚类算法各自作为单独的章节。还在第6章增加了大数据应用研究相关内容,其目的是让初学者在了解大数据模型及应用的基础上,逐渐了解大数据相关研究项目和如何深入了解与学习大数据的应用层面的知识点。
撰写本书的目的是使读者较全面地理解大数据相关模型的概念,掌握各类模型的算法和实现方法,提高程序设计的质量和阅读程序的能力。通过对本书的学习,能够提高学生使用计算机解决实际问题的能力。
本书旨在涵盖典型和有代表性的数据建模及其相关算法,但由于该课程覆盖的专业知识广、牵涉的数学模型多,还有许多模型需要进一步探讨。在编写过程中,笔者查阅了国内外大量文献资料,谨向书中提到的和参考文献中列出的学者表示感谢。同时,在本书的编写过程中,李龙霞、于晓倩等参与完成部分章节中具体算法的程序实现;杨明、张琳和丁文雯等对大数据应用研究做出了一定的贡献,在此表示感谢。
由于编者能力有限,书中难免存在一些不足和疏漏之处,敬请广大读者批评指正。
作者2023年8月