图书前言

前言

大数据技术的精髓是从大数据中产生新见解,识别复杂关系和做出越来越精准的预测。

大数据技术是现代科学与技术发展,尤其是计算机科学技术发展的重要成果和结晶,是计算机科学发展史的又一个新的里程碑。大数据的出现对计算机等许多领域产生了挑战与冲击,推动了计算机科学技术的发展。

大数据技术凝集了多学科的研究成果,是一门多学科交叉融合的技术。随着科学技术的发展,大数据技术发展更为迅速,应用更为深入与广泛,并凸显其巨大潜力和应用价值。

“数据科学与大数据技术导论”是数据科学与大数据技术专业的第一门专业基础课程。这门课程可以引导数据科学与大数据技术专业的学生走进大数据技术的大门。为此,本书内容的组织宽泛,以大数据技术为核心展开。从大数据的基本概念与特点到大数据处理平台(Hadoop、Spark),从数据获取、清洗、抽取、约简、转换、集成、统计分析、挖掘,到获得结果的全过程都进行了介绍。学生通过上述内容的学习,可以为后续课程的学习奠定坚实的基础。

本书在内容方面,注重大数据技术的基本概念、模型、结构和方法的清晰描述。对主要的算法,如分类算法、聚类算法等典型重要的算法给出了形式化描述,并给出了Python代码。

本书在结构上为积木状,各章内容独立地进行概念性与方法性论述。出于篇幅考虑,书中所提及定理没有给出证明,如需要可以查阅相关文献。

由于作者水平有限,书中不足之处在所难免,敬请读者批评指正。

编〓者2021年1月