图书前言

前言

大数据(big data)由极其宽泛的数据形成,体量大、流量大、多种多样、变化不定,需要可伸缩的体系结构以实现高效存储、操作和分析。简单来说,大数据就是体量超出了内存容量,甚至超出了本地磁盘容量的数据。

一个大数据分析项目由四个阶段组成: 数据收集(collection)、数据预处理(preparation)、数据分析(analysis)和行动(action)。数据收集是从数据源汇集数据的过程;数据预处理包括清洗、变换等;数据分析就是洞察数据,发现类别、规则、关联、相关、因果等知识;行动就是应用分析的结果为社会创造价值。

“分而治之”是解决复杂问题的基本策略。大数据分析是一个复杂问题。把大规模数据分解成N个小规模数据,得到N个分析结果,然后再把N个分析结果约简为一个综合的结果是大数据分析的一种范式。Hadoop生态系统实现了这种范式,提供了基于分布式文件系统的解决方案,并且算力能够无限线性叠加。但是,对于超出了内存限制但未超出磁盘容量限制的数据来说,需要更为廉价、方便、可移动的大数据分析解决方案。

同质并且成批收集的数据,称为“成块”(chunked)数据。大数据分析通常在一定的时间间隔(每年、每月、每天等)内按单独的数据文件从不同数据源收集数据,其累积的数据文件作为大数据分析的输入。

本书讨论面向成块数据的大数据分析解决方案,应用共享磁盘存储和虚拟内存技术解决数据“体量大”的问题,应用可扩展的R语言实现全生命周期的大数据分析。R是统计学专家和计算机科学与技术专家喜爱的计算机语言,也是一个开源免费的数据分析平台,其最大的优势在于可扩展性。几乎每天都有新的R扩展包加入R语言,这使得R语言途径的大数据分析成为众多的大数据分析解决方案之一。

本书受到教育部教育考试院“十四五”规划支撑专项课题“互联网+”环境中机考平台的设计与应用(批准号: NEEA2021064)的支持;并受到河北省教育厅教育发展专项“数字化背景下河北省青少年学生体质健康促进研究”(课题号: WTZX202421)的支持。

河北师范大学高峰博士参与了例题设计;河北师范大学刘志华教授审阅了第15章并提出了修改意见;河北师范大学2020级计算机技术专业硕士杨文浩、刘俊成、王志超等通读了全文并提出了修改意见。在此一并表示感谢。同时感谢我的家人对我的理解和支持。

董东

2024年5月于河北师范大学