前 言
本书主题
大数据分析(big data analytics)是一个相对现代的数据科学领域,这一领域专注探索如何分解和分析可用的数据集,以便更加系统地收集信息和结论。大数据分析的特点是待处理的数据量太大、太复杂、变化太快、收集成本太高、数据间的关联太弱,因此无法通过传统的人工处理方法进行评估。这也就是我们常说的大数据5V(Five Vs)的概念:
* 数据量(Volume)是指公司、研究机构和家庭产生和存储的大量数据;
* 多样性(Variety)反映了数据类型和数据源的多样性,包括消费者档案、社会联系、文本、图像、视频、语音等;
* 速度(Velocity)意味着数据以很高的速度不断生成、分析和再处理,以支持底层决策;
* 有效性(Validity)是数据质量的保证,或者说代表了数据的真实性和可信度,大数据中的数据元素往往遇到测量不准确等情况;
* 价值(Value)来自成本效益分析,它表示了系统地收集和使用业务活动中的数据为公司产生的积极影响。
总体来说,大数据现在的5V挑战是提出足够的概念和算法,旨在有效地捕获、存储、处理或利用数据。
本书宗旨
本书介绍了大数据分析中使用的基本数学模型,并对相关实际问题进行了应用参考。本书使用了必要的数学工具,并将它们应用于当前的数据分析问题,进一步跨学科应用于生物学、语言学、社会学、电气工程、计算机科学和人工智能等领域,本书给出的例子包括DNA测序、主题提取、社区检测、压缩感知、垃圾邮件过滤和国际象棋引擎等。对于模型,我们使用了大量的数学知识和方法------从基本的数值线性代数、统计学和优化到更专业的游戏、图甚至复杂性理论。本书涵盖了大数据分析中所有常用的相关技术,在本书中体现为排序、在线学习、推荐系统、分类、聚类、线性回归、稀疏恢复、神经网络和决策树等章节。本书章节的结构和篇幅都是标准化的,以方便学生和教师使用。
本书的每一章都从一个具体的实际问题(研究动因)开始,其主要目的是激发对特定大数据分析技术的研究。接下来用数学方法阐述研究结果,包括重要的定义、辅助语句和由此产生的结论。案例分析则通过在跨学科背景下应用它来加深所获得的知识。案例分析包括对逐步完成的任务的描述,并伴随着有用的提示。练习部分作为读者自学不可或缺的一部分,有助于提高读者对基础理论的理解。本书最后一章附有完整的习题解答,可供有兴趣的读者参考和查阅。对于一些算法,我们也提供了Python代码作为补充材料。
目标读者
本书的目标读者群体包括学习大数据分析课程的高年级本科生及研究方向为大数据分析(包括其数学基础和相关应用)的研究生。在过去的几年里,与大数据分析相关的硕士学位项目,如数据工程与分析、计算与数据科学、大数据与商业分析、管理与数据科学、社会与经济数据科学、数据分析与决策科学、大数据管理、商业与经济数据科学、机器学习等,在世界最好的大学中数量激增。通常,这些学位项目是由经济学家、数学家、计算机科学家或工程师组织的,这意味着学生的背景和技能会有一定的多样性。本书通过仔细阐述大数据分析的数学基础,并且提供几乎所有重要研究领域的应用,来迎合这种跨学科性。学习本书所需的前置数学知识水平与本科高等数学、线性代数、概率论与数理统计等课程的难度相当,适合各专业的学生学习。从事数据领域的专业人士都将从熟悉大数据分析中获益,因为这个领域在各行各业中扮演着越来越重要的角色。此外,本书的研究生读者可以更深入地了解数据科学领域,意识到这一领域已经对我们的社会产生了重大影响和改变,并有望在未来为其进一步的发展做出贡献。
致谢
首先,感谢弗雷德里希·希森(Friedrich Thie{\ss}en)和彼得·格鲁乔斯基(Peter Gluchowski),他们于2017年在德国开姆尼茨理工大学开始了“大数据分析的数学基础”课程的开发。作为金融学项目硕士和商务智能与分析硕士项目的负责人,希森和格鲁乔斯基要求我们设计一门跨学科的数据分析课程作为相应课程的一部分。希森在审阅与数据科学相关的实际问题与经济利益问题方面,对本书的撰写帮助很大。格鲁乔斯基与我们进行了大量关于课程结构和材料选择的讨论,回过头看,这些讨论是至关重要的。
其次,感谢开姆尼茨理工大学数学系的同事Oliver Ernst, Roland Herzog, Alois Pichler和Martin Stoll。早在2018年,我们就开始合作数据科学硕士项目,对“大数据分析的数学基础”这门课程的教学进行不断的尝试和完善。通过与这些同事就数据科学的教学进行有趣的对话,我们对这门课的体悟也得到了提升,从而形成了现在这样一本书。
再次,感谢施普林格出版社(Springer)的Iris Ruhmann在稿件准备过程中给予我们的建议和支持。她对于我们“将数学知识引入跨学科环境”的创新观点非常支持。我们也要感谢Greta Marino和Rory Sarkissian仔细检查了手稿的部分内容。
最后,我们的学生指出了本书的部分错别字和不准确的表述,在此一并表示感谢。
作者
2020年8月于德国开姆尼茨