图书前言

 信息技术推动了大众对数据的消费,大众对数据的消费热点经历了一个明晰的轨迹, 20 世纪 80年代是数学热,数字产生于数学模型,但数学模型对带有观测误差数据的解读能力有限,20世纪 90年代是信息热,信息为数字披上了外衣,然而技术的计算代价、适应能力和容错能力等还缺乏一个统一的分析标准。结果从 20 世纪 90年代开始,统计开始成为大众消费数据的热点,这一消费的转变也将一度默默无闻、与世无争的统计学家从象牙塔带到真实世界,开始参与到从数据特点出发构建面向不同问题的统计模型的实践中来。在当今这个网络密布、数据激增的时代,统计建模为大数据分析提供了一套可扩展、可深化,并能高质高效地揭示有价值信息的方法,使透过微观数据视角洞察在“无尺度网络”中游走的人类行为成为可能。大数据分析方法已经在信用识别、垃圾过滤、过度开发、诱惑欺诈、轨迹寻踪等应用研究中显露手脚,其潜在的能量与应用前景无疑有着更为广阔的空间。

与传统的统计分析相比,大数据有着来源复杂、体量巨大、价值潜伏等特点,这使得大数据分析必然要依托计算机技术予以实现。这也逐渐演变出大数据分析的两个研究方向:第一个方向侧重于数据的处理与表示,主要强调采集、存取、加工和可视化数据的方法;第二个方向则研究数据的统计规律,侧重于对微观数据本质特征的提取和模式发现。经过多年的实践探索,业界已经越来越清晰的意识到只有在两个方向上的协同、均衡推进,才能保障大数据应用的稳健成长和可持续发展。因此,大数据分析的发展重心也逐渐由数据处理的技术向数据分析的科学倾斜,后者正是本书的焦点与重点。

 相应的,我们所指的大数据分析方法主要取材于统计学习( Statistical Learning)、数据挖掘( Data Mining)和模式识别( Pattern Recognization)等领域,这些内容安排在第 3章、第 4章、第 5章、第 6章和第 7章。第 2章着重介绍数据挖掘流程与数据处理技术。大数据分析还是一门与应用结合很强的课程,我们精心挑选了三类典型的应用模型,内容安排在第 8章、第 9章和第 10章。本书集方法与应用于一册,希望读者通过方法的学习掌握复杂数据的分析与建模;通过应用的学习能按照实证研究的规范和数据挖掘的流程开展大数据的研发。除此之外,大数据分析还有很强的实践性,为体现这一特点,我们强调了工具的作用。通过工具的学习希望读者能够熟练掌握一门数据分析语言。本书大部分方法将给出 R软件的示范程序, R软件是免费、开源、专业、前沿的统计分析软件,分析研究数据的功能强大,是实践和领会大数据建模的有效途径。另外,书中也使用了少量的 JMP和 Statistica等工具的分析结果。

本书既可用做培养应用统计专业硕士的教材,也适用于管理学、信息学、统计学等专业进行数据挖掘、机器学习、人工智能等相关领域的教学与研究。研究生或本科高年级的数据挖掘课程可通过基本原理的学习,了解不同的模型和算法的设计特点,并通过每章后面所列参考文献进行延伸阅读。 

 本书通过案例讲解算法,以提高读者实际解决问题的能力。书中的案例也可用做提高学生统计咨询能力的课堂训练。在习题练习中的一些题目可作为课堂案例,安排学生分组讨论,并鼓励学生演示分析思路和分享分析收获。使学生有机会诊断问题,并学会选用适当的方法和技术分析数据。通过案例教学的方式将对学生领会大数据分析方法和应用大有助益。

如上所述,本书内容由 10章构成:大数据分析概述,数据挖掘流程,有指导的学习,无指导的学习,贝叶斯分类和因果学习,高维回归及变量选择,图模型,客户关系管理,社会网络分析,自然语言模型和文本挖掘。教学内容建议一学期 54学时完成,其中至少应该安排 10学时用于大数据分析项目的上机实验和讨论。

 作者过去 6年中一直在给高年级本科生和研究生讲授数据挖掘与机器学习课程,本书是作者结合多年授课的讲义与课题研究成果基础上汇编而成。全书由王星策划、统稿和校阅,其中第 1章至第 5章由王星主笔。贺诗源同学主要参与了第 2章、第 6章和第 7章的部分编写工作,陈文同学主要参与了第 6章和第 8章的部分编写工作,以上两位同学还在软件实现和例题整理部分做出贡献;郑轶、李荣明、龚君泰、马璇、李沐雨对第 8章至第 10章做出贡献;彭非老师、张波、邱逸轩、颜娅婷、王晓航、王杰彪、陈之进和张望等同学参与了部分实验的讨论;特别感谢 SAS 软件 JMP事业部曹建博士、周等在软件和相关资料方面给予的大力支持和技术解惑,他们还提供了可供学生免费试用的版本和网址(具体方法列在光盘中);清华大学出版社责任编辑刘颖和他的同事们尽职尽责的努力,在此一并致以衷心的谢忱。写作本书是一个愉快的过程,在这个新的科研方向和应用领域上,这支由年轻人组成的团队激情澎湃、勇于探索,他们钻研探究的精神风貌为我留下诸多美好回忆,也凝聚了开拓未来前进的不竭动力。大数据分析方法和应用涉猎很广,很难一本书面面俱到,书中尚存不详不妥之处,敬请读者指正。

王 星 

中国人民大学应用统计科学研究中心中国人民大学统计学院 

2013年 7月