





定价:55元
印次:1-14
ISBN:9787302334170
出版日期:2013.09.01
印刷日期:2025.07.11
图书责编:刘颖
图书分类:教材
本书介绍数据挖掘、统计学习和模式识别中与大数据分析相关的理论、方法及工具。理论学习的目标是使学生掌握复杂数据的分析与建模;方法学习的目标是使学生能够按照实证研究的规范和数据挖掘的步骤进行大数据研发,工具学习的目标是使学生熟练掌握一种数据分析的语言。本书内容由 10章构成:大数据分析概述,数据挖掘流程,有指导的学习,无指导的学习,贝叶斯分类和因果学习,高维回归及变量选择,图模型,客户关系管理、社会网络分析、自然语言模型和文本挖掘。 本书可用做统计学、管理学、计算机科学等专业进行数据挖掘、机器学习、人工智能等相关课程的本科高年级、研究生教材或教学参考书。
王 星,1994年和1997年毕业于北京师范大学数学系,分别获得理学学士学位和硕士学位,2003年毕业于中国人民大学,获博士学位,现任中国人民大学统计学院副教授,现任概率论与数理统计教研室主任,主要从事非参数统计、数据挖掘与机器学习的教学,主要研究兴趣:复杂数据问题的统计方法与案例研究,长期从事数据分析专业培训:涉及软件包括R\S-PLUS、SPSS\Clementine、STATISTICA、SAS\EM,SAS\JMP;在《统计研究》《中国人民大学学报》等杂志发表三十余篇学术论文,多次受邀在国内外主要的学术会议上做学术报告。
信息技术推动了大众对数据的消费,大众对数据的消费热点经历了一个明晰的轨迹, 20 世纪 80年代是数学热,数字产生于数学模型,但数学模型对带有观测误差数据的解读能力有限,20世纪 90年代是信息热,信息为数字披上了外衣,然而技术的计算代价、适应能力和容错能力等还缺乏一个统一的分析标准。结果从 20 世纪 90年代开始,统计开始成为大众消费数据的热点,这一消费的转变也将一度默默无闻、与世无争的统计学家从象牙塔带到真实世界,开始参与到从数据特点出发构建面向不同问题的统计模型的实践中来。在当今这个网络密布、数据激增的时代,统计建模为大数据分析提供了一套可扩展、可深化,并能高质高效地揭示有价值信息的方法,使透过微观数据视角洞察在“无尺度网络”中游走的人类行为成为可能。大数据分析方法已经在信用识别、垃圾过滤、过度开发、诱惑欺诈、轨迹寻踪等应用研究中显露手脚,其潜在的能量与应用前景无疑有着更为广阔的空间。 与传统的统计分析相比,大数据有着来源复杂、体量巨大、价值潜伏等特点,这使得大数据分析必然要依托计算机技术予以实现。这也逐渐演变出大数据分析的两个研究方向:第一个方向侧重于数据的处理与表示,主要强调采集、存取、加工和可视化数据的方法;第二个方向则研究数据的统计规律,侧重于对微观数据本质特征的提取和模式发现。经过多年的实践探索,业界已经越来越清晰的意识到只有在两个方向上的协同、均衡推进,才能保障大数据应用的稳健成长和可持续发展。因此,大数据分析的发展重心也逐渐由数据处理的技术向数据分析的科学倾斜,后者正是本书的焦点与重点。 相应的,我们所指的大数据分析方法主要取材于统计学习( Sta...
1.1 大数据概述 .1
1.1.1 什么是大数据 1
1.1.2 数据、信息与认知 2
1.1.3 数据管理与数据库 5
1.1.4 数据仓库 7
1.1.5 数据挖掘的内涵和基本特征 9
1.2 数据挖掘的产生与功能 .10
1.2.1 数据挖掘的历史 10
1.2.2 数据挖掘的功能 12
1.3 数据挖掘与相关领域之间的关系 .13
1.3.1 数据挖掘与机器学习 14
1.3.2 数据挖掘与数据仓库 14
1.3.3 数据挖掘与统计学 15
1.3.4 数据挖掘与智能决策 16
1.3.5 数据挖掘与云计算 17
1.4 大数据研究方法 .18
1.5 讨论题目 .19
1.6 推荐阅读 .20
第 2章 数据挖掘流程 22
2.1 数据挖掘流程概述 .22
2.1.1 问题识别 23
2.1.2 数据理解 25
2.1.3 数据准备 26
2.1.4 建立模型 27
2.1.5 模型评价 27
2.1.6 部署应用 30
2.2 离群点发现 .30
2.2.1 基于统计的离群点检测 31
2.2.2 基于距离的离群点检测 32
2.2.3 局部离群点算法 34
2.3 不平衡数据级联算法 .36
2.4 讨论题目 .41
2.5 推荐阅读 .43
第 3章 有指导的学习 45
3.1 ... 查看详情