目录
第1章绪论1
1.1应用背景1
1.1.1商业上的驱动2
1.1.2科学研究上的驱动2
1.1.3数据挖掘伴随着数据库技术而出现2
1.2什么是数据挖掘3
1.2.1基本描述3
1.2.2关于知识发现4
1.3数据挖掘的主要技术5
1.4数据挖掘的主要研究内容7
1.5数据挖掘面临的主要问题10
1.6数据挖掘相关的资料11
1.7本书的总体章节安排12
1.8小结13
参考文献13
第2章数据预处理14
2.1前言14
2.2数据预处理的基本概念14
2.2.1数据的基本概念14
2.2.2为什么要进行数据预处理17
2.2.3数据预处理的任务18
2.3数据的描述18
2.3.1描述数据的中心趋势19
2.3.2描述数据的分散程度21
2.3.3描述数据的其他方式22
2.4数据清洗24
2.4.1数据缺失的处理24
2.4.2数据清洗25
2.5数据集成和转换27
2.5.1数据集成27
2.5.2数据冗余性27
2.5.3数据转换29
2.6数据归约和变换30
2.6.1数据归约30
2.6.2数据离散化33
2.6.3概念层次生成34
2.7小结35
参考文献36
第3章数据仓库37
3.1前言37
3.2数据库基本概念回顾37
3.2.1数据库简介38
3.2.2表、记录和域38
3.2.3数据库管理系统38
3.3数据仓库简介39
3.3.1数据仓库特点39
3.3.2数据仓库概念40
3.3.3数据仓库作用41
3.3.4数据仓库与DBMS对比41
3.3.5分离数据仓库的原因42
3.4多维数据模型43
3.4.1数据立方体43
3.4.2概念模型45
3.4.3概念分层48
3.4.4典型OLAP操作49
3.4.5星型网络的查询模型51
3.5数据仓库结构52
3.5.1数据仓库设计52
3.5.2多层体系结构54
3.6数据仓库的功能55
3.6.1数据立方体的有效计算55
3.6.2索引OLAP数据60
3.6.3OLAP查询的有效处理61
3.7从数据仓库到数据挖掘61
3.7.1数据仓库应用61
3.7.2从OLAP到OLAM62
3.8小结64
参考文献64
第4章相关性与关联规则66
4.1基本概念66
4.1.1潜在的应用66
4.1.2购物篮问题67
4.1.3频繁模式分析、闭项集和关联规则67
4.2频繁项集挖掘方法69
4.2.1Apriori算法69
4.2.2由频繁项集产生关联规则71
4.2.3提高Apriori的效率72
4.2.4挖掘频繁项集的模式增长方法73
4.3多种关联规则挖掘75
4.3.1挖掘多层关联规则75
4.3.2挖掘多维关联规则77
4.3.3挖掘量化关联规则78
4.4从关联分析到相关分析79
4.4.1相关分析80
4.4.2强规则不一定是有价值的80
4.4.3挖掘高度关联的模式81
4.5基于约束的频繁模式挖掘82
4.5.1关联规则的元规则制导挖掘82
4.5.2基于约束的模式生成: 模式空间剪枝和数据空间剪枝83
4.6小结85
参考文献85
第5章分类和预测89
5.1前言89
5.2基本概念89
5.2.1什么是分类89
5.2.2什么是预测91
5.3关于分类和预测的问题91
5.3.1准备分类和预测的数据91
5.3.2评价分类和预测方法91
5.4决策树分类92
5.4.1决策树归纳93
5.4.2属性选择度量93
5.4.3提取分类规则96
5.4.4基本决策树归纳的增强97
5.4.5在大数据集中的分类97
5.5贝叶斯分类97
5.5.1贝叶斯定理98
5.5.2朴素贝叶斯分类98
5.5.3贝叶斯信念网络100
5.5.4贝叶斯网络学习101
5.6神经网络102
5.6.1神经网络简介103
5.6.2多层神经网络103
5.6.3神经网络训练104
5.6.4后向传播104
5.6.5网络剪枝和规则抽取106
5.7支持向量机106
5.7.1数据线性可分的情况107
5.7.2数据线性不可分的情况109
5.7.3支持向量机和神经网络的对比111
5.8关联分类111
5.8.1为什么有效111
5.8.2常见关联分类算法112
5.9分类准确率112
5.9.1估计错误率113
5.9.2装袋和提升113
5.10小结115
参考文献115
第6章聚类分析117
6.1聚类分析的定义和数据类型117
6.1.1聚类的定义117
6.1.2聚类分析和主要应用118
6.1.3聚类分析方法的性能指标119
6.1.4聚类分析使用的数据类型119
6.2流聚类方法分类与相似性质量121
6.2.1聚类分析方法分类121
6.2.2连续变量的距离与相似性度量122
6.2.3二元变量与标称变量的相似性度量124
6.2.4序数和比例标度变量的相似性度量125
6.2.5混合类型变量的相似性度量125
6.3基于分割的聚类126
6.4基于层次的聚类129
6.5基于密度的聚类133
6.6基于网格的聚类134
6.7基于模型的聚类135
6.8离群点检测136
6.9小结137
参考文献137
第7章数据挖掘应用139
7.1前言139
7.2应用研发思路140
7.3预处理方法140
7.3.1基础数据说明140
7.3.2数字化方法说明140
7.3.3深入一步的预处理方法142
7.3.4基本数据分布情况说明144
7.3.5初步分析结果145
7.3.6小结148
7.4特征提取方法148
7.4.18种特征提取方法148
7.4.2特征总体排名策略149
7.4.3最终关键特征150
7.4.4特征提取与分析结论154
7.4.5小结155
7.5皮肤特征预测模型155
7.5.1预测方法回顾156
7.5.2预测结果分析与结论157
7.5.3小结168
7.6小结169
参考文献170
附录171
附录A插图索引171
附录B表格索引173
附录C算法索引174
附录D关键词索引174