第1章 数据挖掘导论??/?1
1.1 为什么进行数据挖掘 2
1.1.1 数据挖掘起源 2
1.1.2 数据挖掘是数据处理的高级阶段 4
1.2 什么是数据挖掘 5
1.2.1 广义技术角度定义 5
1.2.2 狭义技术角度定义 6
1.2.3 商业角度定义 6
1.2.4 数据挖掘、机器学习、人工智能的关系 7
1.3 挖掘什么类型数据 8
1.3.1 数据库数据 8
1.3.2 数据仓库 9
1.3.3 事务数据 10
1.3.4 其他类型数据 10
1.4 挖掘到什么知识 12
1.4.1 广义知识 12
1.4.2 关联知识 13
1.4.3 聚类知识 14
1.4.4 分类知识 14
1.4.5 预测型知识 15
1.4.6 偏差型知识 15
1.4.7 有价值的知识 16
1.5 数据挖掘方法 16
1.5.1 统计学 16
1.5.2 机器学习 17
1.5.3 智能优化方法 19
1.6 数据挖掘过程 20
1.6.1 Fayyad数据挖掘模型 20
1.6.2 数据挖掘工作量 22
1.6.3 数据挖掘人员分类 22
1.7 数据挖掘应用 22
1.7.1 数据挖掘在市场营销的应用 23
1.7.2 数据挖掘在软件工程中的应用 24
1.8 数据挖掘隐私权保护 26
1.8.1 隐私权侵犯的表现 27
1.8.2 保护隐私权的对策 28
1.8.3 隐私加密 29
1.9 课程学习 30
1.9.1 数据挖掘学习 30
1.9.2 开源数据挖掘工具 31
1.9.3 经典测试数据集 32
1.9.4 著名国际会议和期刊 33
实验 34
习题 36
第2章?数据探索与预处理??/?37
2.1 数据属性类型 37
2.1.1 标称属性 38
2.1.2 序数属性 38
2.1.3 数值属性 38
2.1.4 离散属性与连续属性 39
2.2 数据的统计描述 39
2.2.1 中心趋势度量:均值、中位数和众数 39
2.2.2 度量数据散布 41
2.3 统计描述图形 42
2.4 数据相似性度量 47
2.4.1 数据矩阵与相异性矩阵 47
2.4.2 标称属性的相异性度量 48
2.4.3 二元属性的相异性度量 48
2.4.4 数值属性的相异性 50
2.4.5 序数属性的邻近性度量 52
2.5 数据清洗 53
2.5.1 缺失值 53
2.5.2 噪声数据处理 57
2.5.3 异常值处理 60
2.6 数据集成 62
2.6.1 实体识别问题 62
2.6.2 冗余和相关分析 62
2.6.3 数据值冲突的检测与处理 65
2.7 数据变换 65
2.7.1 数据变换策略概述 65
2.7.2 数据规范化 66
2.8 数据归约 67
2.8.1 数值归约 68
2.8.2 属性归约 70
实验 76
习题 78
第3章?关联规则挖掘??/?79
3.1 基本概念 79
3.2 Apriori算法 81
3.2.1 Apriori算法概述 82
3.2.2 Apriori算法的例子 86
3.2.3 Apriori算法总结 88
3.3 关联规则评价 89
实验 91
习题 92
第4章?聚类分析??/?94
4.1 聚类分析概述 94
4.2 基于划分的方法 94
4.2.1 K-means算法 95
4.2.2 K-medoids算法 98
4.3 基于层次的方法 99
4.3.1 AGNES算法 101
4.3.2 DIANA算法 102
4.4 基于密度的方法 103
4.5 聚类图数据 106
4.5.1 聚类图数据度量 106
4.5.2 复杂网络 109
4.6 聚类评估 111
4.6.1 估计聚类趋势 112
4.6.2 确定簇数 113
4.6.3 测定聚类质量 113
实验 120
习题 120
第5章?线性模型??/?122
5.1 基本形式 122
5.2 线性回归 123
5.3 线性分类 126
5.4 多分类策略 129
实验 131
习题 132
第6章?分类??/?133
6.1 基本概念 133
6.1.1 什么是分类 133
6.1.2 分类的过程 134
6.1.3 分类器常见构造方法 136
6.2 基于距离的分类——KNN分类 136
6.2.1 KNN算法步骤 137
6.2.2 KNN算法的优缺点 138
6.3 贝叶斯分类 138
6.3.1 贝叶斯理论 138
6.3.2 朴素贝叶斯分类 140
6.3.3 朴素贝叶斯分类算法的优缺点 141
6.4 支持向量机 142
6.4.1 SVM基本概念 142
6.4.2 感知机模型 142
6.4.3 支持向量机数学模型 143
6.4.4 SVM算法实例 147
6.4.5 SVM算法优缺点 148
6.5 决策树 149
6.5.1 相关定义 149
6.5.2 ID3算法原理 151
6.5.3 ID3算法实例 152
6.5.4 ID3优缺点 155
6.5.5 C4.5算法原理 156
6.5.6 C4.5算法实例 156
6.5.7 C4.5算法的优缺点 161
6.5.8 两种算法的比较 161
6.6 分类算法评价 162
6.6.1 常用术语 162
6.6.2 评价指标 163
6.6.3 分类器性能的表示 164
6.6.4 分类器性能的评估方法 167
实验 168
习题 169
第7章?集成学习??/?171
7.1 基本概念 171
7.1.1 集成是什么 171
7.1.2 集成学习过程 172
7.2 Bagging与随机森林 173
7.2.1 Bagging 173
7.2.2 随机森林 174
7.3 Boosting与AdaBoost 181
7.3.1 Boosting 181
7.3.2 AdaBoost 182
7.4 集成多样性与评价 196
7.4.1 集成多样性 196
7.4.2 评价 198
实验 198
习题 198
第8章?神经网络与深度学习??/?199
8.1 神经网络 199
8.1.1 神经元 200
8.1.2 激活函数 200
8.1.3 网络结构 202
8.1.4 神经网络算法的训练过程 203
8.1.5 神经网络架构类型 207
8.2 卷积神经网络 208
8.2.1 卷积及卷积层 208
8.2.2 汇聚层 211
8.2.3 几种典型的卷积神经网络 212
8.3 循环神经网络 218
8.3.1 基础的循环神经网络 218
8.3.2 基于门控的循环神经网络 220
8.3.3 RNN的几种常见结构 223
8.4 自注意力机制Transformer模型 224
8.4.1 自注意力机制 224
8.4.2 Transformer模型 226
实验 229
习题 230
第9章?强化学习??/?231
9.1 强化学习概述 231
9.1.1 强化学习在机器学习中的地位 231
9.1.2 强化学习的智能体——环境交互 232
9.1.3 强化学习的发展与应用 232
9.2 马尔可夫决策过程 233
9.3 动态规划 239
9.3.1 策略迭代算法 240
9.3.2 价值迭代算法 240
9.4 蒙特卡洛 241
9.5 时间差分算法 241
9.6 强化学习算法举例 242
9.6.1 Q-Learning算法 242
9.6.2 SARSA算法 245
9.6.3 DQN算法 247
实验 249
习题 250
第10章?大语言模型及微调技术??/?251
10.1 大语言模型基本概念 251
10.2 大语言模型与生成式人工智能的关系 251
10.3 大模型发展历程 252
10.4 大模型微调技术 252
10.5 阿里百炼平台 255
10.5.1 阿里百炼介绍 255
10.5.2 接入阿里百炼 255
10.5.3 模型微调及部署 256
10.6 华为云ModelArts平台 258
10.7 情感识别分类应用 260
10.7.1 数据源 260
10.7.2 数据预处理 260
10.7.3 模型微调及部署 262
实验 273
第11章?基于LLM的航空公司价值客户分析??/?275
11.1 背景与挖掘目标 275
11.2 分析方法与过程 275
11.2.1 数据抽取 277
11.2.2 数据探索分析 278
11.2.3 数据预处理 279
11.2.4 模型构建 282
11.2.5 模型检验 284
11.3 拓展思考 285
小结 286
第12章?泰坦尼克号乘客生存预测??/?287
12.1 背景与挖掘目标 287
12.2 分析方法与过程 287
12.2.1 数据抽取 288
12.2.2 数据探索与分析 288
12.2.3 数据预处理 291
12.2.4 模型构建 294
12.2.5 模型检验 296
实验 297
第13章?关联规则电影推荐??/?299
13.1 数据源 299
13.2 数据探索 300
13.2.1 异常值分析 301
13.2.2 周期性分析 302
13.2.3 统计量分析 303
13.3 数据预处理 304
13.3.1 数据加载 304
13.3.2 缺失值处理 305
13.3.3 异常值处理 306
13.4 数据挖掘 306
13.5 算法评估 307
13.6 主要代码 309
13.6.1 频繁项集生成代码 309
13.6.2 关联规则生成代码 311
13.6.3 电影推荐代码 312
实验 313
IV
数据挖掘算法与应用(Python实现)(第2版)
V
目??录
