目录
第1篇 监 督 学 习
第1章 机器学习及监督学习概论 ................................................................................3
1.1机器学习 .......................................................................................................3
1.2机器学习的分类 .............................................................................................5
1.2.1基本分类 ............................................................................................5
1.2.2按模型分类 ....................................................................................... 10
1.2.3按算法分类 ....................................................................................... 11
1.2.4按技巧分类 ....................................................................................... 12
1.3机器学习方法三要素 .................................................................................... 13
1.3.1模型 ................................................................................................. 13
1.3.2策略 ................................................................................................. 14
1.3.3算法 ................................................................................................. 16
1.4模型评估与模型选择 .................................................................................... 17
1.4.1训练误差与测试误差 .......................................................................... 17
1.4.2过拟合与模型选择 ............................................................................. 18
1.5正则化与交叉验证 ........................................................................................ 20
1.5.1正则化 .............................................................................................. 20
1.5.2交叉验证 .......................................................................................... 20
1.6泛化能力 ..................................................................................................... 21
1.6.1泛化误差 .......................................................................................... 21
1.6.2泛化误差上界 .................................................................................... 22
1.7生成模型与判别模型 .................................................................................... 24
1.8监督学习应用 .............................................................................................. 24
1.8.1分类问题 .......................................................................................... 24
1.8.2标注问题 .......................................................................................... 26
1.8.3回归问题 .......................................................................................... 27 本章概要 .............................................................................................................28 继续阅读 .............................................................................................................29 习题 ...................................................................................................................29 参考文献 .............................................................................................................29
VIII机器学习方法
第 2章感知机......................................................................................................... 30
2.1感知机模型 .................................................................................................. 30
2.2感知机学习策略 ........................................................................................... 31
2.2.1数据集的线性可分性 .......................................................................... 31
2.2.2感知机学习策略 ................................................................................ 31
2.3感知机学习算法 ........................................................................................... 32
2.3.1感知机学习算法的原始形式 ................................................................33
2.3.2算法的收敛性 .................................................................................... 35
2.3.3感知机学习算法的对偶形式 ................................................................37 本章概要 .............................................................................................................39 继续阅读 .............................................................................................................40 习题 ...................................................................................................................40 参考文献 .............................................................................................................40
第 3章 k近邻法 ..................................................................................................... 41
3.1 k近邻算法 .................................................................................................. 41
3.2 k近邻模型 .................................................................................................. 42
3.2.1模型 ................................................................................................. 42
3.2.2距离度量 .......................................................................................... 42
3.2.3 k值的选择 ....................................................................................... 43
3.2.4分类决策规则 .................................................................................... 44
3.3 k近邻法的实现:kd树 ................................................................................. 44
3.3.1构造 kd树 ........................................................................................ 45
3.3.2搜索 kd树 ........................................................................................ 46 本章概要 .............................................................................................................48 继续阅读 .............................................................................................................48 习题 ...................................................................................................................48 参考文献 .............................................................................................................49
第 4章朴素贝叶斯法............................................................................................... 50
4.1朴素贝叶斯法的学习与分类 .......................................................................... 50
4.1.1基本方法 .......................................................................................... 50
4.1.2后验概率最大化的含义 ......................................................................51
4.2朴素贝叶斯法的参数估计 .............................................................................. 52
4.2.1极大似然估计 .................................................................................... 52
4.2.2学习与分类算法 ................................................................................ 53
4.2.3贝叶斯估计 ....................................................................................... 54 本章概要 .............................................................................................................55 继续阅读 .............................................................................................................56
目录 IX
习题 ...................................................................................................................56 参考文献 .............................................................................................................56
第 5章决策树......................................................................................................... 57
5.1决策树模型与学习 ........................................................................................ 57
5.1.1决策树模型 ....................................................................................... 57
5.1.2决策树与 if-then规则 ........................................................................ 58
5.1.3决策树与条件概率分布 ......................................................................58
5.1.4决策树学习 ....................................................................................... 58
5.2特征选择 ..................................................................................................... 60
5.2.1特征选择问题 .................................................................................... 60
5.2.2信息增益 .......................................................................................... 61
5.2.3信息增益比 ....................................................................................... 64
5.3决策树的生成 .............................................................................................. 64
5.3.1 ID3算法 ........................................................................................... 65
5.3.2 C4.5的生成算法 ............................................................................... 66
5.4决策树的剪枝 .............................................................................................. 66
5.5 CART算法 ................................................................................................. 68
5.5.1 CART生成 ...................................................................................... 69
5.5.2 CART剪枝 ...................................................................................... 72 本章概要 .............................................................................................................74 继续阅读 .............................................................................................................75 习题 ...................................................................................................................75 参考文献 .............................................................................................................75
第 6章逻辑斯谛回归与最大熵模型........................................................................... 77
6.1逻辑斯谛回归模型 ........................................................................................ 77
6.1.1逻辑斯谛分布 .................................................................................... 77
6.1.2二项逻辑斯谛回归模型 ......................................................................78
6.1.3模型参数估计 .................................................................................... 79
6.1.4多项逻辑斯谛回归 ............................................................................. 79
6.2最大熵模型 .................................................................................................. 80
6.2.1最大熵原理 ....................................................................................... 80
6.2.2最大熵模型的定义 ............................................................................. 82
6.2.3最大熵模型的学习 ............................................................................. 83
6.2.4极大似然估计 .................................................................................... 86
6.3模型学习的最优化算法 ................................................................................. 87
6.3.1改进的迭代尺度法 ............................................................................. 87
6.3.2拟牛顿法 .......................................................................................... 90
机器学习方法
本章概要 .............................................................................................................91 继续阅读 .............................................................................................................92 习题 ...................................................................................................................92 参考文献 .............................................................................................................93
第 7章支持向量机 .................................................................................................. 94
7.1线性可分支持向量机与硬间隔最大化 .............................................................94
7.1.1线性可分支持向量机 .......................................................................... 94
7.1.2函数间隔和几何间隔 .......................................................................... 96
7.1.3间隔最大化 ....................................................................................... 97
7.1.4学习的对偶算法 .............................................................................. 101
7.2线性支持向量机与软间隔最大化 .................................................................. 106
7.2.1线性支持向量机 .............................................................................. 106
7.2.2学习的对偶算法 .............................................................................. 107
7.2.3支持向量 ........................................................................................ 110
7.2.4合页损失函数 .................................................................................. 111
7.3非线性支持向量机与核函数 ........................................................................ 112
7.3.1核技巧 ............................................................................................ 112
7.3.2正定核 ............................................................................................ 115
7.3.3常用核函数 ..................................................................................... 118
7.3.4非线性支持向量分类机 .................................................................... 120
7.4序列最小最优化算法 .................................................................................. 121
7.4.1两个变量二次规划的求解方法 .......................................................... 122
7.4.2变量的选择方法 .............................................................................. 124
7.4.3 SMO算法 ...................................................................................... 126 本章概要 ........................................................................................................... 127 继续阅读 ........................................................................................................... 129 习题 ................................................................................................................. 129 参考文献 ........................................................................................................... 129
第 8章 Boosting .................................................................................................. 131
8.1 AdaBoost算法 .......................................................................................... 131
8.1.1 Boosting的基本思路 ....................................................................... 131
8.1.2 AdaBoost算法 ................................................................................ 132
8.1.3 AdaBoost的例子 ............................................................................ 134
8.2 AdaBoost算法的训练误差分析 ................................................................... 135
8.3 AdaBoost算法的解释 ................................................................................ 137
8.3.1前向分步算法 .................................................................................. 137
8.3.2前向分步算法与 AdaBoost ................................................................ 138
目录 XI
8.4提升树 ...................................................................................................... 140
8.4.1提升树模型 ..................................................................................... 140
8.4.2提升树算法 ..................................................................................... 140
8.4.3梯度提升 ........................................................................................ 144 本章概要 ........................................................................................................... 145 继续阅读 ........................................................................................................... 146 习题 ................................................................................................................. 146 参考文献 ........................................................................................................... 146
第 9章 EM算法及其推广 ..................................................................................... 148
9.1 EM算法的引入 ......................................................................................... 148
9.1.1 EM算法 ......................................................................................... 148
9.1.2 EM算法的导出 ............................................................................... 151
9.1.3 EM算法在无监督学习中的应用 ....................................................... 153
9.2 EM算法的收敛性 ...................................................................................... 153
9.3 EM算法在高斯混合模型学习中的应用 ........................................................ 154
9.3.1高斯混合模型 .................................................................................. 155
9.3.2高斯混合模型参数估计的 EM算法 ................................................... 155
9.4 EM算法的推广 ......................................................................................... 158
9.4.1 F函数的极大-极大算法 ................................................................... 158
9.4.2 GEM算法 ...................................................................................... 160 本章概要 ........................................................................................................... 161 继续阅读 ........................................................................................................... 162 习题 ................................................................................................................. 162 参考文献 ........................................................................................................... 162
第 10章隐马尔可夫模型........................................................................................ 163
10.1隐马尔可夫模型的基本概念 ....................................................................... 163
10.1.1隐马尔可夫模型的定义 ................................................................. 163
10.1.2观测序列的生成过程 ..................................................................... 166
10.1.3隐马尔可夫模型的 3个基本问题 .................................................... 166
10.2概率计算算法 ........................................................................................... 166
10.2.1直接计算法 .................................................................................. 166
10.2.2前向算法 ..................................................................................... 167
10.2.3后向算法 ..................................................................................... 169
10.2.4一些概率与期望值的计算 .............................................................. 170
10.3学习算法 ................................................................................................. 172
10.3.1监督学习方法 ............................................................................... 172
10.3.2 Baum-Welch算法 ........................................................................ 172
XII机器学习方法
10.3.3 Baum-Welch模型参数估计公式 .................................................... 174
10.4预测算法 ................................................................................................. 175
10.4.1近似算法 ..................................................................................... 175
10.4.2维特比算法 .................................................................................. 176 本章概要 ........................................................................................................... 179 继续阅读 ........................................................................................................... 179 习题 ................................................................................................................. 180 参考文献 ........................................................................................................... 180
第 11章条件随机场 .............................................................................................. 181
11.1概率无向图模型 ....................................................................................... 181
11.1.1模型定义 ..................................................................................... 181
11.1.2概率无向图模型的因子分解 ........................................................... 183
11.2条件随机场的定义与形式 .......................................................................... 184
11.2.1条件随机场的定义 ........................................................................ 184
11.2.2条件随机场的参数化形式 .............................................................. 185
11.2.3条件随机场的简化形式 ................................................................. 186
11.2.4条件随机场的矩阵形式 ................................................................. 187
11.3条件随机场的概率计算问题 ....................................................................... 189
11.3.1前向-后向算法 .............................................................................. 189
11.3.2概率计算 ..................................................................................... 189
11.3.3期望值的计算 ............................................................................... 190
11.4条件随机场的学习算法 ............................................................................. 191
11.4.1改进的迭代尺度法 ........................................................................ 191
11.4.2拟牛顿法 ..................................................................................... 194
11.5条件随机场的预测算法 ............................................................................. 195 本章概要 ........................................................................................................... 197 继续阅读 ........................................................................................................... 198 习题 ................................................................................................................. 198 参考文献 ........................................................................................................... 199
第 12章监督学习方法总结 .................................................................................... 200
第
2篇
无
监
督
学
习
无监学习
第 13章无监督学习概论........................................................................................ 207
13.1无监督学习基本原理 ................................................................................. 207
13.2基本问题 ................................................................................................. 208
13.3机器学习三要素 ....................................................................................... 210
13.4无监督学习方法 ....................................................................................... 210
目录 XIII
本章概要 ........................................................................................................... 214 继续阅读 ........................................................................................................... 215 参考文献 ........................................................................................................... 215
第 14章聚类方法.................................................................................................. 216
14.1聚类的基本概念 ....................................................................................... 216
14.1.1相似度或距离 ............................................................................... 216
14.1.2类或簇 ......................................................................................... 219
14.1.3类与类之间的距离 ........................................................................ 220
14.2层次聚类 ................................................................................................. 220
14.3 k均值聚类 .............................................................................................. 222
14.3.1模型 ............................................................................................ 222
14.3.2策略 ............................................................................................ 223
14.3.3算法 ............................................................................................ 224
14.3.4算法特性 ..................................................................................... 225 本章概要 ........................................................................................................... 226 继续阅读 ........................................................................................................... 227 习题 ................................................................................................................. 227 参考文献 ........................................................................................................... 227
第 15章奇异值分解 .............................................................................................. 229
15.1奇异值分解的定义与性质 .......................................................................... 229
15.1.1定义与定理 .................................................................................. 229
15.1.2紧奇异值分解与截断奇异值分解 .................................................... 233
15.1.3几何解释 ..................................................................................... 235
15.1.4主要性质 ..................................................................................... 237
15.2奇异值分解的计算 .................................................................................... 238
15.3奇异值分解与矩阵近似 ............................................................................. 241
15.3.1弗罗贝尼乌斯范数 ........................................................................ 241
15.3.2矩阵的最优近似 ........................................................................... 242
15.3.3矩阵的外积展开式 ........................................................................ 245 本章概要 ........................................................................................................... 247 继续阅读 ........................................................................................................... 248 习题 ................................................................................................................. 248 参考文献 ........................................................................................................... 249
第 16章主成分分析 .............................................................................................. 250
16.1总体主成分分析 ....................................................................................... 250
16.1.1基本想法 ..................................................................................... 250
XIV机器学习方法
16.1.2定义和导出 .................................................................................. 252
16.1.3主要性质 ..................................................................................... 253
16.1.4主成分的个数 ............................................................................... 257
16.1.5规范化变量的总体主成分 .............................................................. 260
16.2样本主成分分析 ....................................................................................... 260
16.2.1样本主成分的定义和性质 .............................................................. 261
16.2.2相关矩阵的特征值分解算法 ........................................................... 263
16.2.3数据矩阵的奇异值分解算法 ........................................................... 265 本章概要 ........................................................................................................... 267 继续阅读 ........................................................................................................... 269 习题 ................................................................................................................. 269 参考文献 ........................................................................................................... 269
第 17章潜在语义分析 ........................................................................................... 271
17.1单词向量空间与话题向量空间 ................................................................... 271
17.1.1单词向量空间 ............................................................................... 271
17.1.2话题向量空间 ............................................................................... 273
17.2潜在语义分析算法 .................................................................................... 276
17.2.1矩阵奇异值分解算法 ..................................................................... 276
17.2.2例子 ............................................................................................ 278
17.3非负矩阵分解算法 .................................................................................... 279
17.3.1非负矩阵分解 ............................................................................... 279
17.3.2潜在语义分析模型 ........................................................................ 280
17.3.3非负矩阵分解的形式化 ................................................................. 280
17.3.4算法 ............................................................................................ 281 本章概要 ........................................................................................................... 283 继续阅读 ........................................................................................................... 284 习题 ................................................................................................................. 284 参考文献 ........................................................................................................... 285
第 18章概率潜在语义分析 .................................................................................... 286
18.1概率潜在语义分析模型 ............................................................................. 286
18.1.1基本想法 ..................................................................................... 286
18.1.2生成模型 ..................................................................................... 287
18.1.3共现模型 ..................................................................................... 288
18.1.4模型性质 ..................................................................................... 289
18.2概率潜在语义分析的算法 .......................................................................... 291 本章概要 ........................................................................................................... 293 继续阅读 ........................................................................................................... 294
目录 XV
习题 ................................................................................................................. 294 参考文献 ........................................................................................................... 295
第 19章马尔可夫链蒙特卡罗法.............................................................................. 296
19.1蒙特卡罗法 .............................................................................................. 296
19.1.1随机抽样 ..................................................................................... 296
19.1.2数学期望估计 ............................................................................... 297
19.1.3积分计算 ..................................................................................... 298
19.2马尔可夫链 .............................................................................................. 299
19.2.1基本定义 ..................................................................................... 299
19.2.2离散状态马尔可夫链 ..................................................................... 300
19.2.3连续状态马尔可夫链 ..................................................................... 305
19.2.4马尔可夫链的性质 ........................................................................ 306
19.3马尔可夫链蒙特卡罗法 ............................................................................. 310
19.3.1基本想法 ..................................................................................... 310
19.3.2基本步骤 ..................................................................................... 311
19.3.3马尔可夫链蒙特卡罗法与统计学习 ................................................. 311
19.4 Metropolis-Hastings算法 .......................................................................... 312
19.4.1基本原理 ..................................................................................... 312
19.4.2 Metropolis-Hastings算法 .............................................................. 315
19.4.3单分量 Metropolis-Hastings算法 ................................................... 315
19.5吉布斯抽样 .............................................................................................. 316
19.5.1基本原理 ..................................................................................... 316
19.5.2吉布斯抽样算法 ........................................................................... 318
19.5.3抽样计算 ..................................................................................... 319 本章概要 ........................................................................................................... 320 继续阅读 ........................................................................................................... 321 习题 ................................................................................................................. 321 参考文献 ........................................................................................................... 322
第 20章潜在狄利克雷分配 .................................................................................... 324
20.1狄利克雷分布 ........................................................................................... 324
20.1.1分布定义 ..................................................................................... 324
20.1.2共轭先验 ..................................................................................... 327
20.2潜在狄利克雷分配模型 ............................................................................. 328
20.2.1基本想法 ..................................................................................... 328
20.2.2模型定义 ..................................................................................... 329
20.2.3概率图模型 .................................................................................. 331
20.2.4随机变量序列的可交换性 .............................................................. 332
XVI机器学习方法
20.2.5概率公式 ..................................................................................... 332
20.3 LDA的吉布斯抽样算法 ............................................................................ 333
20.3.1基本想法 ..................................................................................... 333
20.3.2算法的主要部分 ........................................................................... 334
20.3.3算法的后处理 ............................................................................... 336
20.3.4算法 ............................................................................................ 337
20.4 LDA的变分 EM算法 ............................................................................... 338
20.4.1变分推理 ..................................................................................... 338
20.4.2变分 EM算法 .............................................................................. 339
20.4.3算法推导 ..................................................................................... 340
20.4.4算法总结 ..................................................................................... 346 本章概要 ........................................................................................................... 346 继续阅读 ........................................................................................................... 348 习题 ................................................................................................................. 348 参考文献 ........................................................................................................... 348
第 21章 PageRank算法 ...................................................................................... 349
21.1 PageRank的定义 ..................................................................................... 349
21.1.1基本想法 ..................................................................................... 349
21.1.2有向图和随机游走模型 ................................................................. 350
21.1.3 PageRank的基本定义 .................................................................. 352
21.1.4 PageRank的一般定义 .................................................................. 354
21.2 PageRank的计算 ..................................................................................... 355
21.2.1迭代算法 ..................................................................................... 355
21.2.2幂法 ............................................................................................ 357
21.2.3代数算法 ..................................................................................... 361 本章概要 ........................................................................................................... 362 继续阅读 ........................................................................................................... 363 习题 ................................................................................................................. 363 参考文献 ........................................................................................................... 364
第 22章无监督学习方法总结 ................................................................................. 365
22.1无监督学习方法的关系和特点 ................................................................... 365
22.1.1各种方法之间的关系 ..................................................................... 365
22.1.2无监督学习方法 ........................................................................... 366
22.1.3基础机器学习方法 ........................................................................ 366
22.2话题模型之间的关系和特点 ....................................................................... 367 参考文献 ........................................................................................................... 368
目录 XVII
第
3篇
深
度
学
习
第 23章前馈神经网络 ........................................................................................... 371
23.1前馈神经网络的模型 ................................................................................. 371
23.1.1前馈神经网络定义 ........................................................................ 372
23.1.2前馈神经网络的例子 ..................................................................... 381
23.1.3前馈神经网络的表示能力 .............................................................. 386
23.2前馈神经网络的学习算法 .......................................................................... 389
23.2.1前馈神经网络学习 ........................................................................ 389
23.2.2前馈神经网络学习的优化算法 ....................................................... 391
23.2.3反向传播算法 ............................................................................... 393
23.2.4在计算图上的实现 ........................................................................ 397
23.2.5算法的实现技巧 ........................................................................... 401
23.3前馈神经网络学习的正则化 ....................................................................... 406
23.3.1深度学习中的正则化 ..................................................................... 406
23.3.2早停法 ......................................................................................... 406
23.3.3暂退法 ......................................................................................... 408 本章概要 ........................................................................................................... 410 继续阅读 ........................................................................................................... 413 习题 ................................................................................................................. 413 参考文献 ........................................................................................................... 414
第 24章卷积神经网络 ........................................................................................... 415
24.1卷积神经网络的模型 ................................................................................. 415
24.1.1背景 ............................................................................................ 415
24.1.2卷积 ............................................................................................ 416
24.1.3汇聚 ............................................................................................ 424
24.1.4卷积神经网络 ............................................................................... 427
24.1.5卷积神经网络性质 ........................................................................ 430
24.2卷积神经网络的学习算法 .......................................................................... 432
24.2.1卷积导数 ..................................................................................... 432
24.2.2反向传播算法 ............................................................................... 433
24.3图像分类中的应用 .................................................................................... 436
24.3.1 AlexNet........................................................................................ 436
24.3.2残差网络 ..................................................................................... 437 本章概要 ........................................................................................................... 441 继续阅读 ........................................................................................................... 443 习题 ................................................................................................................. 443 参考文献 ........................................................................................................... 445
XVIII机器学习方法
第 25章循环神经网络 ........................................................................................... 447
25.1简单循环神经网络 .................................................................................... 447
25.1.1模型 ............................................................................................ 447
25.1.2学习算法 ..................................................................................... 450
25.2常用循环神经网络 .................................................................................... 454
25.2.1长短期记忆网络 ........................................................................... 454
25.2.2门控循环单元网络 ........................................................................ 457
25.2.3深度循环神经网络 ........................................................................ 458
25.2.4双向循环神经网络 ........................................................................ 459
25.3自然语言生成中的应用 ............................................................................. 460
25.3.1词向量 ......................................................................................... 460
25.3.2语言模型与语言生成 ..................................................................... 463 本章概要 ........................................................................................................... 465 继续阅读 ........................................................................................................... 467 习题 ................................................................................................................. 467 参考文献 ........................................................................................................... 468
第 26章序列到序列模型........................................................................................ 469
26.1序列到序列基本模型 ................................................................................. 469
26.1.1序列到序列学习 ........................................................................... 469
26.1.2基本模型 ..................................................................................... 471
26.2 RNN Search模型 ..................................................................................... 472
26.2.1注意力 ......................................................................................... 472
26.2.2模型定义 ..................................................................................... 474
26.2.3模型特点 ..................................................................................... 475
26.3 Transformer模型 ..................................................................................... 475
26.3.1模型架构 ..................................................................................... 476
26.3.2模型特点 ..................................................................................... 482 本章概要 ........................................................................................................... 483 继续阅读 ........................................................................................................... 486 习题 ................................................................................................................. 486 参考文献 ........................................................................................................... 486
第 27章预训练语言模型........................................................................................ 488
27.1 GPT模型 ................................................................................................ 488
27.1.1预训练语言模型 ........................................................................... 488
27.1.2模型和学习 .................................................................................. 490
27.2 BERT模型 .............................................................................................. 493
27.2.1去噪自动编码器 ........................................................................... 493
27.2.2模型和学习 .................................................................................. 495
目录 XIX
27.2.3模型特点 ..................................................................................... 499 本章概要 ........................................................................................................... 500 继续阅读 ........................................................................................................... 502 习题 ................................................................................................................. 502 参考文献 ........................................................................................................... 502
第 28章生成对抗网络 ........................................................................................... 504
28.1 GAN基本模型 ......................................................................................... 504
28.1.1模型 ............................................................................................ 504
28.1.2学习算法 ..................................................................................... 506
28.1.3理论分析 ..................................................................................... 507
28.2图像生成中的应用 .................................................................................... 508
28.2.1转置卷积 ..................................................................................... 509
28.2.2 DCGAN ....................................................................................... 511 本章概要 ........................................................................................................... 513 继续阅读 ........................................................................................................... 514 习题 ................................................................................................................. 514 参考文献 ........................................................................................................... 515
第 29章深度学习方法总结 .................................................................................... 516
29.1深度学习的模型 ....................................................................................... 516
29.2深度学习的方法 ....................................................................................... 518
29.3深度学习的优化算法 ................................................................................. 520
29.4深度学习的优缺点 .................................................................................... 522 参考文献 ........................................................................................................... 523
附录 A梯度下降法 ................................................................................................ 524
附录 B牛顿法和拟牛顿法....................................................................................... 526
附录 C拉格朗日对偶性 .......................................................................................... 531
附录 D矩阵的基本子空间 ...................................................................................... 534
附录 E KL散度的定义和狄利克雷分布的性质 ......................................................... 537
附录 F软最大化函数的偏导数和交叉熵损失函数的偏导数 ........................................ 539
索引......................................................................................................................... 541