图书目录

目录

第1篇 监 督 学 习

第1章   机器学习及监督学习概论 ................................................................................3 

1.1机器学习 .......................................................................................................3 

1.2机器学习的分类 .............................................................................................5 

1.2.1基本分类 ............................................................................................5 

1.2.2按模型分类 ....................................................................................... 10 

1.2.3按算法分类 ....................................................................................... 11 

1.2.4按技巧分类 ....................................................................................... 12 

1.3机器学习方法三要素 .................................................................................... 13 

1.3.1模型 ................................................................................................. 13 

1.3.2策略 ................................................................................................. 14 

1.3.3算法 ................................................................................................. 16 

1.4模型评估与模型选择 .................................................................................... 17 

1.4.1训练误差与测试误差 .......................................................................... 17 

1.4.2过拟合与模型选择 ............................................................................. 18 

1.5正则化与交叉验证 ........................................................................................ 20 

1.5.1正则化 .............................................................................................. 20 

1.5.2交叉验证 .......................................................................................... 20 

1.6泛化能力 ..................................................................................................... 21 

1.6.1泛化误差 .......................................................................................... 21 

1.6.2泛化误差上界 .................................................................................... 22 

1.7生成模型与判别模型 .................................................................................... 24 

1.8监督学习应用 .............................................................................................. 24 

1.8.1分类问题 .......................................................................................... 24 

1.8.2标注问题 .......................................................................................... 26 

1.8.3回归问题 .......................................................................................... 27 本章概要 .............................................................................................................28 继续阅读 .............................................................................................................29 习题 ...................................................................................................................29 参考文献 .............................................................................................................29 

VIII机器学习方法

第 2章感知机......................................................................................................... 30 

2.1感知机模型 .................................................................................................. 30 

2.2感知机学习策略 ........................................................................................... 31 

2.2.1数据集的线性可分性 .......................................................................... 31 

2.2.2感知机学习策略 ................................................................................ 31 

2.3感知机学习算法 ........................................................................................... 32 

2.3.1感知机学习算法的原始形式 ................................................................33 

2.3.2算法的收敛性 .................................................................................... 35 

2.3.3感知机学习算法的对偶形式 ................................................................37 本章概要 .............................................................................................................39 继续阅读 .............................................................................................................40 习题 ...................................................................................................................40 参考文献 .............................................................................................................40

第 3章 k近邻法 ..................................................................................................... 41 

3.1 k近邻算法 .................................................................................................. 41 

3.2 k近邻模型 .................................................................................................. 42 

3.2.1模型 ................................................................................................. 42 

3.2.2距离度量 .......................................................................................... 42 

3.2.3 k值的选择 ....................................................................................... 43 

3.2.4分类决策规则 .................................................................................... 44 

3.3 k近邻法的实现:kd树 ................................................................................. 44 

3.3.1构造 kd树 ........................................................................................ 45 

3.3.2搜索 kd树 ........................................................................................ 46 本章概要 .............................................................................................................48 继续阅读 .............................................................................................................48 习题 ...................................................................................................................48 参考文献 .............................................................................................................49

第 4章朴素贝叶斯法............................................................................................... 50 

4.1朴素贝叶斯法的学习与分类 .......................................................................... 50 

4.1.1基本方法 .......................................................................................... 50 

4.1.2后验概率最大化的含义 ......................................................................51 

4.2朴素贝叶斯法的参数估计 .............................................................................. 52 

4.2.1极大似然估计 .................................................................................... 52 

4.2.2学习与分类算法 ................................................................................ 53 

4.2.3贝叶斯估计 ....................................................................................... 54 本章概要 .............................................................................................................55 继续阅读 .............................................................................................................56 

目录 IX

习题 ...................................................................................................................56 参考文献 .............................................................................................................56

第 5章决策树......................................................................................................... 57 

5.1决策树模型与学习 ........................................................................................ 57 

5.1.1决策树模型 ....................................................................................... 57 

5.1.2决策树与 if-then规则 ........................................................................ 58 

5.1.3决策树与条件概率分布 ......................................................................58 

5.1.4决策树学习 ....................................................................................... 58 

5.2特征选择 ..................................................................................................... 60 

5.2.1特征选择问题 .................................................................................... 60 

5.2.2信息增益 .......................................................................................... 61 

5.2.3信息增益比 ....................................................................................... 64 

5.3决策树的生成 .............................................................................................. 64 

5.3.1 ID3算法 ........................................................................................... 65 

5.3.2 C4.5的生成算法 ............................................................................... 66 

5.4决策树的剪枝 .............................................................................................. 66 

5.5 CART算法 ................................................................................................. 68 

5.5.1 CART生成 ...................................................................................... 69 

5.5.2 CART剪枝 ...................................................................................... 72 本章概要 .............................................................................................................74 继续阅读 .............................................................................................................75 习题 ...................................................................................................................75 参考文献 .............................................................................................................75

第 6章逻辑斯谛回归与最大熵模型........................................................................... 77 

6.1逻辑斯谛回归模型 ........................................................................................ 77 

6.1.1逻辑斯谛分布 .................................................................................... 77 

6.1.2二项逻辑斯谛回归模型 ......................................................................78 

6.1.3模型参数估计 .................................................................................... 79 

6.1.4多项逻辑斯谛回归 ............................................................................. 79 

6.2最大熵模型 .................................................................................................. 80 

6.2.1最大熵原理 ....................................................................................... 80 

6.2.2最大熵模型的定义 ............................................................................. 82 

6.2.3最大熵模型的学习 ............................................................................. 83 

6.2.4极大似然估计 .................................................................................... 86 

6.3模型学习的最优化算法 ................................................................................. 87 

6.3.1改进的迭代尺度法 ............................................................................. 87 

6.3.2拟牛顿法 .......................................................................................... 90 

机器学习方法

本章概要 .............................................................................................................91 继续阅读 .............................................................................................................92 习题 ...................................................................................................................92 参考文献 .............................................................................................................93

第 7章支持向量机 .................................................................................................. 94 

7.1线性可分支持向量机与硬间隔最大化 .............................................................94 

7.1.1线性可分支持向量机 .......................................................................... 94 

7.1.2函数间隔和几何间隔 .......................................................................... 96 

7.1.3间隔最大化 ....................................................................................... 97 

7.1.4学习的对偶算法 .............................................................................. 101 

7.2线性支持向量机与软间隔最大化 .................................................................. 106 

7.2.1线性支持向量机 .............................................................................. 106 

7.2.2学习的对偶算法 .............................................................................. 107 

7.2.3支持向量 ........................................................................................ 110 

7.2.4合页损失函数 .................................................................................. 111 

7.3非线性支持向量机与核函数 ........................................................................ 112 

7.3.1核技巧 ............................................................................................ 112 

7.3.2正定核 ............................................................................................ 115 

7.3.3常用核函数 ..................................................................................... 118 

7.3.4非线性支持向量分类机 .................................................................... 120 

7.4序列最小最优化算法 .................................................................................. 121 

7.4.1两个变量二次规划的求解方法 .......................................................... 122 

7.4.2变量的选择方法 .............................................................................. 124 

7.4.3 SMO算法 ...................................................................................... 126 本章概要 ........................................................................................................... 127 继续阅读 ........................................................................................................... 129 习题 ................................................................................................................. 129 参考文献 ........................................................................................................... 129

第 8章 Boosting .................................................................................................. 131 

8.1 AdaBoost算法 .......................................................................................... 131 

8.1.1 Boosting的基本思路 ....................................................................... 131 

8.1.2 AdaBoost算法 ................................................................................ 132 

8.1.3 AdaBoost的例子 ............................................................................ 134 

8.2 AdaBoost算法的训练误差分析 ................................................................... 135 

8.3 AdaBoost算法的解释 ................................................................................ 137 

8.3.1前向分步算法 .................................................................................. 137 

8.3.2前向分步算法与 AdaBoost ................................................................ 138 

目录 XI 

8.4提升树 ...................................................................................................... 140 

8.4.1提升树模型 ..................................................................................... 140 

8.4.2提升树算法 ..................................................................................... 140 

8.4.3梯度提升 ........................................................................................ 144 本章概要 ........................................................................................................... 145 继续阅读 ........................................................................................................... 146 习题 ................................................................................................................. 146 参考文献 ........................................................................................................... 146

第 9章 EM算法及其推广 ..................................................................................... 148 

9.1 EM算法的引入 ......................................................................................... 148 

9.1.1 EM算法 ......................................................................................... 148 

9.1.2 EM算法的导出 ............................................................................... 151 

9.1.3 EM算法在无监督学习中的应用 ....................................................... 153 

9.2 EM算法的收敛性 ...................................................................................... 153 

9.3 EM算法在高斯混合模型学习中的应用 ........................................................ 154 

9.3.1高斯混合模型 .................................................................................. 155 

9.3.2高斯混合模型参数估计的 EM算法 ................................................... 155 

9.4 EM算法的推广 ......................................................................................... 158 

9.4.1 F函数的极大-极大算法 ................................................................... 158 

9.4.2 GEM算法 ...................................................................................... 160 本章概要 ........................................................................................................... 161 继续阅读 ........................................................................................................... 162 习题 ................................................................................................................. 162 参考文献 ........................................................................................................... 162

第 10章隐马尔可夫模型........................................................................................ 163 

10.1隐马尔可夫模型的基本概念 ....................................................................... 163 

10.1.1隐马尔可夫模型的定义 ................................................................. 163 

10.1.2观测序列的生成过程 ..................................................................... 166 

10.1.3隐马尔可夫模型的 3个基本问题 .................................................... 166 

10.2概率计算算法 ........................................................................................... 166 

10.2.1直接计算法 .................................................................................. 166 

10.2.2前向算法 ..................................................................................... 167 

10.2.3后向算法 ..................................................................................... 169 

10.2.4一些概率与期望值的计算 .............................................................. 170 

10.3学习算法 ................................................................................................. 172 

10.3.1监督学习方法 ............................................................................... 172 

10.3.2 Baum-Welch算法 ........................................................................ 172 

XII机器学习方法 

10.3.3 Baum-Welch模型参数估计公式 .................................................... 174 

10.4预测算法 ................................................................................................. 175 

10.4.1近似算法 ..................................................................................... 175 

10.4.2维特比算法 .................................................................................. 176 本章概要 ........................................................................................................... 179 继续阅读 ........................................................................................................... 179 习题 ................................................................................................................. 180 参考文献 ........................................................................................................... 180

第 11章条件随机场 .............................................................................................. 181 

11.1概率无向图模型 ....................................................................................... 181 

11.1.1模型定义 ..................................................................................... 181 

11.1.2概率无向图模型的因子分解 ........................................................... 183 

11.2条件随机场的定义与形式 .......................................................................... 184 

11.2.1条件随机场的定义 ........................................................................ 184 

11.2.2条件随机场的参数化形式 .............................................................. 185 

11.2.3条件随机场的简化形式 ................................................................. 186 

11.2.4条件随机场的矩阵形式 ................................................................. 187 

11.3条件随机场的概率计算问题 ....................................................................... 189 

11.3.1前向-后向算法 .............................................................................. 189 

11.3.2概率计算 ..................................................................................... 189 

11.3.3期望值的计算 ............................................................................... 190 

11.4条件随机场的学习算法 ............................................................................. 191 

11.4.1改进的迭代尺度法 ........................................................................ 191 

11.4.2拟牛顿法 ..................................................................................... 194 

11.5条件随机场的预测算法 ............................................................................. 195 本章概要 ........................................................................................................... 197 继续阅读 ........................................................................................................... 198 习题 ................................................................................................................. 198 参考文献 ........................................................................................................... 199

第 12章监督学习方法总结 .................................................................................... 200

第 

2篇

无监学习

第 13章无监督学习概论........................................................................................ 207 

13.1无监督学习基本原理 ................................................................................. 207 

13.2基本问题 ................................................................................................. 208 

13.3机器学习三要素 ....................................................................................... 210 

13.4无监督学习方法 ....................................................................................... 210 

目录 XIII

本章概要 ........................................................................................................... 214 继续阅读 ........................................................................................................... 215 参考文献 ........................................................................................................... 215

第 14章聚类方法.................................................................................................. 216 

14.1聚类的基本概念 ....................................................................................... 216 

14.1.1相似度或距离 ............................................................................... 216 

14.1.2类或簇 ......................................................................................... 219 

14.1.3类与类之间的距离 ........................................................................ 220 

14.2层次聚类 ................................................................................................. 220 

14.3 k均值聚类 .............................................................................................. 222 

14.3.1模型 ............................................................................................ 222 

14.3.2策略 ............................................................................................ 223 

14.3.3算法 ............................................................................................ 224 

14.3.4算法特性 ..................................................................................... 225 本章概要 ........................................................................................................... 226 继续阅读 ........................................................................................................... 227 习题 ................................................................................................................. 227 参考文献 ........................................................................................................... 227

第 15章奇异值分解 .............................................................................................. 229 

15.1奇异值分解的定义与性质 .......................................................................... 229 

15.1.1定义与定理 .................................................................................. 229 

15.1.2紧奇异值分解与截断奇异值分解 .................................................... 233 

15.1.3几何解释 ..................................................................................... 235 

15.1.4主要性质 ..................................................................................... 237 

15.2奇异值分解的计算 .................................................................................... 238 

15.3奇异值分解与矩阵近似 ............................................................................. 241 

15.3.1弗罗贝尼乌斯范数 ........................................................................ 241 

15.3.2矩阵的最优近似 ........................................................................... 242 

15.3.3矩阵的外积展开式 ........................................................................ 245 本章概要 ........................................................................................................... 247 继续阅读 ........................................................................................................... 248 习题 ................................................................................................................. 248 参考文献 ........................................................................................................... 249

第 16章主成分分析 .............................................................................................. 250 

16.1总体主成分分析 ....................................................................................... 250 

16.1.1基本想法 ..................................................................................... 250 

XIV机器学习方法 

16.1.2定义和导出 .................................................................................. 252 

16.1.3主要性质 ..................................................................................... 253 

16.1.4主成分的个数 ............................................................................... 257 

16.1.5规范化变量的总体主成分 .............................................................. 260 

16.2样本主成分分析 ....................................................................................... 260 

16.2.1样本主成分的定义和性质 .............................................................. 261 

16.2.2相关矩阵的特征值分解算法 ........................................................... 263 

16.2.3数据矩阵的奇异值分解算法 ........................................................... 265 本章概要 ........................................................................................................... 267 继续阅读 ........................................................................................................... 269 习题 ................................................................................................................. 269 参考文献 ........................................................................................................... 269

第 17章潜在语义分析 ........................................................................................... 271 

17.1单词向量空间与话题向量空间 ................................................................... 271 

17.1.1单词向量空间 ............................................................................... 271 

17.1.2话题向量空间 ............................................................................... 273 

17.2潜在语义分析算法 .................................................................................... 276 

17.2.1矩阵奇异值分解算法 ..................................................................... 276 

17.2.2例子 ............................................................................................ 278 

17.3非负矩阵分解算法 .................................................................................... 279 

17.3.1非负矩阵分解 ............................................................................... 279 

17.3.2潜在语义分析模型 ........................................................................ 280 

17.3.3非负矩阵分解的形式化 ................................................................. 280 

17.3.4算法 ............................................................................................ 281 本章概要 ........................................................................................................... 283 继续阅读 ........................................................................................................... 284 习题 ................................................................................................................. 284 参考文献 ........................................................................................................... 285

第 18章概率潜在语义分析 .................................................................................... 286 

18.1概率潜在语义分析模型 ............................................................................. 286 

18.1.1基本想法 ..................................................................................... 286 

18.1.2生成模型 ..................................................................................... 287 

18.1.3共现模型 ..................................................................................... 288 

18.1.4模型性质 ..................................................................................... 289 

18.2概率潜在语义分析的算法 .......................................................................... 291 本章概要 ........................................................................................................... 293 继续阅读 ........................................................................................................... 294 

目录 XV

习题 ................................................................................................................. 294 参考文献 ........................................................................................................... 295

第 19章马尔可夫链蒙特卡罗法.............................................................................. 296 

19.1蒙特卡罗法 .............................................................................................. 296 

19.1.1随机抽样 ..................................................................................... 296 

19.1.2数学期望估计 ............................................................................... 297 

19.1.3积分计算 ..................................................................................... 298 

19.2马尔可夫链 .............................................................................................. 299 

19.2.1基本定义 ..................................................................................... 299 

19.2.2离散状态马尔可夫链 ..................................................................... 300 

19.2.3连续状态马尔可夫链 ..................................................................... 305 

19.2.4马尔可夫链的性质 ........................................................................ 306 

19.3马尔可夫链蒙特卡罗法 ............................................................................. 310 

19.3.1基本想法 ..................................................................................... 310 

19.3.2基本步骤 ..................................................................................... 311 

19.3.3马尔可夫链蒙特卡罗法与统计学习 ................................................. 311 

19.4 Metropolis-Hastings算法 .......................................................................... 312 

19.4.1基本原理 ..................................................................................... 312 

19.4.2 Metropolis-Hastings算法 .............................................................. 315 

19.4.3单分量 Metropolis-Hastings算法 ................................................... 315 

19.5吉布斯抽样 .............................................................................................. 316 

19.5.1基本原理 ..................................................................................... 316 

19.5.2吉布斯抽样算法 ........................................................................... 318 

19.5.3抽样计算 ..................................................................................... 319 本章概要 ........................................................................................................... 320 继续阅读 ........................................................................................................... 321 习题 ................................................................................................................. 321 参考文献 ........................................................................................................... 322

第 20章潜在狄利克雷分配 .................................................................................... 324 

20.1狄利克雷分布 ........................................................................................... 324 

20.1.1分布定义 ..................................................................................... 324 

20.1.2共轭先验 ..................................................................................... 327 

20.2潜在狄利克雷分配模型 ............................................................................. 328 

20.2.1基本想法 ..................................................................................... 328 

20.2.2模型定义 ..................................................................................... 329 

20.2.3概率图模型 .................................................................................. 331 

20.2.4随机变量序列的可交换性 .............................................................. 332 

XVI机器学习方法 

20.2.5概率公式 ..................................................................................... 332 

20.3 LDA的吉布斯抽样算法 ............................................................................ 333 

20.3.1基本想法 ..................................................................................... 333 

20.3.2算法的主要部分 ........................................................................... 334 

20.3.3算法的后处理 ............................................................................... 336 

20.3.4算法 ............................................................................................ 337 

20.4 LDA的变分 EM算法 ............................................................................... 338 

20.4.1变分推理 ..................................................................................... 338 

20.4.2变分 EM算法 .............................................................................. 339 

20.4.3算法推导 ..................................................................................... 340 

20.4.4算法总结 ..................................................................................... 346 本章概要 ........................................................................................................... 346 继续阅读 ........................................................................................................... 348 习题 ................................................................................................................. 348 参考文献 ........................................................................................................... 348

第 21章 PageRank算法 ...................................................................................... 349 

21.1 PageRank的定义 ..................................................................................... 349 

21.1.1基本想法 ..................................................................................... 349 

21.1.2有向图和随机游走模型 ................................................................. 350 

21.1.3 PageRank的基本定义 .................................................................. 352 

21.1.4 PageRank的一般定义 .................................................................. 354 

21.2 PageRank的计算 ..................................................................................... 355 

21.2.1迭代算法 ..................................................................................... 355 

21.2.2幂法 ............................................................................................ 357 

21.2.3代数算法 ..................................................................................... 361 本章概要 ........................................................................................................... 362 继续阅读 ........................................................................................................... 363 习题 ................................................................................................................. 363 参考文献 ........................................................................................................... 364

第 22章无监督学习方法总结 ................................................................................. 365 

22.1无监督学习方法的关系和特点 ................................................................... 365 

22.1.1各种方法之间的关系 ..................................................................... 365 

22.1.2无监督学习方法 ........................................................................... 366 

22.1.3基础机器学习方法 ........................................................................ 366 

22.2话题模型之间的关系和特点 ....................................................................... 367 参考文献 ........................................................................................................... 368 

目录 XVII

第 

3篇

第 23章前馈神经网络 ........................................................................................... 371 

23.1前馈神经网络的模型 ................................................................................. 371 

23.1.1前馈神经网络定义 ........................................................................ 372 

23.1.2前馈神经网络的例子 ..................................................................... 381 

23.1.3前馈神经网络的表示能力 .............................................................. 386 

23.2前馈神经网络的学习算法 .......................................................................... 389 

23.2.1前馈神经网络学习 ........................................................................ 389 

23.2.2前馈神经网络学习的优化算法 ....................................................... 391 

23.2.3反向传播算法 ............................................................................... 393 

23.2.4在计算图上的实现 ........................................................................ 397 

23.2.5算法的实现技巧 ........................................................................... 401 

23.3前馈神经网络学习的正则化 ....................................................................... 406 

23.3.1深度学习中的正则化 ..................................................................... 406 

23.3.2早停法 ......................................................................................... 406 

23.3.3暂退法 ......................................................................................... 408 本章概要 ........................................................................................................... 410 继续阅读 ........................................................................................................... 413 习题 ................................................................................................................. 413 参考文献 ........................................................................................................... 414

第 24章卷积神经网络 ........................................................................................... 415 

24.1卷积神经网络的模型 ................................................................................. 415 

24.1.1背景 ............................................................................................ 415 

24.1.2卷积 ............................................................................................ 416 

24.1.3汇聚 ............................................................................................ 424 

24.1.4卷积神经网络 ............................................................................... 427 

24.1.5卷积神经网络性质 ........................................................................ 430 

24.2卷积神经网络的学习算法 .......................................................................... 432 

24.2.1卷积导数 ..................................................................................... 432 

24.2.2反向传播算法 ............................................................................... 433 

24.3图像分类中的应用 .................................................................................... 436 

24.3.1 AlexNet........................................................................................ 436 

24.3.2残差网络 ..................................................................................... 437 本章概要 ........................................................................................................... 441 继续阅读 ........................................................................................................... 443 习题 ................................................................................................................. 443 参考文献 ........................................................................................................... 445 

XVIII机器学习方法

第 25章循环神经网络 ........................................................................................... 447 

25.1简单循环神经网络 .................................................................................... 447 

25.1.1模型 ............................................................................................ 447 

25.1.2学习算法 ..................................................................................... 450 

25.2常用循环神经网络 .................................................................................... 454 

25.2.1长短期记忆网络 ........................................................................... 454 

25.2.2门控循环单元网络 ........................................................................ 457 

25.2.3深度循环神经网络 ........................................................................ 458 

25.2.4双向循环神经网络 ........................................................................ 459 

25.3自然语言生成中的应用 ............................................................................. 460 

25.3.1词向量 ......................................................................................... 460 

25.3.2语言模型与语言生成 ..................................................................... 463 本章概要 ........................................................................................................... 465 继续阅读 ........................................................................................................... 467 习题 ................................................................................................................. 467 参考文献 ........................................................................................................... 468

第 26章序列到序列模型........................................................................................ 469 

26.1序列到序列基本模型 ................................................................................. 469 

26.1.1序列到序列学习 ........................................................................... 469 

26.1.2基本模型 ..................................................................................... 471 

26.2 RNN Search模型 ..................................................................................... 472 

26.2.1注意力 ......................................................................................... 472 

26.2.2模型定义 ..................................................................................... 474 

26.2.3模型特点 ..................................................................................... 475 

26.3 Transformer模型 ..................................................................................... 475 

26.3.1模型架构 ..................................................................................... 476 

26.3.2模型特点 ..................................................................................... 482 本章概要 ........................................................................................................... 483 继续阅读 ........................................................................................................... 486 习题 ................................................................................................................. 486 参考文献 ........................................................................................................... 486

第 27章预训练语言模型........................................................................................ 488 

27.1 GPT模型 ................................................................................................ 488 

27.1.1预训练语言模型 ........................................................................... 488 

27.1.2模型和学习 .................................................................................. 490 

27.2 BERT模型 .............................................................................................. 493 

27.2.1去噪自动编码器 ........................................................................... 493 

27.2.2模型和学习 .................................................................................. 495 

目录 XIX 

27.2.3模型特点 ..................................................................................... 499 本章概要 ........................................................................................................... 500 继续阅读 ........................................................................................................... 502 习题 ................................................................................................................. 502 参考文献 ........................................................................................................... 502

第 28章生成对抗网络 ........................................................................................... 504 

28.1 GAN基本模型 ......................................................................................... 504 

28.1.1模型 ............................................................................................ 504 

28.1.2学习算法 ..................................................................................... 506 

28.1.3理论分析 ..................................................................................... 507 

28.2图像生成中的应用 .................................................................................... 508 

28.2.1转置卷积 ..................................................................................... 509 

28.2.2 DCGAN ....................................................................................... 511 本章概要 ........................................................................................................... 513 继续阅读 ........................................................................................................... 514 习题 ................................................................................................................. 514 参考文献 ........................................................................................................... 515

第 29章深度学习方法总结 .................................................................................... 516 

29.1深度学习的模型 ....................................................................................... 516 

29.2深度学习的方法 ....................................................................................... 518 

29.3深度学习的优化算法 ................................................................................. 520 

29.4深度学习的优缺点 .................................................................................... 522 参考文献 ........................................................................................................... 523

附录 A梯度下降法 ................................................................................................ 524

附录 B牛顿法和拟牛顿法....................................................................................... 526

附录 C拉格朗日对偶性 .......................................................................................... 531

附录 D矩阵的基本子空间 ...................................................................................... 534

附录 E KL散度的定义和狄利克雷分布的性质 ......................................................... 537

附录 F软最大化函数的偏导数和交叉熵损失函数的偏导数 ........................................ 539

索引......................................................................................................................... 541