目 录
CONTENTS
第1 章机器学习中的最优化问题......................................................................... 1
1.1 为什么学习最优化................................................................................. 2
1.2 机器学习中的最优化问题....................................................................... 3
1.2.1 监督学习.................................................................................... 3
1.2.2 无监督学习................................................................................. 4
1.2.3 深度学习.................................................................................... 6
1.2.4 强化学习.................................................................................... 7
1.3 本章小结............................................................................................... 8
第2 章最优化基础理论...................................................................................... 9
2.1 最优化问题基本形式.............................................................................. 9
2.2 拉格朗日对偶问题................................................................................ 12
2.3 最优性条件与KKT 条件........................................................................ 15
2.4 应用案例.............................................................................................. 21
2.4.1 Water-filling 问题....................................................................... 21
2.4.2 最小二乘问题............................................................................ 22
2.5 本章小结.............................................................................................. 23
2.6 习题.................................................................................................... 23
第3 章梯度下降类方法..................................................................................... 25
3.1 为什么需要利用梯度信息...................................................................... 25
3.2 梯度下降法.......................................................................................... 26
3.3 梯度下降法收敛性分析.......................................................................... 27
3.4 梯度类方法的一般形式.......................................................................... 29
最优化与机器学习
3.5 应用案例.............................................................................................. 30
3.5.1 最小二乘问题............................................................................ 30
3.5.2 逻辑回归问题............................................................................ 31
3.6 本章小结.............................................................................................. 31
3.7 习题.................................................................................................... 31
第4 章邻近梯度法及其扩展.............................................................................. 33
4.1 邻近算子.............................................................................................. 33
4.2 邻近梯度.............................................................................................. 40
4.3 邻近梯度法.......................................................................................... 41
4.4 广义邻近梯度法.................................................................................... 42
4.5 Nesterov 加速方法................................................................................. 43
4.6 应用案例.............................................................................................. 45
4.6.1 Lasso 问题................................................................................. 45
4.6.2 ?1-正则逻辑回归问题.................................................................. 46
4.7 本章小结.............................................................................................. 46
4.8 习题.................................................................................................... 46
第5 章牛顿法和BFGS 方法............................................................................. 49
5.1 牛顿法................................................................................................. 49
5.2 BFGS 方法........................................................................................... 50
5.3 有限内存的BFGS 方法......................................................................... 53
5.4 本章小结.............................................................................................. 54
5.5 习题.................................................................................................... 55
第6 章块坐标下降法........................................................................................ 56
6.1 块坐标下降法基本架构.......................................................................... 56
6.2 子问题更新机制.................................................................................... 57
6.3 块坐标选择机制.................................................................................... 58
6.4 系列块坐标下降法汇总.......................................................................... 60
6.5 应用案例.............................................................................................. 61
6.5.1 ?1-正则逻辑回归问题.................................................................. 62
6.5.2 非负矩阵分解问题...................................................................... 62
IV
目 录
6.6 本章小结.............................................................................................. 64
6.7 习题.................................................................................................... 64
第7 章随机梯度类方法..................................................................................... 67
7.1 经典随机梯度法.................................................................................... 68
7.2 随机平均梯度法.................................................................................... 69
7.3 方差减小随机梯度法............................................................................. 70
7.4 随机梯度法的扩展讨论.......................................................................... 71
7.5 面向深度学习的随机优化方法................................................................ 72
7.5.1 动量加速随机梯度法.................................................................. 73
7.5.2 Adagrad 方法............................................................................. 73
7.5.3 Adadelta 方法............................................................................ 74
7.5.4 RMSprop 方法........................................................................... 74
7.5.5 Adam 方法................................................................................ 74
7.6 本章小结.............................................................................................. 75
7.7 习题.................................................................................................... 76
第8 章增广拉格朗日方法和交替方向乘子法....................................................... 78
8.1 对偶上升方法....................................................................................... 78
8.2 增广拉格朗日方法................................................................................ 79
8.3 交替方向乘子法.................................................................................... 80
8.4 应用案例.............................................................................................. 83
8.4.1 一致性最优化问题...................................................................... 83
8.4.2 带约束的凸优化问题.................................................................. 84
8.4.3 Lasso 问题................................................................................. 85
8.5 本章小结.............................................................................................. 85
8.6 习题.................................................................................................... 86
第9 章双层规划............................................................................................... 87
9.1 双层规划基础知识................................................................................ 87
9.2 基于梯度的逼近方法............................................................................. 89
9.2.1 BDA/BMO 方法........................................................................ 91
9.2.2 IAPTT-GM 方法....................................................................... 92
V
最优化与机器学习
9.3 基于价值函数的算法............................................................................. 93
9.4 应用案例.............................................................................................. 94
9.4.1 超参优化问题............................................................................ 94
9.4.2 核心集选择问题......................................................................... 95
9.5 本章小结.............................................................................................. 96
9.6 习题.................................................................................................... 96
第10 章学习优化............................................................................................. 97
10.1 学习优化基本思想............................................................................... 97
10.2 学习优化基本框架............................................................................... 99
10.3 学习优化方法................................................................................... 100
10.3.1 无模型学习优化方法............................................................. 100
10.3.2 基于模型的学习优化方法....................................................... 102
10.4 应用案例.......................................................................................... 104
10.5 本章小结.......................................................................................... 106
10.6 习题................................................................................................. 106
第11 章总结.................................................................................................. 107
附录A 数学基础............................................................................................ 109
A.1 基础概念........................................................................................... 109
A.2 凸集与凸函数.................................................................................... 115
A.3 次梯度与次微分................................................................................. 122
A.4 共轭函数........................................................................................... 124
A.5 李普希茨连续可微与强凸性质............................................................. 130
A.6 随机变量及性质................................................................................. 137
A.7 习题.................................................................................................. 139
参考文献.......................................................................................................... 141
VI