图书目录

目 录

CONTENTS

第1 章机器学习中的最优化问题......................................................................... 1

1.1 为什么学习最优化................................................................................. 2

1.2 机器学习中的最优化问题....................................................................... 3

1.2.1 监督学习.................................................................................... 3

1.2.2 无监督学习................................................................................. 4

1.2.3 深度学习.................................................................................... 6

1.2.4 强化学习.................................................................................... 7

1.3 本章小结............................................................................................... 8

第2 章最优化基础理论...................................................................................... 9

2.1 最优化问题基本形式.............................................................................. 9

2.2 拉格朗日对偶问题................................................................................ 12

2.3 最优性条件与KKT 条件........................................................................ 15

2.4 应用案例.............................................................................................. 21

2.4.1 Water-filling 问题....................................................................... 21

2.4.2 最小二乘问题............................................................................ 22

2.5 本章小结.............................................................................................. 23

2.6 习题.................................................................................................... 23

第3 章梯度下降类方法..................................................................................... 25

3.1 为什么需要利用梯度信息...................................................................... 25

3.2 梯度下降法.......................................................................................... 26

3.3 梯度下降法收敛性分析.......................................................................... 27

3.4 梯度类方法的一般形式.......................................................................... 29

最优化与机器学习

3.5 应用案例.............................................................................................. 30

3.5.1 最小二乘问题............................................................................ 30

3.5.2 逻辑回归问题............................................................................ 31

3.6 本章小结.............................................................................................. 31

3.7 习题.................................................................................................... 31

第4 章邻近梯度法及其扩展.............................................................................. 33

4.1 邻近算子.............................................................................................. 33

4.2 邻近梯度.............................................................................................. 40

4.3 邻近梯度法.......................................................................................... 41

4.4 广义邻近梯度法.................................................................................... 42

4.5 Nesterov 加速方法................................................................................. 43

4.6 应用案例.............................................................................................. 45

4.6.1 Lasso 问题................................................................................. 45

4.6.2 ?1-正则逻辑回归问题.................................................................. 46

4.7 本章小结.............................................................................................. 46

4.8 习题.................................................................................................... 46

第5 章牛顿法和BFGS 方法............................................................................. 49

5.1 牛顿法................................................................................................. 49

5.2 BFGS 方法........................................................................................... 50

5.3 有限内存的BFGS 方法......................................................................... 53

5.4 本章小结.............................................................................................. 54

5.5 习题.................................................................................................... 55

第6 章块坐标下降法........................................................................................ 56

6.1 块坐标下降法基本架构.......................................................................... 56

6.2 子问题更新机制.................................................................................... 57

6.3 块坐标选择机制.................................................................................... 58

6.4 系列块坐标下降法汇总.......................................................................... 60

6.5 应用案例.............................................................................................. 61

6.5.1 ?1-正则逻辑回归问题.................................................................. 62

6.5.2 非负矩阵分解问题...................................................................... 62

IV

目 录

6.6 本章小结.............................................................................................. 64

6.7 习题.................................................................................................... 64

第7 章随机梯度类方法..................................................................................... 67

7.1 经典随机梯度法.................................................................................... 68

7.2 随机平均梯度法.................................................................................... 69

7.3 方差减小随机梯度法............................................................................. 70

7.4 随机梯度法的扩展讨论.......................................................................... 71

7.5 面向深度学习的随机优化方法................................................................ 72

7.5.1 动量加速随机梯度法.................................................................. 73

7.5.2 Adagrad 方法............................................................................. 73

7.5.3 Adadelta 方法............................................................................ 74

7.5.4 RMSprop 方法........................................................................... 74

7.5.5 Adam 方法................................................................................ 74

7.6 本章小结.............................................................................................. 75

7.7 习题.................................................................................................... 76

第8 章增广拉格朗日方法和交替方向乘子法....................................................... 78

8.1 对偶上升方法....................................................................................... 78

8.2 增广拉格朗日方法................................................................................ 79

8.3 交替方向乘子法.................................................................................... 80

8.4 应用案例.............................................................................................. 83

8.4.1 一致性最优化问题...................................................................... 83

8.4.2 带约束的凸优化问题.................................................................. 84

8.4.3 Lasso 问题................................................................................. 85

8.5 本章小结.............................................................................................. 85

8.6 习题.................................................................................................... 86

第9 章双层规划............................................................................................... 87

9.1 双层规划基础知识................................................................................ 87

9.2 基于梯度的逼近方法............................................................................. 89

9.2.1 BDA/BMO 方法........................................................................ 91

9.2.2 IAPTT-GM 方法....................................................................... 92

V

最优化与机器学习

9.3 基于价值函数的算法............................................................................. 93

9.4 应用案例.............................................................................................. 94

9.4.1 超参优化问题............................................................................ 94

9.4.2 核心集选择问题......................................................................... 95

9.5 本章小结.............................................................................................. 96

9.6 习题.................................................................................................... 96

第10 章学习优化............................................................................................. 97

10.1 学习优化基本思想............................................................................... 97

10.2 学习优化基本框架............................................................................... 99

10.3 学习优化方法................................................................................... 100

10.3.1 无模型学习优化方法............................................................. 100

10.3.2 基于模型的学习优化方法....................................................... 102

10.4 应用案例.......................................................................................... 104

10.5 本章小结.......................................................................................... 106

10.6 习题................................................................................................. 106

第11 章总结.................................................................................................. 107

附录A 数学基础............................................................................................ 109

A.1 基础概念........................................................................................... 109

A.2 凸集与凸函数.................................................................................... 115

A.3 次梯度与次微分................................................................................. 122

A.4 共轭函数........................................................................................... 124

A.5 李普希茨连续可微与强凸性质............................................................. 130

A.6 随机变量及性质................................................................................. 137

A.7 习题.................................................................................................. 139

参考文献.......................................................................................................... 141

VI