目录
第1章概述/1
1.1深度学习的发展过程2
1.1.1深度学习的起源2
1.1.2深度学习的发展3
1.1.3深度学习的爆发3
1.2机器学习基础4
1.2.1机器学习方式5
1.2.2机器学习的主要流派与演化过程9
1.2.3泛化能力与增强方法10
1.2.4模型性能评价指标13
1.2.5相似性度量与误差计算15
1.3神经网络模型基础21
1.3.1神经网络模型及特点21
1.3.2学习方式与学习规则26
1.3.3深度学习模型34
1.4计算图38
1.4.1计算图的基本组成部分38
1.4.2构建计算图的过程38
1.4.3计算图的优势39
本章小结39
第2章前馈神经网络/40
2.1分类模型40
2.1.1分类系统40
2.1.2判别函数41
2.1.3线性不可分的分类42
2.2感知机43
2.2.1离散感知机43
2.2.2连续感知机45
2.3BP神经网络47
2.3.1多层感知机结构47
2.3.2误差反向传播算法48
2.3.3Dropout方法53
2.3.4回归神经网络53
本章小结55
第3章卷积神经网络/57
3.1卷积神经网络的产生57
3.1.1问题的提出58
3.1.2卷积神经网络的特点58
3.2卷积神经网络的结构59
3.2.1CNN的系统结构60
3.2.2输入层60
3.2.3卷积层62
3.2.4池化层68
3.2.5输出层69
3.3卷积神经网络的训练71
3.3.1CNN的训练过程71
3.3.2CNN的正向传播过程72
3.3.3CNN的反向传播过程72
3.3.4CNN的权值更新73
3.4逆卷积神经网络75
3.4.1逆池化与逆卷积76
3.4.2逆池化运算76
3.4.3逆卷积运算77
3.5卷积神经网络的应用79
3.5.1CNN应用特点79
3.5.2CNN的应用领域80
本章小结80
第4章循环神经网络/81
4.1循环神经网络概述81
4.1.1循环神经网络原理82
4.1.2循环神经网络的记忆能力82
4.2循环神经网络的结构83
4.2.1埃尔曼神经网络83
4.2.2单向循环神经网络83
4.2.3双向循环神经网络87
4.2.4BPTT算法88
4.2.5堆叠循环神经网络91
4.3RNN的I/O模式91
4.3.1序列到类别模式91
4.3.2同步的序列到序列模式92
4.3.3异步的序列到序列模式92
4.4长短期记忆模型93
4.4.1RNN的记忆能力与长期依赖93
4.4.2LSTM结构94
4.4.3模型参数的调节方法96
4.5基于RNN的语言模型97
4.5.1文本处理的编码解码框架97
4.5.2注意力模型98
4.5.3BiRNN注意力模型102
4.5.4词嵌入与词嵌入算法102
本章小结108
第5章深度残差神经网络/109
5.1深度残差神经网络基础109
5.1.1逐层归一化109
5.1.2残差与残差分析111
5.1.3深度残差网络的提出112
5.2残差模块112
5.2.1残差模块的结构112
5.2.2残差模块的类型114
5.2.3残差模块的优势116
5.3ResNet模型117
5.3.1ResNet结构117
5.3.2ResNet参数解析118
5.4DenseNet网络121
5.4.1DenseNet网络结构121
5.4.2DenseNet与ResNet的比较122
5.5深度残差收缩网络123
5.5.1深度残差收缩网络的结构124
5.5.2软阈值化124
5.5.3深度残差收缩网络的残差模块125
本章小结125
第6章Transformer模型/127
6.1Transformer模型的特点与自注意力机制127
6.1.1Transformer模型的特点127
6.1.2自注意力机制128
6.1.3多头注意力机制134
6.2Transformer模型结构138
6.2.1Transformer模型总体架构138
6.2.2位置向量139
6.2.3编码器块140
6.2.4解码器块142
6.3Transformer模型的工作过程与训练147
6.3.1Transformer模型的工作过程147
6.3.2Transformer模型的训练153
6.3.3Transformer模型的并行训练与测试155
本章小结157
第7章生成对抗网络/158
7.1GAN概述158
7.1.1GAN的产生背景158
7.1.2GAN的基本原理159
7.2GAN算法流程160
7.2.1GAN工作过程160
7.2.2GAN结构162
7.3GAN训练163
7.3.1GAN训练特点163
7.3.2GAN训练过程163
7.3.3损失函数164
7.3.4GAN优化166
7.3.5条件生成对抗网络168
7.4多种形式的GAN168
7.4.1多判别器单生成器模型168
7.4.2单判别器多生成器模型169
7.4.3多判别器多生成器模型169
7.5GAN的优点和应用场景170
7.5.1GAN的优点170
7.5.2GAN的应用场景170
本章小结172
第8章深度信念网络/173
8.1DBN的产生与发展173
8.1.1DBN的产生173
8.1.2DBN的发展173
8.2玻尔兹曼机与受限玻尔兹曼机174
8.2.1玻尔兹曼机174
8.2.2受限玻尔兹曼机177
8.2.3受限玻尔兹曼机训练181
8.3DBN的结构与训练183
8.3.1DBN的结构183
8.3.2DBN的训练184
本章小结188
第9章胶囊神经网络/189
9.1胶囊神经网络的产生背景189
9.1.1CNN的缺陷189
9.1.2胶囊方法的提出190
9.2胶囊方法原理190
9.2.1胶囊190
9.2.2胶囊工作过程194
9.3胶囊间动态路由算法196
9.3.1胶囊间动态路由计算197
9.3.2胶囊间动态路由算法的描述198
9.4胶囊神经网络架构举例204
9.4.1手写数字识别的简单胶囊网络架构204
9.4.2CapsNet胶囊神经网络架构205
本章小结208
第10章自编码器/209
10.1自编码器概述209
10.1.1表征学习209
10.1.2自编码器工作原理210
10.2常用自编码器212
10.2.1欠完备的自编码器213
10.2.2稀疏自编码器214
10.2.3栈式自编码器215
10.2.4去噪自编码器219
10.2.5变分自编码器221
10.3深度自编码器224
10.3.1基于多层BP网络的深度自编码器224
10.3.2基于CNN的深度自编码器225
10.4深度自编码器应用226
10.4.1主要应用场景226
10.4.2典型应用226
本章小结227
第11章强化学习/228
11.1强化学习原理229
11.1.1智能体及其特性229
11.1.2RL模型与工作过程230
11.1.3RL算法分类232
11.2SARSA算法234
11.2.1SARSA算法基本原理234
11.2.2SARSA算法流程236
11.2.3SARSA(λ)算法238
11.3QLearning算法240
11.3.1QLearning算法基本原理240
11.3.2QLearning算法流程242
11.3.3QLearning算法与SARSA算法的比较243
11.4策略梯度算法244
11.4.1基于价值的RL算法的局限性244
11.4.2基于策略的算法244
11.4.3蒙特卡洛策略梯度过程244
11.5ActorCritic算法245
11.5.1ActorCritic算法的基本原理245
11.5.2ActorCritic算法流程246
11.6强化学习算法247
11.6.1深度Q网络算法247
11.6.2深度确定性策略梯度算法248
11.7RL的应用249
11.7.1RL应用的方法249
11.7.2RL应用的流程250
11.7.3RL应用的领域250
本章小结251
第12章脉冲神经网络/252
12.1脉冲神经元252
12.1.1类脑计算252
12.1.2SNN与脉冲神经元253
12.1.3SNN的特点257
12.2SNN的结构与编码258
12.2.1SNN的结构258
12.2.2信号转换259
12.3SNN数据集与工作负载261
12.3.1ANN数据集与SNN数据集261
12.3.2工作负载262
12.3.3SNN评价263
12.4SNN的训练264
12.4.1SNN的无监督学习264
12.4.2SNN的监督学习267
12.4.3SNN的强化学习与进化方法269
本章小结270
第13章迁移学习/271
13.1迁移学习概述271
13.1.1同分布数据271
13.1.2迁移学习原理273
13.2迁移学习分类与实现275
13.2.1迁移学习分类准则275
13.2.2典型的迁移学习277
13.2.3迁移学习的实现280
13.3深度迁移学习281
13.3.1深度网络的可迁移性281
13.3.2深度迁移学习的自适应方法285
13.3.3生成对抗迁移网络289
13.4迁移学习的应用场景与方法291
13.4.1迁移学习的应用场景292
13.4.2迁移学习的方法292
本章小结293
第14章元学习/294
14.1元学习概述294
14.1.1元学习的基本原理294
14.1.2元学习的基本特点295
14.2元学习方法297
14.2.1元学习的主要工作297
14.2.2元学习的过程300
14.3MAML模型302
14.3.1MAML的相关概念302
14.3.2MAML算法分析304
14.3.3MAML算法流程305
14.4小样本学习307
14.4.1问题的提出与先验范式的构建307
14.4.2小样本学习方法308
14.4.3小样本相似度学习311
本章小结314
第15章大语言模型/315
15.1大语言模型的产生与发展315
15.1.1语言模型的发展315
15.1.2语言模型的分类320
15.1.3大语言模型的特性与技术突破320
15.2预训练语言模型322
15.2.1常见的预训练语言模型322
15.2.2预训练模型的训练325
15.2.3预训练语言模型架构331
15.3大语言模型类型与涌现能力335
15.3.1静态词向量与动态词向量335
15.3.2大语言模型类型划分336
15.3.3大语言模型的扩展法则与涌现能力337
15.4GPT大语言模型341
15.4.1GPT大语言模型结构与训练过程341
15.4.2ChatGPT的功能与特性347
15.4.3稀疏注意力模式350
15.4.4人类反馈强化学习352
15.4.5近端策略优化算法355
15.4.6提示词工程359
15.5DeepSeek大语言模型365
15.5.1DeepSeek定位365
15.5.2DeepSeek核心技术365
15.5.3DeepSeek训练与部署366
15.5.4DeepSeek行业应用367
本章小结367
参考文献/368