图书目录

目录

第1章概述/1

1.1深度学习的发展过程2

1.1.1深度学习的起源2

1.1.2深度学习的发展3

1.1.3深度学习的爆发3

1.2机器学习基础4

1.2.1机器学习方式5

1.2.2机器学习的主要流派与演化过程9

1.2.3泛化能力与增强方法10

1.2.4模型性能评价指标13

1.2.5相似性度量与误差计算15

1.3神经网络模型基础21

1.3.1神经网络模型及特点21

1.3.2学习方式与学习规则26

1.3.3深度学习模型34

1.4计算图38

1.4.1计算图的基本组成部分38

1.4.2构建计算图的过程38

1.4.3计算图的优势39

本章小结39

第2章前馈神经网络/40

2.1分类模型40

2.1.1分类系统40

2.1.2判别函数41

2.1.3线性不可分的分类42

2.2感知机43

2.2.1离散感知机43

2.2.2连续感知机45

2.3BP神经网络47

2.3.1多层感知机结构47

2.3.2误差反向传播算法48

2.3.3Dropout方法53

2.3.4回归神经网络53

本章小结55

第3章卷积神经网络/57

3.1卷积神经网络的产生57

3.1.1问题的提出58

3.1.2卷积神经网络的特点58

3.2卷积神经网络的结构59

3.2.1CNN的系统结构60

3.2.2输入层60

3.2.3卷积层62

3.2.4池化层68

3.2.5输出层69

3.3卷积神经网络的训练71

3.3.1CNN的训练过程71

3.3.2CNN的正向传播过程72

3.3.3CNN的反向传播过程72

3.3.4CNN的权值更新73

3.4逆卷积神经网络75

3.4.1逆池化与逆卷积76

3.4.2逆池化运算76

3.4.3逆卷积运算77

3.5卷积神经网络的应用79

3.5.1CNN应用特点79

3.5.2CNN的应用领域80

本章小结80

第4章循环神经网络/81

4.1循环神经网络概述81

4.1.1循环神经网络原理82

4.1.2循环神经网络的记忆能力82

4.2循环神经网络的结构83

4.2.1埃尔曼神经网络83

4.2.2单向循环神经网络83

4.2.3双向循环神经网络87

4.2.4BPTT算法88

4.2.5堆叠循环神经网络91

4.3RNN的I/O模式91

4.3.1序列到类别模式91

4.3.2同步的序列到序列模式92

4.3.3异步的序列到序列模式92

4.4长短期记忆模型93

4.4.1RNN的记忆能力与长期依赖93

4.4.2LSTM结构94

4.4.3模型参数的调节方法96

4.5基于RNN的语言模型97

4.5.1文本处理的编码解码框架97

4.5.2注意力模型98

4.5.3BiRNN注意力模型102

4.5.4词嵌入与词嵌入算法102

本章小结108

第5章深度残差神经网络/109

5.1深度残差神经网络基础109

5.1.1逐层归一化109

5.1.2残差与残差分析111

5.1.3深度残差网络的提出112

5.2残差模块112

5.2.1残差模块的结构112

5.2.2残差模块的类型114

5.2.3残差模块的优势116

5.3ResNet模型117

5.3.1ResNet结构117

5.3.2ResNet参数解析118

5.4DenseNet网络121

5.4.1DenseNet网络结构121

5.4.2DenseNet与ResNet的比较122

5.5深度残差收缩网络123

5.5.1深度残差收缩网络的结构124

5.5.2软阈值化124

5.5.3深度残差收缩网络的残差模块125

本章小结125

第6章Transformer模型/127

6.1Transformer模型的特点与自注意力机制127

6.1.1Transformer模型的特点127

6.1.2自注意力机制128

6.1.3多头注意力机制134

6.2Transformer模型结构138

6.2.1Transformer模型总体架构138

6.2.2位置向量139

6.2.3编码器块140

6.2.4解码器块142

6.3Transformer模型的工作过程与训练147

6.3.1Transformer模型的工作过程147

6.3.2Transformer模型的训练153

6.3.3Transformer模型的并行训练与测试155

本章小结157

第7章生成对抗网络/158

7.1GAN概述158

7.1.1GAN的产生背景158

7.1.2GAN的基本原理159

7.2GAN算法流程160

7.2.1GAN工作过程160

7.2.2GAN结构162

7.3GAN训练163

7.3.1GAN训练特点163

7.3.2GAN训练过程163

7.3.3损失函数164

7.3.4GAN优化166

7.3.5条件生成对抗网络168

7.4多种形式的GAN168

7.4.1多判别器单生成器模型168

7.4.2单判别器多生成器模型169

7.4.3多判别器多生成器模型169

7.5GAN的优点和应用场景170

7.5.1GAN的优点170

7.5.2GAN的应用场景170

本章小结172

第8章深度信念网络/173

8.1DBN的产生与发展173

8.1.1DBN的产生173

8.1.2DBN的发展173

8.2玻尔兹曼机与受限玻尔兹曼机174

8.2.1玻尔兹曼机174

8.2.2受限玻尔兹曼机177

8.2.3受限玻尔兹曼机训练181

8.3DBN的结构与训练183

8.3.1DBN的结构183

8.3.2DBN的训练184

本章小结188

第9章胶囊神经网络/189

9.1胶囊神经网络的产生背景189

9.1.1CNN的缺陷189

9.1.2胶囊方法的提出190

9.2胶囊方法原理190

9.2.1胶囊190

9.2.2胶囊工作过程194

9.3胶囊间动态路由算法196

9.3.1胶囊间动态路由计算197

9.3.2胶囊间动态路由算法的描述198

9.4胶囊神经网络架构举例204

9.4.1手写数字识别的简单胶囊网络架构204

9.4.2CapsNet胶囊神经网络架构205

本章小结208

第10章自编码器/209

10.1自编码器概述209

10.1.1表征学习209

10.1.2自编码器工作原理210

10.2常用自编码器212

10.2.1欠完备的自编码器213

10.2.2稀疏自编码器214

10.2.3栈式自编码器215

10.2.4去噪自编码器219

10.2.5变分自编码器221

10.3深度自编码器224

10.3.1基于多层BP网络的深度自编码器224

10.3.2基于CNN的深度自编码器225

10.4深度自编码器应用226

10.4.1主要应用场景226

10.4.2典型应用226

本章小结227

第11章强化学习/228

11.1强化学习原理229

11.1.1智能体及其特性229

11.1.2RL模型与工作过程230

11.1.3RL算法分类232

11.2SARSA算法234

11.2.1SARSA算法基本原理234

11.2.2SARSA算法流程236

11.2.3SARSA(λ)算法238

11.3QLearning算法240

11.3.1QLearning算法基本原理240

11.3.2QLearning算法流程242

11.3.3QLearning算法与SARSA算法的比较243

11.4策略梯度算法244

11.4.1基于价值的RL算法的局限性244

11.4.2基于策略的算法244

11.4.3蒙特卡洛策略梯度过程244

11.5ActorCritic算法245

11.5.1ActorCritic算法的基本原理245

11.5.2ActorCritic算法流程246

11.6强化学习算法247

11.6.1深度Q网络算法247

11.6.2深度确定性策略梯度算法248

11.7RL的应用249

11.7.1RL应用的方法249

11.7.2RL应用的流程250

11.7.3RL应用的领域250

本章小结251

第12章脉冲神经网络/252

12.1脉冲神经元252

12.1.1类脑计算252

12.1.2SNN与脉冲神经元253

12.1.3SNN的特点257

12.2SNN的结构与编码258

12.2.1SNN的结构258

12.2.2信号转换259

12.3SNN数据集与工作负载261

12.3.1ANN数据集与SNN数据集261

12.3.2工作负载262

12.3.3SNN评价263

12.4SNN的训练264

12.4.1SNN的无监督学习264

12.4.2SNN的监督学习267

12.4.3SNN的强化学习与进化方法269

本章小结270

第13章迁移学习/271

13.1迁移学习概述271

13.1.1同分布数据271

13.1.2迁移学习原理273

13.2迁移学习分类与实现275

13.2.1迁移学习分类准则275

13.2.2典型的迁移学习277

13.2.3迁移学习的实现280

13.3深度迁移学习281

13.3.1深度网络的可迁移性281

13.3.2深度迁移学习的自适应方法285

13.3.3生成对抗迁移网络289

13.4迁移学习的应用场景与方法291

13.4.1迁移学习的应用场景292

13.4.2迁移学习的方法292

本章小结293

第14章元学习/294

14.1元学习概述294

14.1.1元学习的基本原理294

14.1.2元学习的基本特点295

14.2元学习方法297

14.2.1元学习的主要工作297

14.2.2元学习的过程300

14.3MAML模型302

14.3.1MAML的相关概念302

14.3.2MAML算法分析304

14.3.3MAML算法流程305

14.4小样本学习307

14.4.1问题的提出与先验范式的构建307

14.4.2小样本学习方法308

14.4.3小样本相似度学习311

本章小结314

第15章大语言模型/315

15.1大语言模型的产生与发展315

15.1.1语言模型的发展315

15.1.2语言模型的分类320

15.1.3大语言模型的特性与技术突破320

15.2预训练语言模型322

15.2.1常见的预训练语言模型322

15.2.2预训练模型的训练325

15.2.3预训练语言模型架构331

15.3大语言模型类型与涌现能力335

15.3.1静态词向量与动态词向量335

15.3.2大语言模型类型划分336

15.3.3大语言模型的扩展法则与涌现能力337

15.4GPT大语言模型341

15.4.1GPT大语言模型结构与训练过程341

15.4.2ChatGPT的功能与特性347

15.4.3稀疏注意力模式350

15.4.4人类反馈强化学习352

15.4.5近端策略优化算法355

15.4.6提示词工程359

15.5DeepSeek大语言模型365

15.5.1DeepSeek定位365

15.5.2DeepSeek核心技术365

15.5.3DeepSeek训练与部署366

15.5.4DeepSeek行业应用367

本章小结367

参考文献/368