图书目录

本书源码

Transformer模型基础篇

第1章Transformer综述

1.1Transformer是什么

1.1.1Transformer模型的工作原理

1.1.2Transformer模型的编码器与解码器简介

1.1.3Transformer模型编码器层

1.1.4Transformer模型解码器层

1.1.5Transformer模型残差连接与数据归一化

1.2Transformer模型框架

1.2.1Transformer模型的词嵌入

1.2.2Transformer模型的位置编码

1.2.3Transformer模型的编码器与解码器

1.2.4Transformer模型的最终输出

1.2.5Transformer模型的注意力机制

1.2.6Transformer模型的多头注意力机制

1.2.7Transformer模型的前馈神经网络

1.3本章总结

第2章Transformer模型的输入与输出

2.1Transformer模型的词嵌入

2.1.1Transformer 模型词嵌入的概念

2.1.2Transformer模型词嵌入的代码实现

2.2Transformer 模型的位置编码

2.2.1Transformer 模型位置编码的计算过程

2.2.2Transformer模型位置编码的正余弦函数

2.2.3Transformer 模型位置编码的代码实现

2.3Transformer模型解码器的输入

2.4Transformer模型中的掩码矩阵

2.4.1Transformer模型的Pad Mask

2.4.2Transformer模型的 Sequence Mask

2.4.3Transformer 模型Sequence Mask & Pad Mask的代码实现

2.5Transformer模型的输出

2.5.1Transformer 模型的线性层

2.5.2Transformer模型输出数据的Softmax 操作

2.5.3Transformer模型输出数据的Softmax代码实现

2.6本章总结

第3章Transformer模型的注意力机制

3.1Transformer模型注意力机制的概念

3.1.1Transformer模型的自注意力机制

3.1.2Transformer模型注意力机制中两个矩阵乘法的含义

3.1.3Transformer模型的Softmax操作

3.1.4Transformer模型的注意力矩阵

3.2Transformer模型Q、K、V三矩阵

3.2.1Transformer模型Q、K、V三矩阵的来历

3.2.2Transformer模型Q、K、V矩阵注意力机制的运算

3.3Transformer模型注意力机制中的缩放点积

3.3.1Transformer模型注意力机制的问题

3.3.2Transformer模型注意力机制的缩放点积

3.4Transformer模型注意力机制的代码实现过程

3.5Transformer模型多头注意力机制

3.5.1Transformer模型多头注意力机制的计算公式

3.5.2Transformer模型Qi、Ki、Vi的来历

3.5.3Transformer模型多头注意力机制的计算

3.6Transformer 模型多头注意力机制的代码实现

3.6.1Transformer模型多头注意力机制的代码

3.6.2Transformer模型多头注意力矩阵可视化

3.7本章总结

第4章Transformer模型的残差连接,归一化与前馈神经网络

4.1Transformer模型批归一化与层归一化

4.1.1Transformer模型批归一化

4.1.2Transformer 模型层归一化

4.1.3Transformer模型的层归一化操作

4.1.4Transformer模型层归一化的代码实现

4.2残差神经网络

4.2.1ResNet残差神经网络

4.2.2Transformer模型的残差连接

4.3Transformer模型前馈神经网络

4.3.1Transformer模型前馈神经网络的计算公式

4.3.2激活函数

4.3.3Transformer模型ReLU激活函数

4.3.4Transformer模型前馈神经网络的代码实现

4.4本章总结

第5章Transformer模型搭建

5.1Transformer模型编码器

5.1.1Transformer模型编码器组成

5.1.2Transformer模型编码器层的代码实现 

5.1.3搭建Transformer模型编码器

5.2Transformer模型解码器

5.2.1Transformer模型解码器组成

5.2.2Transformer模型解码器层的代码实现 

5.2.3搭建Transformer模型解码器

5.3搭建Transformer模型

5.3.1Transformer模型组成

5.3.2Transformer模型的代码实现

5.4Transformer模型训练过程

5.5Transformer模型预测过程

5.6Transformer模型Force Teach

5.7Transformer 模型与RNN模型

5.7.1RNN循环神经网络

5.7.2Transformer模型与RNN模型对比

5.8本章总结

Transformer模型NLP领域篇

第6章Transformer 编码器模型: BERT模型

6.1BERT模型结构

6.1.1BERT模型简介

6.1.2BERT模型构架

6.2BERT模型的输入部分

6.2.1BERT模型的Token Embedding

6.2.2BERT模型的位置编码

6.2.3BERT模型的序列嵌入

6.2.4BERT模型的输入

6.3BERT模型Transformer编码器框架

6.4BERT模型的输出

6.4.1BERT模型的MLM预训练任务

6.4.2BERT模型的NSP预训练任务

6.5BERT模型的微调任务

6.6BERT模型的代码实现

6.6.1BERT模型的特征嵌入

6.6.2BERT模型的自注意力机制

6.6.3BERT模型的多头注意力机制

6.6.4BERT模型的前馈神经网络

6.6.5BERT模型的编码器层

6.6.6BERT模型搭建

6.7本章总结

第7章Transformer 解码器模型: GPT系列模型

7.1GPT模型结构

7.1.1GPT模型简介

7.1.2GPT模型构架

7.2GPT模型的输入部分

7.2.1GPT模型的Token Embedding

7.2.2GPT模型的位置编码

7.3GPT模型的整体框架

7.4GPT模型的无监督预训练

7.5GPT模型的微调任务

7.5.1GPT模型微调

7.5.2GPT模型监督有标签输入

7.6GPT2模型

7.6.1GPT2模型简介

7.6.2GPT2模型的Zeroshot

7.7GPT3模型

7.7.1GPT3模型框架

7.7.2GPT3模型下游任务微调

7.7.3GPT3模型预训练数据集

7.8本章总结

Transformer模型计算机视觉篇

第8章计算机视觉之卷积神经网络

8.1卷积神经网络的概念

8.1.1卷积神经网络的填充、步长和通道数

8.1.2卷积神经网络的卷积核

8.1.3卷积神经网络卷积层

8.1.4卷积神经网络池化层

8.1.5卷积神经网络全连接层

8.1.6卷积神经网络全局平均池化

8.1.7卷积神经网络的感受野

8.1.8卷积神经网络的下采样

8.1.9神经网络中的DropOut

8.2卷积神经网络

8.2.1卷积神经网络模型搭建

8.2.2卷积神经网络LeNet5模型搭建

8.2.3卷积神经网络LeNet5模型的代码实现

8.3卷积神经网络LeNet5手写数字识别

8.3.1MNIST数据集

8.3.2LeNet5手写数字模型训练

8.3.3LeNet5手写数字模型预测

8.4本章总结

第9章Transformer视觉模型: Vision Transformer模型

9.1Vision Transformer模型

9.1.1Vision Transformer模型简介

9.1.2Vision Transformer模型的数据流

9.2Vision Transformer模型的Patch Embedding与位置编码

9.2.1Vision Transformer模型的Patch Embedding

9.2.2Vision Transformer模型Patch Embedding的代码实现

9.2.3Vision Transformer模型的位置编码

9.2.4Vision Transformer模型位置编码的代码实现

9.3Vision Transformer模型编码器层

9.3.1Vision Transformer与标准Transformer编码器层的区别

9.3.2Vision Transformer模型多头注意力机制的代码实现

9.3.3Vision Transformer模型前馈神经网络的代码实现

9.3.4搭建Vision Transformer模型编码器

9.4Vision Transformer输出层的代码实现

9.5搭建Vision Transformer模型

9.6本章总结

第10章Transformer视觉模型: Swin Transformer模型

10.1Swin Transformer模型

10.1.1Swin Transformer模型简介

10.1.2Swin Transformer模型的数据流

10.1.3Swin Transformer窗口注意力机制的框架模型

10.2Swin Transformer模型窗口分割

10.2.1Swin Transformer模型的Patch Embedding

10.2.2Swin Transformer模型Patch Embedding的代码实现

10.2.3Swin Transformer模型窗口分割与窗口复原的代码实现

10.3Swin Transformer模型Patch Merging

10.3.1Swin Transformer模型的Patch Merging操作

10.3.2Swin Transformer模型Patch Merging的代码实现

10.4Swin Transformer模型的位置编码

10.4.1Swin Transformer模型位置编码的来源

10.4.2Swin Transformer模型位置编码的代码实现

10.5Swin Transformer模型移动窗口与掩码矩阵

10.5.1Swin Transformer模型的移动窗口

10.5.2Swin Transformer模型的掩码矩阵

10.5.3Swin Transformer模型移动窗口的代码实现

10.5.4Swin Transformer模型掩码矩阵的代码实现

10.6Swin Transformer模型窗口注意力与移动窗口注意力

10.6.1Swin Transformer模型窗口注意力机制代码

10.6.2Swin Transformer模型移动窗口注意力机制代码

10.7Swin Transformer模型计算复杂度

10.8本章总结

Transformer模型进阶篇

第11章CNN+Transformer视觉模型:  DETR模型

11.1DETR模型

11.1.1DETR模型框架

11.1.2DETR模型的Transformer框架

11.2DETR模型的代码实现

11.2.1DETR模型搭建

11.2.2基于DETR预训练模型的对象检测

11.3本章总结

第12章Transformer多模态模型

12.1多模态模型简介

12.2Transformer多模态模型: VILT模型

12.2.1VILT模型简介

12.2.2VILT模型的代码实现

12.3Transformer多模态模型: CLIP模型

12.3.1CLIP模型简介

12.3.2CLIP模型的代码实现

12.4本章总结

第13章优化Transformer模型注意力机制

13.1稀疏注意力机制

13.1.1稀疏注意力机制简介

13.1.2稀疏注意力机制的代码实现

13.2Flash Attention

13.2.1标准注意力机制计算过程

13.2.2Flash Attention注意力机制的计算过程

13.2.3Flash Attention注意力机制的代码实现

13.3MoE混合专家模型

13.3.1混合专家模型简介

13.3.2混合专家模型的代码实现

13.4RetNet模型

13.4.1RetNet模型的多尺度保留机制

13.4.2RetNet模型的递归表示

13.4.3RetNet模型的代码实现

13.5本章总结

Transformer模型实战篇

第14章Transformer模型环境搭建

14.1本地Python环境搭建

14.1.1Python环境安装

14.1.2Python安装第三方库

14.2Python云端环境搭建

14.2.1百度飞桨AI Studio云端环境搭建

14.2.2Google Colab云端环境搭建

14.3本章总结

第15章Transformer模型自然语言处理领域实例

15.1基于Transformer模型的机器翻译实例

15.1.1基于Transformer模型的机器翻译模型训练

15.1.2基于Transformer模型的机器翻译模型推理过程

15.2基于Transformer模型的BERT模型应用实例

15.2.1Hugging Face Transformers库

15.2.2基于Transformers库的BERT应用实例

15.2.3训练一个基于BERT模型的文本多分类任务模型

15.3本章总结

第16章Transformer模型计算机视觉领域实例

16.1Vision Transformer模型预训练

16.1.1Vision Transformer模型预训练数据集

16.1.2Vision Transformer模型预训练权重

16.1.3训练Vision Transformer模型

16.1.4使用Vision Transformer预训练模型进行对象分类

16.2Swin Transformer模型实例

16.2.1Swin Transformer预训练模型

16.2.2训练 Swin Transformer模型

16.2.3使用Swin Transformer预训练模型进行对象分类

16.3使用DETR预训练模型进行对象检测

16.4本章总结

第17章Transformer模型音频领域实例

17.1语音识别模型

17.1.1Whisper语音识别模型简介

17.1.2Whisper语音识别模型的代码实现

17.2语音合成模型

17.2.1ChatTTS语音合成模型简介

17.2.2ChatTTS语音合成模型的代码实现

17.3本章总结

参考文献

致谢