图书目录

目录

第1章AI大模型概述1

1.1AI大模型的定义1

1.2AI大模型发展概况2

1.2.1语言模型演进3

1.2.2AI大模型家族4

1.2.3国内外AI大模型研究现状5

1.3AI大模型基础设施7

1.3.1计算资源8

1.3.2存储系统8

1.3.3网络带宽8

1.3.4AI算法和优化技术9

第2章AI基础算法10

2.1AI基础算法概述10

2.1.1基于集合论的算法10

2.1.2基于概率统计的算法12

2.1.3基于图论的算法14

2.1.4基于空间几何的算法17

2.1.5基于演化计算的算法17

2.1.6基于人工神经网络的算法19

2.2专家系统19

2.2.1专家系统的一般结构20

2.2.2专家系统的构建21

2.2.3专家系统的发展21

2.3机器学习25

2.4拟人机器学习30

2.4.1拟人机器学习的概念30

2.4.2拟人系统的瓶颈问题302.5人工情感计算30

2.5.1文本情感计算31

2.5.2语音情感计算32

2.5.3视觉情感计算33

第3章深度学习技术与工具35

3.1词向量模型35

3.1.1滑动窗口36

3.1.2Word2Vec模型36

3.1.3Word2Vec训练流程41

3.2卷积神经网络43

3.2.1卷积神经网络结构43

3.2.2卷积神经网络的特点46

3.2.3卷积神经网络在自然语言处理领域中的应用47

3.3循环神经网络48

3.3.1典型的循环神经网络单向传播48

3.3.2双向循环神经网络50

3.3.3深度循环神经网络50

3.3.4循环神经网络的主要应用领域53

第4章生成式模型54

4.1混合高斯模型54

4.2隐马尔可夫模型56

4.2.1隐马尔可夫模型的定义56

4.2.2隐马尔可夫模型的表示57

4.2.3隐马尔可夫模型的使用58

4.2.4维特比算法59

4.3受限玻尔兹曼机60

4.3.1受限玻尔兹曼机模型结构60

4.3.2配分函数61

4.4深度置信网络63

4.4.1深度置信网络模型结构63

4.4.2深度置信网络的目标函数64

4.4.3深度置信网络的训练64

4.5Seq2Seq生成模型65

4.5.1语义向量只作为初始状态参与运算65

4.5.2语义向量参与解码的全过程66

4.5.3循环神经网络输出层使用激活函数67

4.5.4Seq2Seq模型的训练过程68

4.6变分自编码器69

4.6.1变分自编码器模型结构69

4.6.2变分下界的求法70

4.6.3重参数化70

4.7生成对抗网络71

4.7.1生成对抗网络的基本原理72

4.7.2生成对抗网络的训练方法72

4.7.3深度卷积生成对抗网络73

4.7.4基于残差网络的结构73

〖3〗AI大模型系统开发技术目录〖3〗第5章数据标注技术76

5.1数据标注的定义与分类76

5.1.1标注的分类76

5.1.2数据标注的应用场景78

5.1.3数据标注的任务79

5.2数据标注的流程及工具80

5.2.1标注流程80

5.2.2标注内容81

5.2.3标注工具81

5.3数据标注实例——情感分析82

5.3.1情感分析概述82

5.3.2情感分析中的数据标注83

第6章注意力机制85

6.1注意力模型86

6.1.1引入注意力的编码器解码器框架86

6.1.2注意力的基本原理87

6.2自注意力机制90

6.2.1单输出90

6.2.2自注意力操作过程92

6.3多头自注意力机制94

6.3.1单输入多头注意力94

6.3.2多输入多头注意力95

6.3.3位置编码96

6.3.4残差连接方法96

6.4多类别注意力机制98

6.4.1空间注意力机制98

6.4.2通道注意力机制98

6.4.3空间和通道注意力机制的融合99

第7章Transformer架构解析101

7.1Transformer的原始框架101

7.2输入输出嵌入层102

7.2.1BPE算法103

7.2.2位置编码103

7.3编码部分104

7.3.1掩码张量104

7.3.2Transformer 的自注意力模块105

7.3.3Transformer 的多头注意力机制107

7.3.4前馈连接层107

7.3.5规范化层108

7.3.6残差连接109

7.4解码部分109

7.4.1解码器的作用109

7.4.2解码器多头注意力机制109

7.5输出处理层110

第8章自然语言处理中的预训练模型112

8.1预训练模型概述112

8.1.1预训练模型的结构113

8.1.2预训练模型压缩技术114

8.1.3预训练任务115

8.1.4多模态预训练模型115

8.2预训练模型适应下游任务116

8.2.1迁移学习116

8.2.2模型迁移方法117

8.3预训练模型在自然语言处理任务中的应用118

8.3.1一般评价基准118

8.3.2问答118

8.3.3情感分析118

8.3.4命名实体识别119

8.3.5机器翻译119

8.3.6摘要119

8.3.7对抗检测和防御119

8.4预训练语言模型GPT120

8.5预训练语言模型BERT120

8.5.1BERT模型结构121

8.5.2嵌入操作层121

8.5.3编码层122

8.5.4预测层122

8.6大模型部署122

8.6.1大模型部署框架122

8.6.2大模型部署步骤123

8.6.3大模型部署方式123

第9章微调技术124

9.1微调概述124

9.2微调神经网络的方法125

9.3自适应微调126

9.4提示学习126

9.4.1提示学习微调模型的基本组成126

9.4.2提示学习微调流程127

9.5增量微调模型128

9.6基于提示的微调129

第10章大语言模型系统安全技术135

10.1大语言模型面临的安全挑战135

10.1.1大语言模型应用面临的威胁135

10.1.2对抗攻击的类型137

10.2大语言模型应用的安全核心组成138

10.2.1数据安全138

10.2.2模型安全138

10.2.3基础设施安全138

10.2.4伦理道德138

10.3大语言模型的对抗攻击与防御139

10.3.1建立安全框架139

10.3.2建设大语言模型应用安全开发策略139

10.3.3大语言模型应用防护方案141

10.3.4应对攻击的策略141

10.3.5大语言模型部署过程中的安全防御策略142

思考题144

附录ABERT源码分析145

参考文献155