图书目录

目录

第 1章生成式人工智能概述 ...........................................1 

1.1生成式人工智能的定义 ........................................ 1 

1.2生成式人工智能的发展历程 ................................. 2 

1.3生成式人工智能的核心技术 ................................. 3 

1.4生成式人工智能的应用场景 ................................. 4 

1.5生成式人工智能的挑战 ........................................ 6 

1.6习题................................................................... 8

第 2章生成模型基础 .....................................................9 

2.1生成模型的基本概念 ........................................... 9 

2.1.1生成模型的历史背景................................. 9 

2.1.2生成模型的定义 ....................................... 9 

2.1.3生成模型的应用场景............................... 10 

2.2生成模型与判别模型的区别 ............................... 10 

2.2.1判别模型的定义 ..................................... 10 

2.2.2生成模型与判别模型的核心区别 .............. 11 

2.2.3生成模型与判别模型的优缺点 ................. 12 

2.3生成模型的数学基础 ......................................... 13 

2.3.1概率分布 ............................................... 13 

2.3.2联合分布与条件分布............................... 14 

2.3.3马尔可夫链 ............................................ 14 

2.3.4贝叶斯定理 ............................................ 14 

2.3.5最大似然估计......................................... 15 

2.3.6变分推断 ............................................... 15 

2.4常见生成模型简介............................................. 19 

2.4.1生成对抗网络......................................... 19 

2.4.2变分自编码器......................................... 20 

2.4.3自回归模型 ............................................ 21 

2.4.4流模型................................................... 21 

2.4.5扩散模型 ............................................... 21 

2.5生成模型的评估指标 ......................................... 22 

2.5.1客观评估指标......................................... 23 

2.5.2主观评估指标......................................... 23 

2.6概率图模型概述 ..................................................................................... 24 

2.6.1概率图模型的定义和基本概念 ...................................................... 24 

2.6.2历史背景和发展 .......................................................................... 25 

2.7隐马尔可夫模型 ..................................................................................... 25 

2.7.1 HMM的基本原理 ....................................................................... 26 

2.7.2隐马尔可夫模型的概率计算.......................................................... 27 

2.7.3 HMM的推断问题 ....................................................................... 28 

2.8马尔可夫随机场 ..................................................................................... 30 

2.8.1马尔可夫随机场的性质和定义 ...................................................... 30 

2.8.2条件随机场 ................................................................................. 32 

2.9贝叶斯网络............................................................................................ 33 

2.9.1贝叶斯网络的基本概念 ................................................................ 33 

2.9.2结构学习和参数学习.................................................................... 34 

2.9.3贝叶斯网络的推断 ....................................................................... 36 

2.10自回归模型 .......................................................................................... 38 

2.10.1自回归模型的定义.................................................................... 38 

2.10.2自回归模型的核心思想 ............................................................. 39 

2.10.3自回归模型与循环神经网络 ...................................................... 40 

2.11习题 .................................................................................................... 42

第 3章 Transformer .......................................................................................43 

3.1 Transformer的背景与动机 ..................................................................... 43 

3.1.1编码器........................................................................................ 44 

3.1.2解码器........................................................................................ 44 

3.2注意力机制............................................................................................ 44 

3.2.1自注意力的计算步骤.................................................................... 44 

3.2.2 Transformer的优势..................................................................... 45 

3.2.3多头注意力的计算 ....................................................................... 46 

3.2.4注意力变体存在的问题 ................................................................ 47 

3.2.5注意力变体的内容 ....................................................................... 47 

3.3 Transformer的结构 ............................................................................... 50 

3.3.1混合专家结构.............................................................................. 51 

3.3.2位置编码 .................................................................................... 53 

3.4 Transformer的应用结构......................................................................... 55 

3.4.1编码器结构 ................................................................................. 56 

3.4.2仅解码器结构.............................................................................. 58 

3.4.3编码器-解码器结构...................................................................... 60 

目录 IX 

3.5本章小结 ............................................................................................... 61 

3.6习题...................................................................................................... 62

第 4章生成对抗网络 ........................................................................................63 

4.1生成对抗网络的基本介绍........................................................................ 63 

4.1.1 概述 ........................................................................................... 63 

4.1.2 原理 ........................................................................................... 64 

4.1.3 网络结构 .................................................................................... 66 

4.2 GAN的训练与优化................................................................................ 66 

4.2.1  GAN的训练 ............................................................................... 67 

4.2.2  GAN的训练难点 ........................................................................ 69 

4.2.3  GAN训练策略的改进 ................................................................. 71 

4.2.4 训练速度 .................................................................................... 74 

4.2.5 评价指标 .................................................................................... 74 

4.3 常见的 GAN变体.................................................................................. 76  CGAN........................................................................................ 77

4.3.1 DCGAN..................................................................................... 77

4.3.2 AttGAN..................................................................................... 78

4.3.3 

4.3.4  CycleGAN.................................................................................. 79  DALL-E ..................................................................................... 79

4.3.5 

4.4 GAN的应用.......................................................................................... 80 

4.4.1 图像域........................................................................................ 80 

4.4.2 语言和音频域.............................................................................. 82 

4.4.3 视频域........................................................................................ 82 

4.4.4 其他应用 .................................................................................... 83 

4.5 GAN的前沿进展 ................................................................................... 84 

4.5.1 前沿进展 .................................................................................... 84 

4.5.2 改进方向 .................................................................................... 86 

4.6本章小结 ............................................................................................... 87 

4.7习题...................................................................................................... 88

第 5章变分自编码器 ........................................................................................89 

5.1变分自编码器的基本原理........................................................................ 89 

5.1.1 自编码器介绍.............................................................................. 89 

5.1.2  VAE介绍 ................................................................................... 91 

5.2变分自编码器的结构与训练 .................................................................... 97 

5.2.1 变分自编码器的结构.................................................................... 98 

5.2.2  VAE训练 ................................................................................... 99 

5.2.3评价指标 .................................................................................. 100 

5.2.4 VAE难点 ................................................................................. 101 

5.3条件变分自编码器................................................................................ 102 

5.4变分自编码器的应用 ............................................................................ 103 

5.4.1图像生成与重建 ........................................................................ 103 

5.4.2异常检测 .................................................................................. 104 

5.4.3自然语言处理............................................................................ 104 

5.4.4无监督表示学习 ........................................................................ 104 

5.5 VAE的最新进展.................................................................................. 104 

5.5.1最新进展 .................................................................................. 105 

5.5.2改进方向 .................................................................................. 106 

5.6本章小结 ............................................................................................. 108 

5.7习题.................................................................................................... 109

第 6章流模型 ................................................................................................111 

6.1流模型概述.......................................................................................... 111 

6.1.1归一化流 .................................................................................. 112 

6.1.2连续归一化流............................................................................ 112 

6.1.3流匹配...................................................................................... 113 

6.2归一化流 ............................................................................................. 113 

6.2.1归一化流的基本原理.................................................................. 113 

6.2.2归一化流的逼近能力.................................................................. 116 

6.2.3归一化流的实际应用.................................................................. 117 

6.3有限阶流模型 ...................................................................................... 118 

6.3.1自回归流 .................................................................................. 119 

6.3.2线性流...................................................................................... 125 

6.3.3残差流...................................................................................... 128 

6.3.4经典流模型 ............................................................................... 131 

6.4连续变化流模型 ................................................................................... 134 

6.4.1连续变化流的定义 ..................................................................... 134 

6.4.2连续变化流的计算和优化 ........................................................... 136 

6.5流模型的最新进展................................................................................ 137 

6.5.1基于 Glow的模型 ..................................................................... 137 

6.5.2重整化流 .................................................................................. 141 

6.5.3流匹配...................................................................................... 144 

6.6本章小结 ............................................................................................. 148 

6.7习题.................................................................................................... 149 

目录 XI

第 7章能量模型.............................................................................................151 

7.1能量模型简介 ...................................................................................... 151 

7.1.1预备知识 .................................................................................. 152 

7.1.2能量模型的定义 ........................................................................ 152 

7.1.3玻尔兹曼机和受限玻尔兹曼机 .................................................... 153 

7.1.4霍普菲尔德网络 ........................................................................ 156 

7.2能量模型的训练和推断 ......................................................................... 158 

7.2.1基于马尔可夫链蒙特卡洛的最大似然训练方法 ............................. 158 

7.2.2基于分数匹配的训练方法 ........................................................... 161 

7.2.3基于去噪分数匹配的训练方法 .................................................... 161 

7.2.4基于切片分数匹配的训练方法 .................................................... 163 

7.3能量模型的应用 ................................................................................... 164 

7.3.1能量模型在计算机视觉中的应用 ................................................. 164 

7.3.2能量模型在机器人学中的应用 .................................................... 167 

7.4本章小结 ............................................................................................. 169 

7.5习题.................................................................................................... 169

第 8章扩散模型.............................................................................................171 

8.1扩散模型的基本原理 ............................................................................ 171 

8.2扩散过程与反向过程 ............................................................................ 172 

8.2.1扩散过程 .................................................................................. 172 

8.2.2反向过程 .................................................................................. 173 

8.3扩散模型的训练与优化 ......................................................................... 175 

8.3.1扩散模型的训练与采样过程........................................................ 175 

8.3.2训练过程的优化 ........................................................................ 176 

8.3.3采样过程的优化 ........................................................................ 178 

8.4扩散模型的应用 ................................................................................... 181 

8.4.1条件控制生成............................................................................ 181 

8.4.2隐空间扩散模型及其变体 ........................................................... 185 

8.4.3扩散模型的微调技术.................................................................. 189 

8.5基于 Transformer架构的扩散模型 ........................................................ 193 

8.6本章小结 ............................................................................................. 195 

8.7习题.................................................................................................... 195

第 9章大语言模型 .........................................................................................197 

9.1大语言模型概述 ................................................................................... 197 

9.1.1语言模型的发展历程.................................................................. 197 

9.1.2大语言模型的特点 ..................................................................... 198 

9.1.3大语言模型的应用和前景 ........................................................... 200 

9.2大语言模型的训练与优化...................................................................... 201 

9.2.1预训练...................................................................................... 201 

9.2.2指令微调 .................................................................................. 204 

9.2.3对齐微调 .................................................................................. 205 

9.2.4参数高效微调............................................................................ 208 

9.3大语言模型的应用................................................................................ 210 

9.3.1推理与规划 ............................................................................... 210 

9.3.2知识管理 .................................................................................. 211 

9.3.3文本生成与内容创作.................................................................. 212 

9.3.4其他应用实例............................................................................ 213 

9.4多模态大模型 ...................................................................................... 216 

9.4.1概述 ......................................................................................... 216 

9.4.2模型结构 .................................................................................. 217 

9.4.3训练策略和数据准备.................................................................. 218 

9.4.4代表性的多模态大模型—— LLaVA ............................................. 220 

9.4.5多模态大模型的评估.................................................................. 222 

9.5大语言模型的未来发展 ......................................................................... 222 

9.5.1更小更高效的模型 ..................................................................... 223 

9.5.2大小模型协同............................................................................ 223 

9.5.3改进 LLM的使用 ..................................................................... 223 

9.6本章小结 ............................................................................................. 223 

9.7习题.................................................................................................... 224

第 10章多模态生成及应用 .............................................................................225 

10.1多模态生成模型概述........................................................................... 225 

10.1.1定义与基本原理 ..................................................................... 226 

10.1.2基于图文对比预训练的多模态生成 .......................................... 226 

10.1.3基于大语言模型的多模态生成 ................................................. 227 

10.2文-文与文-图生成模型 ........................................................................ 227 

10.2.1文-文生成模型 ....................................................................... 227 

10.2.2文-图生成模型 ....................................................................... 230 

10.3音频生成模型..................................................................................... 234 

10.3.1基于规则的音频生成 .............................................................. 234 

10.3.2统计学习下的音频生成 ........................................................... 235 

10.3.3基于深度学习的音频生成人工智能 .......................................... 235 

10.3.4大模型时代下的音频生成........................................................ 237 

目录 XIII 

10.4视频生成模型..................................................................................... 238 

10.4.1文-视频生成 .......................................................................... 238 

10.4.2文图-视频生成 ....................................................................... 240 

10.4.3高分辨率、长时视频生成........................................................ 241 

10.5多模态生成的前沿研究 ....................................................................... 244 

10.5.1人工智能 for Science .............................................................. 244 

10.5.2跨领域应用案例 ..................................................................... 246 

10.6本章小结 ........................................................................................... 248 

10.7习题 .................................................................................................. 249

第 11章生成式人工智能的评估、安全与伦理...................................................251 

11.1生成式人工智能的评估 ....................................................................... 251 

11.1.1评估角度 ............................................................................... 251 

11.1.2生成模型评估方法概述 ........................................................... 252 

11.1.3图像生成的评估方法 .............................................................. 255 

11.1.4文本生成的评估方法 .............................................................. 256 

11.1.5音频生成的评估方法 .............................................................. 258 

11.1.6图像视频生成的评估方法........................................................ 260 

11.1.7评估生成模型的挑战 .............................................................. 261 

11.2伦理与社会影响 ................................................................................. 263 

11.2.1生成式人工智能的伦理问题 .................................................... 263 

11.2.2算法偏见和歧视风险 .............................................................. 264 

11.2.3内容滥用的学术伦理风险........................................................ 264 

11.2.4智能冲击人类主体性风险........................................................ 265 

11.2.5生成模型的社会影响 .............................................................. 266 

11.2.6生成式人工智能的监管与政策 ................................................. 268 

11.2.7负责任的生成式人工智能........................................................ 270 

11.2.8生成式人工智能的公平性与透明性 .......................................... 271 

11.3本章小结 ........................................................................................... 272 

11.4习题 .................................................................................................. 272

第 12章课程实践设计 ....................................................................................273 

12.1文本生成实践..................................................................................... 273 

12.1.1数据到文本的生成.................................................................. 273 

12.1.2文本到文本生成 ..................................................................... 276 

12.1.3对话系统 ............................................................................... 277 

12.2语音生成实践..................................................................................... 278 

12.2.1语音生成的背景和传统方法 .................................................... 279 

12.2.2拼接合成 ............................................................................... 280 

12.2.3现代语音生成模型.................................................................. 283 

12.3图像生成实践..................................................................................... 287 

12.3.1基于 c-GAN的条件图像生成.................................................. 287 

12.3.2从 GAN到 c-GAN ................................................................ 288 

12.3.3基于扩散模型的文本条件图像生成 .......................................... 290 

12.4视频生成实践..................................................................................... 291 

12.4.1文生视频 ............................................................................... 291 

12.4.2图生视频 ............................................................................... 293

参考文献 ...........................................................................................................295