目录
第一部分大模型基础
第1章预训练语言模型基础概述3
1.1Transformer简介3
1.1.1Transformer架构3
1.1.2关键技术4
1.1.3作用与影响6
1.2预训练语言模型概述7
1.2.1基于Transformer的模型架构7
1.2.2BERT模型8
1.2.3GPT系列模型9
1.2.4BART模型12
1.2.53种模型对比13
1.3总结与习题15
1.3.1本章总结15
1.3.2本章习题15
第2章大模型架构概述17
2.1ChatGPT模型简介17
2.1.1模型架构17
2.1.2训练过程18
2.1.3模型不足19
2.2Mamba模型简介20
2.2.1模型架构20
2.2.2技术细节21
2.2.3模型原理22
2.3MoE模型简介23
2.3.1模型架构23
2.3.2技术细节23
2.3.3计算优化26
2.4总结与习题27
2.4.1本章总结27
2.4.2本章习题28
目录〖3〗第3章大模型基础调优与评估29
3.1大模型微调29
3.1.1大模型微调技术起源29
3.1.2不同模型微调数据30
3.1.3LoRA技术32
3.1.4强化反馈技术37
3.1.5思维链技术42
3.1.6大模型微调技术对比46
3.2大模型对齐47
3.2.1大模型对齐的定义与意义47
3.2.2对齐方法分类49
3.2.3主要对齐技术51
3.2.4大模型对齐评估59
3.3大模型评估65
3.3.1大模型评估的介绍65
3.3.2大模型评估体系发展阶段与分类66
3.3.3评估任务分类72
3.4总结与习题91
3.4.1本章总结91
3.4.2本章习题91
第二部分大模型优化方法
第4章大模型生成质量优化954.1大模型幻觉95
4.1.1大模型幻觉的分类方法95
4.1.2大模型幻觉的来源97
4.1.3大模型幻觉的检测方法100
4.1.4大模型的幻觉评估103
4.1.5大模型幻觉的解决方案107
4.2检索增强生成112
4.2.1检索增强生成的概念、基本框架与动机112
4.2.2检索增强生成的相关技术介绍114
4.2.3检索增强生成的分类116
4.2.4检索增强生成的方法介绍118
4.2.5评估指标与评估维度129
4.2.6检索增强生成的应用131
4.2.7挑战与未来133
4.3大模型中的知识冲突134
4.3.1知识冲突简介134
4.3.2无源冲突137
4.3.3多源冲突142
4.4大模型的可控生成148
4.4.1可控生成的定义与意义148
4.4.2面向图像的可控生成150
4.4.3面向文本的可控生成156
4.4.4数据集与评估方法159
4.5数据合成技术163
4.5.1合成数据介绍163
4.5.2合成数据的方法166
4.5.3合成数据的评价方法169
4.6总结与习题171
4.6.1本章总结171
4.6.2本章习题171
第5章大模型推理能力优化173
5.1大模型推理能力173
5.1.1大模型推理的主要任务173
5.1.2大模型推理能力分析174
5.1.3基于提示工程的方法175
5.1.4基于数据集构建的方法180
5.1.5基于蒙特卡洛的方法180
5.1.6逆转诅咒的缓解方法181
5.1.7应用场景183
5.2知识编辑技术185
5.2.1知识编辑介绍185
5.2.2知识编辑方法186
5.2.3评估方法与基准199
5.2.4不足分析205
5.3总结与习题206
5.3.1本章总结206
5.3.2本章习题207
第6章大模型的计算存储优化208
6.1大模型计算效率优化208
6.1.1大模型计算效率优化技术介绍208
6.1.2基于大模型训练效率的优化方法210
6.1.3基于大模型推理效率的优化方法220
6.1.4基于大模型生成效率的优化方法231
6.2大模型压缩技术236
6.2.1大模型压缩介绍236
6.2.2大模型压缩方法236
6.2.3大模型压缩评估250
6.2.4小模型现状255
6.2.5未来与挑战275
6.3总结与习题276
6.3.1本章总结276
6.3.2本章习题277
第三部分大模型能力扩展
第7章大模型的复杂任务适应2817.1长文本处理与生成281
7.1.1长文本处理与生成技术介绍281
7.1.2长文本处理能力扩展的关键技术282
7.1.3长文本生成能力扩展的关键技术286
7.1.4长文本处理效率的提升技术290
7.1.5长文本处理的评价292
7.1.6长文本生成的评价296
7.1.7长文本生成的应用297
7.1.8未来挑战与发展方向297
7.2大模型的表格处理299
7.2.1大模型的表格处理介绍299
7.2.2表格数据处理的难点300
7.2.3表格数据的建模方法301
7.2.4任务列举310
7.2.5表格处理的限制与未来方向318
7.3总结与习题319
7.3.1本章总结319
7.3.2本章习题320
第8章基于模态的大模型能力扩展321
8.1多模态大模型321
8.1.1多模态大模型的介绍321
8.1.2多模态大模型相关技术基础323
8.1.3多模态大模型分类329
8.1.4多模态学习的关键技术335
8.1.5多模态大模型训练方法338
8.1.6多模态应用339
8.1.7多模态学习的挑战与未来方向342
8.2图提示学习345
8.2.1图提示学习的概念、核心任务与动机345
8.2.2图提示学习的相关技术348
8.2.3图提示学习的分类349
8.2.4图提示学习的方法350
8.2.5图提示学习局限分析357
8.3总结与习题358
8.3.1本章总结358
8.3.2本章习题358
第9章基于反馈的大模型能力扩展360
9.1智能体360
9.1.1智能体的基础概念与理论框架360
9.1.2智能体的关键模块362
9.1.3智能体分类367
9.1.4智能体最新研究进展371
9.1.5智能体的安全性373
9.1.6智能体的垂域应用374
9.1.7智能体评估基准375
9.2大模型持续学习376
9.2.1持续学习介绍376
9.2.2持续学习的方法分类380
9.2.3持续预训练382
9.2.4持续自适应预训练385
9.2.5持续微调388
9.2.6外部知识395
9.2.7持续学习的发展趋势397
9.3总结与习题399
9.3.1本章总结399
9.3.2本章习题399
第10章大模型合规发展401
10.1大模型人格401
10.1.1研究背景与意义401
10.1.2研究现状与挑战402
10.1.3研究方法403
10.1.4常用数据集415
10.1.5未来研究方向416
10.2大模型生成文本检测418
10.2.1研究背景与定义418
10.2.2生成文本检测方法421
10.2.3影响可检测性的因素427
10.2.4挑战和未来方向430
10.3总结与习题432
10.3.1本章总结432
10.3.2本章习题432
