图书目录

第1部分大模型介绍

第1章大模型概述

1.1什么是大模型

1.1.1大模型的定义

1.1.2大模型的关键特征

1.1.3大模型是如何工作的

1.2当前流行的大模型

1.2.1BERT

1.2.2GPT3和 ChatGPT 

1.2.3T5

1.3垂直领域大模型

1.4大模型的应用

1.4.1经典的NLP任务

1.4.2自由文本生成

1.4.3信息检索/神经语意搜索

1.4.4聊天机器人

1.5本章小结

第2章大模型语义检索

2.1简介

2.2语义检索的任务

2.3非对称语义检索方案概述

2.4组件

2.4.1文本嵌入器

2.4.2文档分块

2.4.3向量数据库

2.4.4Pinecone

2.4.5开源替代方案

2.4.6检索结果重排

2.4.7API

2.5完整方案

2.6闭源组件的成本

2.7本章小结

第3章提示词工程入门

3.1简介

3.2提示词工程

3.2.1LLM的对齐

3.2.2LLM提问

3.2.3小样本学习

3.2.4结构化输出

3.2.5人物角色提示词

3.3跨模型提示词工程

3.3.1ChatGPT 

3.3.2Cohere

3.3.3开源提示词工程

3.4采用ChatGPT构建问答机器人

3.5本章小结

第2部分充分挖掘大模型的潜力

第4章通过定制化微调优化大模型

4.1简介

4.2迁移学习与微调入门

4.2.1微调过程的解释

4.2.2闭源预训练模型作为基础模型

4.3OpenAI 微调 API 概览

4.3.1GPT3微调 API

4.3.2案例学习: 亚马逊评论情感分类

4.3.3数据指南和最佳实践

4.4使用OpenAI CLI实现自定义数据微调

4.5设置 OpenAI CLI

4.6LLM微调实践

4.6.1采用量化指标评测大模型

4.6.2定性评估技术

4.6.3将微调的GPT3模型集成到应用程序中

4.6.4案例学习: 亚马逊评论分类

4.7本章小结

第5章高级提示工程

5.1提示注入攻击

5.2输入/输出验证

5.3批处理提示

5.4提示链

5.4.1提示链作为防御提示注入的手段

5.4.2使用提示链来防止提示填充

5.4.3使用提示链来安全地使用多模态LLM

5.5思维链提示

5.6重新审视小样本学习

5.7测试和迭代快速开发

5.8本章小结

第6章定制嵌入层和模型架构

6.1案例研究: 构建一个推荐系统

6.1.1定义问题和数据

6.1.2推荐系统的定义

6.1.3基于万条用户行为数据构建推荐系统

6.1.4生成自定义字段来对比项目的相似性

6.1.5采用基础词向量构建基线

6.1.6准备微调数据

6.1.7使用Sentence Transformers微调开源嵌入器

6.1.8微调效果总结

6.2本章小结

第3部分大模型的高级使用

第7章超越基础模型

7.1案例研究: 视觉问答

7.1.1模型简介: DistilBERT、视觉转换器和GPT2

7.1.2隐藏状态投影和融合

7.1.3交叉注意力是什么以及为什么至关重要

7.1.4定制多模式联运模型

7.1.5数据: 视觉问答

7.1.6VQA训练迭代

7.1.7结果总结

7.2案例研究: 从反馈中强化学习

7.2.1FLANT5模型

7.2.2奖励模型: 情感和语法正确性

7.2.3Transformer强化学习

7.2.4RLF训练循环

7.2.5结果总结

7.3本章小结

第8章开源大模型的高级微调方法

8.1案例研究: 采用BERT对动漫进行多标签分类

8.1.1采用Jaccard相似分来评估动漫标题多标签分类的效果

8.1.2简单的微调大模型训练流程

8.1.3通用的开源大模型微调技巧

8.1.4结果总结

8.2采用GPT2生成LaTeX

8.2.1开源大模型的提示词工程 

8.2.2结果总结 

8.3Sinan尝试做出聪明而优美的回应: SAWYER

8.3.1有监督指令微调 

8.3.2奖励模型的训练 

8.3.3从(期望的)人类反馈中进行强化学习 

8.3.4结果总结 

8.4日新月异的微调世界

8.5本章小结

第9章将LLM应用于生产

9.1闭源LLM应用于生产

9.2开源LLM应用于生产

9.2.1将LLM应用于推理

9.2.2互操作性

9.2.3模型量化

9.2.4模型剪枝

9.2.5知识蒸馏

9.2.6大模型的成本预估

9.2.7模型推送到Hugging Face仓库

9.3本章小结

9.3.1欢迎向社区贡献代码

9.3.2继续加油

第4部分附录

附录ALLM常见问题解答

附录BLLM术语表

附录CLLM应用架构