图书目录

目录

本书源码

第1章大模型技术原理

1.1大模型技术的起源、思想

1.2基于Transformer的预训练语言模型

1.2.1编码预训练语言模型

1.2.2解码预训练语言模型

1.2.3基于编解码架构的预训练语言模型

1.3提示学习与指令微调

1.3.1提示学习

1.3.2指令微调

1.4人类反馈强化学习

1.4.1强化学习

1.4.2PPO算法

1.4.3大模型人类反馈强化学习对齐

1.5GPT智能涌现原理与AGI通用人工智能

1.5.1什么是智能涌现

1.5.2思维链

1.5.3上下文学习能力

1.5.4指令理解

1.5.5通用人工智能

第2章大模型训练及微调

2.1大模型训练概述

2.2分布式训练的并行策略

2.2.1数据并行

2.2.2模型并行

2.2.3混合并行

2.2.4并行计算框架

2.3预训练模型的压缩

2.3.1模型压缩方案概述

2.3.2结构化模型压缩策略

2.3.3非结构化模型压缩策略

2.3.48位/4位量化压缩实战

2.4大模型微调方法

2.4.1Prefix Tuning微调

2.4.2PTuning V1微调

2.4.3PTuning V2微调

2.4.4LoRA微调

2.4.5QLoRA微调

2.5基于旋转位置编码RoPE的长文本理解

2.5.1RoPE技术原理

2.5.2RoPE关键特性

第3章主流大模型

3.1国内大模型

3.1.1智谱清言ChatGLM

3.1.2百川智能

3.1.3百度文心一言

3.1.4阿里巴巴通义千问

3.1.5腾讯混元

3.1.6华为盘古

3.1.7360智脑

3.1.8科大讯飞星火

3.1.9智源悟道大模型

3.1.10月之暗面Kimi

3.1.11复旦大学MOSS

3.1.12零一万物

3.1.13字节跳动豆包大模型

3.2国外大模型

3.2.1OpenAI GPT4o

3.2.2Meta LLaMA

3.2.3Anthropic Claude

3.2.4谷歌Gemini和开源Gemma

3.2.5Mistral Large

3.2.6xAI Grok

3.3垂直类大模型

3.3.1HuatuoGPT

3.3.2BianQue

3.3.3BenTsao

3.3.4XrayGLM

3.3.5DoctorGLM

3.3.6ChatMed

3.3.7度小满轩辕

3.3.8BloombergGPT

3.3.9LawGPT

3.3.10LexiLaw

3.3.11Lawyer LLaMA

3.3.12ChatLaw

3.3.13ChatGLMMath

第4章LangChain技术原理与实践

4.1LangChain技术原理

4.2LangChain六大核心模块

4.2.1模型I/O

4.2.2数据增强模块

4.2.3链模块

4.2.4记忆模块

4.2.5Agent模块

4.2.6回调处理器

第5章RAG检索增强生成

5.1RAG技术原理

5.1.1RAG的概念与应用

5.1.2RAG技术架构

5.1.3分块和向量化

5.1.4搜索索引

5.1.5重新排序和过滤

5.1.6查询转换与路由

5.1.7RAG中的Agent智能体

5.1.8响应合成器

5.1.9大模型微调和RAG优劣势对比

5.2文本向量模型

5.2.1Embedding模型、Reranker模型及ColBERT模型

5.2.2阿里巴巴GTE向量模型

5.2.3中文acge_text_embedding模型

5.2.4智源中英文语义向量模型BGE

5.2.5Moka开源文本嵌入模型M3E

5.2.6OpenAI的textembedding模型

5.3向量数据库

5.3.1Faiss

5.3.2Milvus

5.3.3Pinecone

5.3.4Chroma

5.4RAG应用实践

5.4.1基于大模型构建企业私有数据的知识问答

5.4.2应对大模型落地挑战的优化策略

第6章多模态大模型

6.1多模态基础模型

6.1.1多模态对齐、融合和表示

6.1.2CLIP

6.1.3BLIP

6.1.4BLIP2

6.1.5InstructBLIP和XInstructBLIP

6.1.6SAM

6.1.7OpenFlamingo

6.1.8VideoChat

6.1.9PaLME

6.2OpenAI多模态大模型DALL·E 3、GPT4V、GPT4o、Sora

6.2.1文生图多模态大模型DALL·E 3

6.2.2GPT4V

6.2.3端到端训练多模态大模型GPT4o技术原理

6.2.4文生视频多模态大模型Sora

6.3通义千问多模态大模型

6.3.1开源QwenVL和QwenVLChat

6.3.2QwenVLPlus和QwenVLMax

6.4开源端到端训练多模态大模型LLaVA

6.4.1LLaVA

6.4.2LLaVA1.5

6.4.3LLaVA1.6

6.4.4MoELLaVA

6.4.5LLaVAPlus

6.4.6VideoLLaVA和LLaVANeXTVideo

6.5零一万物多模态大模型YiVL系列

6.5.1YiVL系列模型架构

6.5.2YiVL系列模型训练微调及推理

6.6清华系多模态大模型

6.6.1VisualGLM6B

6.6.2CogVLM2

6.6.3CogAgent

6.6.4CogView、CogVideo和CogVideoX

6.6.5CogCoM

6.6.6GLM4V9B

第7章AI Agent智能体

7.1AI Agent智能体介绍和原理

7.1.1AI Agent的定义与角色

7.1.2AI Agent技术原理

7.2主流大模型Agent框架

7.2.1AutoGPT

7.2.2MetaGPT

7.2.3ChatDev

7.2.4AutoGen

7.2.5FastGPT

7.2.6XAgent

7.2.7GPTEngineer

7.2.8BabyAGI

7.2.9SuperAGI

第8章大模型在企业应用中落地

8.1基于大模型的对话式推荐系统

8.1.1基于大模型的对话式推荐系统技术架构设计

8.1.2推荐AI Agent智能体

8.1.3面向推荐的语言表达模型

8.1.4知识插件

8.1.5基于大模型的推荐解释

8.1.6对话式推荐系统的新型评测方法

8.2多模态搜索

8.2.1多模态搜索技术架构设计

8.2.2多模态搜索关键技术

8.2.3多模态实时搜索与个性化推荐

8.3基于自然语言交互的NL2SQL数据即席查询

8.3.1NL2SQL数据即席查询技术原理

8.3.2NL2SQL应用实践

8.4基于大模型的智能客服对话机器人

8.4.1大模型智能客服对话机器人技术原理

8.4.2AI大模型赋能提升智能客服解决率新策略

8.4.3基于大模型的智能客服对话机器人系统搭建

8.5多模态数字人

8.5.1多模态数字人技术原理

8.5.2三维建模与三维重建

8.5.3声音克隆与形象克隆

8.5.4唇形同步算法

8.5.5NeRF、ERNeRF与RADNeRF模型

8.5.6数字人项目实践

8.6多模态具身智能

8.6.1多模态具身智能概念及技术路线

8.6.2多模态感知与场景理解

8.6.3视觉导航

8.6.4世界模型

8.6.5具身智能模拟器

8.6.6多模态多感官交互具身智能大模型

8.6.7端到端强化学习人形机器人

8.6.8多模态通才具身智能体