目录
教学课件(PPT)
本书源码
第1章引言(83min)
1.1深度学习与序列模型的进化
1.1.1RNN原理
1.1.2RNN代码实践
1.1.3RNN的问题与挑战
1.1.4LSTM原理
1.1.5LSTM代码实践
1.1.6LSTM的问题与挑战
1.2Transformer的诞生背景
1.2.1Seq2Seq模型
1.2.2Seq2Seq代码实践
1.2.3注意力机制的崛起
1.2.4 注意力机制代码解读
1.2.5论文“Attention is All You Need”简介
第2章Transformer架构解析(87min)
2.1Transformer总览
2.1.1Transformer的核心思想
2.1.2Transformer的总体架构
2.2Transformer的实现
2.2.1自注意力机制的原理和实现
2.2.2多头注意力的原理和实现
2.2.3位置编码的作用和实现
2.2.4前馈网络层
2.2.5残差连接和层归一化
2.2.6解码器的结构和功能
第3章训练Transformer
3.1自定义Transformer代码
3.1.1词嵌入和位置编码
3.1.2多头注意力层
3.1.3前馈网络层
3.1.4编码器层和解码器层
3.1.5构建Transformer模型
3.1.6训练Transformer模型
3.2实践训练
3.2.1数据准备
3.2.2模型定义及训练
3.2.3模型预测
第4章Transformer变体与进阶(79min)
4.1BERT
4.1.1BERT架构与原理
4.1.2BERT训练过程解析
4.2GPT系列
4.2.1从GPT到GPT4o
4.2.2GPT训练过程解析
4.3其他变体
4.3.1ALBERT
4.3.2RoBERTa
4.3.3T5
4.3.4知识蒸馏原理及实践
第5章利用Hugging Face实践Transformer
5.1Hugging Face简介
5.1.1社区与资源介绍
5.1.2Transformers库概览
5.2快速开始
5.2.1Transformers库
5.2.2Datasets加载数据集
5.2.3Tokenizer文本处理
5.2.4预训练模型的加载
5.2.5Evaluate评估
5.2.6Trainer训练
5.3实际应用案例
5.3.1文本分类
5.3.2情感分类
5.3.3命名实体识别
5.3.4文本相似度
5.3.5机器阅读理解
5.3.6文本摘要
5.3.7生成式对话机器人
5.4模型高效微调
5.4.1微调原理介绍
5.4.2Freeze微调原理及实践
5.4.3PromptTuning微调原理及实践
5.4.4Prefix Tuning微调原理及实践
5.4.5PTuning微调原理及实践
5.4.6LoRA微调原理及实践
5.4.7AdaLoRA微调原理及实践
5.4.8QLoRA微调原理及实践
5.5Transformer的影响
5.6未来展望
