目 录
第1章 现代机器学习简介 1
1.1 数据科学与商业智能渐行渐远 2
1.2 从CRISP-DM过渡到最新的多组件ML系统 3
1.3 LLM提升了ML的能力和复杂度 5
1.4 你能从本书中学到哪些知识 6
第2章 一种端到端的方法 9
2.1 YouTube搜索智能体的组件 11
2.2 生产中使用的ML系统的核心原则 13
2.2.1 可观察性 14
2.2.2 可再现性 15
2.2.3 互操作性 15
2.2.4 可扩展性 16
2.2.5 可改进性 17
2.2.6 关于工具的注意事项 18
第3章 以数据为中心 19
3.1 基础模型的出现 19
3.2 现成组件的角色 20
3.3 数据驱动的方法 21
3.4 有关数据伦理的注意事项 22
3.5 构建数据集 23
3.5.1 使用向量数据库 25
3.5.2 数据版本控制和管理 38
3.5.3 开始使用数据版本控制工具 41
3.6 适度了解数据工程知识 45
第4章 LLM 47
4.1 选择LLM 47
4.1.1 我需要执行哪种类型的推理 49
4.1.2 这项任务是通用的还是专用的 50
4.1.3 数据的隐私级别有多高 50
4.1.4 该模型需要多高的成本 51
4.2 LLM实验管理 52
4.3 LLM推理 56
4.3.1 提示工程的基本原理 56
4.3.2 上下文学习 58
4.3.3 中间计算 64
4.3.4 RAG 67
4.3.5 智能体技术 71
4.4 用Comet ML优化LLM推理 77
4.5 微调LLM 84
4.5.1 微调LLM的时机 84
4.5.2 量化、QLoRA和参数高效微调 85
4.6 本章小结 90
第5章 合成一个完整的应用 91
5.1 用Gradio得到应用的雏形 93
5.2 使用Plotnine创建图形 94
5.2.1 添加选择框 102
5.2.2 添加徽标 103
5.2.3 添加选项卡 103
5.2.4 添加标题和副标题 104
5.2.5 更改按钮的颜色 104
5.2.6 添加下载按钮 105
5.2.7 将组件合在一起 105
5.3 将模型部署为API 107
5.3.1 用FastAPI实现API 109
5.3.2 实现Uvicorn 111
5.4 监控LLM 111
5.4.1 用Docker部署服务 113
5.4.2 部署LLM 115
5.5 小结 119
第6章 完成ML生命周期 121
6.1 部署一个简单的随机森林模型 121
6.2 模型监控简介 125
6.3 用Evidently AI监控模型 131
6.4 构建模型监控系统 134
6.5 有关监控的总结 141
第7章 最佳实践 143
7.1 第一步:理解问题 143
7.2 第二步:选择和训练模型 144
7.3 第三步:部署和维护 145
7.4 第四步:协作与沟通 148
7.5 LLM的发展趋势 149
7.6 进一步的研究 150