目录
第 1 章 MLOps 概览 1
1.1 MLOps 体系解析 2
1.1.1 机器学习项目 3
1.1.2 机器学习项目的输入和输出 4
1.2 MLOps 的价值定位 6
1.2.1 机器学习项目实施的挑战 6
1.2.2 MLOps 的愿景与价值 11
1.3 MLOps 标准技术栈 19
1.3.1 MLOps 体系架构 19
1.3.2 核心组件解析 20
1.4 小结 30
第 2 章 MLOps 实施策略与案例研究 32
2.1 实施策略 33
2.1.1 战略协同 33
2.1.2 MLOps 需求评估 34
2.1.3 MLOps 基础设施构建方法 41
2.2 MLOps 全景介绍 46
2.3 案例研究 49
2.3.1 Uber 的 Michelangelo 平台 50
2.3.2 Meta 的 FBLearner 平台 52
2.4 小结 55
第 3 章 特征工程基础设施 56
3.1 概述 57
3.2 架构 59
3.2.1 特征规范与定义 61
3.2.2 特征注册表 67
3.2.3 特征编排 68
3.2.4 特征存储 69
3.2.5 特征上传 70
3.2.6 特征服务 71
3.2.7 监控体系 71
3.3 自建与采购 72
3.3.1 重要考量因素 72
3.3.2 自建方案分析 73
3.3.3 采购方案评估 74
3.4 组织性挑战 74
3.4.1 数据可用性 75
3.4.2 数据治理 75
3.5 案例研究 76
3.5.1 开源 76
3.5.2 自建 79
3.5.3 厂商解决方案 84
3.6 小结 88
第 4 章 模型训练基础设施 90
4.1 概述 91
4.2 架构 92
4.2.1 模型开发环境 93
4.2.2 实验追踪 97
4.3 模型训练管道 100
4.3.1 编排 101
4.3.2 持续模型训练 104
4.4 大规模模型训练 106
4.5 模型注册表 109
4.6 案例研究 113
4.6.1 自建 113
4.6.2 开源 115
4.7 小结 121
第 5 章 模型推理基础设施 123
5.1 概述 124
5.2 架构 126
5.2.1 特征存储 127
5.2.2 模型注册表 128
5.2.3 指标服务 128
5.2.4 日志服务 129
5.2.5 推理服务 130
5.2.6 预测步骤设计选项 135
5.3 案例研究 139
5.3.1 自建 140
5.3.2 开源 143
5.4 小结 159
第 6 章 ML 可观测性基础设施 160
6.1 概述 162
6.1.1 模型性能 163
6.1.2 漂移 164
6.1.3 数据质量 164
6.1.4 可解释性 164
6.2 架构 165
6.3 案例研究 169
6.3.1 Lyft:模型监控体系 169
6.3.2 开源 171
6.4 小结 183
第 7 章 Ray Core 185
7.1 Ray Core 解析 187
7.1.1 基础概念 187
7.1.2 API 基础 188
7.1.3 架构基础 192
7.1.4 调度 194
7.1.5 容错 197
7.2 KubeRay 199
7.3 小结 200
7.4 参考文献 201
第 8 章 Ray AI 库 202
8.1 概述 202
8.2 Ray AI 库简介 202
8.3 使用 Ray 进行机器学习 204
8.4 Ray AI 库简介 205
8.4.1 数据集与预处理器 206
8.4.2 训练器 207
8.4.3 调优器与检查点 208
8.4.4 运行批量预测 210
8.4.5 在线服务部署 212
8.5 大语言模型训练与部署实例 214
8.5.1 启动 Ray 集群与管理依赖 215
8.5.2 加载数据集并对其进行预处理 216
8.5.3 微调语言模型 218
8.5.4 为 GPT-J 模型执行批量推理 226
8.5.5 运行在线模型推理 229
8.6 Ray 的集成生态 232
8.6.1 Ray 与同类系统的对比 234
8.6.2 分布式 Python 框架对比 234
8.6.3 Ray AI 库与更广泛的 ML 生态 234
8.6.4 将 Ray 集成到机器学习平台 235
8.7 小结 237
第 9 章 MLOps 展望 238
9.1 MLOps 发展现状 238
9.1.1 机器学习开发生命周期 239
9.1.2 机器学习基础设施架构 240
9.1.3 MLOps 成熟度模型 241
9.1.4 MLOps 解决方案生态 242
9.2 AI/ML 发展现状 242
9.3 大语言模型运维的崛起 247
9.3.1 LLM 应用架构原型 248
9.3.2 LLMOps 技术栈 251
9.4 小结 255
