图书前言

技术编辑简介

Harpreet Sahota自称是一名生成式AI黑客,拥有统计学和数学专业本科与研究生学位。Harpreet自2013年以来一直在数据领域工作,担任精算师和ML工程师,是生物统计学家、数据科学家,拥有统计学、机器学习、MLOps、LLMOps和生成式AI(重点是多模态检索增强生成)方面的专业知识。他喜欢钻研新技术,也与妻子Romie、孩子Jugaad和Jinda共享着温馨的家庭生活。他的著作Practical Retrieval Augmented Generation将于2025年出版。

致    谢

写作本书是我们两人的一次愉快合作,我们有共同的愿景,得到一个令人难以置信的团队的支持,他们使所有想法变成现实。非常感谢Wiley团队,特别是James Minatel和Gus Miklos,他们肯于奉献,专业知识过硬,将我们的手稿变成一本精美书籍。深切感谢技术编辑Harpreet Sahota,他提供了宝贵的反馈意见,并帮助我们修改稿件,重新梳理思路,他的见解和指导对最终成书至关重要。衷心感谢各位读者,我们希望本书能为你的探索提供宝贵的见解,激发出新的想法。

前    言

欢迎你踏上现代ML(机器学习)之旅,此次旅程将充满活力!过去,数据科学多应用于商业智能工作,而如今,处理数据的方式已经大相径庭,多使用前沿的多组件系统。

希望本书能让你爱不释手。本书没有罗列方法,也不是一本全面介绍ML的书籍。本书旨在讲述现代ML相关的挑战,将重点介绍数据版本控制、实验跟踪、生产后模型监控和部署,并提供代码和示例,以便你能立即上手。

第1章讲述基础知识,揭示管理机器学习的工作流程如何从CRISP-DM等传统的线性框架演变为LLM(大语言模型)驱动的应用。强调需要利用一个统一的框架来构建基于LLM的应用。

第2章将带你见证一种端到端的ML方法,探索生命周期、生产级ML系统的原理和LLM应用的核心。

第3章阐述“以数据为中心”的观点,强调数据在现代ML中的作用。该章需要你动手练习,将创建embedding(嵌入)并用向量数据库进行文本相似度搜索。将道德准则和数据版本控制策略结合起来,以确保你采取负责任的一体化方法。

第4章将引导你选择正确的LLM、利用LangChain并微调LLM性能。

在第5章中,将组件组装在一起,从原型过渡到应用。该章还演示如何构建仪表盘和API(应用程序编程接口),使你的模型可为最终用户提供结果。

第6章将完成ML的生命周期,对模型进行监控、重训练管道,并规划未来的部署策略,分析如何与利益相关者沟通。

最后,在第7章中,回顾了在整个过程中总结的最佳实践,探讨了LLM的新趋势,并提供了资源供你进一步学习。

本书不仅是一本指南——它是一次冒险,是一次穿越现代ML风景区的邀约,也是一次为你配备导航工具,让你汲取知识的机会。所以,朋友们,系好鞋带,让我们踏上旅途吧!

下载示例代码

读者可扫描封底二维码,下载配套的示例代码。