构建大模型数据科学应用:从机器学习升级到大模型
从头讲到尾,指导你开发一个基于LLM的应用。示例代码见书封底二维码。

作者:[美] 克里斯汀·科勒(Kristen Kehrer) 凯莱布·凯撒(Caleb Kaiser)著 王奕逍 译

丛书名:数据科学与大数据技术

定价:49.8元

印次:1-1

ISBN:9787302685838

出版日期:2025.05.01

印刷日期:2025.05.08

图书责编:王军

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

" 在两位**数据科学家的引导下,你将系统了解LLM前沿技术的更新进展,学习理论知识,以最负责任的方式将LLM技术融入商业场景;将构建一个LLM驱动的应用,直观感受框架的实际运作,掌握数据版本控制、实验跟踪、模型监控和伦理等知识点。 本书旨在为不同层级的数据领域从业者提供助力,使用前沿技术与方法论,全方位呈现LLM应用,介绍上佳技术实践。通过“数据优先”视角,识别整合LLM并驱动业务成功的机会。"

"Kristen Kehrer从2010年以来,一直为电子商务公司、医疗保健公司和公共事业部门构建和维护具有创新意义的、用于统计数据的ML模型方案。Kristen是Data Moves Me公司的创始人,2018年荣膺领英数据科学与分析领域**影响力人物,拥有9.5万名数据科学领域的粉丝。Kristen获得了伍斯特理工学院的应用统计学专业硕士学位和数学专业学士学位。Caleb Kaiser目前担任Comet的全栈工程师,也是Cortex Labs的创始成员。Caleb还曾在Scribe Media的作者平台团队工作,并获得了芝加哥艺术学院的艺术写作专业学士学位。"

技术编辑简介 Harpreet Sahota自称是一名生成式AI黑客,拥有统计学和数学专业本科与研究生学位。Harpreet自2013年以来一直在数据领域工作,担任精算师和ML工程师,是生物统计学家、数据科学家,拥有统计学、机器学习、MLOps、LLMOps和生成式AI(重点是多模态检索增强生成)方面的专业知识。他喜欢钻研新技术,也与妻子Romie、孩子Jugaad和Jinda共享着温馨的家庭生活。他的著作Practical Retrieval Augmented Generation将于2025年出版。 致 谢 写作本书是我们两人的一次愉快合作,我们有共同的愿景,得到一个令人难以置信的团队的支持,他们使所有想法变成现实。非常感谢Wiley团队,特别是James Minatel和Gus Miklos,他们肯于奉献,专业知识过硬,将我们的手稿变成一本精美书籍。深切感谢技术编辑Harpreet Sahota,他提供了宝贵的反馈意见,并帮助我们修改稿件,重新梳理思路,他的见解和指导对最终成书至关重要。衷心感谢各位读者,我们希望本书能为你的探索提供宝贵的见解,激发出新的想法。 前 言 欢迎你踏上现代ML(机器学习)之旅,此次旅程将充满活力!过去,数据科学多应用于商业智能工作,而如今,处理数据的方式已经大相径庭,多使用前沿的多组件系统。 希望本书能让你爱不释手。本书没有罗列方法,也不是一本全面介绍ML的书籍。本书旨在讲述现代ML相关的挑战,将重点介绍数据版本控制、实验跟踪、生产后模型监控和...

暂无课件

样章下载

暂无网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情
目    录

第1章 现代机器学习简介   1

1.1  数据科学与商业智能渐行渐远   2

1.2  从CRISP-DM过渡到最新的多组件ML系统   3

1.3  LLM提升了ML的能力和复杂度   5

1.4  你能从本书中学到哪些知识   6

第2章 一种端到端的方法   9

2.1  YouTube搜索智能体的组件   11

2.2  生产中使用的ML系统的核心原则   13

2.2.1  可观察性   14

2.2.2  可再现性   15

2.2.3  互操作性   15

2.2.4  可扩展性   16

2.2.5  可改进性   17

2.2.6  关于工具的注意事项   18

第3章 以数据为中心   19

3.1  基础模型的出现   19

3.2  现成组件的角色   20

3.3  数据驱动的方法   21

3.4  有关数据伦理的注意事项   22

3.5  构建数据集   23

3.5.1  使用向量数据库   25

3.5.2  数据版本控制和管理   38

3.5.3  开始使用数据版本控制工具   41

3.6  适度了解数据工程知识   45

第4章 LLM   47

4.1  选择LLM   47

4.1.1  我需要执行哪种类型的推理   49

4.1.2  这项任务是通用的还是专用的   50

4.1.3  数据的隐私级别有多高   50

4.1.4  该模型需要多高的成本   51

4.2  LLM实验管理   52

4.3  LLM推理   56

4.3.1  ...

过去,数据科学家与软件工程师的职责泾渭分明。随着LLM(大语言模型)时代的到来,一切都变了。ML(机器学习)不再是用于数据分析的主要工具,而成为现代软件应用的核心功能。通过学习本书,数据科学家不仅能全面了解LLM,还能构建高效的、可再现的、可扩展的LLM应用。