





作者:[美]希南·奥兹德米尔(Sinan Ozdemir)著 殷海英 译
定价:69.8元
印次:1-1
ISBN:9787302669098
出版日期:2024.09.01
印刷日期:2024.09.06
图书责编:王军
图书分类:零售
" 《特征工程训练营》将列举6个实践项目,引导你利用特征工程优化训练数据。每章探讨一个代码驱动的新案例,涉及金融、医疗等行业。你将学会清洗和转换数据,减轻偏见。本书呈现各种性能提升技巧,涵盖从自然语言处理到时间序列分析等所有主要机器学习子领域。 主要内容 ● 识别和实现特征转换 ● 用非结构化数据构建ML(机器学习)流程 ● 量化并尽量避免ML流程中的偏见 ● 使用特征存储构建实时ML流程 ● 通过操纵输入数据来增强现有ML流程 "
Sinan Ozdemir是Shiba公司的创始人兼首席技术官,他曾在约翰·霍普金斯大学担任数据科学讲师,迄今已出版了多本关于数据科学和机器学习的教材。
前 言 本书旨在介绍流行的特征工程技术,讨论何时以及如何运用这些技术的框架。我发现,有些书籍只关注其中一方面,有时可能显得有些单薄。专注于概述的书籍往往忽略了实际应用的一面,而专注于框架的书籍可能让读者产生疑问:“为什么这样做有效呢?”我希望读者在理解和应用这些技术方面都能充满信心。 本书目标读者 本书面向已经踏入机器学习领域并寻求提升能力与技能的机器学习工程师和数据科学家。假设读者已经掌握机器学习、交叉验证、参数调优以及使用Python 和scikit-learn 进行模型训练的基础知识。 本书在此基础上进一步拓展,将特征工程流程直接融入现有的机器学习框架中,以提供更深入的学习体验。 本书的学习路线图 本书包含两个导论性章节(第1~2 章),涵盖了特征工程的基础知识,包括如何识别不同类型的数据以及特征工程的不同类别。第3~8 章的每一章都专注于一个具体的案例研究,使用不同的数据集和目标。每章都为读者提供一个新的视角、一个新的数据集以及特定于我们处理的数据类型的新的特征工程技术。本书的目标是提供关于特征工程技术种类的广泛而全面的知识,同时展示各种数据集和数据类型。 关于代码 本书涵盖了许多源代码示例,它们以编号的代码清单和正常文本行的形式呈现。在两种情况下,源代码都采用等宽字体的格式,以便与普通文本区分开来。有时,代码也以粗体显示,用于突出显示在相应章中与之前步骤不同的代码,例如当新特性添加到现有代码行时。 许多情况下,源代码经过重新格式化;我们添加了换行符并重新调整了缩进,以适应书中可用的页面空间。某些情况下,这样做仍不够,代码清单中会包含续...
第1 章 特征工程简介 1
1.1 特征工程是什么,为什么它如此重要 2
1.1.1 谁需要特征工程 4
1.1.2 特征工程的局限性 4
1.1.3 出色的数据,出色的模型 5
1.2 特征工程流程 6
1.3 本书的编排方式 10
1.3.1 特征工程的五种类型 11
1.3.2 本书案例研究的概述 12
1.4 本章小结 14
第2 章 特征工程基础知识 17
2.1 数据类型 18
2.1.1 结构化数据 18
2.1.2 非结构化数据 18
2.2 数据的四个层次 20
2.2.1 定性数据与定量数据 20
2.2.2 名义层次 21
2.2.3 序数层次 23
2.2.4 区间层次 24
2.2.5 比率层次 26
2.3 特征工程的类型 31
2.3.1 特征改进 31
2.3.2 特征构建 32
2.3.3 特征选择 34
2.3.4 特征提取 35
2.3.5 特征学习 36
2.4 如何评估特征工程的成果 38
2.4.1 评估指标1:机器学习度量标准 38
2.4.2 评估指标2:可解释性 39
2.4.3 评估指标3:公平性和偏见 39
2.4.4 评估指标4:机器学习复杂性和
速度 40
2.5 本章小结 41
第3 章 医疗服务:COVID-19的诊断 43
3.1 COVID 流感诊断数据集 45
3.2 探索性数据分析 49
3.3 特征改进 52
3.3.1 补...