





作者:[美]科里·韦德(Corey Wade),张生军
定价:99元
印次:1-1
ISBN:9787302659518
出版日期:2024.04.01
印刷日期:2024.04.07
图书责编:安妮
图书分类:教材
XGBoost是一种经过行业验证的开源软件库,为快速高效地处理数十亿数据点提供了梯度提升框架。首先,本书在介绍机器学习和XGBoost在scikit-learn中的应用后,逐步深入梯度提升背后的理论知识。读者将学习决策树,并分析在机器学习环境中的装袋技术,同时学习拓展到XGBoost的超参数;并将从零开始构建梯度提升模型,将梯度提升扩展到大数据领域,同时通过计时器的使用了解速度限制。接着,本书重点探讨XGBoost的细节,着重于速度提升和通过数学推导导出参数。通过详细案例研究,读者将练习使用scikit-learn及原始的Python API构建和微调XGBoost分类器与回归器;并学习如何利用XGBoost的超参数来提高评分、纠正缺失值、缩放不平衡数据集,并微调备选基学习器。最后,读者将学习应用高级XGBoost技术,如构建非相关的集成模型、堆叠模型,并使用稀疏矩阵、定制转换器和管道为行业部署准备模型。 本书适合作为高等学校计算机专业、软件工程专业的高年级本科生及研究生教材,同时适合有一定机器学习基础的数据科学家、机器学习工程师和研究人员阅读,可为解决复杂的机器学习问题提供实用指导。
邵辉 目前就职于中国农业银行,有多年大数据开发经验,研究兴趣为机器学习和深度学习。曾获2022年科大讯飞“AI开发者大赛”电信客户流失预测挑战赛第4名和2022年kaggle美国运通客户违约预测算法赛银牌。
序 各章主要内容 第1章“机器学习概览”在机器学习的总体背景下,在与XGBoost比较结果之前,通过介绍线性回归和逻辑回归展示了XGBoost。同时介绍了pandas,通过将分类列转换和以多种方式清除空值来预处理原始数据。 第2章“深入浅出决策树”详细讨论了XGBoost使用的决策树超参数,并通过图形和统计分析方差和偏差,强调了过拟合的重要性,这也是本书一直涉及的主题。 第3章“随机森林与装袋法”对随机森林和XGBoost进行了一般性的分析比较,着重探讨了装袋方法。另外,还详细介绍了与随机森林共享的额外XGBoost超参数,例如n_estimators和subsample。 第4章“从梯度提升到XGBoost”介绍了提升算法的基础知识,使用scikit-learn从零开始构建一个提升模型,并调整新的XGBoost超参数(如eta),同时比较梯度提升和XGBoost的运行时间,突出XGBoost的惊人速度。 第5章“XGBoost揭秘”分析了XGBoost算法的数学推导过程,介绍了一个历史相关的案例研究,其中,作为赢得希格斯玻色子Kaggle比赛的模型,XGBoost扮演了重要角色。本章讨论了标准XGBoost参数,生成了基本模型,并介绍了原始的Python API。 第6章“XGBoost超参数”介绍了所有必要的XGBoost超参数,总结了之前树集成的超参数,并使用原始的网格搜索功能来微调XGBoost模型以优化模型评分。 第7章“用XGBoost发现系外行星”提供了一个完整的实例,尝试使用XGBoost发现系外行星。利用混淆矩阵和分类报告分析不平衡数据集的缺陷...
第一部分 装袋和提升
第1章 机器学习概览 2
1.1 XGBoost概览 2
1.2 数据整理 3
1.2.1 数据集1:自行车租赁数据集 3
1.2.2 理解数据 5
1.2.3 纠正空值 7
1.3 回归预测 12
1.3.1 预测自行车租赁数量 12
1.3.2 保存数据以备将来使用 12
1.3.3 声明预测列和目标列 13
1.3.4 理解回归 13
1.3.5 访问 scikit-learn 14
1.3.6 关闭警告信息 14
1.3.7 线性回归建模 14
1.3.8 XGBoost 16
1.3.9 XGBRegressor 16
1.3.10 交叉验证 17
1.4 分类预测 20
1.4.1 什么是分类? 20
1.4.2 数据集2:人口普查数据集 21
1.4.3 XGBoost分类器 26
1.5 总结 27
第2章 深入浅出决策树 28
2.1 介绍XGBoost决策树 28
2.2 探索决策树 29
2.2.1 第一个决策树模型 29
2.2.2 决策树内部结构 30
2.3 对比方差和偏差 32
2.4 调整决策树超参数 35
2.4.1 决策树回归器 35
2.4.2 一般超参数 37
2.4.3 综合微调超参数 43
2.5 实例:预测心脏病 43
2.5.1 心脏病数据集 43
2.5.2 决策树分类器 45
2.5.3 选择超参数 46
2.5.4 缩小范围 46
2.5.5 feature_importances_ 47
2.6 总结 49
第3章... 查看详情