Python预测分析与机器学习
从入门到着手实际预测分析难题,精练易懂;分享一个数据分析师的视角与思路

作者:王沁晨

丛书名:清华开发者书库.Python

定价:89元

印次:1-1

ISBN:9787302592549

出版日期:2022.05.01

印刷日期:2022.04.24

图书责编:赵佳霓

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

本书从理解问题定义、了解数据内的高层信息、数据清理、视化数据,到基础建模、模型优化,分享一个数据分析师的视角与思路。在预测分析的流程中,一步步用详细的图文代码讲解使用到的库,如何正确使用各个库中的方法和函数,以及在遇到类似的问题时如何套用学过的知识。 本书共8章。第1章对预测分析的流程进行一个高层次的概述。第2章介绍本书需要安装使用的库,并讲解数据清理步骤的执行。第3章讲解基础建模需考虑的细节,结合第4章的模型选择,可以搭建一个基础的预测管道。第5章和第6章分别从模型和数据的角度讲解如何优化预测表现。第7章讲解时间序列这一特殊数据的预测方法。最后,第8章总结全书学习到的内容,解决一个实战问题。 本书面向3类读者。第1类,有编程基础但毫无数据科学背景,有意入门的读者;第2类,有数据科学理论基础,有意进入实操的读者,如刚毕业没有业界经验的学生;第3类,有数据科学理论基础与实操经验,但日常工作集中在数据分析管道中的数据分析师。

王沁晨,多伦多大学圣乔治校区计算机专业,曾在加拿大零售企业Loblaw Companies担任机器学习数据分析师,从公司传统的大型数据库中筛选有效信息、清理数据、人工数据挖掘、视化,到基础建模、模型优化、数据再筛选,再到结合商业需求创造扩展性强的实用管线,让项目从理论性的头脑风暴变现为商业价值。

前言 笔者在Loblaw Companies任职全栈数据分析师期间,深刻体会到了有时许多校内学习到的理论知识并非即刻适用。这样的传统零售业在走向数据驱动模式时,往往不需要使用庞大的深度学习模型,或其他消耗巨大算力的算法。一些可解释性高,所需数据量较小的模型足以贡献十分可观的商业价值。相比起走学术路径中理论基础的重要性,在行业实操中更重要的是掌握数据分析的全过程,以及拥有足够的经验让步骤间有节奏地配合,因此笔者决定写这本书,将预测分析中重点的步骤和其间配合以可着手的方式展现给读者。 本书的着重点在于预测分析与机器学习的实战思路,其中加入算法或模型的理论知识介绍,让读者在学习如何运用的同时,更加深入地学习为何在该实践场景下使用该特定算法或模型。书中侧重讲解实操中常用、回报率高的算法。内容简单易懂,图文搭配,借鉴实际例子让学习过程更具实用感。 本书致力于帮助3类读者在预测分析与机器学习这条路上有所成长。第1类,有Python编程基础但缺乏数据科学背景,有意入门的读者。书中不设置有关数据科学背景的阅读门槛,每个相关背景都将先介绍再进行引用。另外,因本书偏向实操而非理论,内容对于这一类读者将更加容易消化,书中的代码注释丰富,容易着手跟随。第2类,有数据科学理论基础知识,有意进入实操的读者,例如缺乏业界经验的学生。这类读者已经掌握了许多理论背景知识,只是缺少实践经历。本书有效地展示理论算法如何在实操中运行,以及各理论知识运用的搭配。第3类,有数据科学理论基础与实操经验,但日常工作集中在数据分析管道中的数据分析师。本书可以帮助这类读者了解在工作中如何与同事配合。在项目经...

暂无课件

样章下载

暂无网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情

目录

第1章预测分析与机器学习的实用价值

1.1人工智能、机器学习与数据分析的关系

1.2什么是预测分析

1.3预测分析在各行业中的应用

1.4预测分析流程概览

1.5小结

第2章数据清理

2.1建立编程环境

2.1.1Anaconda简介及安装

2.1.2Jupyter Notebook 简介及安装

2.1.3Pandas简介及安装

2.1.4scikitlearn 简介及安装

2.1.5XGBoost、LightGBM、CatBoost简介及安装

2.1.6TensorFlow简介及安装

2.2面对异构数据如何下手

2.2.1什么是异构数据

2.2.2如何处理异构数据

2.3数据误差

2.3.1各类数据误差及其影响

2.3.2如何处理数据误差

2.4数据重新格式化

第3章基础建模

3.1判断何为X和y

3.1.1X和y的定义

3.1.2X和y的选择对预测的影响

3.2训练集、验证集与测试集

3.2.1三者的定义及关系

3.2.2如何使用sklearn分离3个集

3.2.3如何使用Pandas手动分离3个集

3.3数据泄露

3.3.1不同类型的数据泄露

3.3.2发现并避免目标泄露

3.3.3避免训练集与测试集的相互污染

3.4偏差与方差

3.4.1定义偏差与方差

3.4.2过拟合与欠拟合

3.4.3实践中的过拟合与欠拟合

3.5小结

...

本书的着重点在于机器学习与预测分析的实战思路,其中加入算法或模型的理论知识介绍,让读者在学习如何进行运用的同时,更加深入的学习到为何在该实践场景下使用特定算法或模型。书中侧重讲解实操中常用、回报率高的算法。内容明了易懂,图文搭配,借鉴实际例子让学习过程更具实用感。