R数据科学实战(第2版)
是一本针对数据科学的实践指南,重点介绍了使用R语言和统计程序包处理结构化或表格数据的相关技术,着重介绍了机器学习的技术。

作者:[美]尼娜·祖梅尔(Nina Zumel),约翰·蒙特(John Mount)著 张骏温 许向东 张博远 译

丛书名:数据科学与大数据技术

定价:139元

印次:1-1

ISBN:9787302595441

出版日期:2022.01.01

印刷日期:2021.12.22

图书责编:王军

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

有依据的决策对于成功至关重要。将正确的数据分析技术应用到精心筹备的业务数据中有助于做出准确预测、确定趋势,以及提前发现问题。R数据分析平台提供了许多高效率的工具,可用来处理8常的数据分析和机器学习任务。 《R数据科学实战》(第2版)是一本基于任务的教程,引导读者使用R语言参与几十个实用的数据分析实践。本书重点介绍读者在工作中将面临的最重要任务,对于商业分析师和数据科学家来说都非常实用。因为数据只有在可理解的情况下才有用,所以读者也可以在表格中找到组织和展示数据的妙招,以及快速生动的可视化效果。 主要内容 ●商务级统计分析 ●有效的数据展示 最实用的R工具 ●解释复 杂的预测模型

Nina Zumel曾在一家独立的、非营利性研究机构SRI International 担任科学家。她曾在一家价格优化公司担任首席科学家,并创办了一家合同研究公司。Nina现在是Win-Vector LLC的首席顾问。读者可以通过nzumel@win-vector.com联系她。John Mount曾是生物科技领域的计算科学家和股票交易算法的设计师,并且为Shopping.com 管理过一个研究团队。他现在是Win-Vector LLC 的首席顾问。读者可以通过jmount@win-vector.com联系他。

前 言 《R数据科学实战(第2版)》是我们在自学时所希望拥有的书,它所汇集的主题和技能被称为数据科学。《R数据科学实战(第2版)》也是我们想分发给客户和同行的书。它的目的是解释统计学、计算机科学和机器学习等学科中对数据科学至关重要的内容。 数据科学利用了来自经验科学、统计学、报表技术、分析技术、可视化技术、商业智能、专家系统、机器学习、数据库、数据仓库、数据挖掘和大数据技术的各种工具。正是因为我们有太多的工具,所以需要一个涵盖所有工具的指导原则。数据科学本身与这些工具和技术的区别就在于数据科学的中心目标是将有效的决策模型部署到生产环境中。 我们的目标是从务实的、面向实践的角度来展示数据科学。我们通过聚焦在完全成功的真实数据上的示例来实现这一目标,《R数据科学实战(第2版)》展示了超过10个重要的数据集。我们认为这种方法能举例说明我们真正想要达到的教学目标,并能演示实际项目中所需要的各种准备步骤。 在《R数据科学实战(第2版)》中,我们讨论了实用的统计学和机器学习的概念,包括具体的代码示例,并探索了与非专业人员的合作和沟通方式。如果你觉得这些话题中没有新颖的主题,那么我们希望《R数据科学实战(第2版)》内容能为你最近没有想到的其他一两个话题提供一些启示。

暂无课件

样章下载

暂无网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情
目    录

 

第Ⅰ部分  数据科学引论

第1 章  数据科学处理过程   2

1.1  数据科学项目中的角色   3

1.2  数据科学项目的阶段   5

1.2.1  制定目标   6

1.2.2  收集和管理数据   7

1.2.3  建立模型   9

1.2.4  评价和评判模型   10

1.2.5  展现结果和编制文档   12

1.2.6  部署模型   14

1.3  设定预期   14

1.4  小结   15

第2 章  从R和数据入门   16

2.1  R入门   17

2.1.1  安装R、工具和示例   18

2.1.2  R编程   18

2.2  处理文件中的数据   28

2.2.1  使用来自文件或URL的结构良好的数据   28

2.2.2  使用R处理非结构化的数据   33

2.3  使用关系数据库   37

2.4  小结   50

第3 章  探索数据   52

3.1  使用概要统计方法发现问题   54

3.2  使用图形和可视化方法发现问题   59

3.2.1  采用可视化的方法检查单变量的分布   61

3.2.2  采用可视化的方法检查两个变量之间的关系   71

3.3  小结   87

第4 章  管理数据   89

4.1  清洗数据   90

4.1.1  特定领域的数据清洗   90

4.1.2  处理缺失值   92

4.1.3  自动处理缺失值变量的vtreat程序包   96

4.2  数据转换   99

4.2.1  归一化...

在《R数据科学实战》(第2版)这本书中,作者用了一些篇幅描述了什么是数据科学、数据科学家是如何解决问题的,以及对他们工作的描述。其中,包括对经典监督学习方法(如线性回归和逻辑回归)的详细描述。我们喜欢本书的调研式风格,以及使用的大量的竞赛获奖方法和程序包的示例(如随机森林和xgboost)。本书涵盖了非常有用的、可共享的经验和实践建议。我们注意到,在本书中甚至包括了我们自己使用过的一-些技巧,例如使用随机森林变量重要性进行初始变量的筛选。