图书目录

目    录

第1章  数据科学导引  1

1.1  为何学习数据科学  1

1.2  何为数据科学  1

1.3  数据科学方法论  2

1.4  数据科学任务  5

1.4.1  描述  5

1.4.2  估计  6

1.4.3  分类  6

1.4.4  聚类  6

1.4.5  预测  6

1.4.6  关联  7

1.5  习题  7

第2章  Python和R语言基础  9

2.1  下载Python  9

2.2  Python编程基础  10

2.2.1  在Python中使用注释  10

2.2.2  在Python中执行命令  11

2.2.3  在Python中导入软件包  11

2.2.4  将数据引入Python  12

2.2.5  在Python中保存输出  13

2.2.6  访问Python中的记录和变量  14

2.2.7  在Python中设置图形  16

2.3  下载R和RStudio  18

2.4  R语言编程基础  19

2.4.1  在R中使用注释  20

2.4.2  在R中执行命令  20

2.4.3  在R中导入软件包  20

2.4.4  将数据导入R  21

2.4.5  在R中保存输出  23

2.4.6  在R中访问记录和变量  24

2.5  习题  26

第3章  数据准备  29

3.1  银行营销数据集  29

3.2  问题理解阶段  29

3.2.1  明确阐明项目目标  29

3.2.2  将这些目标转化为数据科学问题  30

3.3  数据准备阶段  30

3.4  添加索引字段  31

3.4.1  如何使用Python添加索引字段  31

3.4.2  如何使用R添加索引字段  32

3.5  更改误导性字段值  33

3.5.1  如何使用Python更改误导性字段值  33

3.5.2  如何使用R更改误导性字段值  35

3.6  将分类数据重新表示为数字  36

3.6.1  如何使用Python重新表达分类字段值  37

3.6.2  如何使用R重新表达分类字段值  38

3.7  标准化数字字段  39

3.7.1  如何使用Python标准化数字字段  40

3.7.2  如何使用R标准化数字字段  40

3.8  识别异常值  40

3.8.1  如何使用Python识别异常值  41

3.8.2  如何使用R识别异常值  42

3.9  习题  43

第4章  探索性数据分析  47

4.1  EDA对比HT  47

4.2  叠加了response的条形图  47

4.2.1  如何使用Python构建叠加的条形图  49

4.2.2  如何使用R构建叠加的条形图  50

4.3  列联表  51

4.3.1  如何使用Python构建列联表  52

4.3.2  如何使用R构建列联表  53

4.4  叠加有响应的柱状图  54

4.4.1  如何使用Python构建叠加柱状图  55

4.4.2  如何使用R构建叠加柱状图  58

4.5  基于预测值的分箱  59

4.5.1  如何使用Python基于预测值执行分箱  61

4.5.2  如何使用R基于预测值执行分箱  63

4.6  习题  64

第5章  为建模数据做准备  69

5.1  迄今完成的任务  69

5.2  数据分区  69

5.2.1  如何使用Python对数据进行分区  70

5.2.2  如何使用R对数据进行分区  71

5.3  验证数据分区  72

5.4  平衡训练数据集  73

5.4.1  如何使用Python平衡训练数据集  73

5.4.2  如何使用R平衡训练数据集  75

5.5  建立模型性能基准  76

5.6  习题  78

第6章  决策树  81

6.1  决策树简介  81

6.2  分类与回归树  83

6.2.1  如何使用Python构建CART决策树  83

6.2.2  如何使用R构建CART决策树  86

6.3  用于构建决策树的C5.0算法  88

6.3.1  如何使用Python构建C5.0决策树  89

6.3.2  如何使用R构建C5.0决策树  90

6.4  随机森林  91

6.4.1  如何使用Python构建随机森林  92

6.4.2  如何使用R构建随机森林  92

6.5  习题  93

第7章  模型评估  97

7.1  模型评估简介  97

7.2  分类评价措施  97

7.3  灵敏度和特异度  99

7.4  精确度、召回率和Fβ分数  99

7.5  模型评估方法  100

7.6  模型评估的应用示例  100

7.7  说明不对称的错误成本  104

7.8  比较考虑和不考虑不相等错误成本的模型  106

7.9  数据驱动的错误成本  107

7.10  习题  110

第8章  朴素贝叶斯分类  113

8.1  朴素贝叶斯简介  113

8.2  贝叶斯定理  113

8.3  最大化后验假设  114

8.4  分类条件独立性  114

8.5  朴素贝叶斯分类的应用  115

8.5.1  Python中的朴素贝叶斯  120

8.5.2  R中的朴素贝叶斯  123

8.6  习题  126

第9章  神经网络  129

9.1  神经网络简介  129

9.2  神经网络结构  129

9.3  连接权重和组合函数  131

9.4  sigmoid激活函数  133

9.5  反向传播  133

9.6  神经网络模型的应用  134

9.7  解释神经网络模型中的权重  136

9.8  如何在R中使用神经网络  137

9.9  习题  138

第10章  聚类  141

10.1  聚类的定义  141

10.2  k均值聚类算法简介  142

10.3  k均值聚类的应用  143

10.4  簇验证  144

10.5  如何使用Python执行k均值聚类  145

10.6  如何使用R执行k均值聚类  147

10.7  习题  149

第11章  回归建模  151

11.1  估计任务  151

11.2  回归建模描述  151

11.3  多元回归建模的应用  152

11.4  如何使用Python执行多重回归建模  154

11.5  如何使用R执行多重回归建模  156

11.6  用于估计的模型评估  158

11.6.1  如何使用Python进行估计模型评估  159

11.6.2  如何使用R进行估计模型评估  161

11.7  逐步回归  162

11.8  回归的基准模型  163

11.9  习题  164

第12章  降维  169

12.1  降维的必要性  169

12.2  多重共线性  170

12.3  使用方差膨胀因子识别多重共线性  173

12.3.1  如何使用Python识别多重共线性  174

12.3.2  如何使用R识别多重共线性  175

12.4  主成分分析  177

12.5  主成分分析的应用  178

12.6  我们应该提取多少分量  179

12.6.1  特征值准则  179

12.6.2  方差解释比例的准则  180

12.7  执行k = 4的PCA  180

12.8  主成分分析的验证  181

12.9  如何使用Python进行主成分分析  182

12.10  如何使用R进行主成分分析  184

12.11  何时多重共线性不是问题  187

12.12  习题  187

第13章  广义线性模型  191

13.1  广义线性模型概述  191

13.2  线性回归是一种广义线性模型  192

13.3  作为广义线性模型的逻辑回归  192

13.4  逻辑回归模型的应用  193

13.4.1  如何使用Python执行逻辑回归  194

13.4.2  如何使用R执行逻辑回归  195

13.5  泊松回归  196

13.6  泊松回归模型的应用  197

13.6.1  如何使用Python执行泊松回归  197

13.6.2  如何使用R执行泊松回归  199

13.7  习题  199

第14章  关联规则  203

14.1  关联规则简介  203

14.2  关联规则挖掘的简单示例  203

14.3  支持度、信任度和提升度  204

14.4  挖掘关联规则  206

14.5  确认我们的指标  211

14.6  置信差准则  212

14.7  置信商准则  213

14.8  习题  215

附录A  数据汇总与可视化  219