图书目录

目    录  

  

第一部分  大数据基础

第一章  大数据导论 3

一、什么是大数据 3

二、为何要做数据挖掘 5

三、数据分析的应用 7

练习题 10

第二章  大数据技术 11

一、大数据的技术框架 11

二、与大数据处理相关的技术 12

三、数据挖掘的一般流程 14

练习题 16

第二部分  Python编程基础

第三章  Python环境搭建 19

一、Python的版本与安装 19

二、PyCharm的安装与使用 23

三、Anaconda的安装与使用 27

练习题 30

第四章  Python编程基础 31

一、Python变量设定和赋值数据类型 31

二、Python的运算符 38

三、控制流 42

四、常用函数 49

五、Python基础语法 50

练习题 54

第五章  Python数据挖掘 55

一、NumPy模块 55

二、Pandas模块 68

练习题 106

第六章  Python数据可视化 107

一、数据可视化 107

二、Pandas绘图 111

三、Matplotlib其他绘图 120

练习题 123

第三部分  数据挖掘基础

第七章  数据预处理 127

一、数据存在的问题 127

二、数据预处理的手段 129

练习题 138

第八章  多元线性回归 139

一、介绍 139

二、解释模型与预测模型 139

三、回归方程的估计与预测 140

四、线性回归中的变量选择 141

练习题 143

第九章  K-NN算法 145

一、K-NN分类器(分类结果) 145

二、K-NN表示数值结果 147

三、K-NN算法的优势和劣势 147

练习题 147

第十章  朴素贝叶斯分类器 149

一、介绍 149

二、使用完全(精确)贝叶斯分类器预测 150

三、朴素贝叶斯分类器的优缺点 153

练习题 155

第十一章  分类回归树 156

一、介绍 156

二、分类树 157

三、评估分类树的性能 161

四、避免过度拟合 162

五、树的分类规则 164

六、两类以上的分类树 164

七、回归树 165

八、改进预测:随机森林和增强树 166

九、树的优点和缺点 167

练习题 167

第十二章  逻辑回归 169

一、介绍 169

二、逻辑回归模型 170

三、评估分类性能 172

四、变量的选择 173

五、逻辑回归分析 175

练习题 180

第十三章  神经网络 181

一、介绍 181

二、神经网络的概念与结构 181

三、使网络适应数据 182

四、必需的输入 188

五、预测因素与结果的关系探讨 189

六、神经网络的优缺点 190

练习题 191

第十四章  判别分析 192

一、介绍 192

二、记录与类的距离 194

三、费雪线性分类函数 195

四、判别分析的分类性能 195

五、先验概率 196

六、不均衡的错误分类代价 196

七、超过两类的分类问题 196

八、判别分析的优势与劣势 198

练习题 198

第十五章  关联规则与协同过滤 200

一、关联规则 200

二、协同过滤 206

三、总结 212

练习题 212

第十六章  聚类分析 214

一、介绍 214

二、测量两条记录之间的距离 217

三、两簇间距离测量 221

四、分层(凝聚)聚类 222

五、非层次聚类 226

练习题 228

第十七章  时间序列预测 230

一、介绍 230

二、描述性与预测性建模 231

三、商业中流行的预测方法 231

四、时间序列成分 231

五、数据分区和性能评估 234

练习题 236

第十八章  社交网络分析 237

一、介绍 237

二、有向网络与无向网络 238

三、可视化和分析网络 239

四、社交数据度量和分类 241

五、使用网络指标进行预测和分类 244

六、优点和缺点 248

练习题 249

第十九章  文本挖掘 250

一、介绍 250

二、文本的表格式表示:术语-文档矩阵和“词袋” 250

三、词袋与文档意义提取 251

四、文本预处理 252

五、实现数据挖掘方法 255

六、总结 258

练习题 258

第四部分  经典商务数据分析案例

第二十章  国际应用案例 261

案例一  银行金融营销 261

案例二  波士顿住房 262

案例三  电脑的选择 262

案例四  DriveTime汽车 266

案例五  宝洁公司洗衣皂 270

案例六  Studenmund餐厅 271

案例七  悉尼交通 272

案例八  ToutBay 273

案例九  查尔斯读书俱乐部 275

案例十  德国信贷 279

案例十一  Tayko软件目录 283

案例十二  拒接出租车电话 287

案例十三  肥皂消费者细分 288

案例十四  交叉销售 290

案例十五  预测破产 291

第二十一章  国内应用案例 294

案例一  终端换机预测 294

案例二  高校本科生就业问题研究 296

案例三  国内旅游收入影响因素研究 300

案例四  航空公司客户价值分析 301

案例五  数据分析的其他商务应用 304

参考文献 309