目 录
第一章 导论 1
第一节 大数据 1
第二节 金融大数据 2
第三节 大数据带来的变革 4
第四节 大数据应用场景 5
第五节 大数据分析的类型 6
第六节 大数据分析方法与实现工具 7
第七节 金融大数据分析一般流程 9
第二章 R语言概述 11
第一节 R语言简介 11
第二节 R安装与环境配置 16
第三节 RStudio的操作 21
第三章 R语言的语法基础 31
第一节 变量与对象 31
第二节 变量与对象的命名 32
第三节 语句 33
第四节 运算符号 35
第五节 函数 37
第六节 运算流程控制 39
第四章 数据基础类型与数据结构 44
第一节 数据基础类型 44
第二节 基础类型的识别与转换 47
第三节 数据的结构类型 49
第五章 向量与矩阵运算 58
第一节 数值型向量运算 58
第二节 矩阵运算 59
第三节 集合运算 63
第六章 函数 65
第一节 函数基础 65
第二节 函数进阶 67
第三节 代码效率提升函数 71
第七章 数据整理 76
第一节 数据整理的目的与工具包 76
第二节 数据整理常见操作与实现 77
第八章 数据可视化 90
第一节 数据可视化概述 90
第二节 ggplot2概述 91
第三节 常见可视化图形 93
第九章 数据探索 106
第一节 数据探索性分析的定位 106
第二节 数据探索性分析工具 107
第三节 数据探索性分析的实例 108
第四节 数据探索性分析报告示例 123
第十章 数据清洗与预处理 125
第一节 脏数据 125
第二节 脏数据清洗 126
第三节 数据预处理 136
第十一章 机器学习简介 143
第一节 机器学习概述 143
第二节 机器学习的常用术语 146
第三节 一个简单的例子 148
第十二章 机器学习建模过程 150
第一节 数据拆分 151
第二节 重采样 155
第三节 偏差-方差权衡 159
第四节 超参数调优 160
第五节 模型评估 161
第六节 机器学习案例 165
第十三章 线性回归算法 168
第一节 简单线性回归 168
第二节 多元线性回归 172
第三节 评估模型精度 176
第四节 线性回归模型注意事项 177
第五节 特征解释 181
第十四章 逻辑回归算法 183
第一节 简单逻辑回归 183
第二节 最大似然估计 184
第三节 求解参数 185
第四节 参数解释 186
第五节 多元逻辑回归 187
第六节 评估模型精度 189
第七节 特征解释 191
第十五章 主成分分析 193
第一节 主成分分析数学原理 193
第二节 R语言进行主成分分析 198
第三节 主成分数的选择 201
第四节 转换数据 203
第十六章 决策树算法 205
第一节 决策树的相关概念 205
第二节 生成决策树 208
第三节 决策树算法实现代码 211
第四节 模型评估 214
第五节 特征重要性 215
第十七章 梯度提升算法 217
第一节 GBM算法的基本原理 217
第二节 GBM算法的超参数 220
第三节 GBM算法实现代码 222
第四节 特征重要性 228
第十八章 随机森林算法 231
第一节 随机森林算法的基本原理 231
第二节 超参数 232
第三节 调优策略 233
第四节 随机森林算法实现代码 234
第五节 特征重要性 239
第六节 随机森林算法小结 240
第十九章 K最近邻算法 242
第一节 K最近邻算法的基本原理 242
第二节 K最近邻算法实现代码 244
第三节 模型性能 247
第四节 特征重要性 248
第五节 K最近邻算法小结 249
第二十章 聚类算法 251
第一节 聚类分析的基本原理 251
第二节 k-means聚类 256
第三节 k-means聚类算法小结 262
第二十一章 神经网络算法 264
第一节 神经网络算法的基本原理 264
第二节 神经网络算法实现代码 270
第三节 模型评估 273
第四节 特征解释 274
第五节 神经网络算法小结 274
第二十二章 支持向量机 276
第一节 支持向量机的基本原理 276
第二节 支持向量机算法实现代码 285
第三节 模型评估 287
第四节 特征解释 288
第五节 支持向量机算法小结 290
第二十三章 银行大数据集市生成 292
第一节 案例背景 292
第二节 案例任务 292
第三节 实验过程 293
第二十四章 金融欺诈交易识别 304
第一节 项目背景 304
第二节 案例数据 304
第三节 模型评估指标 305
第四节 案例分析流程 306
参考文献 321
