目录
第1章 学生成绩统计分析 1
——openxlsx + 数据计算 + 分组统计 +基本绘图
1.1 开发背景 1
1.2 系统设计 2
1.2.1 开发环境 2
1.2.2 分析流程 2
1.2.3 功能结构 2
1.3 技术准备 2
1.3.1 技术概览 2
1.3.2 VIM 包 3
1.3.3 rank()函数详细解析 4
1.4 前期工作 6
1.4.1 安装第三方R 包 6
1.4.2 新建工程 6
1.4.3 新建项目文件夹 8
1.5 数据准备 8
1.5.1 数据集介绍 8
1.5.2 读取数据 10
1.6 数据预处理 12
1.6.1 查看数据 12
1.6.2 缺失值查看与处理 13
1.6.3 描述性统计量 14
1.7 数据统计分析 15
1.7.1 综合排名 15
1.7.2 直方图分析各科成绩 17
1.7.3 箱形图分析各科成绩 18
1.7.4 各科最高分和最低分状况分析 19
1.7.5 各科中上等成绩统计分析 20
1.7.6 语数英成绩等级状况分析 22
1.7.7 成绩波动情况分析 23
1.7.8 个人成绩排名分析 24
1.8 项目运行 25
1.9 源码下载 26
第2章 汽车数据可视化分析系统 27
——分组统计 + 基本绘图 + ggplot2 + 相关性分析
2.1 开发背景 27
2.2 系统设计 28
2.2.1 开发环境 28
2.2.2 分析流程 28
2.2.3 功能结构 28
2.3 技术准备 29
2.3.1 技术概览 29
2.3.2 ordered()函数的应用 29
2.3.3 详解 pairs.panels()函数 30
2.3.4 了解 coplot()函数 32
2.4 前期工作 34
2.4.1 安装第三方R 包 34
2.4.2 新建项目文件夹 34
2.5 数据集介绍 35
2.6 数据预处理 36
2.6.1 导入 mtcars 数据集 36
2.6.2 查看数据 36
2.6.3 缺失值查看 37
2.6.4 描述性统计分析 37
2.7 数据统计分析 39
2.7.1 矩阵图分析相关性 39
2.7.2 相关系数分析相关性 40
2.7.3 箱形图分析气缸数与里程数 41
2.7.4 箱形图分析变速器与里程数 42
2.7.5 散点图分析重量与里程数 43
2.7.6 气缸数、里程数和排量之间的关系 43
2.7.7 里程数、总马力和重量之间的关系 44
2.8 项目运行 45
2.9 源码下载 46
第3章 泰坦尼克号数据集分析实战 47
——数据计算 + 分组统计 + ggplot2 + pie+reshape2
3.1 开发背景 48
3.2 系统设计 48
3.2.1 开发环境 48
3.2.2 分析流程 48
3.2.3 功能结构 48
3.3 技术准备 49
3.3.1 技术概览 49
3.3.2 批量数据类型转换 49
3.3.3 详解 group_by()函数 50
3.3.4 巧用管道符%>% 51
3.4 前期工作 51
3.4.1 安装第三方R 包 51
3.4.2 新建项目文件夹 52
3.5 数据准备 53
3.5.1 数据集介绍 53
3.5.2 读取数据 54
3.6 数据预处理 55
3.6.1 查看数据信息 55
3.6.2 缺失值分析与处理 55
3.7 基本统计分析 58
3.7.1 乘客年龄分析 58
3.7.2 乘客性别分析 60
3.7.3 不同性别乘客的年龄分布情况 61
3.7.4 不同年龄乘客亲属数量分析 61
3.7.5 船舱等级情况分析 63
3.7.6 票价分布情况 64
3.8 乘客生存情况分析 65
3.8.1 总体生存情况分析 65
3.8.2 不同等级船舱乘客生存情况分析 65
3.8.3 各个登船港口乘客生存情况分析 66
3.8.4 性别与乘客生存情况分析 68
3.8.5 年龄和性别与乘客生存情况分析 70
3.8.6 乘客亲属数量与生存情况分析 71
3.9 项目运行 73
3.10 源码下载 74
第4章 鸢尾花数据分析与预测 75
——基本绘图 + ggplot2 + lattice + caret +随机森林 randomForest 包
4.1 开发背景 76
4.2 系统设计 76
4.2.1 开发环境 76
4.2.2 分析流程 76
4.2.3 功能结构 77
4.3 技术准备 77
4.3.1 技术概览 77
4.3.2 scale()函数详解 77
4.3.3 训练集和测试集划分 78
4.3.4 随机森林 randomForest 包 79
4.4 前期工作 84
4.4.1 安装第三方R 包 84
4.4.2 新建项目文件夹 85
4.4.3 认识鸢尾花 86
4.4.4 了解鸢尾花数据集 iris 86
4.5 查看数据概况 86
4.5.1 加载数据 86
4.5.2 查看数据 87
4.6 描述性统计分析 87
4.6.1 查看数据统计信息 87
4.6.2 分组查看数据统计信息 88
4.7 数据统计分析 89
4.7.1 绘制花萼长度的箱形图 89
4.7.2 绘制花瓣长度的箱形图 89
4.7.3 鸢尾花最常见的花瓣 90
4.7.4 直方图分析鸢尾花花瓣长度 90
4.8 相关性分析 91
4.8.1 相关系数分析 91
4.8.2 各特征之间关系矩阵图 92
4.8.3 散点图分析鸢尾花花瓣长度和宽度的关系 93
4.8.4 散点图分析鸢尾花花萼长度和宽度的关系 94
4.8.5 鸢尾花的线性关系分析 95
4.9 随机森林预测鸢尾花种类 95
4.9.1 数据标准化处理 95
4.9.2 划分训练集和测试集 96
4.9.3 构建随机森林模型 97
4.9.4 预测鸢尾花种类 98
4.9.5 评估模型性能 98
4.10 项目运行 98
4.11 源码下载 99
第5章 基于会员数据的探索和聚类分析 100
——日期时间 + 分组统计 + 基本绘图 + RFM 模型 + NbClust+wskm+cluster
5.1 开发背景 101
5.2 系统设计 101
5.2.1 开发环境 101
5.2.2 分析流程 101
5.2.3 功能结构 102
5.3 技术准备 102
5.3.1 技术概览 102
5.3.2 3 种方法统计各列缺失值 102
5.3.3 RFM 模型 103
5.3.4 k 均值聚类分析 104
5.3.5 聚类方案NbClust 包 106
5.3.6 聚类可视化 107
5.4 前期工作 109
5.4.1 安装第三方R 包 109
5.4.2 新建项目文件夹 109
5.5 数据准备 110
5.6 数据预处理 111
5.6.1 数据预览 111
5.6.2 日期时间数据处理 112
5.6.3 缺失性分析 113
5.6.4 计算RFM 值 114
5.7 数据统计分析 115
5.7.1 消费周期分析 115
5.7.2 消费频次分析 116
5.7.3 消费金额分析 117
5.8 K-means 聚类分析 118
5.8.1 数据标准化 118
5.8.2 聚类方案 119
5.8.3 K 均值聚类分析 120
5.9 项目运行 121
5.10 源码下载 122
第6章 快团团订单数据统计分析与关联分析 123
——分组统计 + 数据合并 + 基本绘图 + ggplot2 + Apriori 关联分析 + arules
6.1 开发背景 124
6.2 系统设计 124
6.2.1 开发环境 124
6.2.2 分析流程 124
6.2.3 功能结构 124
6.3 技术准备 125
6.3.1 技术概览 125
6.3.2 绘图排序 reorder()函数 125
6.3.3 详解 ggplot2 包的主题函数 theme() 126
6.3.4 Apriori 关联分析 127
6.3.5 详解 arules 包 128
6.4 前期工作 130
6.4.1 新建项目文件夹 130
6.4.2 数据准备 131
6.5 数据预处理 132
6.5.1 查看数据 132
6.5.2 缺失性分析 133
6.5.3 描述性统计分析 133
6.5.4 异常数据处理 134
6.6 数据统计分析 135
6.6.1 柱形图分析商品数量 135
6.6.2 订单商品数量分布情况 135
6.6.3 直方图分析订单商品金额 137
6.6.4 区域订单数量分析 138
6.6.5 城市订单数量分析 139
6.7 订单商品关联分析 141
6.7.1 数据处理 141
6.7.2 可视化频繁项 143
6.7.3 关联分析 143
6.8 项目运行 145
6.9 源码下载 146
第7章 抖音账号运营数据分析与预测 147
——purrr + 日期处理 + tibble + 基本绘图 + ggplot2 + 回归分析
7.1 开发背景 148
7.2 系统设计 148
7.2.1 开发环境 148
7.2.2 分析流程 148
7.2.3 功能结构 148
7.3 技术准备 149
7.3.1 技术概览 149
7.3.2 map()函数与 reduce()函数的完美结合 149
7.3.3 column_to_rownames()函数的应用 150
7.4 前期工作 152
7.4.1 安装第三方R 包 152
7.4.2 新建项目文件夹 153
7.5 数据准备 154
7.5.1 数据下载 154
7.5.2 数据集介绍 154
7.6 数据预处理 155
7.6.1 数据合并 155
7.6.2 查看数据 157
7.6.3 数据类型转换 158
7.6.4 描述性统计分析 158
7.7 数据统计分析 159
7.7.1 播放量趋势分析 159
7.7.2 粉丝净增长趋势分析 160
7.7.3 主页访问数据分析 161
7.7.4 作品数据分析 162
7.7.5 星期播放量分析 163
7.8 相关性分析 165
7.8.1 矩阵图分析相关性 165
7.8.2 相关系数分析相关性 165
7.8.3 散点图分析播放量与净增粉丝 167
7.8.4 气泡图分析播放量、净增粉丝与主页访问 168
7.9 净增粉丝预测 169
7.9.1 一元线性回归预测净增粉丝 169
7.9.2 多元线性回归预测净增粉丝 171
7.10 项目运行 172
7.11 源码下载 173
第8章 基于 diamonds(钻石)数据集的分析与预测 174
——ggplot2 + 分组统计 + 相关性分析 + kruskal.test + 多元线性回归
8.1 开发背景 175
8.2 系统设计 175
8.2.1 开发环境 175
8.2.2 分析流程 175
8.2.3 功能结构 176
8.3 技术准备 176
8.3.1 技术概览 176
8.3.2 IQR 方法 176
8.3.3 分类变量异常值检测常用方法 177
8.3.4 异常值处理方法 178
8.3.5 详解 kruskal.test()函数 179
8.4 前期工作 180
8.4.1 安装第三方R 包 180
8.4.2 新建项目文件夹 180
8.5 数据集介绍 181
8.5.1 数据集概述 181
8.5.2 变量说明 181
8.5.3 数据集特点 182
8.6 数据预处理 182
8.6.1 导入 diamonds 数据集 182
8.6.2 查看数据 183
8.6.3 描述性统计分析 184
8.7 异常值分析与处理 184
8.7.1 异常值分析 184
8.7.2 异常值检测 185
8.7.3 异常值处理 187
8.8 数据统计分析 188
8.8.1 钻石深度和台面分析 188
8.8.2 钻石切工、颜色和净度分析 188
8.8.3 钻石价格分析 190
8.9 相关性分析 191
8.9.1 散点图分析克拉对价格的影响 191
8.9.2 切工对价格的影响 192
8.9.3 颜色对价格的影响 194
8.9.4 净度对价格的影响 195
8.9.5 钻石长宽深与价格之间的关系 196
8.9.6 相关系数分析相关性 197
8.10 多元线性回归分析 197
8.10.1 Kruskal-Wallis 检验 197
8.10.2 构建多元线性回归模型 198
8.10.3 模型改进 200
8.10.4 钻石价格预测 201
8.11 项目运行 201
8.12 源码下载 202
