目录
第1章R基础知识简介
1.1为什么要学习R语言
1.2如何下载、安装R和RStudio软件
1.3R软件使用入门
1.4R的工作原理
1.5R启动项文件的配置
1.5.1PATH环境变量
1.5.2R的启动顺序
1.5.3.Rprofile文件配置
1.6R语言的工作空间
1.6.1数据的导入
1.6.2数据的存储
1.6.3R语言的批量读取和写入
1.6.4R的内置数据集
1.6.5批处理文件
1.6.6R的在线帮助
1.7R数据包的安装和加载
1.7.1R数据分析与数据挖掘相关包
1.7.2R文本挖掘wordcloud2包的使用
1.7.3R语言中的机器学习包
1.8R语言编程过程中的常见错误
1.8.1R包安装失败的原因分析
1.8.2R语言调试查错
1.8.3R程序的运行时间与效率
1.9控制流
1.9.1分支结构的流程控制
1.9.2中止语句与空语句的流程控制
1.9.3重复和循环语句的流程控制
1.10R语言编程常用的函数
1.10.1用户自定义函数
1.10.2常用的数学函数
1.10.3常用的基础统计函数
1.10.4常用的数据挖掘函数
1.11R的趣味应用
本章小结
思考与练习
第2章数据分析和挖掘的初步认识: R的数据结构
2.1R的对象与属性
2.2向量对象
2.2.1向量的索引方式
2.2.2向量的排序和排名
2.2.3向量的运算
2.3数组与矩阵对象
2.3.1矩阵的建立
2.3.2矩阵元素值的修改
2.3.3数组的建立
2.3.4矩阵和数组的索引方式
2.4数据框对象
2.5因子对象
2.6列表对象
2.7时间序列对象
2.8R语言中对象间的相互转换
本章小结
思考与练习
第3章参数估计
3.1统计量的分布
3.1.1总体与样本
3.1.2统计量的分布
3.2参数估计的基本原理
3.2.1估计量与估计值
3.2.2点估计与区间估计
3.3总体的区间估计
3.3.1用R进行总体均值的区间估计
3.3.2总体方差的区间估计
3.3.3总体比例的区间估计
3.3.4两个总体均值之差的区间估计
3.3.5两个总体比例之差的区间估计
3.4估计总体均值时样本量的确定
3.5R语言中的ShapiroWilk检验
本章小结
思考与练习
第4章假设检验
4.1假设检验的基本问题
4.1.1原假设与备择假设
4.1.2两类错误
4.1.3假设检验的步骤
4.1.4区间估计与假设检验
4.1.5利用P值进行决策
4.2一个总体参数的检验
4.2.1总体均值的假设检验
4.2.2正态总体比例的假设检验
4.2.3正态总体方差的假设检验
4.2.4正态性检验
4.2.5W检验
4.2.6EppsPulley检验
4.3两个总体参数的假设检验
4.3.1两个总体均值之差的假设检验
4.3.2两个总体方差之比的区间估计
4.3.3两个总体比例之差的检验
4.3.4总体比率或百分比的检验
4.4本章要点
本章小结
思考与练习
第5章R的基本数据分析与绘图
5.1数据的直观印象
5.1.1R的绘图设备和文件
5.1.2R的图形组成、参数和边界
5.2单变量分布特征的直观印象
5.2.1直方图
5.2.2条形图
5.2.3风向风速玫瑰图
5.2.4饼图
5.2.5茎叶图
5.2.6箱线图
5.2.7核密度图
5.2.8小提琴图
5.2.9棒棒糖图
5.2.10克利夫兰点图
5.3多变量联合分布的直观印象
5.3.1等高线图
5.3.2雷达图
5.4变量间相关性的直观印象
5.4.1马赛克图
5.4.2散点图
5.4.3相关系数图
5.5以鸢尾花数据集为例进行数据挖掘
本章小结
思考与练习
第6章R的空间数据可视化
6.1基于百度地图的可视化REmap包
6.1.1remap()函数
6.1.2remapB()函数
6.2baidumap地图包的使用
6.3热力图
6.4leaflet地图包的使用
6.5ggmap地图包的使用
6.5.1ggmap的工作原理
6.5.2get_map函数
本章小结
思考与练习
第7章R语言的文本数据挖掘应用
7.1文本挖掘的概述
7.2文本挖掘与数据挖掘的关系
7.3文本挖掘的首要步骤——分词
7.4jiebaR分词包及Rwordseg分词包的安装和使用
7.5文本挖掘tm包的安装和使用——以《哈利·波特与密室》为例
7.5.1数据输入——语料库的构建
7.5.2使用tm_map()函数对语料库进行预处理
7.5.3元数据查看与管理
7.5.4创建词条文档关系矩阵
7.5.5文档距离的计算
7.6R的文本分类分析方法
7.6.1文本特征提取——词袋模型
7.6.2文本特征选择
7.6.3文本特征向量
7.6.4基于统计的特征提取方法(构造评估函数)
7.7LDA主题模型
7.7.1LDA模型涉及的先验知识
7.7.2LDA模型的文档生成过程
7.7.3小说《红楼梦》的文本挖掘
7.8R的文本聚类分析方法
7.8.1层次聚类法
7.8.2kmeans聚类法
7.8.3K中心点聚类算法
7.8.4K近邻分类算法
7.8.5支持向量机SVM算法
7.8.6基于R的文本聚类的应用——以《红楼梦》为例进行说明
7.9用R包做词频统计图(词云图)
7.9.1常见词云图绘制
7.9.22018年政府工作报告的词云图
7.9.3小说《都挺好》词云图绘制
7.9.4新华社新年献词的词云图绘制
7.10小说《琅琊榜》文本的数据挖掘分析
7.11用R和Python实现关键词共现矩阵的构建
本章小结
思考与练习
参考文献