图书前言

前言

本书基于学习成果导向(outcomesbased education)的思想进行编写,

使读者不仅可以理解整个例题,还可以直接编译本书提供的所有源代码,确保读者达到编程想要实现的预期效果,并且设计了适当的练习来评估读者是否达到了预期学习目标。

R是为数据操作及统计计算提供语言及环境的软件包,还可以用来实现数据的可视化分析。本书内容从R的基础知识开始介绍,涵盖了数据分析和数据挖掘的常用模型,包括参数估计、假设检验、文本挖掘、分类、聚类

等,还包括数据的可视化分析、自然语言处理等相关内容。本书内容比较全面,做到了易读、易用、易理解、易实现、易上手,是非常适合新手学习的一本R 语言入门书籍。

本书内容主要分为以下7章。

第1章: R基础知识简介,内容包括R软件和RStudio软件的下载和安装,R的工作原理介绍,R启动项的文件配置,R的工作空间以及数据的导入与保存,R数据包的安装与加载,R语言编程过程中的常见错误及其解决办法等内容。

第2章: 数据分析和挖掘的初步认识: R的数据结构。首先介绍R语言的对象和属性,创建和访问R语言中数据对象的方法,查看和管理R语言数据对象结构的方法,如何用R语言的向量组织数据,向量包含的元素可以是数值型、字符串型或逻辑型,对应的向量依次称为数值型向量、字符串型向量或逻辑型向量; 其次从存储角度和结构角度对R语言的对象进行分类; 然后分别介绍R语言的基本数据类型,包括数值型、字符型、逻辑型; 最后介绍向量、矩阵、数组、数据框、因子、列表、时间序列对象的创建和使用技巧。

第3章: 参数估计。首先介绍参数估计的原理,总体方差、总体比例的区间估计,统计量的分布,包括χ2分布、t分布和F分布; 然后介绍如何运用参数估计的区间估计进行R语言编程计算,根据方差齐性假设的统计推断内容,以及ShapiroWilk检验的R语言编程。

第4章: 假设检验。首先介绍假设检验的基本知识,原假设与备择假设、两类错误、假设检验的步骤; 其次介绍关于区间估计与假设检验的内容,以及如何利用P值进行决策; 然后介绍一个总体参数的假设检验和两个总体参数的假设检验,分别从总体均值、总体比例和总体方差3方面进行解释; 最后介绍W检验、EppsPulley检验的R语言编程实现。

第5章: R的基本数据分析与绘图。首先介绍如何根据需要观察数据、分析数据的分布情况、分析数据之间的关系,结合需求进行数据分析、制作数据可视化图表的过程; 其次介绍如何使用R语言绘制多种图表对数据分布进行描述,涉及R的绘图设备和文件,R的图形组成、参数和边界的设置; 最后逐一介绍使用R语言绘制单变量和多变量分布特征的图形,以及反映变量间相关性的图形。

第6章: R的空间数据可视化。首先介绍基于百度地图的REmap包的使用、baidumap包的使用,能按需要进行地图标识等操作; 其次介绍如何使用R语言绘制热力图; 最后介绍leaflet包的基本使用步骤,以及leaflet包中内置的多个基础底图的用法。

第7章: R语言的文本数据挖掘应用。首先介绍自然语言处理(natural language processing,NLP)的一个子领域——文本挖掘中R语言

分词包的使用; 其次介绍文本挖掘tm包的安装和使用,LDA主题建模,以及如何使用R语言绘制词云图,并且举例说明词云图的绘制过程。

为了方便各类高校选用教材进行教学和读者选书自学,本书提供了大量的实例代码和其他资源。本书准备的辅助教学材料主要包括如下。

(1) 一套完整的教学精简版PPT。

(2) 一套完整的教学案例R语言代码。

(3) 完整的教学大纲。

(4) 四套完整的课程考试试卷及参考答案。

(5) 提供每章内容的视频讲解。

本书在写作和出版过程中得到了许多专家的帮助和支持,编者在此向他们表示衷心的感谢; 

还要感谢清华大学出版社对本书出版给予的大力支持。

由于编者水平有限,书中难免有疏漏之处,欢迎广大读者批评指正。

李庆华周青

2021年6月于杭州电子科技大学