图书前言

前  言

《统计建模与R软件》一书自2007年出版至今,已有14个年头,由于此书是实用统计方法中较早介绍R软件的中文教材之一,不少学校将它选作统计软件或统计计算的教材,或者是统计学专业的教学参考书。

但随着R软件版本的不断更新,书中的一些缺点也日渐明显,例如,有些命令已不适用于新的版本。另一方面,随着R软件扩展包的不断增加,R求解问题的能力也在不断增强,所以有必要介绍与统计模型关系密切的扩展程序包中的函数,减少自编程序的使用。

从图书出版到现在,作者收到过大量的邮件,除了索要书中自编程序外,有不少读者提出自己的观点和看法,也提出了不少建议。虽然本人一直在关注R软件的发展,并出版了《R语言实用教程》(清华大学出版社,2014.10)、《R语言在统计中的应用》(人民邮电出版社,2017.4)、《数学建模基于R》(机械工业出版社,2017.7)、《时间序列分析与R软件》(清华大学出版社,2020.5),但还是认为有必要修订再版,这或许就是读者的意见与建议的原因吧。

第2版教材对第1版的内容作了较大的改动,增加了扩展程序包中部分函数的介绍,尽量减少自编函数的使用。将第1版中的第1章与第2章调换,第1章为R软件的介绍,并增加了一些准备知识(如优化问题求解)。第2章为概率与数理统计基本知识的介绍,增加了相关概念中R函数的使用。去掉第1版中第10章计算机模拟,改为数据可视化,其目的是适应当前数据分析的需求。其他章节的改动不大,增加了扩展程序包中函数的介绍。根据读者要求,增加了习题参考答案。

第2版的各章编排与改动如下:第1章,R软件简介。介绍R软件的界面、与数据有关的对象、数据的读写和R函数的编写等,增加了求解非线性方程、优化问题求解和自编函数的运行与调试等内容。第2章,概率、随机变量及其分布。介绍概率与数理统计的基本知识,在各知识点,增加与之对应的R函数和例题。第3章,数据描述性分析。介绍常见的描述统计量,如均值、方差等。介绍数据分布的图形,如直方图、QQ图等。介绍基本的绘图方法和命令、多元数据的特征和图形表示方法等。去掉第1版中正态性检验与分布拟合检验,将这部分内容放在第5章中。第4章,参数估计。介绍点估计和区间估计,重点是正态总体的区间估计,增加了$Z$统计量及相关参数的估计,总体比例和总体比例差的估计。第5章,假设检验。介绍重要的参数检验、分布的检验、列联表检验、符号检验和秩检验等,增加了泊松分布参数的精确检验、数据的正态性检验和游程检验。第6章,回归分析。介绍线性回归、逐步回归、回归诊断、广义线性回归和非线性回归等内容,增加了残差的独立性检验。第7章,方差分析。介绍单因素方差分析、双因素方差分析,以及正交试验设计与方差分析的关系,增加了非齐方差数据的方差分析的内容。第8章,应用多元分析(I)。介绍判别分析和聚类分析,它们的共同点是对样本进行分类,增加了线性判别函数和二次判别函数的使用,K最近邻算法、朴素贝叶斯算法的介绍及相关函数的使用。第9章,应用多元分析(II)。介绍主成分分析、因子分析和典型相关分析,它们的共同点是降维。第10章,数据可视化。介绍多维标度法、对应分析、样本与变量双重信息图,这部分内容还应属于应用多元分析的范畴,以数据可视化为题目是重点强调这些方法的可视化功能。最后一部分内容是附录,包括R函数索引,便于读者查找书中的函数,以及习题的参考答案。

本书介绍的R函数是以R-4.0.2版本为基准,所有的函数与程序均通过测试。为了便于读者学习和使用,同时还提供了书中例题和习题的数据,以及部分习题参考解答的R程序(answer.R),读者可通过扫描本页的二维码获取。

本书是为理工、经济、管理、生物等专业学生或专业人员为解决统计计算问题而编写的,可以作为上述专业学生数理统计课程的辅导教材或教学参考书,也可作为统计计算课程的教材和数学建模竞赛的辅导教材。

由于受编者水平所限,书中一定存在不足甚至错误之处,欢迎读者不吝指正。

编者

2021年2月

于北京工业大学