第 1章统计学绪论 统计学是将数据与我们感兴趣的具体问题联系起来的科学。如何收集与问题有关的数据 ,如何汇总和展示数据以阐明问题 ,以及如何才能得到藏在数据背后的答案 ,统计学要设计出一系列方法来解决这些问题。数据总是包含着不确定性 ,这种不确定性可能源于对待测项的选择或是测量过程的变异性。由数据得出的一般性结论会增进我们对世界的认知 ,所有理性的科学探索也是以此为基础的。尽管数据中存在不确定性 ,统计推断为我们提供了从数据到结论的方法和工具。用不同方式收集到的数据所用的分析方法也会不同,最重要的是,要有一个概率模型能够解释数据中的不确定性。 展示由数据得到的因果关系 假设观测到两个变量 X和 Y ,变量 X可能与变量 Y相关。如果 X的较大值与变量 Y的较大值同时出现 , X的较小值与 Y的较小值同时出现 ,则称关联是正的。关联也可以是负的 ,这时变量 X的较大值与变量 Y的较小值同时出现。图 1.1为示意图 ,其中关联关系用连接 X和 Y的虚线表示 ,非阴影区域表示 X和 Y是观测到的变量 ,阴影区域表示可能存在未观测到的附加变量。 两个变量关联的原因有几种可能的解释 ,关联可能源于因果关系。例如 , X可能是 Y的起因,如图 1.2所示,其中的因果关系用从 X到 Y的箭头表示。 图 1.1两个变量的关联图 1.2由于因果关系的关联 另一方面 ,可能存在未知的第三个变量 Z,它对 X和 Y都有因果效应。如图 1.3所示, X和 Y并无直接的因果关系,它们之间的关联是由于 Z的影响。 Z被称为潜在变量,因为它藏在幕后对数据造成影响。 图 1.4显示 ,有可能因果效应和潜在变量都是关联的原因 ,我们称这种现象为因果效应和潜在变量效应的混杂,它意味着在关联中这两种效应兼而有之。 图 1.3由于潜在变量的关联图 1.4混杂的因果和潜在变量效应 我们的首要目标是确定关联的原因。如果断定是由于因果效应的原因 ,下一个目标就是确定效应的大小。如果断定关联是由于因果效应与潜在变量效应的混杂 ,下一个目标就是确定这两种效应的大小。 1.1科学方法 :学习的过程 中世纪时的科学是由几个世纪之前的像亚里士多德那样的权威所制定的原则推断而来的。科学理论应该经受真实数据的检验 ,这个观点彻底改变了我们的想法 ,这种以科学方法著称的思考方式引发了文艺复兴。 科学方法基于下列前提: . 一个科学假设永远不能被证明为绝对正确; . 不过,它一定是无可辩驳的; . 在确认它并不正确之前它是一个有用的模型; . 总是做最简单的假设,除非它会被证明是错误的。 奥卡姆在 13世纪详细阐述了最后一条原则 ,如今它以奥卡姆剃刀著称并深植于科学中,它让科学远离花哨的过于繁杂的理论。如果一个模型弄错了 ,通过改进会得到新的模型,科学方法引导我们对模型进行一系列的改进。科学方法通常遵循下列程序 : 1. 依据当前的科学假设提出问题; 2. 收集当前所有可用的相关信息,包括对模型参数的认知; 3. 针对在第 1步中提出的问题 ,安排调查或实验 ,如果当前假设为真 ,实验结果与预期结果应该一样,如果假设不对,结果则是另一回事; 4. 从实验中收集数据; 5. 根据实验结果下结论,考虑到当前的结果对关于参数的知识做相应修改。 科学方法是寻求实验变量与结果变量的因果关系 ,换言之 ,结果变量会随实验变量的改变如何变化。科学建模开发出这些关系的数学模型。建模需要将实验与可能影响实验结果的外部因素隔离开来 ,可能影响结果的所有外部因素只要被识别出来就必须受到控 1.3统计的主要方法 3 制。这个方法最早在物理学和化学中获得成功并非是因为巧合 ,在物理学和化学中 ,少量的外部因素能被识别并受到控制 ,所以并没有潜在变量。其他所有相关的变量能够被识别并让它们保持不变 ,这些变量不会影响实验的结果 ,由此我们能够确定实验变量对结果变量的影响。在生物学、医学、工程、技术和社会科学中 ,要识别出需要控制的相关因素并非易事 ,在这些领域中 ,外部因素事先很难被识别或受到实际控制 ,要控制它们需要使用不同的方法。 1.2统计在科学方法中的角色 若数据中存在随机变异性 ,就可以使用统计推断的方法 ,通过设计相应的调查或实验可以验证数据的概率模型是否合理 ,这种科学方法可以扩展到外部相关因素不甚明了的情境。我们无法直接控制那些不能被识别的外部因素 ,因此它们可能会对数据产生影响。因为存在这些不受控的外部因素,所以通过实验得到的结论就存在出错的风险。 为应对这种可能的风险 ,随机化作为统计的一个重要思想被提了出来 ,通过随机指派每一个单元进入治疗组或对照组 ,可以将不明的外部因素“平均化”。这样做会为数据带来变异性 ,因为数据的变异性统计结论存在某些不确定性或误差 ,基于所使用的随机化方法,我们可以开发出数据变异性的概率模型。随机化不仅降低了因外部因素带来的不确定性 ,还允许我们用概率模型度量余下的不确定性的总量 ,随机化让我们在统计上通过平均来控制外部因素的影响。 总体的概念是统计学的基础 ,它由所有可能的观测值组成。由样本得到的观测值构成数据。若要从样本统计量得到关于总体参数的有效推断 ,样本必须能够代表总体。令人惊讶的是,要获得代表性样本的最有效的方法就是随机选择样本! 1.3统计的主要方法 统计学有两种主要的哲学方法。首先是经常被提及的频率论方法 ,有时候也被称为经典方法。统计程序的性能取决于它们在所有可能的随机样本上的表现。概率与具体的随机样本无关,这种间接的方法在很多方面都本末倒置。 本书采用另一种方法 ,即贝叶斯方法 ,它对问题直接应用概率定律。与常用的频率论方法相比,它有很多根本的优势,我们会在本书中一一说明。 统计的频率论方法 大多数统计学入门的书籍都采用统计的频率论方法,其基本思想如下: .参数作为总体的数字特征是固定但未知的常数; .总是用长期相对频率解释概率; .对统计程序的评判基于其在无限次重复实验上的长期表现。 频率论方法只对随机量作出概率表述 ,未知参数是固定而非随机的 ,因此对它们的取值不会有概率表述。从总体抽样得到样本 ,因此可以计算样本的统计量。统计量在所有可能的随机样本上的概率分布被称为统计量的抽样分布 ,总体的参数也是抽样分布的参数。将基于抽样分布的统计量的概率表述转化为对参数值的信心的表述。对参数值的信心基于统计程序在所有可能样本上的平均行为。 统计的贝叶斯方法 贝叶斯定理最先由托马斯·贝叶斯 (Thomas Bayes)教士发现,因此以他的名字命名。贝叶斯在一篇题为《机遇理论中一个问题的解》(An essay towards solving a problem in the doctrine of chances, 1763)的文章中描述了这个定理 ,这篇论文在他去世后被他的好友理查德 ·普莱斯 (Richard Price)发现 ,并于 1763年发表在《皇家学会哲学会刊》上。贝叶斯说明如何使用逆概率由后续事件的发生来计算先前事件的概率 ,他的方法在 19世纪被拉普拉斯 (Laplace)和其他科学家采用 ,但到 20世纪初期基本上不再受欢迎。在 20世纪中叶 ,包括德 ·福内梯 (de Finetti)、杰佛瑞 (Je.reys)、萨维奇 (Savage)和林德利 (Lindley)在内的学者重新点燃了人们对贝叶斯方法的兴趣 ,他们基于贝叶斯定理发展出完整的统计推断方法。 本书介绍贝叶斯统计方法,下面的思想为这种方法奠定了基础。 . 因为参数的真值尚不确定,我们将其看成是随机变量; . 用概率规则直接对参数进行推断; . 对参数的概率表述必须理解为“可信度” ,先验分布一定是主观的,每个人可以有自己的先验 ,它包括对参数的每一个值的相对权重 ,先验分布度量人们在观测到数据之前对每个参数值的合理性的认定; . 在获得数据后 ,应用贝叶斯定理修改我们对参数的信念 ,由此产生后验分布 ,它是我们在分析数据之后给予每个参数值的相对权重 ,后验分布来源于先验分布和我们观测到的数据。 相对于传统的频率论方法 ,贝叶斯方法有许多优势。给定实际发生的数据 ,贝叶斯定理以一种一以贯之的方式修正对参数的信念 ,也就是说 ,推断是基于实际发生的数据 ,而非所有可能会发生但实际并未发生的数据集 !允许参数为随机变量让我们可以在得到数据之后对它作出概率表述。这与传统方法截然不同。在传统方法中 ,推断概率是基于当参数值固定时所有可能发生的数据集 ,给定实际的数据 ,固定的参数值就不再有任何随机的成分 ,因此人们只能基于可能会发生的情况作出信心的表述。贝叶斯统计还有一种处理冗余参数的通用方法 ,冗余参数是我们不想推断的参数 ,但也不想让其干扰我们对主要参数的推断。频率论统计对处理冗余参数并没有一个通用的程序。贝叶斯统计与频率论统计不同,它是预言性的,若给定样本数据,我们很容易找出下一个观测的条件概率分布。 蒙特卡罗研究 在频率论统计中 ,参数被认为是固定但未知的常数。像参数的特定的估计器这类统计程序 ,不能由它所给的值来判断其好坏 ,由于参数的值未知 ,我们并不知道估计器应该给出什么值。如果我们知道参数的值 ,就不需要估计。 1.4本书的目的和结构 5 统计程序在参数取某个值时的性能要根据其在所有可能的数据样本上的长期表现来评估。例如 ,我们将参数固定为某个值 ,估计器依赖于随机样本 ,因此它被认为是具有概率分布的随机变量 ,由于它的概率分布来源于所有可能的随机抽样 ,这个分布被称为估计器的抽样分布 ,然后,我们检视估计器在参数值的周围如何分布 ,它被称为样本空间平均。在得到数据之前,基本上可以用它来比较统计程序的性能。 贝叶斯程序把参数看成是随机变量 ,它的后验分布基于实际发生的样本数据 ,而不是那些可能发生但未发生的样本。不过 ,在实验之前 ,我们也许想知道贝叶斯程序在域内某些具体的参数值处有多管用。 为了利用样本空间平均来评估贝叶斯程序 ,我们不得不认为参数既是随机变量同时又是固定但未知的值。我们加在参数上的概率分布是对其真值的不确定性的度量 ,它能避免关于参数值的明显分歧。这个概率分布反映出我们对未知参数可能的取值的相对信念的权重 !在看到数据之后 ,我们对参数分布的信念会发生改变。将参数看成是固定但未知的值同时又是随机变量 ,这样一来我们就可以用样本空间平均来评估贝叶斯程序 ,因为在得到数据之前就能实施,所以被称为后验前分析。 在第 4章中我们会看到 ,概率规则是对不确定性建模的最好方式。因此 ,在已知实际发生的数据之后贝叶斯过程是最优的。在第 9章和第 11章中 ,若用后验前分析法评估 ,在得到实际数据之前贝叶斯程序的表现也很好。事实上 ,即使没有实际数据贝叶斯程序也胜过常用的频率论程序。 蒙特卡罗研究可用于样本空间平均。我们用计算机随机抽取大量样本并计算每个样本的 (频率论或贝叶斯 )统计量 ,(在大量随机样本上的 )统计量的经验分布近似于它 (在所有可能的随机样本上的 )的抽样分布。我们可以在这个蒙特卡罗样本上计算像均值和标准差这样的统计量来近似抽样分布的均值和标准差。本书的习题中包含一些小规模的蒙特卡罗研究。 1.4本书的目的和结构 大部分本科生都必须修读一门统计方面的课程 ,这些课程几乎都是基于频率论的概念,它们中的大部分甚至对贝叶斯思想只字不提。作为一名统计学家 ,我知道贝叶斯方法在理论上具有很大的优势 ,应该在一开始就向最好的学生介绍贝叶斯思想。基于贝叶斯思想的统计学入门课本并不多 ,除了本书之外还有几本 ,如 Berry (1996)、Press (1989)和 Lee (1989)。 本书旨在向数学背景较强的学生介绍贝叶斯统计 ,它只从贝叶斯的角度讲解标准的统计概论所涵盖的问题 ,学生要有相当的代数技能才能读懂本书。贝叶斯统计利用了概率论的规则 ,因此需要具有应用数学公式的能力 ,学生会发现在阅读本书时会用到微积分的一般知识。具体而言 ,他们需要了解通过积分求曲线下方的面积 ,以及让函数导数等于零以找出连续可微函数的极大值或极小值 ,但实际的演算很少 ,本书有一个关于微积分的附录供学生参考。 第 2章介绍科学数据采集的一些基本原则 ,这些原则用来控制不明因素的影响 ,它包括随机抽样的必要性和随机抽样的一些技巧。这一章说明分别由观察性研究产生的数据和随机化实验产生的数据得出的结论存在差异的原因 ,并讨论了完全随机化设计和随机化区组设计。 第 3章包含图形显示和数据汇总的基本方法。一个好的数据显示总是必不可少的 ,本章强调显示设计的原则要与数据相符。 第 4章说明演绎与归纳的区别。似然推理是在不确定的情况下对逻辑的推广 ,事实证明似然推理必须遵循与概率相同的规则。本章还介绍了概率公理以及包括条件概率和贝叶斯定理在内的概率规则。 第 5章讲述离散随机变量 ,包括联合和边缘离散随机变量 ,介绍了二项分布 ,超几何分布和泊松分布,并描述这些分布适用的情境。 第 6章用表格介绍离散随机变量的贝叶斯定理。这个方法的两个重要结果是 ,先验乘以一个常数或似然乘以一个常数对所得的后验分布并无影响 ,由此给出贝叶斯定理的“比例形式”。由上一次观测得到的后验作为下一次观测的先验 ,按这种方式依次分析观测到的数据所得的结果 ,与利用联合似然和原始先验一次性分析所有观测数据所得的结果完全相同。我们还证明了使用离散先验的二项观测和使用离散先验的泊松观测的贝叶斯定理。 第 7章讲述连续随机变量 ,包括联合、边缘和条件随机变量。本章还介绍了贝塔分布,伽马分布和正态分布。 第 8章介绍使用连续先验的 (二项 )总体比例的贝叶斯定理;讲解如何使用均匀先验或贝塔先验找出总体比例的后验分布;解释如何选择一个合适的先验 ,并说明总结后验分布的方法。 第 9章比较贝叶斯推断与频率论推断。我们证明 ,在大部分取值范围上 ,贝叶斯估计 (使用均匀先验的后验均值 )比频率论估计 (样本比例 )在均方意义下的性能更好。在进行贝叶斯分析之前这种频率论分析是有用的 ,贝叶斯可信区间对总体比例的解释比频率论置信区间的解释更有用。本章还介绍了利用贝叶斯方法的单边和双边假设检验。 第 10章介绍使用连续先验的泊松观测的贝叶斯定理。所用的先验分布包括正均匀分布,杰佛瑞先验分布和伽马先验分布 ,利用所得后验对泊松参数的贝叶斯推断包括贝叶斯可信区间、双边假设检验和单边假设检验。 第 11章介绍已知方差的正态分布均值的贝叶斯定理 ,说明如何选择正态先验 ,讨论如何利用边缘化处理冗余参数 ,以及通过将总体均值看成冗余参数并边缘化 ,从而找出下一个观测的预测密度。 第 12章比较正态分布均值的贝叶斯推断和频率论推断 ,它们包括点估计和区间估计,还涉及单边和双边两种情境下的假设检验。 第 13章介绍对正态分布均值差的贝叶斯推断 ,以及利用正态近似对比例差的贝叶斯推断。 第 14章介绍简单线性回归模型并说明模型斜率的贝叶斯推断 ,将斜率和截距看成是冗余参数并利用边缘化找出下一个观测的预测分布。 第 15章介绍当得到正态观测的随机样本且均值 μ已知时 ,标准差 σ的贝叶斯推断。本章的层次比前几章高 ,需要使用密度的变量变换公式 ,所用的先验包括标准差的正均匀,方差的正均匀 ,杰佛瑞先验以及逆卡方先验。本章讨论如何选择与我们对中位数的先验信念相匹配的逆卡方先验 ,由所得的后验进行的贝叶斯推断包括点估计、可信区间以及单边与双边假设检验。 第 16章说明通过使用混合先验和边缘化混合参数 ,如何让贝叶斯推断对错误指定的先验具有很好的稳健性。本章的层次也比前几章高 ,它说明如何才能避免贝叶斯分析的一个主要风险。 第 17章回到第 11章的问题 ,即对正态分布的均值作出推断 ,不过 ,本章对未知的总体标准差建模 ,并证明在第 11章中的近似完全正确。本章还处理两个样本的情况 ,所以能对两个均值的差做推断。 第 18章介绍多元正态分布并将第 11章和第 17章的理论推广到多元的情境。多元正态分布对线性模型特别是多元回归的讨论至关重要。 第 19章将第 14章的简单线性回归推广到我们更熟悉的多元回归的设置中 ,就解释变量在预测响应时的用处给出了一套推断方法。本章还推导出新观测的后验预测分布。 第 20章简要介绍现代计算贝叶斯统计。计算贝叶斯统计在很大程度上取决于能否高效地从潜在复杂分布中抽样 ,本章介绍计算贝叶斯统计所用的诸多技术。但读者也许会感到失望 ,因为我们没有提到如 BUGS和 JAGS这些流行的计算机程序 ,对许多贝叶斯方法而言 ,它们既高效又通用并与 R联系紧密 ,仅介绍这些内容差不多就需要一整本书的篇幅,本书因篇幅所限很难对它们做全面的阐述。 本章要点 . 两个变量的关联并不意味着其中一个一定就是另一个的原因。它可能是因果关系,可能是因为第三个 (潜在 )变量对其他两个变量都有影响 ,或者是因果关系和潜在变量影响的组合。 . 科学方法是寻找因果关系并度量其强度的方法。它使用对照实验 ,让可能影响测量的外部因素受到控制 ,这样做能将两个变量的关系与外部因素隔离开来 ,以便确定其关系。 . 统计方法将科学方法扩展到外部因素不明因而不能控制的情境 ,利用随机化的原理通过平均这些不明外部因素的影响从而在统计学意义上控制它们 ,数据因此会具有变异性。 . 可以使用 (基于随机化方法的)概率模型度量不确定性。 . 统计的频率论方法将参数看成是固定但未知的常数 ,它允许的概率类型只有一种,即长期相对频率。给定未知参数 ,这些概率只是观测和样本统计量的概率。对统计程序的评判基于其在无限次实验的假设重复上的长期表现。 . 统计的贝叶斯方法允许将参数看成是随机变量 ,可以计算参数、观测和样本统计 量的概率。计算所得的参数的概率可理解为“可信度” ,它一定是主观的。对给定的数据,用概率规则修正我们对参数的信念。 . 对频率论估计器的评价基于它对固定参数值的样本分布及其在所有可能的重复实验的分布情况。 . 如果我们考虑贝叶斯估计对固定参数值的样本分布 ,这是所谓的后验前分析 ,因为在获得数据之前就可以做。 . 在蒙特卡罗研究中 ,我们要进行大量试验并计算每次试验的统计量。我们使用统计量在学习中所得的全部样本上的经验分布 ,而不是统计量在所有可能样本上的样本分布。 第 2章科学数据收集 科学家为了找到特定问题的答案会有目的地收集数据。统计科学已经表明 ,数据应该与特定的问题相关 ,但是要采用随机化的方法收集。统计领域对科学实践最伟大的贡献正是开发出既有目的又随机化的收集数据的方法。 通过增加样本的规模可以平均化那些缘于偶然的数据变异 ,但是对于其他原因导致的变异这样做就行不通了。随机采集数据的统计方法与具体问题相关 ,这些方法可以分为两种:抽样调查理论和实验设计。前者研究从有限的实际总体中抽样的方法 ,后者则研究设计实验的方法 ,让实验聚焦在预期的因素上 ,避免受到可能未知的其他因素的影响。 推断总是依赖于概率模型 ,我们假定由模型生成的观测数据是正确的 ,若数据不是随机采集的 ,观测到的模式可能会来自未被发现的潜在变量 ,而不是基本模式的真实映像。一个设计合理的实验要降低任何一个潜在变量的影响。潜在变量虽然存在但对我们来说却是未知的。 从设计合理的随机调查或实验中收集数据 ,在用这些数据进行推断时 ,由调查或实验设计确定观测的概率模型。我们能够相信它是正确的 ,让推断建立在坚实的基础上。另一方面 ,若利用由非随机化的设计采集到的数据进行推断 ,我们就无法解释概率模型而只是假设它是正确的 !观测的假设概率模型有可能并不正确 ,若如此我们的推断就会站不住脚。 2.1从真实的总体中抽样 首先定义一些基本术语。 . 总体 ——受调查的整组目标或整群人。例如 ,总体可能由新西兰 18岁以上的居民组成。通常我们想知道关于总体的一些特定属性。总体的每一个成员都有一个数字与其关联 ,比如年收入。可以将模型总体看成是实际总体中每个个体的数字的集合。我们的模型总体是新西兰 18岁以上的所有居民的收入的集合。我们想要了解总体的分布 ,具体而言 ,我们想知道总体参数的信息。参数是与总体分布相关的数 ,如总体均值、中位数和标准差。通常不大可能得到总体中每一个体的信息 ,总体可能过大 ,或者分散在一个很大的区域中 ,或者因费用过高而无法获得全体数据。因为无法计算这些参数 ,所以不知道它们的值。 . 样本——总体的一个子集。研究者从总体中抽样并由样本中的个体获得信息 ,利用样本数据计算样本统计量 ,它们是概括样本分布的数值特征 ,如样本均值、中位数和标准差。统计量与样本的关系类似于参数与总体的关系 ,不过 ,样本是已知的,所以可以计算统计量。 . 统计推断——基于样本统计量对总体参数作出陈述。如果样本代表整个总体 ,就可以有好的推断 ,样本的分布一定与其总体的分布类似。抽样偏差是指采集到的样本不能代表总体的系统化趋势。抽样偏差会令样本分布与总体分布不同 ,从而产生非常糟糕的推断,我们必须避免抽样偏差。 即使我们了解有关总体的某些方面并试图令其在样本中得到体现 ,可能仍然存在其他一些我们并不知晓的因素,对这些因素而言样本最终也不具代表性。 例 2.1假设哈密尔顿市议会提议融资建设一个新的英式橄榄球体育场,我们想要估计赞成该建议的选民比例 ,我们决定在午餐时到市中心从路人中抽样。也许应该在样本中平衡男女人数使其与选民中的男女比例一致。我们可以得到一个男女比例均衡的样本 ,却没有意识到白天采访的主要是在工作时间上街的人 ,其中在写字楼工作的员工占比过高,工厂工人的占比却很低 ,用这种方式采集到的样本可能还存在其他固有的偏差 ,而我们可能对此一无所知 ,一些组别被系统性地放大或缩小 ,这样得到的样本并不能代表那些我们还不知道的类别。. 让人吃惊的是 ,随机抽样 ,比如配额抽样或判断抽样 ,所得的样本比任何非随机方法所得的样本都更具代表性 ,它们不但让推断的误差最小 ,还允许对残留误差的 (概率 )度量。 简单随机抽样 (不放回 ) 简单随机抽样需要一个抽样框,它是总体中个体从 1到 N编号的列表。在这 N个数字中随机抽取 n个数 ,每抽取一个数 ,就不再考虑它 ,所以它不再会被抽中。在列表中与被选中的数字相对应的个体包含在样本中。因此 ,每一个未被选中的个体在每次都有相同的机会被抽中 ,每一个体有同等的机会出现在最后的样本中。此外 ,按所需大小选出的每一个样本都是等可能的。 假设从一个大城市的注册选民的总体中简单随机抽样 ,样本中男性所占比例很可能接近于总体中男性的比例。大多数样本都接近正确的比例 ;但我们未必能得到精确的比例。所有大小为 n的样本,包括那些在性别方面没有代表性的样本,都是等可能的。 分层随机抽样 假设由选民名单获悉了男女性别比 ,在抽样方法中就应该考虑这一信息。分层随机抽样将总体划分为子总体 ,子总体被称为层。在我们的案例中子总体是男性和女性 ,相应于这两层有各自独立的抽样框。从每层采集简单随机样本 ,每层的样本大小与该层的大小成正比。每个个体有同等的机会被选中 ,代表正确比例的层中的每一个样本都是等可能的 ,由这种方法得到的样本能准确代表性别。因此 ,如果我们感兴趣的量在不同层上的