第3章 统计推断 统计推断是以带有随机性的样本观测数据为基础,结合具体的问题条件和假定,而对未知事物做出的,以概率形式表述的推断。它是数理统计的主要任务。统计推断要面对的基本问题可以分为两大类: 一类是参数估计; 另一类是假设检验。其中,假设检验又分为参数假设检验和非参数假设检验两大类。本章所讲的假设检验都属于参数假设检验的范畴。此外,参数估计也分为两大类,即参数的点估计和区间估计。用于点估计的方法一般有矩方法和最大似然估计法(Maximum Likelihood Estimate,MLE)两种。先验概率、后验概率和似然是贝叶斯推断中最基本也是最重要的几个概念。充分理解似然这个概念并掌握最大似然估计法是深入探讨机器学习领域中相关内容所必备的数学基础。 3.1随机采样 概率分布是对现实世界中客观规律的高度抽象和数学表达,在统计分析中它们无处不在。但又因为分布仅仅是一种抽象的数学表达,所以要设法从观察中找到一个合适的分布并非易事,甚至某些分布很难用常规的、现成的数学模型描述。在处理这类问题时,采样就变得非常重要。在统计学中,采样(或称抽样)是一种推论统计方法,它是指从目标总体(Population)中抽取一部分个体作为样本(Sample),通过观察样本的某一或某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识。 在数理统计中,我们往往对有关对象的某一项数量指标感兴趣。为此,考虑开展与这一数量指标相联系的随机试验,并对这一数量指标进行试验或者观察。通常将试验的全部可能的观察值称为总体,并将每一个可能的观察值称为个体。总体中包含的个体数目称为总体的容量。容量有限的称为有限总体,容量为无限的则称为无限总体。 总体中的每个个体是随机试验的一个观察值(Observation), 因此它与某一随机变量X的值相对应。一个总体对应于一个随机变量X。于是,对总体的研究就变成了对一个随机变量X的研究,X的分布函数和数字特征就称为总体的分布函数和数字特征。这里将总体和相应的随机变量统一看待。 在实际中,总体的分布一般是未知的,或者只知道它具有某种形式而其中包含着未知参数。在数理统计中,人们都是通过从总体中抽取一部分个体,然后再根据获得的数据对总体分布作出推断。被抽出的部分个体称为总体的一个样本。 所谓从总体抽取一个个体,就是对总体X进行一次观察并记录其结果。在相同的条件下对总体X进行n次重复的、独立的观察,并将n次观察结果按照试验的次序记为X1,X2,…,Xn。由于X1,X2,…,Xn是对随机变量X观察的结果,且各次观察是在相同的条件下独立完成的,所以可以认为X1,X2,…,Xn是相互独立的,且都是与X具有相同分布的随机变量。这样得到的X1,X2,…,Xn称为来自总体X的一个简单随机样本,n称为这个样本的容量。如无特定说明,我们所提到的样本都是指简单随机样本。当n次观察一经完成,便得到一组实数x1,x2,…,xn,它们依次是随机变量X1,X2,…,Xn的观察值,称为样本值。 设X是具有某种分布函数F的随机变量,若X1,X2,…,Xn是具有同一分布函数F的、相互独立的随机变量,则称X1,X2,…,Xn为从分布函数F(或总体F或总体X)得到的容量为n的简单随机样本,简称样本,它们的观察值x1,x2,…,xn称为样本值,又称为X的n个独立的观察值。也可将样本看成是一个随机向量,写成X1,X2,…,Xn,此时样本值相应地写成(x1,x2,…,xn)。若(x1,x2,…,xn)与y1,y2,…,yn都是对应于样本 (X1,X2,…,Xn)的样本值,一般来说它们是不相同的。 样本是进行统计推断的依据。在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推断。 设X1,X2,…,Xn是来自总体X的一个样本,gX1,X2,…,Xn是X1,X2,…,Xn的函数,若g中不含未知参数,则称gX1,X2,…,Xn是一个统计量。 因为X1,X2,…,Xn都是随机变量,而统计量gX1,X2,…,Xn是随机变量的函数,因此统计量是一个随机变量。设x1,x2,…,xn是相应于样本X1,X2,…,Xn的样本值,则称g(x1,x2,…,xn)是gX1,X2,…,Xn的观察值。 样本均值和样本方差是两个最常用的统计量。假设X1,X2,…,Xn是来自总体X的一个样本,x1,x2,…,xn是这一样本的观察值。定义样本均值如下: =1n∑ni=1Xi 样本方差为 s2=1n-1∑ni=1Xi-2=1n-1∑ni=1X2i-n2 标准差(也称均方差)就是方差的算术平方根,即 s=∑ni=1Xi-2n-1 很多人会对上面的公式感到困惑,疑问之处就在于为什么样本方差计算公式里分母为n-1?简单地说,这样做的目的是为了使方差的估计无偏。无偏估计(Unbiased Estimator)的意思是估计量的数学期望等于被估计参数的真实值,否则就是有偏估计(Biased Estimator)。之所以进行采样,就是因为现实中,总体的获取可能有困难或者代价太高。退而求其次,我们用样本的一些数量指标对相应的总体指标做估计。例如对于总体X,样本均值就是总体X之数学期望的无偏估计,即 E(X)=1n∑ni=1Xi 那为什么样本方差分母必须是n-1而不是n才能使得该估计无偏呢?这是令很多人倍感迷惑的地方。 首先,假定随机变量X的数学期望μ是已知的,然而方差σ2未知。在这个条件下,根据方差的定义,有 EXi-μ2=σ2,i=1,2,…,n 由此可得 E1n∑ni=1Xi-μ2=σ2 因此 1n∑ni=1Xi-μ2 是方差σ2的一个无偏估计,注意式中的分母n。这个结果符合直觉,并且在数学上也是显而易见的。 现在,考虑随机变量X的数学期望μ是未知的情形。这时,我们会倾向于直接用样本均值 替换上面式子中的μ。这样做的后果是什么呢?后果就是如果直接使用 1n∑ni=1Xi-2 作为估计,将会倾向于低估方差。这是因为 1n∑ni=1Xi-2=1n∑ni=1Xi-μ+μ-2 =1n∑ni=1Xi-μ2+2n∑ni=1Xi-μμ-+1n∑ni=1μ-2 =1n∑ni=1Xi-μ2+2-μμ-+μ-2 =1n∑ni=1Xi-μ2-μ-2 换言之,除非正好=μ,否则一定有 1n∑ni=1Xi-2<1n∑ni=1Xi-μ2 而不等式右边的才是对方差的“无偏”估计。这个不等式说明,为什么直接使用 1n∑ni=1Xi-2 会导致对方差的低估。那么,在不知道随机变量真实数学期望的前提下,如何“正确”地估计方差呢?答案是把上式中的分母n换成n-1,通过这种方法把原来的偏小的估计“放大”一点点,就能获得对方差的正确估计了。 这个结论是可以证明的。 下面证明 E1n-1 ∑ni=1Xi-2=σ2 记D(Xi)和E(Xi)为Xi的方差和期望,显然有D(Xi)=σ2、E(Xi)=μ。 D()=D1n∑ni=1Xi=1n2D∑ni=1Xi=1n2∑ni=1D(Xi)=σ2n E2=D()+E2()=σ2n+μ2 而且有 E∑ni=1X2i=∑ni=1EX2i=∑ni=1D(Xi)+E2(Xi)=nσ2+μ2 E∑ni=1Xi=E∑ni=1Xi=nE2=nσ2n+μ2 所以可得 E1n-1∑ni=1Xi-2=1n-1E∑ni=1Xi-2 =1n-1E∑ni=1X2i-2Xi+2 =1n-1nσ2+μ2-2nσ2n+μ2+nσ2n+μ2=σ2 结论得证。 既然已经知道样本方差的定义式为 s2=∑ni=1Xi-Xi-n-1 那么也就可以据此给样本协方差定义如下: cov(X,Y)=∑ni=1Xi-Yi-Yn-1 设总体X(无论服从什么分布,只要均值和方差存在)的均值为μ、方差为σ2,X1,X2,…Xn是来自总体X的一个样本,和s2分别是样本均值和样本方差,则有 E()=μ,D()=σ2n 而 E(s2)=E1n-1∑ni=1X2i-n2 =1n-1∑ni=1EX2i-nE2 =1n-1∑ni=1σ2+μ2-nσ2n+μ2 =σ2 即E(s2)=σ2。 回忆前面给出的一个结论: 设X1,X2,…,Xn是来自正态总体N(μ,σ2)的一个样本,是样本的均值,则有 ~Nμ,σ2n 如果将其转换为标准正态分布的形式,就会得出 -μσ/n~N0,1 很多情况下,无法得知总体方差σ2,此时就需要使用样本方差s2替代。但这样做的结果就是,上式将发生些许变化。最终的形式由下面这个定理给出。这也是本章后面将多次用到的一个重要结论。 定理: 设X1,X2,…Xn是来自正态总体N(μ,σ2)的一个样本,样本均值和样本方差分别是和s2,则有 -μs/n~t(n-1) 其中,t(n-1)表示自由度为n-1的t分布。 3.2参数估计 统计推断是以带有随机性的样本观测数据为基础,结合具体的问题条件和假定,而对未知事物做出的,以概率形式表述的推断。它是数理统计的主要任务。总的来说,统计推断的基本问题可以分为两大类: 一类是参数估计; 另一类是假设检验。在参数估计部分,本节将重点关注点估计和区间估计这两类问题。 3.2.1参数估计的基本原理 如果想知道某所中学高三年级全体男生的平均身高,其实只要测定他们每个人的身高然后再取均值即可。但是若想知道我国成年男性的平均身高似乎就不那么简单了,因为这个研究的对象群体实在过于庞大,要想获得我国成年男性的身高数据显然有点不切实际。这时一种可以想到的办法就是对这个庞大的总体进行采样,然后根据样本参数来推断总体参数,于是便引出了参数估计(Parameter Estimation)的概念。参数估计就是用样本统计量去估计总体参数的方法。比如,可以用样本均值来估计总体均值,用样本方差来估计总体方差。如果把总体参数(均值、方差等)笼统地用一个符号θ来表示,而用于估计总体参数的统计量用θ^来表示,那么参数估计也就是用θ^来估计θ的过程,其中θ^也称为估计量(Estimator),而根据具体样本计算得出的估计量数值就是估计值(Estimated Value)。 看一个例子。2014年10月28日,为了纪念美国实验医学家、病毒学家乔纳斯·爱德华·索尔克(Jonas Edward Salk)诞辰百年,谷歌特别在其主页上刊出了一幅纪念画,如图31所示。第二次世界大战以后,由于缺乏有效的防控手段,脊髓灰质炎逐渐成为美国公共健康的最大威胁之一。其中,1952年的大流行是美国历史上最严重的爆发。那年报道的病例有58000人, 3145人死亡,21269人致残,且多数受害者是儿童。直到索尔克研制出首例安全有效的“脊髓灰质炎疫苗”,曾经让人闻之色变的脊髓灰质炎才开始得到有效的控制。 图31索尔克纪念画 索尔克在验证他发明的疫苗的效果时,设计了一个随机双盲对照试验,实验结果是在全部200745名接种了疫苗的儿童中,最后患上脊髓灰质炎的一共有57例。那么采用点估计的办法就可以推断该疫苗的整体失效率大约为 p^=57200745=0.0284% 虽然在重复采样下,点估计的均值可以期望等于总体的均值,但由于样本是随机抽取的,由某一个具体样本算出的估计值可能并不等同于总体均值。在用矩估计法对总体参数进行估计时,还应该给出点估计值与总体参数真实值间的接近程度。通常我们会围绕点估计值来构造总体参数的一个区间,并用这个区间来度量真实值与估计值之间的接近程度,这就是区间估计。 区间估计(Interval Estimate)是在点估计的基础上,给出总体参数估计的一个区间范围,而这个区间通常是由样本统计量加减估计误差得到的。与点估计不同,进行区间估计时,根据样本统计量的采样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。 例如,在以样本均值估计总体均值的过程中,由样本均值的采样分布知,在重复采样或无限总体采样的情况下,样本均值的数学期望等于总体均值,即Ex-=μ。 回忆前面曾经给出过的一些结论,还可以知道,样本均值的标准差等于σx-=σ/n,其中σ是总体的标准差,n是样本容量。根据中心极限定理可知,样本均值的分布服从正态分布。这就意味着,样本均值x-落在总体均值μ的两侧各一个采样标准差范围内的概率为0.6827; 落在两个采样标准差范围内的概率为0.9545; 落在3个采样标准差范围内的概率是0.9973。 事实上,完全可以求出样本均值落在总体均值两侧任何一个采样标准差范围内的概率。但实际估计时,情况却是相反的。所知的仅是样本均值x-,而总体均值μ未知,也正是需要估计的。由于x-与μ之间的距离是对称的,如果某个样本均值落在μ的两个标准差范围之内,反过来μ也就被包括在以x-为中心左右两个标准差的范围之内。因此,大约有95%的样本均值会落在μ的两个标准差范围内。或者说,约有95%的样本均值所构造的两个标准差区间会包括μ。图32给出了区间估计的示意图。 图32区间估计示意图 在区间估计中,由样本统计量所构造的总体参数之估计区间被称为置信区间(Confidence Interval),而且如果将构造置信区间的步骤重复多次,置信区间中所包含的总体参数真实值的次数之占比称为置信水平或置信度。在构造置信区间时,可以使用希望的任意值作为置信水平。常用的置信水平和正态分布曲线下右侧面积为α/2时的临界值如表31所示。 表31常用置信水平临界值 置信水平αα/2临界值 90%0.100.0501.645 95%0.050.0251.96 99%0.010.0052.58 3.2.2单总体参数区间估计 1. 总体比例的区间估计 比例问题可以看作是一项满足二项分布的试验。例如,在索尔克的随机双盲对照试验中,实验结果是在全部 200745名接种了疫苗的儿童中,最后患上脊髓灰质炎的一共有57例。这就相当是做了200745次独立的伯努利试验,而且每次试验的结果必为两种可能之一: 要么是患病,要么是不患病。服从二项分布的随机变量X~Bn,p以np为期望,以np(1-p)为方差。可以令样本比例p^=X/n作为总体比例p的估计值,而且可以得知 Ep^=1nE(X)=1n·np=p 同时还有 varp^=1n2var(X)=1n2·np(1-p)=p1-Pn;sep^=p1-Pn 由此便已经具备了进行区间估计的必备素材。 第一种进行区间估计的方法被称为Wald方法,它是一种近似方法。根据中心极限定理,当n足够大时,将会有 p^~Np,p1-Pn 3.2.1节中也给出了标准正态分布中,95%置信水平下的临界值,即1.96,即 Pr-1.96
7,要么pH<7,所以它是一个双尾检验。如图33所示,其中两部分阴影的面积之和占总图形面积的5%,即两边各2.5%。一方面已经算得的t统计量要小于临界值-2.1199,对称地,t统计量的相反数也大于另外一个临界值2.1199,即样本数据的统计量落入了拒绝域中。样本数据的统计量对应的P值也小于0.05的显著水平,所以应该拒绝原假设。由此认为该区域的土壤不是中性的。 图33双尾检测的拒绝域与接受域 除了进行双尾检验以外,当然还可执行一个单尾检验。例如,现在问该区域的土壤是否呈酸性(即pH<7),那么 可提出如下的原假设与备择假设: H0:pH=7,H1:pH<7 此时所得之t统计量并未发生变化,但是P值却不同了,可以算得P值为0.004878676。 如图34所示,t统计量小于临界值-1.7459,即样本数据的统计量落入拒绝域中。样本数据的统计量对应的P值也小于0.05的显著水平,所以应该拒绝原假设。由此认为该区域的土壤是酸性的。 图34单尾检测的拒绝域与接受域 相比之下,讨论双总体均值之差的假设检验其实更有意义。因为在统计实践中,最常被问到的问题就是两个总体是否有差别。例如,医药公司研发了一种新药,在进行双盲对照实验时,新药常被用来与安慰剂做比较。如果新药在统计上不能表现出与安慰剂的显著差别,那么这种药就是无效的。再例如前面讨论过的饲料问题,当我们对比两种饲料的效果时, 必然了解它们之间是否有差别。 同在研究双总体均值差的区间估计问题时所遵循的思路一致,仍然分独立样本数据和配对样本数据两种情况讨论。 对于独立样本数据而言,如果两个总体的方差σ21和σ22未知,但是可以确定σ21=σ22,那么在此情况下,检验统计量的计算公式为 t=x-1-x-2-μ1-μ2s′1n1+1n2 其中s′的表达式本章前面曾经给出,这里不再重复。另外,t分布的自由度为n1+n2-2。 仍然以饲料与肉鸡增重的数据为例,现在想知道两种饲料在统计上是否有差异,为此提出原假设和备择假设如下: H0:μ1=μ2,H1:μ1≠μ2 在原假设前提下,可以计算检验统计量的数值为 t=x-1-x-2s′1n1+1n2=-14.8316.447≈-0.9019 这仍然是一个双尾检测,所以可以求得检验临界值为-2.365和2.365。 因为-2.365≤-0.9019≤2.365,所以检验统计量落在了接受域中。 更进一步,还可以算得与检验统计量相对应的P值等于0.397,大于0.05的显著水平,所以无法拒绝原假设,即不能认为两种饲料之间存在差异。 对于独立样本数据而言,若两个总体的方差σ21和σ22未知,且σ21≠σ22,那么在此情况下检验统计量的计算公式为 t=x-1-x-2-μ1-μ2s21/n1+s22/n2 此时,检验统计量近似服从一个自由度为ν^的t分布,ν^前面已经给出,这里不再重复。 仍然以饲料与肉鸡增重的数据为例,并假设两个总体的方差不相等,同样提出原假设和备择假设如下: H0:μ1=μ2,H1:μ1≠μ2 在原假设前提下,可以计算检验统计量的数值为 t=x-1-x-2s21/n1+s22/n2=65-79.8321.6623+23.8726=-14.8315.854≈-0.9357 这仍然是一个双尾检测,可以求得检验临界值为-2.658和2.658。 因为-2.658≤-0.9357≤2.658,所以检验统计量落在接受域中。更进一步,还可以算得与检验统计量相对应的P值等于0.3968,大于0.05的显著水平,所以无法拒绝原假设,即不能认为两种饲料之间存在差异。 最后研究双总体均值差的假设检验中,样本数据属于配对样本的情况。此时的假设检验其实与单总体均值的假设检验基本相同,即把配对样本之间的差值看成是从单一总体中抽取的一组样本。在大样本条件下,两个总体间各差值的标准差σd未知,所以用样本差值的标准差sd代替,此时统计量的计算公式为 z=d--μsd/n 其中,d是一组配对样本之间的差值,d-表示各差值的均值; μ表示两个总体中配对数据差的均值。 在样本量较小的情况下,样本统计量就服从t分布,故应使用t统计量,其计算公式为 t=d--μsd/n 这里t统计量的自由度为n-1。 继续前面关于双总体均值差中配对样本的讨论,检验喂食了两组不同饲料的肉鸡在增重数据方面是否具有相同的均值,现提出下列原假设和备择假设: H0:μ1=μ2,H1:μ1≠μ2 在原假设前提下,很容易得出配对差的均值μ也为零的结论,于是可以计算检验统计量如下: t=6.675.056=6.672.062≈3.235 这仍然是一个双尾检测,可以求得检验临界值-2.571和2.571。 因为3.235≥2.571,所以检验统计量落在了拒绝域中。更进一步,还可以算得与检验统计量相对应的P值等于0.02305,小于0.05的显著水平,所以应该拒绝原假设,即认为两种饲料之间存在差异。 3.4最大似然估计 本节主要介绍用于点估计的最大似然估计法(Maximum Likelihood Estimate,MLE)。 3.4.1最大似然法的基本原理 最大似然这个思想最初是由德国著名数学家卡尔·高斯(Carl Gauss)提出的,但真正将其发扬光大的则是英国的统计学家罗纳德·费希尔。费希尔在其1922年发表的一篇论文中提出了最大似然估计这个思想,并且首先探讨了这种方法的一些性质。而且,费希尔当年正是凭借这一方法彻底撼动了皮尔逊在统计学界的统治地位。从此,统计学研究正式进入费希尔时代。 为了引入最大似然估计法的思想,先来看一个例子。假设一个口袋中有黑白两种颜色的小球,并且知道这两种球的数量比为 3∶1,但不知道具体哪种球占3/4,哪种球占1/4。现在从袋子中有返回地任取3个球,其中有一个是黑球,那么试问袋子中哪种球占3/4,哪种球占1/4。 设X是抽取3个球中黑球的个数,又设p是袋子中黑球所占的比例,则有X~B(3,p),即 P(X=k)=3kpk(1-p)3-k,k=0,1,2,3 当X=1时,不同的p值对应的概率分别为 PX=1;p=34=3×34×142=964 PX=1;p=14=3×14×342=2764 由于第一个概率小于第二个概率,所以判断黑球的占比应该是1/4。 在上面的例子中,p是分布中的参数,它只能取3/4或者1/4。我们需要通过采样结果决定分布中参数究竟是多少。在给定了样本观察值以后再去计算该样本的出现概率,而这一概率依赖于p的值。所以就需要用p的可能取值分别去计算最终的概率,在相对比较之下,最终所取的p值应该是使得最终概率最大的那个p值。 最大似然估计的基本思想就是根据上述想法引申出来的。设总体含有待估参数θ,它可以取很多值,所以就要在θ的一切可能取值中选出一个使样本观测值出现的概率为最大的θ值,记为θ^,并将此作为θ的估计,并称θ^为θ的最大似然估计。 首先考虑X属于离散型概率分布的情况。假设在X的分布中含有未知参数θ,记为 PX=ai=pai;θ,i=1,2,…,θ∈Θ 现从总体中抽取容量为n的样本,其观测值为x1,x2,…,xn,这里每个xi为a1,a2,…中的某个值,该样本的联合分布为 ∏ni=1pxi;θ 由于这一概率依赖于未知参数θ,故可将它看成是θ的函数,并称其为似然函数,记为 L(θ)=∏ni=1pxi;θ 对不同的θ,同一组样本观察值x1,x2,…,xn出现的概率L(θ)也不一样。当P(A)>P(B)时,事件A出现的可能性比事件B出现的可能性大,如果样本观察值x1,x2,…,xn出现了,当然就要求对应的似然函数L(θ)的值达到最大,所以应该选取这样的θ^作为θ的估计,使得 Lθ^=maxθ∈ΘL(θ) 如果θ^存在,则称θ^为θ的最大似然估计。 此外,当X是连续分布时,其概率密度函数为px;θ,θ为未知参数,且θ∈Θ,这里的Θ表示一个参数空间。现从该总体中获得容量为n的样本观测值x1,x2,…,xn,那么在X1=x1,X2=x2,…,Xn=xn时,联合密度函数值为 ∏ni=1pxi;θ 它也是θ的函数,也称为似然函数,记为 L(θ)=∏ni=1pxi;θ 对不同的θ,同一组样本观察值x1,x2,…,xn的联合密度函数值也是不同的,因此应该选择θ的最大似然估计θ^,从而满足 Lθ^= maxθ∈ΘL(θ) 3.4.2求最大似然估计的方法 当函数关于参数可导时,可以通过求导方法获得似然函数极大值对应的参数值。在求最大似然估计时,为求导方便,常对似然函数L(θ)取对数,称l(θ)=lnL(θ)为对数似然函数,它与L(θ)在同一点上达到最大。根据微积分中的费马定理,当l(θ)对θ的每一分量可微时,可通过l(θ)对θ的每一分量求偏导并令其为0求得,称 l(θ)θj=0,j=1,2,…,k 为似然方程,其中k是θ的维数。 下面结合一个例子演示这个过程。假设随机变量X~Bn,p,又知x1,x2,…,xn是来自X的一组样本观察值,现在求PX=T时,参数p的最大似然估计。首先写出似然函数 L(p)=∏ni=1pxi(1-p)1-xi 然后对上式左右两边取对数,可得 l(p)=∑ni=1xilnp+1-xiln(1-p) =nln(1-p)+∑ni=1xilnp-ln(1-p) 将l(p)对p求导,并令其导数等于0,得似然方程 dl(p)dp=-n1-p+∑ni=1xi1p+11-p =-n1-p+1p(1-p)∑ni=1xi =0 解似然方程得 p^=1n∑ni=1xi= x- 可以验证,当p^=x-时,2l(p)/p2<0,这就表明p^=x-可以使函数取得极大值。最后将题目中已知的条件代入,可得p的最大似然估计为p^=x-=T/n。 再来看一个连续分布的例子。假设有随机变量X~N(μ,σ2),μ和σ2都是未知参数,x1,x2,…,xn是来自X的一组样本观察值,试求μ和σ2的最大似然估计值。首先写出似然函数 L(μ,σ2)=∏ni=112πσe-(xi-μ)22σ2=2πσ2-n2·e-∑ni=1(xi-μ)22σ2 然后对上式左右两边取对数,可得 l(μ,σ2)=-n2ln2πσ2-12σ2∑ni=1(xi-μ)2 将l(μ,σ2)分别对μ和σ2求偏导数,并令它们的导数等于0,可得似然方程 l(μ,σ2)μ=1σ2∑ni=1(xi-μ)=0 l(μ,σ2)σ2=-n2σ2+12σ4∑ni=1(xi-μ)2=0 求解似然方程,可得 μ^=x-, σ^2=1n∑ni=1xi-x-2=0 还可以验证μ^和σ^2可以使得l(μ,σ2)达到最大。用样本观察值替代后便得出μ和σ2的最大似然估计分别为 μ^=,σ^2=1n∑ni=1Xi-2=S2n 因为μ^=是μ的无偏估计,但σ^2=S2n并不是σ2的无偏估计,可见参数的最大似然估计并不能确保无偏性。 最后给出一个被称为“不变原则”的定理: 设θ^是θ的最大似然估计,g(θ)是θ的连续函数,则g(θ)的最大似然估计为gθ^。 这里并不打算对该定理进行详细证明。下面将通过一个例子说明它的应用。假设随机变量X服从参数为λ的指数分布,x1,x2,…,xn是来自X的一组样本观察值,试求λ和E(X)的最大似然估计值。首先写出似然函数 L(λ)=∏ni=1λe-λxi=λne-λ∑ni=1xi 然后对上式左右两边取对数,可得 l(λ)=nlnλ-λ∑ni=1xi 将l(λ)对λ求导,得似然方程为 dl(λ)dλ=nλ-∑ni=1xi=0 解似然方程得 λ^=n∑ni=1xi=1x- 可以验证,它使l(λ)达到最大,而且上述过程对一切样本观察值都成立,所以λ的最大似然估计值为λ^=1/。此外,E(X)=1/λ,它是λ的函数,其最大似然估计可用不变原则进行求解,即用λ^代入E(X),可得E(X)的最大似然估计为,这与矩法估计的结果一致。