第1章 概率论基础 概率论是研究客观世界随机现象的一门基础学科。所谓“随机” (randomness),是指事物发生具有不确定性 ,且结果不可预知。这类现象在现实中广泛存在 ,例如投掷一枚硬币的结果、电子器件工作的寿命、每日的天气情况、分子的运动轨迹等。尽管随机现象充满不确定性 ,但其背后往往蕴含着一定的客观规律。采用概率统计的方法,为描述随机现象并揭示其蕴含的客观规律提供了一种有效途径。这便是研究概率论的重要意义。概率论也是随机信号分析的基础 ,鉴于读者已经学习过概率论课程 ,本章简要回顾概率论中的基本内容,并对一些重要概念、结论加以强化,加深读者的理解。 1.1基本概念 随机现象具有不确定性 ,但人们希望通过定量的方式来描述它 ,因而引出了“概率”的概念。所谓概率 ,是指刻画事件发生可能性大小的数量指标。当然这是一个描述性定义 ,不具备可操作性。于是数学家定义了各种计算概率的方式 ,或者也可理解为概率的不同观点。归纳起来有以下几种 [1, 2]:古典概率、几何概率、统计概率、贝叶斯概率以及公理化概率。 古典概率源自一种朴素的思想 ,其考虑某随机事件包含的结果在所有可能结果中所占的比例。以投骰子为例 ,假设骰子为正六面体 ,可能出现的结果为 {1, 2, 3, 4, 5, 6},则“点数为偶数”的概率为 3/6 = 1/2,其中, “3”为偶数点的数量 , “6”为所有可能结果的数量。古典概率蕴含着两个前提条件 ,一是所有可能出现的结果为有限个 ;二是所有结果是等可能 (概率)的。显然这种假设具有很大的局限性。 几何概率通过几何化的方式计算概率 ,其继承了古典概率的思想 ,同时克服了古典概率仅能处理有限个结果的不足。例如射击 ,不考虑射击员能力、外部环境等因素影响,假设子弹落点是均匀分布 (即等概率 )于靶标的 ,则击中靶心的概率等于靶心区域的面积与靶标整体的面积之比。事实上 ,古典概率与几何概率均蕴含了公理化概率的思想,即通过样本空间上的测度 ①来描述随机事件的概率。 统计概率将概率定义为事件发生的相对频率。仍以投骰子为例 ,若计算出现“ 2”的概率 ,可以将投骰子重复进行 n次,统计其中出现“ 2”的次数 nE,则比值 (即相对频率)nE/n即为“点数为 2”的概率。事实上 ,统计概率可视为真实概率的一种估计方法。理论证明 ,当 n趋向于无穷大时 ,相对频率在概率意义下接近于真实概率 ,即伯努利大数定律 (Bernoulli law of large numbers)。以统计概率为基础 ,由此形成统计学中的一大分支 ,即频率学派 (frequentism)。然而统计概率是建立在事件可以大量重复发生的假设基础上 ,但在实际中 ,许多随机事件并不是可重复发生的 ,例如某体育赛事的比赛结果 ,地震、台风等自然灾害。在分析这类问题时 ,并不能简单地以相对频率作为计算依据,这是统计概率的不足之处。 与上述几种观点不同 ,贝叶斯概率是指对事件发生信心的度量 ,通常基于某些知识 ①测度是一个数学概念。通俗地讲,测度是集合大小的度量,例如长度、面积、体积等。 或个人信念。提到“信心” ,读者可能会认为这是一个包含主观因素的定义 ,事实亦如 此。这似乎有些矛盾。概率不应当是客观的吗 ?事实上 ,关于概率的观点分歧由来已 久,由此产生了与频率学派相对立的贝叶斯学派 (Bayesianism)。贝叶斯学派观点认为 , 任何事件首先存在一个概率 ,称为先验概率 (prior probability);而事件的概率会随着 新的信息或证据不断更新 ,此概率称为后验概率 (posterior probability)。贝叶斯概率 取决于对信息或证据的积累 ,而不是一成不变的。这种方式其实更接近于人类认知客 观事物的方式。例如足球比赛有“胜”“平”“负”三种结果 ,按照古典概率的观点 ,每 队获胜的概率均为 1/3。然而如果考虑两支球队的实力、状态等因素 ,当然有理由相信 实力较强、状态更好的一方获胜的概率会大于 1/3。由此可见 ,“信念” (即贝叶斯概 率)随着我们所掌握的信息发生了改变。关于频率学派与贝叶斯学派的更深层次讨论 已超出本书的范围,感兴趣的读者可参考概率论相关论著[3]。 公理化概率是由苏联数学家柯尔莫哥洛夫 (A. N. Kolmogorov, 1903–1987)于 1933年提出的 ,其建立在集合论与测度论的基础上 ,从而形成一套完整严密的数学理 论。关于上文介绍的几种概率的不同观点 ,均可以通过恰当定义归属于公理化概率的 范畴。特别是贝叶斯概率 ,实际上即为一种条件概率 (见定义 1.3)。应当说 ,公理化概 率是现代概率论的基石。本书涉及的概率即为公理化概率 ,下面回顾概率论中的一些 基本概念。 我们把对某种随机现象或不确定事物的观测过程称为随机试验 (random exper- iment)①。随机试验的结果 (outcome)有多种可能 ,所有可能的结果构成的集合称为 样本空间 (sample space),通常记为 .;其中的元素 φ . .,即每一个结果称为样本点 (sample point)。样本空间的子集 A ≡ .称为随机事件 (random event),简称为事件 , 其中包括 4类情况: ①基本事件 (elementary event):集合仅有一个样本点; ②复合事件 (composite event):集合包含多个样本点; ③空事件 (null event):亦称不可能事件,集合不含任何样本点,即空集 .; ④必然事件 (certain event):样本空间 .。 例 1.1设骰子为正六面体 ,记录每次投掷顶面的点数 ,显然包含 6种试验结果 ,故样本空间为 .= {1, 2, 3, 4, 5, 6}。其中 ,“点数为 1.6的某一个数”为基本事件 ,即 Ek = {k},k =1, 2, ··· , 6;“点数为偶数”为复合事件 ,即 A = {2, 4, 6};相应地 ,“点 ∪ 数为奇数”为事件 A的补,即 Ac = {1, 3, 5}。注意到 AAc =.,意味着为“点数为 ∩ 偶数或奇数”是必然事件 ,而 AAc = .,意味着“点数既是偶数又是奇数”是空事件,这是符合常识的。 结合例 1.1可以看出 ,采用集合及其运算 ②可以方便、准确地描述随机事件 ,同时 ①随机试验通常假设可在相同条件下重复进行。英文中把每一次重复试验称为“ trial”,而整个试验过程称为 “experiment”。 ②集合的基本运算包括并、交、补、差等。本书假定读者熟悉集合论相关内容,不在此重复。 也为概率的公理化定义奠定了基础。为了准确定义随机事件的概率 ,还应当明确哪些事件可以赋予概率,由此引出域 (field)的概念。 定义 1.1 (域)设样本空间 ., F是由样本空间中的子集构成的集合。称 F是域,满足如下 3个条件: (1) . . F , . . F; (2)若 A . F ,则 Ac . F; n ∪ (3)若 Ai . F,则 Ai . F。 i=1 若 (3)中并集为无穷个,则称为 ξ-域。 通俗地讲,域是一些事件 (集合)的集合。凡是在域中的事件 ,都可以定义概率。下面给出概率的公理化定义。 定义 1.2 (公理化概率)已知样本空间 ., ξ-域 F ,概率 P是 F上的函数,满足如下 3个条件: (1) P (A) . 0, ∞ A . F ; (2) P (.) = 1; ()∪ (3) PAi= i=0 P (Ai), ∞ Ai,Aj . F,Ai ∈ Aj = .,i . .∑. = j。 i=1 由 (., F,P )构成的三元组称为概率空间。 根据定义 1.2,概率是一种特殊的函数 ,其将集合映射为 [0, 1]上的数值。数学上 ,把满足定义 1.2中条件 (1).(3)的这类函数称为概率测度 (probability measure)。直观来讲 ,条件 (1)要求任意事件的概率都是非负的 ;条件 (2)要求必然事件的概率一定为 1;条件 (3)要求如果多个事件互斥 ,则其同时发生的概率等于各自发生的概率之和。这些都是符合常识的。此外 ,根据定义 1.2还可推出概率的一些特殊性质。例如对任意的 A, B . F,如果 A ≡ B,则 P (A)= P (B) . P (B . A) . P (B)。该性质称为概率测度的单调性。特别地 ,由于 A ≡ .,因此 P (A) . P (.) = 1,即样本空间中任意事件的概率不会大于 1。又如对任意的 A . F,则 Ac . F,且 P (Ac)=1 . P (A)。即如果某事件发生的概率为 P (A),则不发生的概率必然为 1 . P (A)。据此得到一个推论 , P (.)=1 . P (.) = 0,即空事件的概率为零。注意逆命题不一定成立 ,即概率为零的事件不一定是空事件。 关于概率测度的更深层次介绍已超出本书的范围 ,感兴趣的读者可参阅文献 [4]。此外,概率论中还有一些重要的概念和结论,这里简单列出。 定义 1.3 (条件概率)已知随机事件 A与 B,并假设 P (B) > 0,则在事件 B发生条件下,事件 A发生的概率为 P (A ∈ B) P (A|B)= (1.1.1) P (B) 结合前文介绍 ,贝叶斯概率可以通过条件概率来描述 ,即考虑某事件 A,证据 B,则 P (A)是先验概率,而 P (A|B)为后验概率。 如果 P (A|B)= P (A),意味着事件 B发生对事件 A没有影响 ,则称事件 A独立于事件 B。结合条件概率的定义可得 P (A ∈ B)= P (A|B)P (B)= P (A)P (B)。另一方面,注意到 P (A ∈ B)= P (A|B)P (B)= P (B|A)P (A) 因此如果事件 A独立于事件 B,则事件 B也必然独立于事件 A,即两者相互独立 (mutual independence)。 定义 1.4 (独立事件)称事件 A, B相互独立,如果满足 P (A ∈ B)= P (A)P (B) (1.1.2) 注:相互独立的概念可推广至多个事件。称事件 Ai,i =1, 2, ··· ,n相互独立 ,如果 () kk ∩∏ PAi= P (Ai), ∞ 2 . k . n (1.1.3) i=1 i=1 Ai,i =1, 2, ··· ,n相互独立意味着两两独立 (pairwise independence),即 P (Ai ∈ Aj)= P (Ai)P (Aj ), ∞ i .(1.1.4) = j 但反之多个事件两两独立并不一定相互独立 ,读者可试举出反例 ,见习题 1.1。注意两者的含义不同。 利用条件概率可以得到一些重要的结论 ,如链式法则、全概率公式、贝叶斯公式等。命题 1.1 (链式法则)设 A1,A2, ··· ,An为样本空间 .中的一系列事件,则 P (A1 ∈ A2 ∈· ··∈ An)= P (An|An.1, ··· ,A1)P (An.1|An.2, ··· ,A1)× ···× P (A2|A1)P (A1) (1.1.5)命题 1.2 (全概率公式)设 B1,B2, ··· ,Bn为样本空间 .的一个完备事件组,即 n ∪ Bi =.,且 Bi ∈ Bj = ., ∞ i =.j i=1 则对样本空间中的任意一个事件 A,有 n ∑ P (A)= P (A|Bi)P (Bi) (1.1.6) i=1 全概率公式可结合图 1.1来理解。设样本空间 .被划分为一组完备事件 Bi,i = 1, 2, ··· ,n,则任意事件 A可视为由局部事件 A ∈ Bi组成的整体 ,其中 , Bi可视为 A发生的某种条件或原因 ,因此 P (A ∈ Bi)= P (A|Bi)P (Bi)。显然 , A发生的概率应等于所有局部事件发生的概率之和。 图 1.1全概率公式的图形化解释 如果说全概率公式是依“原因”而计算“结果”的概率 ,反过来 ,由“结果”推算“原因”的概率可以通过贝叶斯公式来完成。 命题 1.3 (贝叶斯公式)设 B1,B2, ··· ,Bn为样本空间 .的一个有限划分,则 P (A|Bi)P (Bi) P (Bi|A)= (1.1.7) n ∑ P (A|Bj )P (Bj) j=1 例 1.2已知二进制数字通信系统传输 0/1两种字符 ,如图 1.2所示。记发送端字符为 X,接收端字符为 Y ,并设发送端字符出现的概率分别为 P (X = 0) = p, P (X = 1) = 1 . p,若每个字符传输正确的概率为 q,求接收端收到字符为 Y = j而发送端发送字符为 X = i的概率, i, j =0, 1。 图 1.2二进制传输系统解:设 P (X = i|Y = j)表示接收端收到字符 j源自发送端发送字符 i的概率。 .. 根据贝叶斯公式, P (Y = j|X = i)P (X = i)P (X = i|Y = j)= 1 P (Y = j|X = i)P (X = i) i=0 p, i =0 q, i = j P (X = i)= ,P (Y = j|X = i)= 1 . p, i =1 1 . q, i =.j 具体计算结果如下: pq P (X =0|Y = 0) = ∑ pq + (1 . p)(1 . q) (1 . p)(1 . q) P (X =1|Y = 0) = pq + (1 . p)(1 . q) p(1 . q) P (X =0|Y = 1) = 其中 .. .. ..(1)+(1 )pqpq 1.2.1随机变量及概率分布 (1 . p)qP (X =1|Y = 1) = p(1 . q) + (1 . p)q 1.2随机变量 许多随机试验的结果都是数值 ,如每天的气温、电路中的电压、列车行驶的速度等。即便某些试验的结果不是数值 ,我们也希望将其数值化 ,便于定量地分析。例如 ,考虑投掷硬币这一随机试验 ,其结果为“正面”或“反面” ,当然也可以用数字 1、0分别表示正、反面。这种方式反映了具体事件和抽象数值之间的映射关系 ,由此产生随机变量的概念。 假设某样本空间 .,对于任意的 φ . .,都存在一个数值 X(φ)与其对应,则 X(φ)为随机变量 ,如图 1.3所示。然而这种描述还不够精确。事实上 ,由于概率论研究对象是集合 ,为了保证概率有意义 ,我们需要对映射 X(φ)加以一定的约束。下面给出随机变量的定义。 定义 1.5已知概率空间 (., F ,P ),设映射 X :. → R。若对于任意的 x . R, {φ : X(φ) . x}. F,则称 X(φ)为随机变量,简记为 X。 图 1.3随机变量示意图 注:上述定义可推广至复随机变量 ,即 Z :. → C。复随机变量也可理解为两个实随机变量的组合 ,即 Z = X + jY ,其中 , X, Y为实随机变量。因此关于复随机变量的讨论可转化为对其实部与虚部的讨论。如无特别说明,本书均默认随机变量是实的。 根据定义 1.5,随机变量实质为样本空间 .到实数轴 R的映射。然而在多数情况下,我们不必关心具体的样本空间是什么 ,而只须将重点放在随机变量本身上。为了定量地描述随机变量的统计特性,引出概率分布函数的概念。 定义 1.6随机变量 X的概率分布函数 (简称为分布函数)定义为 FX (x)= P (X . x) (1.2.1) 注:分布函数描述了随机变量 X在 (..,x]范围内的概率 ,也称为累积分布函数 (cumulative distribution function, CDF)。随机变量的定义保证了 P (X . x)是有意义的。事实上,设概率空间 (., F,P ),注意到 {φ : X(φ) . x}. F,因此 P (X . x)= P {φ : X(φ) . x} (1.2.2) 上式说明 , X . x的概率即为样本空间中所有满足 X(φ) . x的样本点所组成的集合的概率 ①。 性质 1.1分布函数具有如下性质: (1) 0 . FX (x) . 1; (2) FX (x)单调非减,即若 x1