第Ⅰ部分数据分析基础 第1章概率与统计基础 第2章经济时间序列的季节调整、分解与平滑 第1章概率与统计基础 本章回顾一些概率知识和基本的统计概念。大多数结论只叙述而不证明,读者可以很容易找到相关参考书籍来学习和理解这些知识。这些概念极为重要,是继续学习的基础、通往其他部分不可或缺的钥匙。 1.1随 机 变 量 随机变量(random variable)是取值具有随机性的变量。随机变量按其取值情况可以分为离散型和连续型两种类型,离散型随机变量只能取有限或可数的多个数值,连续型随机变量的取值充满一个或若干有限或无限区间。 1.1.1概率分布 1. 概率分布的含义 随机变量X取各个值xi的概率称为X的概率分布。对一个离散型随机变量X,可以给出如下的概率分布: P(X=xi)=pi(i=1,2,3,…) (1.1.1) 例如,X代表宏观经济所处的状态,假定只有经济增长率较高的繁荣和增长率较低的衰退两种状态, 图1.1离散型概率分布 (经济状态概率分布: p=0.8,q=0.2) X相应地取1和2两个值(图1.1),并假定概率分别为p,q,即 P(X=1)=p,P(X=2)=q 由概率的性质可知,概率分布满足以下两个条件: pi ≥0(i=1,2,…) ∑∞ i=1pi =1(1.1.2) 可以知道,对于上面例子中的p和q,存在约束: p≥0,q≥0,p+q = 1。 2. 累积分布函数 对于随机变量X(无论连续还是离散)可以确定实值函数F(x),称为累积分布函数(cumulative distribution function,CDF),定义如下: F(x)=P(X≤x) (1.1.3) 表示随机变量X小于或等于x的概率。显然,F(-∞) = 0,F(+∞)= 1。对于离散随机变量,累积分布函数的形式为 F(x)=∑xi ≤xpi (1.1.4) 3. 连续型随机变量的分布函数及概率密度函数 对于连续型随机变量,取任何特定数值的概率都是0,因此度量该随机变量在某一特定范围或区间内的概率才有实际意义。设F(x)是随机变量X的分布函数,如果对任意实数x,存在非负函数f(x) ≥ 0,使 第Ⅰ部分数据分析基础 第1章概率与统计基础 F(x)=∫x-∞ f(t)dt (1.1.5) 就称f(x)为X的概率密度函数(PDF),且f(x)具有性质: f(x)≥0,∫∞-∞ f(x)dx=1(1.1.6) P(a