第 1部分 实习1 定量资料的统计描述 医学统计学 【实习目的】 1.掌握定量资料集中趋势、离散趋势各指标的意义、计算方法和用途。 2.掌握正态分布的概念、特征、应用及正态曲线下的面积分布规律。 3.标准正态分布的概念和标准化变换。 4.熟悉频数表的编制、特征以及医学参考值范围的制定。 【知识点】 (一)定量资料的频数分布 定量资料又称为计量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般 有计量单位。描述定量资料分布规律的统计方法有两种:一是统计图表,主要是频数表;二 是选用适当的统计指标。 1.频数表的编制 变量的取值范围可划分为几个区间,每个区间称作一个组段,将各组 段与相应的频数列表,即为频数表。组段之间的距离称为组距,一般为等距。对于离散数据, 每一个观察值即对应一个频数,如某医院某年度一天内死亡0,1,2,…,20 个患者的天数。 如描述某学校学生性别的分布情况,男、女生的人数即为各自的频数。对于散布区间很大的 离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续 型数据频数表一般步骤如下所述。 (1)求全距:全距又称为极差,指全部观察值中最大值与最小值之差,用符号R 表示: R=Xmax -Xmin。 (2)根据极差划分“组段”数(通常8 ~ 10 个):确定组段和组距。每个组段都有下限L 和上限U,数据x 归组统一定为L ≤ x < U。 (3)统计各组段频数:统计出各组段相应的观察单位个数(频数),将各组段与相应的频 数列表即得到频数表。 2.频数分布的特征 频数分布有两个重要特征:集中趋势和离散趋势。集中趋势指一组 3 预防医学实习和学习指导 数据向某一个位置聚集或集中的倾向;离散趋势指一组数据的分散程度或变异度。 3.频数分布的类型 频数分布可分为对称分布和偏态分布两种类型。对称分布指集中位 置在中间,左右两侧的频数基本对称。偏态分布指频数分布不对称,集中位置偏向一侧:若 偏向数值较小的一侧,称为正偏态;若偏向数值较大的一侧,则称为负偏态。定量资料的频 数分布类型不同,描述其集中趋势和离散程度的指标也不同。 4.频数表的用途 频数表可用于揭示资料的分布特征和分布类型,便于发现某些特大或 特小的可疑值,也便于进一步计算指标和统计分析处理。 (二)集中趋势的描述 统计指标可从数量上较准确地描述数据分布的集中趋势和离散程度。描述定量资料集中 趋势的指标统称为平均数,常用的平均数有均数、几何均数及中位数。 1.均数 均数是算术均数的简称,总体均数用 μ 表示,样本均数用X 表示。均数适用于 描述单峰对称分布,特别是正态分布或近似正态分布资料的集中趋势。 2.几何均数 几何均数适用于描述原始观察值呈偏态分布,但经过对数变换后呈正态分 布或近似正态分布的资料,如血清抗体滴度等。 3.中位数 中位数是指将一组观察值按从小到大的顺序排列后位次居中的观察值。中位 数适用于描述各种分布的资料,实际工作中常用来描述偏态分布资料、一端或两端无确切值 或分布不明确资料的集中趋势。 上述3 种常用平均数的关系如下:对于正态分布资料,中位数等于均数;对于对数正态 分布资料,中位数等于几何均数;对于正偏态分布资料,中位数小于均数;对于负偏态分布 资料,中位数大于均数。3 种常用平均数的意义及其用途见表1-1 。 表1-1  常用平均数的意义及其用途 平 均 数意  义用  途 均数平均数量水平应用甚广 , 最适用于对称分布 , 特别是正态分布 几何均数平均增 ( 减)倍数等比资料 ; 对数正态分布 中位数位次居中的观察值水平偏态分布 ; 分布不明 ; 分布末端无确定值 (三)离散程度的描述 描述定量资料离散程度的常用指标有:极差、四分位数间距、方差、标准差和变异系数。 1.极差(range) 即最大值与最小值之差:R=Xmax -Xmin,用于资料的粗略分析,其计 算简便但稳定性较差。样本含量越大,抽到最大值和最小值的可能性较大,导致极差也较大, 因此当样本含量相差较大时,不宜用极差来描述其离散程度。 2.四分位数间距 (1)百分位数:指将观察值从小到大排列后处于第x 百分位置上的数值,用符号表示为Px。 一个百分位数将全部数据分成两部分,有x% 的数据小于Px,有(100-x)% 的数据大于Px。 百分位数的一个重要用途是确定医学正常参考值范围。 4 第 1 部分 医学统计学 (2)四分位数间距(QR):指第75 百分位数与第25 百分位数之差,即P75-P25 ,反映了 一组数据从小到大排列后中间一半观察值的变动范围。常与中位数一起使用,描述偏态分布 资料、一端或两端无确切值或分布不明确资料的离散程度,比极差稳定。四分位数间距越大, 说明资料的离散程度越大。 3.方差 方差是描述对称分布,特别是正态分布或近似正态分布资料的离散程度的常用 指标。其值越大,说明观察值变异程度越大。总体方差用σ2 表示,样本方差用S2 表示。在实 际工作中总体方差往往未知,常用样本方差来估计。 4.标准差 方差开算术平方根即得到标准差(standard deviation),使用的量纲与原量纲 相同,是描述对称分布,特别是正态分布或近似正态分布资料离散程度的最常用指标,适用 于近似正态分布的资料,大样本、小样本均可,最为常用。标准差越大,说明资料的变异程 度越大。总体标准差用 σ 表示,样本标准差用S 表示。 5.变异系数 变异系数(coefficient of variation),用CV 表示,为标准差与均数之比, 公式为:CV= S ×100% 。极差、四分位数间距和标准差都有单位,其单位与观察值的单位 X 相同;而变异系数为相对数,没有单位,更便于资料间变异程度的比较。变异系数主要用于 下列两种情况: (1)比较度量衡单位不同的几组资料的变异程度。 (2)比较均数相差悬殊的几组资料的变异程度。 平均指标和变异指标分别反映资料的不同特征,作为资料的总结性统计量,两类指标要 求一起使用,如常用X ±S 或M(QR)。 (四)正态分布 1.正态分布的概念和特征 (1)正态分布:在医学卫生领域中,有许多变量为连续型随机变量,如身高、体重、血 压等,这些变量的频数分布特点是中间频数多,两边频数少,且左右对称,其频数分布规律 往往可用正态分布来描述。若某指标X 服从正态分布,记为X ~ N(μ, σ2)。正态曲线呈钟形, 两头低,中间高,左右对称,曲线与横轴间的面积总等于1。 (2)正态分布的特征 1)正态密度函数曲线在横轴上方均数处最高。 2)正态分布以均数为中心,左右对称。 3)正态分布有两个参数,即位置参数 μ 和形态参数σ。不同的 μ 和 σ 对应于不同的正态 分布。若固定σ,改变 μ 值,曲线就会沿着X 轴平行移动,其形态不变。若固定μ, σ 越小, 曲线越陡峭;反之, σ 越大,曲线越低平,但中心在X 轴的位置不变。 4)正态分布曲线的面积分布有一定规律。 2.正态分布曲线下的面积分布规律 无论μ、 σ 取什么值,正态分布曲线与横轴间的面 积恒等于1 或100% ;且其对称轴为直线X=μ,X> μ 与X< μ 范围内曲线下的面积相等,各占 50% ;在(μ-σ, μ+σ)范围内曲线下面积为68.27% ,在(μ-1.645σ, μ+1.645σ)范围内曲线下 5 预防医学实习和学习指导 面积为90% ,在(μ-1.96σ, μ+1.96σ)范围内曲线下面积为95% ,在(μ-2.58σ, μ+2.58σ)范 围内曲线下面积为99% 。 3.标准正态分布 (1)标准正态分布是一种特殊的正态分布,标准正态分布的均数为0,标准差为1,通常 用u(或Z)表示服从标准正态分布的变量,记为Z ~ N(0,12)。 (2)标准化变换:Z= X- μ ,此变换有特性,任何正态分布X ~ N(μ, σ2)经过Z 变换 σ 均服从标准正态分布,故Z 变换又被称为标准化变换。 4.正态分布的应用 (1)估计频数分布。 (2)制定参考值范围:医学参考值范围指绝大多数“正常人”的某项解剖、生理、生化 指标的波动范围。这里的“绝大多数”可以是90% 、95% 或99% 等,最常用的是95% 。所谓 “正常人”不是指完全健康的人,而是指排除了对所研究指标有影响的疾病和有关因素的同质 人群。 对于一个指标,随机抽取一个含量足够大的样本后,可参照表1-2 采用正态分布法或百分 位数法制定其医学参考值范围。 (1)正态分布法:适用于服从正态(或近似正态)分布的指标及可以通过转换服从正态 分布的指标。 (2)百分位数法:适用于偏态分布的指标。 表1-2  医学参考值范围的制定方法 参考值范围(%) 正态分布法百分位数法 双侧 单侧 双侧 单侧 只有下限只有上限只有下限只有上限 95 X ±1.96SX -1.645SX +1.645SP2.5 ~ P97.5 P5 P95 99 X ±2.58SX -2.326SX +2.326SP0.5 ~ P99.5 P1 P99 【习题】 1.某研究者测定了176 例燃煤型砷中毒患者的尿总砷含量(μg/L),资料如下: 0.0169 0.0262 0.3433 0.0505 0.2266 0.1690 0.0165 0.0356 0.0968 0.1628 0.0904 0.1059 0.0582 0.0211 0.0867 0.0318 0.0256 0.0267 0.1592 0.1364 0.0583 0.0275 0.2285 0.0246 0.0508 0.1076 0.0195 0.0400 0.0646 0.1109 0.0212 0.0164 0.1401 0.0646 0.0139 0.0377 0.0161 0.0121 0.0617 0.2686 0.0532 0.0724 0.1280 0.0143 0.0980 0.5678 0.0228 0.1279 0.0872 0.0675 0.0361 0.0680 0.0591 0.0821 0.1418 0.1051 0.0662 0.1033 0.1188 0.0887 0.0102 0.0154 0.1775 0.0223 0.0319 0.0986 0.1019 0.0419 0.0678 0.0347 0.0753 0.0532 0.0151 0.0219 0.1139 0.1124 0.0524 0.0290 0.0376 0.1510 6 第 1 部分 医学统计学 0.1250 0.0339 0.0549 0.0974 0.0753 0.2902 0.0222 0.0204 0.1325 0.0462 0.3047 0.0464 0.1486 0.0271 0.3953 0.0288 0.1520 0.0559 0.1244 0.1264 0.0576 0.0112 0.0222 0.4085 0.1128 0.0463 0.1240 0.0226 0.0809 0.0371 0.0183 0.1430 0.0559 0.0353 0.1333 0.2383 0.0929 0.0209 0.2748 0.0189 0.4542 0.0782 0.0741 0.1460 0.1317 0.0456 0.0499 0.0317 0.0863 0.0505 0.2691 0.3570 0.0227 0.0392 0.0406 0.0596 0.0260 0.0906 0.1516 0.0695 0.0723 0.0389 0.0810 0.2326 0.0311 0.0174 0.0868 0.0516 0.0970 0.0372 0.0126 0.0678 0.2133 0.5265 0.4385 0.0357 0.3706 0.0621 0.2330 0.0947 0.1591 0.0636 0.1845 0.0445 0.0430 0.0236 0.0429 0.0134 0.5805 0.0600 0.0387 0.0392 0.0747 0.0470 0.0425 0.2218 (1)绘制频数分布图,并简述分布类型和分布特征。 (2)计算适当的集中趋势指标。 2.抽样调查某市45 ~ 55 岁健康男性居民的血脂水平,184 名45 ~ 55 岁健康男性居民 的血清总胆固醇(TC )的X =4.84mmol/L,S=0.96mmol/L 。已知健康人的血清总胆固醇服从 正态分布,请完成下列计算: (1)估计该市45 ~ 55 岁健康男性居民的血清总胆固醇的95% 参考值范围。 (2)估计该市45 ~ 55 岁健康男性居民中,血清总胆固醇在3.25 ~ 5.25mmol/L 范围内的 比例。 (3)估计该市45 ~ 55 岁健康男性居民中,血清总胆固醇低于3.80mmol/L 所占的比例。 3.测得某地300 例正常人尿汞值,其频数表见表1-3 。请计算均数、中位数,并回答何 者代表性更好? 表1-3  300 例正常人尿汞值(μg/L )的频数表 尿 汞 值例  数尿 汞 值例  数 0 ~ 49 36 ~ 4 4 ~ 27 40 ~ 5 8 ~ 58 44 ~ - 12 ~ 50 48 ~ 3 16 ~ 45 52 ~ - 20 ~ 22 56 ~ 2 24 ~ 16 60 ~ - 28 ~ 9 64 ~ - 32 ~ 9 68 ~ 1 4.表1-4 为10 例垂体催乳素微腺瘤经蝶手术前后的血催乳素浓度,请分别求出术前、术 后的均数、标准差及变异系数。比较手术前后数据的变异情况应该采用何指标?能否说明手 术前数据的变异大?为什么? 7 预防医学实习和学习指导 表1-4  手术前后患者血催乳素浓度(mg/ml) 例号 血催乳素浓度 例号 血催乳素浓度 术前术后术前术后 1 276 41 6 266 43 2 880 110 7 500 25 3 1600 280 8 1700 300 4 324 61 9 500 215 5 398 105 10 220 92 5.某地微丝蚴血症患者53 例治疗后7 年用间接荧光抗体试验测得抗体滴度情况见表1-5, 试求平均抗体滴度。 表1-5  用间接荧光抗体试验检测某地微丝蚴血症患者抗体滴度 抗体滴度的倒数10 20 40 80160 例  数518 15 9 6 (张俊辉) 实习2 定量资料的统计推断 【实习目的】 1.掌握均数抽样误差的概念、意义和计算;t 分布的特点;区间估计的意义与应用; Ⅰ 型错误与Ⅱ型错误、检验效能的概念。 2.掌握均数的标准误与标准差的区别。 3.掌握均数的置信区间与医学参考值范围的区别。 4.熟悉假设检验的基本思想、步骤和注意事项,检验水准(a)和P 值的区别。 5.掌握3 种常用的t 检验的目的、公式、适用条件并能正确应用:① 样本均数与总体均 数比较的t 检验;② 配对t 检验;③ 成组t 检验。 【知识点】 (一)样本均数的抽样误差 1.样本均数的抽样误差 在抽样研究中,由于同质总体中的个体间存在差异(即个体变 异),即使从同一总体中随机抽取若干份样本,样本均数也常常不等于总体均数,且各个样本 均数之间也存在差异。这种由于随机抽样造成的样本均数与总体均数的差别,就称为样本均 数的抽样误差。在抽样研究中,抽样误差是不可避免的。 2.样本均数的标准误 样本均数围绕总体均数 μ 的离散程度,可以用样本均数的标准差 来描述。样本均数的标准差也称为样本均数的标准误σX ,其计算公式:σX = σ n 。 8 第 1 部分 医学统计学 标准误是描述样本均数抽样误差大小的指标,σX 越小,抽样误差越小,用样本均数估计 总体均数的可靠性越大。由式σX = σ n 可知,σX 的大小与σ 成正比,与n 成反比,即通过适 当增加样本含量可以减少标准误,降低抽样误差。在抽样研究中,总体标准差σ 常常是未知 的,因此常用样本标准差S 来估计抽样误差的大小,故样本均数标准误的估计公式为SX = Sn 。 均数的标准误与标准差的区别见表2-1 。 表2-1  均数的标准误与标准差的区别 均数的标准误标 准 差 意义反映样本均数X 的抽样误差的大小反映一组数据的离散情况 符号总体标准误σX ,样本标准误SX 总体标准差σ,样本标准差S σ 计算σX = n σ= n (X-μ)2 SX = SS= n n-1 (X-X )2 控制方法增大样本含量可减小标准误个体差异或自然变异,不能通过统计方法来控制 (二)t分布的特征 t 分布与标准正态分布相比有以下特征:① 都是单峰、对称分布。② t 分布峰值较低,而 尾部较高。③ t 分布曲线是一簇曲线,其形态与自由度ν 的大小有关;随自由度增大,t 分布 逐渐逼近标准正态分布,当ν →∞时,t 分布的极限分布是标准正态分布。 (三)总体均数的估计 总体均数的估计有点估计和区间估计两种方法。 1.点估计 点估计指用相应样本统计量直接作为总体参数的估计值,如用样本均数X 估 计总体均数μ。 2.区间估计的意义与应用 区间估计是指按预先给定的概率(1-α)确定的包含未知总 体参数的可能范围,该范围称为总体参数的置信区间(confidence interval,CI)。它的确切含 义是:CI 是随机的,总体参数是固定的,所以,CI 包含总体参数的可能性是1-α。不能理 解为CI 是固定随机的,总体参数是随机固定的,总体参数落在CI 范围内可能性为1-α。当α= 0.05 时,称为95% 置信区间,记作95% CI。当α=0.01 时,称为99% 置信区间,记作99% CI。如 无特别说明,一般取双侧95% 。95% 置信区间即按95% 置信度估计总体均数的可能范围,此 时估计正确的概率为95% 。 置信区间的计算方法有两种,可根据资料的具体情况选择: (1)σ 未知:按t 分布的原理估计置信区间,则总体均数的(1-α)置信区间的公式: (X -tα/2,ν SX , X +tα/2,ν SX )。 9 预防医学实习和学习指导 (2) σ 未知但n 足够大:这时t 分布近似服从Z 分布,估计总体均数的(1-α)置信区间的 公式:(X -Zα/2 SX , X +Zα/2 SX )。 置信区间估计的优劣:一定要同时从置信度(即1- α 的大小)与区间的宽度两方面来衡量。 3.均数的置信区间与医学参考值范围的区别 均数的置信区间与医学参考值范围的意 义、计算公式和用途均不同,详细区别见表2-2 。 表2-2  均数的置信区间与医学参考值范围的区别 区别点均数的置信区间医学参考值范围 意义按一定的概率(1-α) 估计总体均数的可能范围大多数 “ 正常人 ” 的某项解剖、生理、生化指标的 波动范围 计算公式 σ 未知:X ±tα/2, ν n S σ 未知 , 但n 较大:X ±Zα/2 n S 正态分布:X ±Zα/2 S 偏态分布:PX ~ P100-X 用途估计总体均数判断观察对象的某项指标正常与否 (四)假设检验的基本思想与步骤 1.假设检验的基本思想 把握“小概率事件在一次抽样试验中几乎不可能发生”的原理。 2.假设检验的基本步骤 (1)建立检验假设,选定单侧或双侧检验,确定检验水准。 (2)计算检验统计量。 (3)确定P 值,做出推断结论。 检验水准(或称显著性水准):即预先规定的小概率事件的水准,也是确定假设检验的差 异有无统计学意义的水准,符号为α,常取0.05 。 P 值指在H0 成立的条件下,获得大于及等于(或小于及等于)现有样本统计量的概率。 一般用算得的样本统计量查相应的界值表,确定P 值。将P 值与预先规定的检验水准 α 作比 较,做出推断结论。 (五)t检验 t 检验的应用条件:① 样本来自正态分布总体;② 两样本均数比较时,还要求两样本所属 总体的方差相等(即方差齐性)。 1.样本均数与总体均数比较的t 检验 目的是推断样本所代表的未知总体均数 μ 与μ0 有 无差别。这时检验统计量t 值的计算公式如下: X-μ0 X-μ0 t = = SX S/ n ν=n-1 2.配对t 检验 设计的差值均数与总体均数0 比较的t 检验,适用于配对设计的定量资 料。配对设计主要有以下3 种情况:① 配对的两个受试对象分别接受两种处理以后的数据; 10 第 1 部分 医学统计学 ② 同一样品用两种方法(或仪器等)检验的结果;③ 同一受试对象两个部位的数据。配对t 检验要求差值服从正态分布,目的是推断两种处理(或方法)的结果有无差别。检验统计量t 的计算公式如下: d-0 d t = = Sd Sd/ n ν=n-1 3.成组t 检验 成组设计两样本均数比较的t 检验,又称完全随机设计。成组t 检验的 目的是推断两样本均数X1 和X2 分别代表的两总体均数μ1 和μ2 有无差别。成组t 检验要求两样 本所属总体的方差相等,当两总体方差不等时可选择:① 近似t ′ 检验;② 通过变量变换达到 方差齐性后再采用t 检验;③ 选用非参数统计方法(如秩和检验)。 成组t 检验的计算公式如下: X1 -X2 X1 -X2 X1 -X2 t = = = SX1-X2 S2 c n1 1+1 S(12 n1-1)+S(2 n2-1) 11 2 n2 n1+n2 -2 n1 +n2 ν=n1+n2 -2 (六)Ⅰ型错误与Ⅱ型错误 1.Ⅰ型错误与Ⅱ型错误的概念 假设检验时,根据样本统计量所作的推断结论(拒绝 H0 或不拒绝H0)不一定是正确的,可能发生两类错误: (1)Ⅰ型错误:拒绝了实际上成立的H0,这类“弃真”的错误称为Ⅰ型错误,其概率常 用 α 表示。 (2)Ⅱ型错误:不拒绝实际上不成立的H0,这类“存伪”的错误称为Ⅱ型错误,其概率 用 β 表示。 β 值的大小很难确切估计,只有在已知样本含量n、两总体参数差值 δ 及所规定的 检验水准 α 的条件下,才能估算出 β 的大小。通常,当n 固定时, α 越小, β 越大;反之, α 越大, β 越小。 实际工作中,可根据研究目的适当控制 α 和β。样本含量n 固定时,若重点在于减小α, 一般取α=0.05 ;若重点在于减小β,一般取α=0.10 (或0.20)。只有增加样本含量才能同时 减小 α 和β。 2.检验效能的意义 1- β 称为检验效能或把握度,其统计学意义是若两总体确有差别, 按 α 水准能检出该差别的能力。例如1-β=0.9 的含义是若两总体确有差别,按 α 水准,理论 上平均每100 次抽样中有90 次能得出有差别的结论。检验效能越大,按 α 水准拒绝H0,推断 两总体均数确实有差别的把握就越大。 (七)假设检验的注意事项 (1)应注意比较组间是否具有可比性。 (2)根据研究目的、资料类型和设计类型选用恰当的检验方法。 11 预防医学实习和学习指导 (3)正确理解P 值大小与差别大小。 (4)结论不能绝对化。 【习题】 1.从某疾病患者中随机抽取25 例,其红细胞沉降率(mm/h )的均数为9.15 ,标准差 为2.13 。假定该类患者的红细胞沉降率服从正态分布,试估计其总体均数的95% 置信区间和 99% 置信区间。 2.经研究显示,汉族正常成年男性无名指长度的均数为10.1cm 。某医师记录了某地区 12 名汉族正常成年男性无名指长度(cm )资料如下: 10.05  10.33  10.49  10.00  9.89  10.15  9.52  10.33  10.16  10.37  10.11  10.27 问该地区正常成年男性无名指长度是否大于一般汉族成年男性? 3.某医院用新药与常规药物治疗婴幼儿贫血,将20 例贫血患儿随机等分两组,分别接 受两种药物治疗,测得血红蛋白增加量(g/L )见表2-3 。问新药与常规药的疗效有无差别? 表2-3  两种药物治疗婴幼儿贫血结果 治疗药物血红蛋白增加量(g/L) 新药组24 36 25 14 26 34 23 20 15 19 常规药组14 18 20 15 22 24 21 25 27 23 4.将20 例某病患者随机分为两组,分别用A、B 两药治疗,测得治疗前后的血沉(mm/h) 见表2-4 。问:① A、B 两药是否均有效?② A、B 两药疗效有无差别? 表2-4  A、B 两药治疗某病情况 序号1 2 3 4 5 6 7 8 9 10 治疗前30 33 26 31 30 27 28 28 25 29 A 药 治疗后26 29 23 30 30 24 22 25 23 23 序号11 12 13 14 15 16 17 18 19 20 治疗前29 30 29 33 28 26 30 31 30 30 B 药 治疗后26 23 25 23 23 25 28 22 27 24 (张俊辉 唐焕文) 实习3 方差分析 【实习目的】 1.掌握方差分析的基本思想。 2.掌握两种常见设计方案的方差分析方法 (1)完全随机设计的单因素方差分析:变异的分解、自由度的分解、P 值判断方法以及方 差分析表的完成。 12 第 1 部分 医学统计学 (2)随机区组设计的方差分析:变异的分解、自由度的分解、P 值判断方法以及方差分析 表的完成。 3.掌握方差分析的应用条件。 4.了解多样本均数间的多重比较方法:LSD-t 检验、SNK-q 检验。 【知识点】 (1)多个随机样本均数间的比较不应该简单采用多次t 检验来达到分析目的,否则会增大 Ⅰ 类错误(α),如3 个随机样本均数间的比较,采用t 检验需作3 次比较,其α=1-0.953 =0.1426, 远远大出0.05 。对于该类问题应改用本节介绍的方差分析。 (2)方差分析的基本思想是把全部观察值间的变异(总变异)按设计和需要分解成两个 或多个组成部分,将分解出的组成部分构建统计量(F),再以F 值判断假设检验P 值的一种 分析方法。 (3)完全随机设计的单因素方差分析 1)变异的分解:离均差平方和SS(sum of square) SS 总=SS 组间+SS 组内, ν 总= ν 组间+ ν 组内 SS总 = (Xij -X )2 :为全部观测值(Xij)间的变异(或全部观测值Xij 与总均数X 间的变 异), ν 总=N-1; SS组间 = ni2:为各组样本均数(Xi)间的变异(或各组样本均数Xi与总均数X 间 ( Xi -X ) 的变异), ν 组间=k-1; SS组内 = (Xij -Xi)2:为各组观测值(Xij)与各组样本均数(Xi)间的变异, ν 组内=N-k。 2)方差的计算:均方MS(mean of square) 由于离均差平方和(SS)受数值个数(自由度)的影响,需除去自由度(ν)计算方差(MS)。 MS 组间=SS 组间/ ν 组间:它反映处理因素的作用(T)和随机误差(E)的影响; MS 组内=SS 组内/ ν 组内:它仅反映随机误差(E)的影响。 3)构建统计量(F),作统计推断 F=MS 组间/MS 组内,故又称为F 检验。或F=(T+E)/E,若T 为“0”即各组均数间无差 异时,F=1,但由于抽样误差的影响,F≈1。 因此欲推断各组均数间有无差异,需判断F 值是否大于“1”且与“1”的差异是否为抽 样误差造成,即F 值要达到多大才有统计学意义。可以查F 界值表确定出P 值,根据检验水 准(α)做出统计推断。 4)方差分析表:见表3-1 。 表3-1  完全随机设计的单因素方差分析表 变异来源SS νMS F 组间变异ni( Xi -X )2 k-1 SS 组间/(k-1) MS 组间/MS 组内 组内变异(Xij -Xi )2 N-k SS 组内/(N-k) 总变异 ( Xij -X )2 N-1 13 预防医学实习和学习指导 (4)随机区组设计的方差分析:医学中欲研究某一因素的作用,为了避免其他混杂因素 的影响,可以采用配伍设计的方法,如按动物的体重、窝别进行配对,这样一来各比较组间 就具有了可比性,这种设计方法称为随机区组(配伍组)设计。 该类方差分析的总变异可分解为3 部分:组间变异、区组间变异、随机误差变异,即 SS 总=SS 组间+SS 区组间+SS 误差, ν 总= ν 组间+ ν 区组间+ ν 误差,见表3-2 。 表3-2  随机区组设计的方差分析表 变异来源SS νMS F 组 间ni( Xi -X )2 k-1 SS 组间/(k-1) MS 组间/MS 组内 区组间nj( Xj -X )2 b-1 SS 区组间/(b-1) MS 区组间/MS 组内 组 内SS 总-SS 组间-SS 区组间N-k-b+1 SS 组内/(N-k-b+1) 总变异 ( Xij -X )2 N-1 分别再以两个F 值查F 界值表确定出P 值,推断各组间以及各区组间有无统计学意义。 (5)值得注意的是,对于完全随机设计的两样本均数的比较,采用t 检验与采用完全随机 设计的方差分析的结果等价,即t2 =F;配对设计资料,采用配对t 检验与采用随机区组设计 的方差分析的结果等价,即t2 =F。 (6)多个样本均数间两两比较的方法很多,常用的方法有LSD-t 检验、SNK-q 检验,目 的是为了防止假阳性的增大。 (7)方差分析的应用条件与t 检验、u 检验相同:独立性、正态性、方差齐性,当正态性、 方差齐性不能满足时,可通过变量变换的方法使之满足要求,否则应改为非参数方法,如秩 和检验等。 【习题】 1.某医师为研究一种降糖新药的疗效,以统一的纳入标准和排除标准选择了60 例2 型 糖尿病患者,按完全随机设计方案将患者分为3 组进行双盲临床试验。其中,降糖新药高剂 量组21 例、低剂量组19 例、对照组20 例。对照组服用公认的降糖药物,治疗4 周后测得其 餐后2 小时血糖的下降值(mmol/L),结果见表3-3 。问:治疗4 周后,餐后2 小时血糖下降 值的3 组总体平均水平是否不同? 表3-3  2 型糖尿病患者治疗4 周后餐后2 小时血糖的下降值(mmol/L) 高剂量组低剂量组对 照 组 5.6 16.3 -0.6 2.0 12.4 2.7 9.5 11.8 5.7 5.6 0.9 7.8 6.0 14.6 12.8 7.0 7.0 6.9 8.7 4.9 4.1 7.9 3.9 1.5 9.2 8.1 -1.8 4.3 1.6 9.4 5.0 3.8 -0.1 6.4 6.4 3.8 14 第 1 部分 医学统计学 续表   高剂量组低剂量组对 照 组 3.5 6.1 6.3 7.0 3.0 7.5 5.8 13.2 12.7 5.4 3.9 8.4 8.0 16.5 9.8 3.1 2.2 12.2 15.5 9.2 12.6 1.1 6.0 11.8 2.将18 例原发性血小板减少症患者按年龄相近的原则配为6 个单位组,每个单位组中 的3 例患者随机分配到A、B、C3 个治疗组中,治疗后的血小板升高数值见表3-4 ,问3 种治 疗方案的疗效有无差异? 表3-4  3 种治疗方案血小板的升高值(104/mm3 ) 年 龄 组A B C 1 3.8 6.3 8.0 2 4.6 6.3 11.9 3 7.6 10.2 14.1 4 8.6 9.2 14.7 5 6.4 8.1 13.0 6 6.2 6.9 13.4 (刘军祥) 实习4 分类资料的统计分析 【实习目的】 1.掌握几种常用相对数指标及应用相对数的注意事项。 2.掌握动态数列及其指标。 3.掌握率的标准化法的基本思想及注意事项。 4.熟悉率的u 检验。 5.掌握独立样本四格表χ2 检验、独立样本R×C 列联表χ2 检验以及配对四格表资料的χ2 检验。 6.熟悉四格表资料的Fisher 确切概率法。 【知识点】 (1)常用的相对数主要有率、构成比、相对比3 种。率主要侧重于事件发生的频次,单 位时间内发生的频次则为强度,因此率分为频率和速率两种;构成比强调事物内部各部分所 占的比例,常用百分数表示,各个构成比之和必为1;相对比则是除了率和构成比以外任意两 15 预防医学实习和学习指导 个有联系的指标的比值。 (2)应用相对数时应注意计算时要有足够的观察单位数;分析时不能以构成比代替率; 应分别将分子和分母合计求合计率;相对数的比较应注意可比性;样本率或样本构成比的比 较应作假设检验。 (3)动态数列(dynamic series )是一系列按时间顺序排列起来的统计指标,用以反映 事物或现象在时间上的变化和发展趋势。动态数列分析建立在相对比基础上,采用定基比 和环比两种方式;不仅可以分析过去某事物的发生规律,而且可以预测将来的发生情况以 提供参考。 (4)两组率进行比较时,由于某因素在两组内部构成不同而可能影响到率,则需要采用 率的标准化法。它的基本思想是:采用统一的标准构成以消除某因素在两组内部构成不同对 率的影响,使通过标准化后产生的标化率具有可比性。 (5)应用率的标准化法应注意,标准化率仅适用于相互间的比较,并不代表真实水平, 实际水平应采用未标化率来表示;样本的标化率存在抽样误差,若要比较其代表的总体标化 率有无差异,需作假设检验;根据获得的信息选用适当的标准化法;率的标准化法不是万能 的,某些情况下不能使用。 (6)χ2 检验(chi-square test )是英国统计学家K.Pearson 于1900 年提出的一种应用范围很 广的统计方法,本章主要用于两个及两个以上样本率或构成比的比较。它的基本思想是:将 实际发生的甲、乙两组有效人数和无效人数称为实际频数(actual frequency),用符号A 表示, 在H0 假设成立的前提下,可由实际频数推算出甲、乙两组理论上应该有效和无效的人数,我 们称为理论频数(theoretical frequency),用T 表示。用χ2 统计量代表实际频数与理论频数的 吻合情况。若H0 成立,各个格子的A 与T 相差应该很小;A 与T 相差越大,χ2 越大,P 值会 越小,则越有理由认为H0 假设不成立,即拒绝H0。 χ2 (A-T)2 = T (7)两独立样本率或构成比的比较可采用χ2 检验基本公式,也可采用四格表专用公式或 校正公式。其条件如下:n 不小于40,T 不小于5 时,不需校正;n ≥ 40 时,如果有某个格 子出现1 ≤ T<5,需用校正公式;当n<40 或T<1 时,用Fisher 确切概率法检验。 四格表专用公式 : (ad -bc )2n χ2 = (a+b )(a+c) (c+d)(b+d) 校正公式 : χ2 = [(ad -bc )-n/2]2n (a+b )(a+c) (c+d)(b+d) (8)对于多个率比较的χ2 检验,结论为拒绝H0 时,仅表示多组之间有差别,并非任意两 组间都有差别。若要明确哪两组间不同,还需进一步作多组间的两两比较;R×C 列联表χ2 检 验要求理论频数不宜太小,一般不宜有1/5 格子理论频数小于5,或有1 个理论频数小于1; χ2 检验不适用于有序分类资料的比较分析。 16 第 1 部分 医学统计学 (9)配对四格表资料的χ2 检验,其基本思想与独立样本χ2 检验相同,主要用于推断两种 方法或仪器阳性率(有效率)有无差异。其计算公式为 当b+c ≥ 40 时,χ2 = (bb- + cc )2 当b+c<40 时,χ2= [(b-c )-1]2 b+c (10 )确切概率法的应用条件为样本含量n<40 ,理论频数T<1;χ2 检验后所得的概率P 接近检验水准α(满足任一条件)。 (11)χ2 检验不能用于单样本率与总体率的比较,解决此类问题可用率的u 检验,u 检验 也可用于两样本率的比较。 【习题】 1.某综合大学对各年级男生吸烟情况进行了普查,请根据表4-1 中的信息把表格补充完 整,并回答:① 哪个年级吸烟人数最多?② 哪个年级吸烟率最高? 表4-1  某大学各年级男生吸烟情况 年级男生数吸烟人数构成比(%)吸烟率(%) 大一2700 1080 大二2400 1008 大三2000 900 大四1600 800 研究生300 180 合计9000 3968 2.某医院肿瘤科医师对2012 年上半年收治的100 例胃癌患者的病历进行整理,发现其 中有大量饮酒史的患者仅20 例,而无饮酒史或偶尔饮酒者80 例。该医师据此得出大量饮酒 的人发生胃癌的风险更低。请问该医师的推论是否正确,请说明原因。 3.根据表4-2 资料,回答:① 如采用标准化法,应选用直接法还是间接法?② 哪个医院 的治愈率更高? 表4-2  甲、乙两医院某病治愈率比较 病情 甲医院乙医院 病例数治愈数治愈率(%)病例数治愈数治愈率(%) 轻60 54 90.0 100 86 86.0 中40 32 80.0 60 45 75.0 重100 64 64.0 40 24 60.0 合计200 150 75.0 200 155 77.5 17 预防医学实习和学习指导 4.某地50 岁以上颈椎病的发病率为20% ,在当地50 岁以上大学教师中抽取了120 人调 查,40 人患有颈椎病。问:大学教师颈椎病患病率是否高于当地一般水平? 5.对某地氟病区小学四年级学生的氟斑牙患病率进行抽样调查,情况见表4-3 。问:男 生的氟斑牙患病率与女生是否有差异?请分别用两种方法解答。 表4-3  某地四年级男、女生氟斑牙患病情况比较 性别调查数氟斑牙数患病率(%) 男200 160 80.0 女180 135 75.0 6.为了解国产厄贝沙坦(吉加)与进口厄贝沙坦(安博维)对于原发性高血压的疗效, 将60 名高血压患者随机分为两组,A 组用国产药,B 组用进口药,观察结果见表4-4 ,问两 药治疗原发性高血压疗效是否有差异? 表4-4  两降压药治疗原发性高血压疗效比较 分组有效无效合计 A 组25 3 28 B 组29 3 32 合计54 6 60 7.用A、B 两种试剂对已确诊为血吸虫病的80 例患者进行检测。结果,A 试剂检测为阳 性者70 例,B 试剂检测为阳性者72 例,A、B 两试剂均检测为阴性者2 例。问A、B 两试剂 阳性检出率是否不同?请列出表格进行分析。 8.对某大学3 个专业学生近视情况进行了抽样调查,见表4-5 。问:该校不同专业学生 近视率是否有差异? 表4-5  3 个专业近视率比较 专业调查数近视数近视率(%) 工商管理80 40 50.0 会计75 50 66.7 数学60 48 80.0 合计215 138 64.2 (杨 超) 实习5 秩和检验 【实习目的】 1. 掌握参数统计方法与非参数统计方法的区别及应用条件。 18 第 1 部分 医学统计学 2.熟悉3 种常见资料秩和检验的编秩方法及秩和的计算方法。 3.熟悉3 种常见资料秩和检验统计量计算方法及其P 值判断方法。 4.了解多样本之间两两比较的秩和检验方法。 【知识点】 (1)统计方法可分为两大类,参数统计和非参数统计。前面介绍的t 检验、u 检验、方差 分析属于参数统计方法,它们均要求随机样本来自的总体的分布为已知的(正态分布),并对 其未知的总体参数进行估计或检验,故称为参数统计方法。但实际工作中并非所有的数据均 满足正态分布的要求(或参数统计的要求),而且数据分布不明的情况也属常见,这就要求一 种不依赖数据分布的统计方法,非参数统计方法应运而生,它对总体的分布不作严格的限定, 称为任意分布检验(distribution –free test),由于不是对其总体参数作统计推断,又称为非参 数统计,χ2 检验、秩和检验属于该类统计方法。 (2)若对于符合参数统计的资料使用非参数统计方法,由于舍弃了资料的具体数值,造 成信息的丢失,将导致检验效能(power of test )降低(尤其当n 小时更明显)。故符合参数统 计的资料应首选参数统计方法,只有当参数统计条件不满足的情况下才应该选择非参数统计 方法。非参数统计主要适用于以下情况:① 数据分布不明;② 偏态分布;③ 等级资料;④ 有 不确定数据(如“>20”)的资料。 (3)秩和检验的基本思想是舍去原始数据将其转化为秩次(rank),并分组求出秩次之和即秩和 (rank sum),用秩和来反映数据的分布或分布位置(M)并对其进行检验的方法,故称为秩和检验。 (4)配对设计资料的秩和检验的目的是检验差值的总体中位数(Md)是否为0,先按差 值的绝对值大小进行编秩(注意取平均秩次),分别求出正秩和与负秩和,再以秩和按查表或 近似正态分布的方法确定P 值。 (5)完全随机设计两样本资料的秩和检验的目的是检验两组的总体中位数是否相同(分 布是否相同),先将两组数据混合在一起按数值大小进行编秩(注意取平均秩次),分别求出 各组秩和,再以秩和按查表或近似正态分布的方法确定P 值。 (6)完全随机设计多样本资料的秩和检验的目的是检验多组的总体中位数是否相同(分布 是否相同),先将各组数据混合在一起按数值大小进行编秩(注意取平均秩次),分别求出各组 秩和,以各组秩和计算出统计量H 值,再以H 值按查表或近似卡方分布的方法确定P 值。 (7)多样本之间两两比较时应避免多次比较导致假阳性增大的问题,多采用调整检验水 准(α)的方法。 【习题】 1.某环保局对10 个监测点分别用甲、乙两种方法检测大气中的SO2 日平均浓度(μg/m3) , 结果见表5-1 ,问两种方法的检测结果有无差异? 表5-1  10 个监测点用甲、乙两种方法的检测结果(μg/m3) 监测点甲法乙法 1 210 225 2 40 45 19 预防医学实习和学习指导 续表   监测点甲法乙法 3 320 335 4 30 37 5 232 250 6 35 30 7 35 34 8 300 327 9 45 53 10 45 45 2.为评价甲、乙两种麻药的麻醉效果,将患有同类型疾病的135 例患者随机分成两组, 分别给予甲、乙两种麻药,观察两组患者接受同种手术治疗的麻醉效果,结果见表5-2 ,问两 种麻药的麻醉效果有无差异? 表5-2  甲、乙两种麻药的麻醉效果 疼痛程度 病例数 合计 甲药乙药 + + 40 14 54 + 30 18 48 -15 18 33 合计85 50 135 3.用中草药、西药和混合核苷酸片3 种药物分别治疗急性黄疸性肝炎,结果见表5-3, 问该3 种药物治疗急性黄疸性肝炎的疗效有无差异? 表5-3  3 种药物治疗急性黄疸性肝炎的疗效 疗效 病例数 中草药西药混合核苷酸片 无效61 76 9 好转130 187 51 有效42 67 21 治愈12  3 13 合计245 333 94 (刘军祥 刘林华) 20 第 1 部分 医学统计学 实习6 直线相关与回归分析 【实习目的】 1.掌握直线相关、回归分析的用途。 2.掌握直线相关系数与回归系数的意义、计算、检验方法。 3.掌握等级相关系数的意义、计算、检验方法。 4.掌握直线相关与回归的区别和联系。 5.熟悉直线相关与回归分析应用中的注意事项。 【知识点】 1.直线相关分析用于分析两变量(x, y)间有无线性关系,即是正向变化还是负向变化; 直线回归进一步分析两变量(x, y)在数量上的依存关系,即是否可用自变量(x)对因变量 (y)进行线性估计。 2.相关系数(r)表示两变量(x, y)相关的紧密程度和方向:|r|越接近1,两变量的关 联强度越强;|r|越接近0,两变量的关联强度越弱,因此欲判断两变量间有无相关关系需检 验其总体相关系数(ρ)是否为0;r 的正负号表明了两变量间的相关方向,即是正相关还是负 相关。 3.当资料不适于作直线相关分析时,即不服从双变量正态分布、变量分布不清楚及等级 变量等,应改作秩相关分析,即把原变量编秩,再利用秩次进行相关分析。秩相关系数(rs) 的意义同r。 4.回归方程表示为:=a+bx。其中(y hat )表示给定自变量(x)时因变量(y)的 估计值,以区别于因变量(y)的实测值。a 为方程的常数项,即回归线在纵轴上的截距。回 归系数(b)表示自变量(x)对因变量(y)在数量上的影响程度,|b|越大,x 对y 的影响 越大,|b|越接近0,x 对y 的影响越弱,因此欲判断两变量间有无回归关系需检验其总体回 归系数(β)是否为0;b 的正负号表明了两变量的变化方向。 5.相关系数(r)和回归系数(b)可用计算器或统计软件计算出,其中b 的计算是利用 最小二乘法原理即残差平方和最小。r 的假设检验目的是检验其 ρ 是否为0,即r 与0 差异是 否由抽样误差造成,可采用查表法或t 检验;rs 的假设检验目的是检验其ρs 是否为0,可采用 查表法或t 检验;b 的假设检验目的是检验其 β 是否为0,即b 与0 差异是否由抽样误差造成, 可采用方差分析或t 检验。还应注意,同一资料r 与b 的假设检验是等价的,即有tr =tb。 6.线性相关与回归分析时要求两变量有线性关系,一般在分析之前应绘制两变量的散点 图,以观察有无线性趋势,若无线性趋势则不应采用线性相关和回归分析。另外还应注意变 量的正态性。 【习题】 1.某单位研究某代乳粉营养价值时,测得大白鼠进食量和体重增量的结果见表6-1 ,请 完成下列要求。 21 预防医学实习和学习指导 表6-1 大白鼠进食量(g)和体重增量(g)的关系 编号1 2 3 4 5 6 7 8 进食量(g) 820 780 720 867 690 787 934 750 体重增量(g) 165 158 130 180 134 167 193 150 (1)绘制大白鼠进食量与体重增量的散点图,观察有无线性趋势。 (2)拟合大白鼠进食量对体重增量的直线回归方程。 (3)检验拟合的回归方程有无统计学意义。 (4)在大白鼠进食量与体重增量的散点图中绘制出回归直线,并观察回归直线必然通过 哪两个点。 2.某人测得10 名20 岁男子的身高(cm )与臂长(cm )资料见表6-2 ,请完成下列要求。 表6-2 20 岁男子身高与臂长的关系 身高(cm) 170 173 160 155 173 188 178 183 180 165 臂长(cm) 45 42 44 41 47 50 47 46 49 43 (1)绘制身高与臂长的散点图,观察有无线性趋势。 (2)计算相关系数r,并检验其有无统计学意义。 (3)若相关系数有统计学意义,进一步作线性回归分析,请拟合身高对臂长的回归方程 并对其回归系数b 作假设检验。 (4)观察该资料r 与b 的假设检验有何关系。 3.某疾病预防控制中心(CDC )对8 个城市进行肺癌死亡回顾性调查,并监测了各个城 市大气中苯并芘的浓度,结果见表6-3 ,试问肺癌死亡率与大气中苯并芘浓度有无关系? 表6-3 苯并芘浓度(μg/100ml )与肺癌死亡率(1/10 万)的关系 城市编号1 2 3 4 5 6 7 8 肺癌死亡率 苯并芘浓度 5.60 0.05 18.50 1.17 16.20 1.05 11.40 0.10 13.80 0.75 8.13 0.50 18.00 0.65 12.10 1.20 (刘军祥) 实习7 统计图表 【实习目的】 1.熟悉制表和制图的基本原则及其注意事项。 2.掌握统计图的正确选择。 【知识点】 (一)统计表与统计图的基本概念 将统计资料及其指标以表格形式列出,称为统计表(statistical table)。 22