第3章 描述统计分析   统计分析的目的是研究总体的数量特征。为了实现上述分析,往往采用两种方式实现:一是数值计算,即计算常用的基本统计量的值,通过数值来准确反映数据的基本统计特征;二是图形绘制,即绘制常见的基本统计图形,通过图形来直观展现数据的分布特点。通常,这两种方式都是混合使用的。   SPSS 的许多模块均可完成描述分析,但专门为该目的而设计的几个模块则集中在【分析】菜单中。最常用的是列在最前面的5个过程。 * 频数分析:产生频数表。 * 描述统计分析:进行基本的统计描述分析。 * 探索性分析:进行探索性分析。 * 列联表分析:进行列联表分析。 * 比率分析:描述两个数值变量间比率的摘要统计量的综合列表。 3.1 频 数 分 析   频数分析是把握数据分布特征的描述性统计中最常用的方法之一。SPSS的频数分析过程不但可以分析变量变化的基本趋势,还可以生成相应的统计图表。 3.1.1 频数分析概述   频数也称为次数,是指同一观测值在一组数据中出现的次数。而频率则是每个小组的频数与总数值的比值。另外,在变量分配数列中,频数表明对应组标志值的作用程度,其值越大表明该组标志值对于总体水平所起的作用越大;反之亦然。用户在使用频数分析数据之前,还需要先了解一下频数分析中的统计量、参数、频率分析图表等一些频数分析的基础内容。 1. 频数统计量   在 SPSS 中,频数分析是运用统计量和图形来描述多种类型的变量,并可以在其分析结果报告中运用升序和降序方法来排列不同的变量。另外,当变量具有多个值时,可以通过提取频率报告,或者使用默认值或百分比标记图表的方法来分析。在使用频数统计分析数据之前,还需要先了解一下频数的统计量。   (1) 百分位值:用于描述数值在一组数据中的相对位置,包括百分位数、Z分数等。   (2) 集中趋势:是描述分布位置的统计量,包括均值、中位数、众数等。   (3) 离散程度:是测量数据中变异和展开的统计量,包括标准方差、方差、最小值、最大值。   (4) 分布指标:是描述分布形状和对称性的统计量,包括偏度系数、峰度系数等,这些统计量与其标准差一起显示。 2. 频数分布表中的参数   在使用 SPSS 编制频数分布表时,还需要了解下列术语及参数。   (1) 频数:是指变量值在某个区间内出现的次数。   (2) 百分比:是指各频数值与总样本数的比率。   (3) 有效百分比:是指各频数与总体有效样本数的比值。   (4) 累积百分比:是指各百分比的累计值。 3. 频数分析中常用图表   在频数分析中,经常会使用图表功能,形象且直观地显示变量之间的取值情况。其中,最常用的统计图表有以下3种。   (1) 条形图。条形图是使用条形直观地显示频数分布变化的图形,包括单式和复式两种条形图,该图形适用于分析定序和定类变量。   (2) 饼图。饼图是使用圆形或扇形来显示频数百分比变化的一种图形,主要用于显示各部分对整体的贡献情况,该图形适用于数据的结构组成分析。   (3) 直方图。直方图是使用矩形的面积来显示频数分布变化的一种图形,此图仅适用于区间型数值变量。该图形适用于分析定距型变量。另外,还可以通过为直方图添加正态分布曲线的方法来比较正态分布结果。 3.1.2 频数分析的SPSS操作详解   打开主操作界面。选择菜单栏中的【分析】|【描述性统计】∣【频率】命令,弹出【频率】对话框,这是频数分析的主操作界面,如图3.1所示。   选择分析变量。在【频率】对话框左侧的候选变量列表框中,选取一个或多个待分析变量,将其移入右侧的【变量】列表框中。   输出频数分析表。在【频率】对话框的下方选中【显示频率表格】复选框,即可输出频数分析表。   其他基本统计分析。在【频率】对话框中还可以单击【图表】、【格式】等按钮,这些选项提供了丰富的统计输出结果。   单击【频率】对话框中的【统计】按钮,弹出如图3.2所示的【频率:统计】对话框,在该对话框中可以设置输出各类基本统计量结果。其中各选项的含义介绍如下。   (1) 【百分位值】选项组。该选项组主要用于设置输出的百分位数,包括3个复选框。 * 【四分位数】:表示将观察值分为4个大小相等的组,如25%、50%、75%这几个百分位数。 * 【分割点】:表示将数据平均分为所设定的相等等份,在其后的文本框中所设置的数值必须为2~100的整数。 * 【百分位数】:表示由用户随意指定单个百分位值。例如,指定95%个百分位数,表示将有95%的观察值大于该值。在该选项中,指定百分位值之后,可通过单击【添加】按钮,添加百分位值;单击【更改】按钮,更改百分位值;同样通过单击【删除】按钮,删除百分位值。   (2) 【集中趋势】选项组。该选项组主要用于设置输出表示数据集中趋势数据统计量,包括4个选项。 * 【平均值】:表示算术平均值,是总和除以个案的结果值,该方法是一种集中趋势的测量。 * 【中位数】:又称为中数,表示第 50 个百分位的数值。当个案个数为偶数时,则中位数是个案在升序或降序排列的情况下最中间两个个案的平均。另外,中位数是集中趋势的测量,对于远离中心的值并不敏感。 * 【众数】:众数是一组数组中最频繁出现的值,当数组中出现多个频繁出现的值时,则每一个数值都是一个众数,但频率分析过程中只会显示多个众数中最小的数值。 * 【合计】:表示所有带有非缺失值的个案值的合计值。   (3) 【离散】选项组。该选项组主要用于设置输出表示是测量数据中变异和展开的统计量,包括6个选项。 * 【标准偏差】:表示对围绕均值的离差的测量,其值越大表示数据的离散程度越大。 * 【方差】:该值等于与均值的差的平方和除以个案数量减去1,其度量方差的单位是变量本身的单位的平方。 * 【范围】:又称为全距,表示数值变量的最大值与最小值之间的差,即最大值减去最小值,是描述数据离散情况最简单的一种分析方法。 * 【最小值】:表示数值变量的最小值。 * 【最大值】:表示数值变量的最大值。 * 【平均值的标准误差】:表示取自同一分布的样本与样本之间均值差的测量。   (4) 【分布】选项组。该选项组主要用于设置输出表示数据分布的统计量,包括两个选项。   【偏度】:表示分布的不对称性度量,当偏度值为0时,表示正态分布;当偏度值超过标准误差的两倍时,表示不具有对称性。 * 【峰度】:用于观测值聚焦在中点周围的程度的一种测量,当峰度值为0时表示正态分布,其分布的峰度比较高而狭窄。   (5) 【值为组的中点】:表示当数据中的值为组中点时,应启用该复选框用来估计原始未分组数据的中位数和百分位数。   单击【频率】对话框中的【图表】按钮,弹出如图3.3所示的【频率:图表】对话框,在该对话框中可以设置输出图形结果。   在【频率:图表】对话框中,主要包括【图表类型】和【图表值】两个选项组。其中,在【图表类型】选项组中各选项的含义如下。 * 【无】:选中该单选按钮,表示在结果中将不显示图表。 * 【条形图】:选中该单选按钮,表示在结果中将以条形图的样式显示分析数据。 * 【饼图】:选中该单选按钮,表示在结果中将以饼图的样式显示分析数据。 * 【直方图】:选中该单选按钮,表示在结果中将以直方图的样式显示分析数据。 * 【在直方图上显示正态曲线】:该复选框只有在选中【直方图】单选按钮后才可用。启用该复选框,表示在直方图中显示正态分布曲线,用以判断分析结果数据是否接近于正态分布。   另外,在【图表类型】选项组中,选中【条形图】或【饼图】单选按钮时,【图表值】选项组中的选项才能显示为可用状态。而在【图表值】选项组中,主要包括【频率】和【百分比】单选按钮。其中,【频率】单选按钮表示所选择的图表将以频数为单位进行显示;而【百分比】单选按钮表示所选择的图表将以百分比为单位进行显示。   输出格式、样式选择。单击如图3.1所示的【频率】对话框中的【格式】按钮,弹出如图3.4所示的【频率:格式】对话框,在该对话框中可设置频数表输出的格式。 图3.4   在【频率:格式】对话框中,各选项的含义如下。   (1) 【排序方式】选项组。该选项组主要用于设置输出表格内容的排序方式,包括4个选项。 * 【按值的升序排序】:表示对频数分布按照数值的大小进行升序排列。 * 【按值的降序排序】:表示对频数分布按照数值的大小进行降序排列。 * 【按计数的升序排序】:表示对频数分布按照频数的大小进行升序排列。 * 【按计数的降序排序】:表示对频数分布按照频数的大小进行降序排列。   (2) 【多个变量】选项组。该选项组主要用于设置变量的输出方式,包括两个选项。 * 【比较变量】:表示在单个表中显示所有的变量。 * 【按变量组织输出】:表示显示每个变量的独立统计量表。   (3) 【排除具有多个类别的表】复选框。   选中此复选框时,可在下面的文本框中设置最大类别数。   单击如图3.1所示的【频率】对话框中的【样式】按钮,弹出如图3.5所示的【表样式】对话框,在该对话框中可以设置频数表输出的样式。 图3.5   相关统计量的自助抽样估计。   自助抽样是一种非参数统计方法,也是一种从样本计算得到的估计值来做出有关这些总体参数的推论。使用自助抽样方法可以导出稳健的标准误差值,并能为如均值、中位数、比例、相关系数或归回系数等估计值导出置信区间。另外,自助抽样方法还可以用于构建假设检验。   单击如图3.1所示的【频率】对话框中的Bootstrap按钮,弹出如图3.6所示的Bootstrap对话框,在该对话框中可以进行统计量的自助抽样估计。   在Bootstrap(自助抽样)对话框中,启用【执行bootstrap】复选框,使自助抽样各选项处于可用状态。其中,各选项的含义介绍如下。 * 【样本数】:可通过在文本框中指定一个正整数的方法,来设置自助抽样执行时所需要的样本个数。而当用户需要生成百分位数和偏差修正加速区间时,至少需要1000个自助抽样样本。其取值范围在0~21内。 * 【设置MersenneTwister种子】:启用该复选框,可以允许用户复制分析,另外所设置种子会保留随机数生成器的当前状态,并在分析完成后恢复该状态。其取值范围在1~2000000000内。 * 【置信区间】:指定一个大于50且小于100的置信水平。其中,【百分位】选项表示简单地使用对应于所需置信区间百分位数的有序自助抽样值。而【偏差修正加速(B)】选项表示该区间为调整区间,分析比较长。 * 【抽样】:在该选项组中主要包括【简单】与【分层】两个选项,其中,【简单】选项表示通过放回方式从原始数据集进行个案重新取样;而【分层】选项表示通过放回方式从原始数据集进行个案重新取样,但在层次变量的交叉分类定义的层内。如果层中的单元相对均一,且不同层间的单元相差较大,则分层自助抽样非常有用。   另外,用户在使用自助抽样方法进行频数分析时,还需要注意以下几点。   (1) 自助抽样不能用于多重插补数据集。如果数据集中存在Imputation_变量,Bootstrap(自助抽样)话框将被禁用。   (2) 自助抽样使用列表删除来确定个案基础,即在任何分析变量上具有取缺失值的个案将从分析中删除,因此当自助抽样生效时,不管分析过程中是否制订了其他处理缺失值的方法,该列表删除照样处于生效状态。   (3) 频率分析结果中的统计表支持均值、标准差、方差、中位数、偏度、峰度和百分位数的自助抽样估计。   (4) 统计分析结果中的频率表支持百分比的自助抽样估计。   完成操作。   单击图3.1所示的【频率】对话框中的【确定】按钮,结束操作,SPSS软件自动输出结果。