引导视频 第3章统计数据的整理与显示 知识目标 掌握统计整理的步骤; 了解统计整理的意义、目标及要求; 掌握统计分组的原则及步骤; 掌握变量数列的编制方法; 掌握统计数据的显示方法。掌握分类数据条形图、饼图的SPSS绘制; 掌握数值型数据直方图、茎叶图、箱线图的SPSS绘制; 掌握问卷数据整理和SPSS图形显示; 熟练运用统计图表对数据进行分析。 能力目标 能够进行统计数据的分组并编制变量数列; 能够编制和绘制统计表和统计图; 能够利用SPSS进行统计资料的整理与显示。 3.1统计数据整理概述 通过各种调查方法和手段将原始数据收集上来,只是完成整个社会经济调查的一部分工作。我们的目的是通过对这些数据作进一步分析与解释,来揭示现象或事物的本质和规律,最终解决具体的实际问题。但调查所取得的原始数据一般是零散的、不系统的,难以直接分析或说明问题,这就需要对数据进行加工或处理,使之成为可用于分析的系统化、条理化的资料。统计数据整理是处于数据收集与数据分析之间的一个必要环节,是统计调查的继续,也是统计分析的前提。 3.1.1统计数据整理的意义 定义3.1统计数据整理,就是根据统计研究的任务与要求,运用科学的方法,对调查得到的大量的原始数据资料进行科学分组、汇总和显示,使之成为系统化、条理化、适用于分析和解释的资料的工作。 数据资料整理的意义主要有以下几个方面。 (1) 统计数据资料整理是进行资料分析的前提。调查得到的原始数据资料往往是比较零散的、粗糙的,不能直接用于分析或说明问题。这就需要对这些数据资料进行分组、加工和汇总,使其具备满足一定需要的形式。资料整理本身虽然不能提供所研究问题的直接答案,但为我们进行科学分析、判断和解释提供了必要的条件。因此,资料整理的正确性直接影响着分析研究所得出的结论。 (2) 统计数据资料整理是社会经济调查从感性认识上升到理性认识的连接点。通过调查取得的数据资料只是对事物表面现象的一种反映,而不能说明事物的本质特征。或者说,这些资料只是我们对事物的一种感性认识,是认识的一个起点。要对客观事物作出正确的分析与判断,并得出科学结论,就需对调查资料进行加工整理,“由此及彼,由表及里”,从而由感性认识上升到理性认识。 3.1.2统计数据整理的目标和要求 资料整理的总体目标,是使调查资料能够说明和反映我们所研究的问题。具体地说,就是要把反映个体特征的原始资料过渡到反映总体特征的分析指标。为实现这一目标,资料整理应符合以下要求。 (1) 资料整理应符合研究目的的要求。这是整理资料的基本要求。我们在研究某一问题时,往往需要搜集大量的有关资料。这些零散的资料只反映了问题的一部分或不同侧面。即使是同一资料,由于研究的问题或研究角度的不同,可以采取不同的方法进行整理,用来说明不同的问题。因此,整理资料必须符合调查研究目的的要求,使其能够用于分析我们所研究的问题。 (2) 资料整理要真实、客观和统一。真实性和客观性要求是指在整理资料时,不能为了某种特定的目的或得出主观上想要得出的结论,而任意增加某些资料或有意剔除某种资料,或者对调查资料作任意改动,以符合自己结论的需要。而应保持原有资料的本来面目,在此基础上进行加工整理,从而得出客观的结论。统一性要求对各项调查指标要有统一的解释,前后一致,避免前后矛盾或概念上不一致。同时要求各调查指标在计量单位、计算口径和计算方法上一致,以便进行比较和分析。 (3) 资料整理要做到条理化、系统化,符合简化资料、扩大信息量的要求。资料整理的目的在于简化资料,使其便于理解、分析和解释。但简化并不意味着剔除、损坏调查资料的某些信息。而是在充分保障原始资料信息的条件下,对调查资料进行必要的归纳、分析或分组、汇总及计算,从而扩大原有资料的信息量,使之能概括性地反映我们所研究的问题。实现这一目的的手段就是使调查资料条理化和系统化。条理化即对资料进行必要的分类,从而简化资料; 系统化就是使资料能全面、概括性地说明所研究的问题。 3.1.3统计数据整理的步骤 统计数据的整理是一项十分复杂而细致的工作,必须有组织、有计划地采用科学的方法进行,通常包括以下几个步骤。 1. 设计统计整理方案 统计整理方案又称统计汇总方案,它将明确规定统计分组的方法和设置汇总的统计指标,并对统计数据整理工作作出统一的安排和布置。 统计整理方案包括: ①确定统一的分组方法; ②确定统一的汇总内容; ③确定统一的工作程序安排; ④确定整理结果的统一表达方式。 2. 审核统计数据资料 为保证数据的质量,首先需要进行审核,为进一步的整理与分析打下基础。审核就是对调查取得的原始资料进行审查与核实,其目的在于保证数据与资料的完整性、准确性、客观性。在调查过程中,由于所研究的问题和采取的调查方法不同,所取得的调查资料也是各式各样的。对于不同类型的资料,审核内容、方法和侧重点有所不同,但一般而言,审核主要包括完整性、及时性、准确性三个方面。 (1) 完整性审核。 完整性审核主要是审核所有的调查单位是否有遗漏,调查的项目和各项指标是否填写齐全。如不齐全,应查明原因,予以填补。 (2) 及时性审核。 审核数据资料的及时性,需要审核以下两个方面: 一是要检查数据资料与实际发生的时间间隔长短。一般来说,两者的间隔越短越好,因为对于有些时效性较强的问题,如果调查资料过于滞后,可能失去了研究的意义。二是要检查所填指标的所属时间与调查要求的指标所属时间是否一致。若两者不一致,则不能用来分析所研究的问题。 (3) 准确性审核。 资料的准确性也称为正确性,是审核的重点和关键。对资料准确性的审核一般从以下方面入手: 一是逻辑检查,主要是审核原始数据资料的内容是否合理,被调查的项目之间有无矛盾的地方。例如,在人口调查表中,“与户主关系”填写的是“父女”,而在“性别”一栏填写的是“男”,这其中必有一栏填错。二是计算检查,主要是通过计算表中的各项数字有无差错,各项指标的计算方法、计算口径、计算范围、计量单位等是否正确。 3. 统计分组 定义3.2根据社会经济现象的特点和统计研究的目的要求,按照一个或几个标志,将统计总体划分为若干不同性质而又有联系的几个部分,称为统计分组。 统计分组的对象是总体,统计分组的标志可以是品质标志,也可以是数量标志。 统计分组同时具有两个方面的含义: 对总体而言,是“分”,即将总体区分为性质相异的若干部分; 对个体而言,是“合”,即将性质相同的个体组合起来。就作为分组标准的这一标志而言,同组的个体单位间都具有相同之处,不同组的个体单位则具有相异之处。经过统计分组后,统计总体内部就会形成“组内性质相同,组间性质相异”的各个组成部分,统计分组的实质是在统计总体内部进行的一种定性分类。 4. 统计汇总 在对调查资料进行分类或分组之后,下一步的工作就是汇总整理。资料汇总的技术主要有手工汇总和计算机汇总两种。 1) 手工汇总 手工汇总是用算盘或小型计算器进行的汇总,在信息技术广泛应用以前,一直是我国汇总工作最普遍使用的技术。常用的手工汇总方法有以下几种。 (1) 划记法。这种方法是用点、线等符号代表每个总体单位,汇总时视总体单位属于哪一组,就在那一组的栏内点一个点或画一条线,最后计出各组的点或线的数目,得出各组的总体单位数。目前一般采用画“正”字的办法来进行。这种划记法适合于对总体单位数的汇总。 (2) 折叠法。这种方法是把所有调查表中需要汇总的某一纵栏或横行的项目、数值全部折在边上,并一个一个地叠放在一起,然后将这些调查表同一纵栏或横行的项目、数目逐项汇总。这种汇总方法省时省力,适合对标志数值进行汇总。 (3) 卡片法。这种方法是先要准备好摘录卡片,将每个总体单位需要汇总的项目和数值摘录在一张卡片上,然后根据卡片进行分组和汇总计算。采用这种汇总方法的主要步骤: 第一步是编号; 第二步是摘录; 第三步是分组计数。 当总体单位数目和分组比较多时,采用卡片法汇总是手工汇总中较好的一种方法。手工汇总中的卡片法逐渐发展为机器汇总,后来又发展为计算机汇总。 2) 计算机汇总 电子计算机汇总是在20世纪中叶发展起来的进行统计资料汇总的方式,利用现代电子计算机技术进行统计资料汇总和计算工作,是统计汇总技术的新发展,也是统计资料整理工作现代化的方向。电子计算机具有运算速度快、信息量大、丢失资料少、精确度高的特点,因而适用于集中进行大量统计资料的汇总和计算工作。它的应用将使统计人员从大量的数字计算工作中解脱出来,从而集中精力进行统计分析研究工作。电子计算机技术的广泛应用,必将推进我国统计信息自动化的进程。 运用电子计算机进行数据处理及汇总,包括对原始数据的加工、存储、合并、分类、逻辑检查、运算及打印汇总表样式或图形等。 电子计算机数据处理的全部过程大体上分为五个步骤。 (1) 选择计算机软件包或自编程序。电子计算机进行数据处理必须依赖于程序的指令。因此,选择计算机软件包或自编程序是一个重要的工作步骤,是按计算机语言对统计汇总工作进行全面系统的安排,电子计算机将按照它的规定来进行活动。目前,国家统计局已开发出一些通用的数据处理软件,可根据统计汇总工作的具体要求,选择适用的软件包。 (2) 编码。编码是根据程序规定把各种数字型信息、文字型信息、图像型信息转换成便于计算机识别和处理的另一种符号体系的过程。编码的质量不仅影响数据录入的速度和质量,还影响数据处理的最终结果。 (3) 数据录入。数据录入就是将经过编码后的数据和实际数字通过录入设备记载到存储介质上的工作。存储介质是指软磁盘、磁带、纸带、穿孔卡等记录数据和文件的载体,特别是电子计算机载体及一些新兴材料载体,存储的信息容量大、效率高,可以更有效地、更丰富地存储信息。 (4) 逻辑检查。逻辑检查也称“编辑审核”,就是按照事先规定的一套逻辑检查规则对输入电子计算机的原始数据进行分析、比较、筛选、甄别、整理等,将误差超过允许范围内的一些数据退回去,重新检查改正,把在允许范围内的个别错误按编辑规则改正,决定逻辑检查效果的关键是制定的编辑规则的合理性。 (5) 数据显示。数据显示的方式有表格显示和图形显示两种。 表格显示是利用统计表格将有关数据表述出来; 图形显示是在表格显示的基础上,将数据绘制成某种图形。数据显示具有直观、形象、醒目等特点。目前可以利用现成的制图软件绘制出所需要的各种图形。 5. 编制分配数列 编制分配数列可以帮助研究人员确定其数据分布特征。分配数列是在统计分组后,总体的所有单位按组归类合并排列,形成的总体单位在各组间的分布。 分配数列的实质是把总体的全部单位按某标志所分的组进行次数分配所形成的数列,又称次数分配数列。 6. 统计数据的显示 编制统计表,绘制统计图,从而使统计数据的表现条理化和系统化。 3.2统 计 分 组 3.2.1统计分组的原则 1. 穷尽性原则 穷尽性原则也称为不遗漏原则,即统计分组必须保证总体的每一个单位都能归入其中的一个组,各个组的单位数之和等于总体单位总量,总体的指标必须是各个单位相应标志的综合。违背了这一原则,就会损害统计资料的完整性,从而损害了统计资料的真实性。 按照穷尽性原则分组,需要重点注意的是分组的范围,它必须包括总体各单位在分组标志上的全部表现。也就是说,按品质标志分组时,组数是品质标志的全部类型; 按变量分组时,最大组的上限应大于最大标志值,最小组的下限应小于最小标志值。 2. 互斥性原则 互斥性原则也称为不重复原则,即统计分组必须保证总体的每一个单位只能属于其中的一个组,不能出现重复统计的现象,否则,就必然会影响统计资料的真实性。 在具体的分组过程中,为了保证各组之间不重复,按品质标志分组要重点注意对各组范围、特征、性质的界定,对于性质上较为复杂的单位要作出明确、统一的处理规定。例如,某商场将服装分为男装、女装、童装三类,就不符合互斥原则,因为童装也有男装女装之分,若先将服装分为成年与儿童两类,每类再分为男女两组,这就符合互斥原则了。 在按变量分组时,要重点注意相邻组之间重叠组限上的单位归属问题。统计的一般处理原则是,重叠组限上的单位归入下限组,即“上限不在内”原则。 3.2.2统计分组的步骤 统计分组一般经过两个步骤,即选择分组标志和编制分组表。 1. 选择分组标志 1) 分组标志选择的原则 (1) 要根据研究的目的和任务选择分组标志,研究目的不同,分组标志也不同。例如,在对某校学生这一总体的研究中,每一个在校学生都是总体单位,学生有年龄、民族、性别、身高、学习成绩等许多标志,如果要了解学生的学习情况,只能选择学习成绩作为分组标志,而不能选择其他的标志。 (2) 要选择能够反映事物本质或主要特征的标志。例如,研究某地区职工生活水平,可以以职工的工资水平作为分组标志,也可以以职工家庭成员平均收入水平作为分组标志。究竟选用哪一个分组标志更能充分反映职工的生活水平呢?显而易见,职工的工资水平并不能反映职工的生活水平高低,还要看他的家庭人口多少等,如果他的家庭人口多,需要赡养的人口多,即使他的工资高,其生活水平也不一定高。因此,选用工资水平这个标志不恰当,应选用按家庭成员计算的人均收入水平作为分组标志。 (3) 要结合历史条件及经济条件来选择。例如,研究企业规模,在以手工操作为主的条件下,可选择职工人数作为分组标志,而在现代化大生产条件下,则需要选择以设备为基础的工业产品生产能力或固定资产原值等标志来进行分组。 2) 分组标志的种类 分组标志的种类有许多,通常可以分为四类,即品质标志分组、数量标志分组、空间标志分组和时间标志分组。 (1) 品质标志分组。它是选择反映事物属性或本质差异的标志作为分组标志的。例如,人口按性别分为男、女两组,企业按所有制分为全民企业、集体企业、私营企业、合资企业等几组。品质标志分组实际上是对调查资料的一种定性分类。事物间的属性差异相对固定,因此按品质标志分组时各组间的界限易于确定,分组也较容易,如表31所示。 表31我国2007年人口数及其构成 按性别分组人数/万人比重/% 男 68048 51.5 女 64081 48.5 合计 132129 100.0 (2) 数量标志分组。它是选择反映事物数量差异的标志作为分组标志的。例如,人口按年龄大小分组、家庭按人口多少分组、企业按固定资产价值的多少分组等。数量标志分组实际上是对调查资料的一种定量分类,其关键问题是确定各组间的数量界限。由于事物之间的数量差异不一定代表它们之间质的不同,而且数量差异具有相对不稳定性,所以按数量标志分组不易于确定各组间的界限。但分组时应尽力使分组界限能够区分各组之间质的差异性,从而有助于我们通过对事物量的分析揭示出它们的本质特征,如表32所示。 表32某班学生学期末考试情况 考试成绩学生数/人比重/% 60分以下48 60~70分714 70~80分1428 80~90分1938 90~100分612 合计50100 (3) 空间标志分组。空间标志分组就是按调查资料所属的地理位置或区域范围进行分组。例如,人口按居住地区分组,人均收入水平按不同地区分组等。这种分组可用于研究事物在不同空间上的分布状况,或者进行比较研究。 (4) 时间标志分组。按资料所属时间先后顺序进行分组。例如,研究2014—2019年城乡居民家庭人均收入,可以按时间分组。当然,也可以按空间分组。 2. 编制分组表 分组标志确定以后,下一步的任务就是编制分组表,因为使用图、表是统计的一个特点。分组表是汇总整理的综合表的主要形式。分组表的形式主要有两种: 简单分组和复合分组。 定义3.3简单分组就是选用一个标志对资料进行分组。 表31和表32都是简单分组。 定义3.4复合分组就是对调查资料同时选用两个或两个以上的标志进行重叠分组。 国内生产总值及其分组表如表33所示。 表33国内生产总值及其分组表 国内生产总值按产业和行业分组国内生产总值/亿元比重/% 第一产业 第二产业 工业 建筑业 第三产业 交通运输仓储邮电通信业 批发零售贸易餐饮业 合计 3.3分 配 数 列 3.3.1分配数列的概念和种类 1. 分配数列的概念 定义3.5分配数列是指将统计资料按某一标志分组后,再按一定顺序排列,并列出每个组的总体单位数。分配数列又称为次数分配或次数分布。 分配数列由两个要素组成: 分组和频数(次数)。分布在各组的总体单位数称为次数,也称为频数。 2. 分配数列的种类 分配数列按分组标志不同,可以分为品质分配数列与变量分配数列。 1) 品质分配数列 定义3.6品质分配数列是指按品质标志分组形成的分配数列,简称品质数列,它由各组的名称和相应的单位数组成。 将全国工业企业按所有制性质分组,可分为国有企业、集体企业、合资企业、独资企业、个体企业等组,这些是组的名称。各组的单位数即频数,各组的单位数占企业总数的比重即频率,这就构成一个品质分配数列。表34是一个品质分配数列的示例。 表34某企业某产品的质量情况分组 按质量分组产量/件比重/% 合格品130091.5 不合格品1208.5 合计1420100.0 2) 变量分配数列 定义3.7变量分配数列是指按数量标志分组所形成的分配数列,简称变量数列。 变量数列包括两个要素: 一个是各组的具体数值,即变量值; 另一个是分配在各组的总体单位数,即次数或频数,如表35所示。 表35某企业工人的日产量情况分组 日产量工人/人比重/% 55件20020 65件30030 75件40040 85件10010 合计1000100 3.3.2变量数列的编制 变量数列按变量的表现形式来看分为两种: 单项式变量数列和组距式变量数列。 1. 单项式变量数列 定义3.8单项式变量数列也称为单项数列,是每个组值只用一个具体的变量值表现的数列。 单项数列一般在变量值不多且变量值的变动范围不大的情况下采用,如表36所示。 表36某车间工人看管机器台数分布 按工人看管的机器/台工人/人比率/% 812 91020 102448 111224 1236 合计50100 2. 组距式变量数列 1) 组距式变量数列的定义 定义3.9组距式变量数列简称组距数列,就是用变量值变动的一定范围代表一个组而编制的变量数列。 某单位职工每月奖金分组表如表37所示。 表37某单位职工每月奖金分组表 按奖金分组人数/人 400元以下50 400~500元63 500~600元110 600~700元67 700~800元40 800元以上25 合计355 变量可分为连续型变量和离散型变量,连续型变量的变量值不能一一列举,因此,只能编制组距数列。离散型变量既能编制单项数列,又能编制组距数列。如相同的资料,按表36编制是单项数列,按表38编制是组距数列。 表38某车间工人看管机器台数分布 按工人看管的机器/台工人/人比率/% 8~912 9~101020 10~112448 11~121224 12~1336 合计50100 2) 相关概念 (1) 组限。 定义3.10组限是划分各组之间界限的变量值。其中,各组的最大值称为上限,各组的最小值称为下限。 (2) 组距与组数。 定义3.11组距是指每组变量值中上限与下限之差。 组距=本组上限-本组下限 (31) 在许多版本的教科书中,笼统地使用如下公式计算组距的大小,即组距=上限-下限。事实上,这一公式只适用于计算连续型变量组距式分组(连续分组是指两个变量值分别为前后两组的上下限的数列)的组距大小。例如,成绩分组中,60~70分,70~80分,其组距为10分(70-60或80-70)。如果将这一公式套用于离散型变量组距式分组将会产生谬误。例如,商店规模按职工人数分组,分为1~5人,6~10人,11~15人等,套用上述公式,得出5-1(或10-6,或15-11)=4,即组距为4人的结论,显然是错误的。对于不连续式分组的组距大小的计算,必须采用如下公式: 组距=上组下限-本组下限 (32) 定义3.12组数是指将某个变量数列进行划分得到的组的数量。 组数与组距的确定,是编制组距数列的一个关键问题。在同一变量数列中,组距的大小与组数多少成反比: 组数越多,组距越小; 组数越少,组距越大。那么,在组距数列中,究竟分多少个组,组距多大为好,至今尚无统一的标准。美国学者斯特基斯(H.A.Stirges)于1926年提出了一种计算组数的公式。 m=1+lgN/lg2=1+3.322lgN(33) 式中,N为总体单位数; m为组数。 (3) 等距数列和不等距数列。 定义3.13等距数列是指各组的组距都相等的数列。 等距数列在总体单位的标志值变动比较均匀的情况下采用。某单位职工月奖金分组表如表39所示。 表39某单位职工月奖金分组表 按奖金分组人数/人 400~500元60 500~600元110 600~700元100 700~800元30 合计300 定义3.14不等距数列也称为异距数列,是指各组的组距不完全相等的数列。 (4) 连续分组数列和不连续分组数列。 定义3.15连续分组数列是两个变量值分别为前后两组的上下限的数列。 表39的分组为连续分组数列。一般来说,如果是连续变量,那么就采用连续分组; 如果是离散变量,那么就采用不连续分组。 (5) 闭口组和开口组。 定义3.16闭口组是既有上限又有下限的组; 开口组是指缺上限或缺下限的组。 例如,在表37中400元以下一组缺下限,800元以上一组缺上限,这两个组是开口组,其余组是闭口组。 (6) 组中值。 定义3.17组中值是指每组各变量值的中间值。在一定条件下,组中值常用来代表每组各变量值的一般水平(平均数)。 闭口组和开口组的组中值计算公式如下。 闭口组的组中值: 闭口组的组中值=上限-本邻组距2(34) 开口组的组中值: 有上限缺下限的组中值=本组上限-相邻组距2 (35) 有下限缺上限的组中值=本组下限+相邻组距2(36) (7) 全距。 定义3.18全距是反映全部变量值的变动范围。 全距=最大变量值-最小变量值(37) (8) 频数(次数)与频率。 定义3.19资料按一定标志分组后,不仅要按一定顺序排列起来,还要列出各组的单位数。各组的单位数就是次数,或称为频数。 频数越大,该组的变量值对总体标志水平所起的作用也越大。因此,频数实际上是各组变量值的加权,权衡各组作用大小的值。 定义3.20将各组的单位数(频数)与总体单位数相比而求得的百分比称为频率,也称比率。 频率表明各组变量值对总体相对作用的强度,也表明各组变量值出现的概率。