奶粉质量管理中的统计 乳品公司在生产的婴幼儿配方奶粉的质量保证计划中使用了统计学方法。其中一个关键的问题是顾客对盒装的奶粉数量的满意度。相同尺寸的盒里装入相同重量的奶粉,但是奶粉的体积受到奶蛋白密度的影响。例如,奶蛋白的密度较大时,要达到所规定的包装重量,就只需要较小体积的包装数量,这样,当顾客打开包装盒时,看上去奶粉没有装满。 为了控制奶蛋白密度过大的问题,需要对奶蛋白密度的可接受范围加以限制。定期地抽取统计样本,并测量每一个奶蛋白样本的密度。然后将汇总的数据提供给生产人员,以便在需要将奶蛋白密度保持在规定的质量标准范围内时,生产人员可以采取正确的措施。 在一周内采集了150个奶蛋白密度的样本,得到的密度频数分布见表31,直方图如图31所示。 表31密度数据的频数分布 密度频数 029~03030 031~03275 033~03432 035~0369 037~0383 039~0401 总计150 图31密度数据的直方图 密度水平超过04是可以接受的上限。频数分布和直方图表明,所有产品的密度小于或等于04,生产符合质量标准。检查这些汇总结果的管理人员对奶粉产品的质量感到满意。 在上述案例中,我们看到了数据常用的统计表和统计图。因此,掌握图表的展示方法,让枯燥的数字变得生动起来,也是我们要学习的重点。本项目介绍常用于汇总数据的表格和图形,包括频数分布、条形图、直方图、茎叶图和交叉分组表等内容,理解它们是如何表达和解释数据的。 31分类型数据的汇总 311频数与频数分布 频数(frequency)又称次数,指变量值中代表某种特征的数(标志值)出现的次数。 频数分布(frequency distribution)是一种数据的表格汇总,表示在几个互不重叠的分组中的每一个组的项目个数。 我们用下面的例子来说明如何编制和解释分类数据的频数分布。可口可乐、健力宝、雪碧、百事可乐、芬达是5种受人们欢迎的饮料。假设表32的数据是在只选择5种饮料的情况下,50次购买的样本数据。 表3250次购买饮料的样本 健力宝可口可乐健力宝芬达雪碧 雪碧健力宝可口可乐雪碧可口可乐 健力宝可口可乐可口可乐百事可乐健力宝 可口可乐百事可乐健力宝可口可乐百事可乐 百事可乐雪碧雪碧百事可乐雪碧 可口可乐健力宝健力宝芬达芬达 芬达健力宝可口可乐可口可乐可口可乐 可口可乐百事可乐雪碧芬达百事可乐 雪碧可口可乐百事可乐可口可乐雪碧 可口可乐健力宝百事可乐芬达健力宝 销售人员感兴趣的是市场上哪种饮料更受欢迎?我们通过计算表32中每种饮料出现的次数就可以回答这个问题。具体来说,就是要编制这些数据的频数分布表,见表33。 表33样本数据的频数分布 饮料频数饮料频数 可口可乐15芬达6 健力宝11雪碧9 百事可乐9总计50 这个频数汇总说明了50次购买饮料的样本中,5种饮料是如何分配的。它提供了比表32更多的信息和内容。观察这个频数分布表,可以看到可口可乐排在首位,揭示了这种牌子的饮料在市场上颇受欢迎。 312相对频数分布和百分数频数分布 相对频数分布是各组相对频数数据的表格汇总,指某一类别(分组)所占总数的比值(比例或比率)。将相对频数乘以100就是百分数频数(百分比)。见表34 表34样本数据的相对频数和百分数频数分布 饮料相对频数百分数频数饮料相对频数百分数频数 可口可乐03030%芬达01212% 健力宝02222%雪碧01818% 百事可乐01818%总计100100% 313条形图和饼形图 上面用频数分布表表示分类数据的频数分布。如果用图形来显示频数分布,就会更加形象和直观。 条形图(bar chart)是用宽度相同的条形的高度或长短来表示数据变动的图形。条形图可以横置或纵置,纵置时也称为柱形图。图32是根据表32数据绘制的条形图。 饼形图(pie chart)也称饼图、圆形图。用圆形及圆内扇形的面积来表示数值大小的图形。圆形图主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度是按各部分百分比占360°的相应比例确定的。例如,购买可口可乐的人数占总人数的百分比为30%,那么其扇形的中心角度就应为360°×30%=108°,其余类推。根据表32数据绘制的饼形图如图33所示。 图32饮料样本的条形图 图33饮料样本的饼形图 用Excel创建频数分布表的步骤 (1) 创建Excel文档,在A2到A51输入表31数据(本示例以表31数据为例)。 (2) 为不同品牌饮料指定一个数字代码,并输入到B2到B51。 (3) 选择“数据”菜单选项,并选择“数据分析”选项。 提示:如果在“数据”菜单选项中没有“数据分析”选项,可采用以下方法装入:单击“工具”下拉菜单中的选项“加载宏”,出现“加载宏”对话框。在下拉列表中,找到“分析数据库”选项。单击它前面的复选框,出现对号“√”,确定即可。 (4) 在“数据分析”对话框中选择“直方图”命令,选择“确定”。 (5) 当出现对话框时: ① 在“输入区域”方框内选择数据区域(本示例是B2:B51)。 ② 在“接受区域”方框内选择代码区域(本示例是E2:E6)。 ③ 在“输出区域”方框内选择输出结果的位置。 ④ 选择“图表输出”。 ⑤ 选择“确定”。 为了便于阅读,单击频数分布表中的有“接受”字样的单元格,输入“饮料品牌”代替;同样,把数值代码1、2、3、4、5分别用它们对应的品牌名称替换。例如,1替换为“可口可乐”,2替换为“健力宝”等。如果想修改图表格式,可直接双击该处,在出现的对话框中作相应的修改。 Excel输出的结果如图34所示: 图34Excel输出的结果 1下面给出了部分数据的相对频数分布,见表35。 表35题1样本数据的相对频数分布 分类相对频数分类相对频数 A022D012 B016E008 C027F (1) 分类F的相对频数是多少? (2) 如果样本容量是200,分类F的频数是多少? (3) 求频数分布。 (4) 求百分数频数分布。 2足球报提名了21世纪最具影响力的四位足球明星:贝克汉姆(用A表示),费戈(用B表示),罗纳尔多(用C表示),巴乔(用D表示),由50名职业人士、媒体代表和球迷组成一个样本对这四名球员进行投票,评选最具代表性的明星代表。投票结果见表36。 表36投 票 结 果 AABCDABAAC BAACBCAABC AABACDAACD BACDAAACDA CBAACCDAAC (1) 这些数据是分类型数据还是数量型数据? (2) 编制这些数据的频数分布和百分数频数分布。 (3) 绘制这些数据的条形图和饼图。 (4) 以投票数据为依据,哪位球员是明星代表? 32数值型数据的汇总 321频数分布 正如31节定义的那样,频数分布是表示在几个互不重叠的组中每一组所包含的项目个数(或频数)的表格汇总。这个定义也适用于数值型数据。然而,对于数值型数据,在将互不重叠的组用于频数分布时,我们必须要更加慎重。 表37是某次英语测试成绩数据。 表37英语测试成绩 117122124129139107117130122125 108131125117122133126122118108 110118123126133134127123118112 112134127123119113120123127135 137114120128124115139128124121 下面,我们通过编制表37的频数分布来演示这些步骤。 1单变量值分组 单变量值分组是把每一个变量值作为一组,这种分组方法通常只适合于离散变量且变量值较少的情况。 为便于分组,可先对上面的数据进行排序,结果见表38。 表38英语测试成绩排序表 107108108110112112113114115117 117117118118118119120120121122 122122122123123123123124124124 125125126126127127127128128129 130131133133134134135137139139 采用单变量值分组形成的频数分布见表39。 表39英语测试成绩分组表 测试成绩频数(人)测试成绩频数(人)测试成绩频数(人) 107111911282 108212021291 110112111301 112212241311 113112341332 114112431342 115112521351 117312621371 118312731392 从表39可以看出,在数据较多的情况下,单变量值分组由于组数较多,不便于观察数据分布的特征和规律,而且对于连续变量也无法采用这种分组方法。 2组距分组 在连续变量或变量值较多的情况下,可采用组距分组,它是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。在组距分组中,一个组的最小值称为下限(low limit),最大值称为上限(upper limit)。采用组距分组需要经过以下几个步骤: (1) 确定组数。一组数据分多少个组合适?这一般与数据本身的特点及数据的多少有关。由于分组的目的是为了观察数据分布的特征,因此组数应适中。若组数太少,数据的分布就会过于集中;而组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。 在实际分组时,可以按Sturges提出的经验公式来确定组数K: K=1+lgnlg2(31) 在式(31)中,n为数据的个数,对结果用四舍五入的办法取整数即为组数。例如,对表37进行分组整理,根据式(31)K=1+lg50÷lg2≈7,数据集可分为7个组。当然,这只是一个经验公式,实际应用时,可根据数据的多少和特点及分析的要求,参考这一标准灵活确定组数。 (2) 确定各组的组距。组距(class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定。 组距=(最大值-最小值)÷组数(32) 例如,表37的数据集中最大值为139,最小值为107,则组距=(139-107)÷7=46。为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值,因此组距可取5。 对表39进行分组整理,可得到分组整理的频数分布表,见表310。 表310英语测试成绩分组表 测试成绩分组频数(人)测试成绩分组频数(人) 105~1103125~13010 110~1155130~1356 115~1208135~1404 120~12514合计50 采用组距分组时,一定要遵循“不重不漏”的原则。“不重”指一个数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指在所分的全部组中每个数据都应包含在某一分组中,不能遗漏。 为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不统计在本组内,而计算在下一组内。例如,在表310的分组中,120这一数值不计算在115~120这一组内,而计算在120~125组中,其余类推。 在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后一组可以采用“~以下”或者“~以上”这样的开口组,以解决“不漏”问题。例如,在表37的50个数据中,假定将最小值改为94,最大值改为160,采用上面的分组就会出现“空白组”,这时可采用开口组来统计,见表311。 表311英语测试成绩分组表 测试成绩分组频数(人)测试成绩分组频数(人) 110以下3125~13010 110~1155130~1356 115~1208135以上4 120~12514合计50 在组距分组时,如果各组的组距相等则称为等距分组,如上面的分组就是等距分组。有时,对于某些特殊现象或为了特定研究的需要,各组的组距也可以是不相等的,称为不等距分组。比如,对人口年龄的分组,可根据年龄分布特点分为0~6岁(婴幼儿组)、7~17岁(少年儿童组)、18~59岁(中青年组)、60岁以上(老年组)等。 组距分组有可能会掩盖了各组内的数据分布特征,为反映各组数据的一般水平,我们通常用组中值(class midpoint)作为该组数据的一个代表值。 组中值=(下限值+上限值)/2(33) 组中值的计算有一个必要的假设条件,即各组数据的在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假定,用组中值作为一组数据的代表值会有一定的误差。表310各分组的组中值分别是1125,1175,1225,1275,1325,1375。 322累计分布 为了统计分析的需要,有时需要计算累计频数、累计比例或者累计百分比。 累积频数(cumulative frequencies)是将各类别的频数逐级累加。一般有两种情形:一是从类别顺序的开始一方向类别顺序的最后一方累加频数(从变量值最小的一方向变量值最大的一方累加频数),称为向上累积;二是从类别顺序的最后一方向类别顺序的开始一方累加频数(从变量值最大的一方向变量值最小的一方累加频数),称为向下累积。通过累积频数,可以很容易看出某一类别(或数值)以下及某一类别(或数值)以上的频数之和。 累积比例或百分比(cumulative percentages)是将各类别比例或百分比逐级累加起来,也有向上累积和向下累积两种方法。 表312是一项有关住房问题的研究,研究人员在北京、上海两个城市各抽样调查300户家庭,其中的一个问题是:“您对您家庭目前的住房状况是否满意?”有5个选项: (1)非常不满意;(2)不满意;(3)一般;(4)满意;(5)非常满意。调查汇总见表312和表313。 表312北京市家庭对住房状况的评价 回答类别户数(户)百分比(%) 向上累积向下累积 户数(户)百分比(%)户数(户)百分比(%) 非常不满意2482480300100 不满意1083613244027692 一般933122575016856 满意45152709007525 非常满意301030010003010 合计300100———— 表313上海市家庭对住房状况的评价 回答类别户数(户)百分比(%) 向上累积向下累积 户数(户)百分比(%)户数(户)百分比(%) 非常不满意217021703001000 不满意99330120400279930 一般78260198660180600 满意64213262873102340 非常满意38127300100038127 合计3001000———— 323直方图和折线图 (1) 直方图(histogram)。直方图是用矩形的宽度和高度来表示频数分布的图形。在平面直角坐标中,横轴表示数据分组,纵轴表示频数或比例,这样,各组与相应的频数就形成了一个矩形,即直方图。例如,根据表310的数据绘制的直方图如图35所示。 图35英语测试成绩直方图 从直方图可以直观地看出英语测试成绩的人数分布的特点,测试成绩在120~125之间的人数最多,105~110之间的人数最少。 直方图与条形图不同,条形图是用条形的高度表示各类别频数的多少,宽度是固定的。直方图是用面积表示各组频数的大小,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,因此其高度与宽度均有意义。此外,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。 (2)折线图。折线图也称频数多边形图(frequency polygon)。在直方图的基础上,把直方图顶部的中点(即组中值)用直线连接起来,再把原来的直方图抹掉,余下的就是折线图。需要注意,折线图的两个终点要与横轴相交,具体的做法是将第一个矩形顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。这样才会使折线图下所围成的面积与直方图的面积相等,从而使二者所表示的频数分布一致。图36是表310分组数据的折线图。 图36英语测试成绩折线图 当数据组数很多时,组距会越来越小,这时所绘制的折线图就会越来越平滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。分布曲线在统计学中有着广泛的应用,是描述各种统计量和分布规律的有效方法。 324累计曲线 累计分布的图形表示称为累计曲线(ogive),在横轴上显示数值,在纵轴上显示累计频数或累计比例、累计百分数。图37是表37数据集的累计频数曲线。 图37英语测试成绩的累计曲线 3见表314 表314题3表 14212321161922251616 24242519161918192112 16171823252023162019 24261522242022242220 (1) 利用组12~14、15~17、18~20、21~23和24~26来编制频数分布。 (2) 编制(1)题的相对频数分布和百分数频数分布。 (3) 编制分组(1)的累积频数、累积百分数表。 (4) 绘制数据的直方图和累积曲线。 4银行经理研究了需要办理业务的客户到达银行后的等待时间。下面是一个月的期间内搜集的等待时间数据(单位:分钟)。 2510124451711898122168713183 (1) 为数据分组并编制频数分布。 (2) 编制相对频数分布。 (3) 编制累积频数分布。 (4) 等待办理业务时间不超过9分钟的比例是多少? 325茎叶图 直方图能大体上观察出一组数据的分布状况,但直方图没有给出具体的数值。茎叶图(stemandleaf display)既给出数据的分布状况,又给出每一个原始数值,是数据最直观的展示图形。 茎叶图由“茎”和“叶”两部分构成,其图形是由数字组成的。通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如,分布是否对称,数据是否集中,是否存在极端值等。绘制茎叶图的关键是设计好树茎,通常是以该组数据的高位数值作为树茎。树茎一经确定,树叶就自然地长在相应的树茎上了。 为了绘制茎叶显示图,我们首先把每个数值的高位数字排在竖线左侧,在竖线右边,记录每个数据值的最后一位数字。例如,数值110的高位数字11在竖线左边,最后一位数字0在竖线右边。这样组织数据后,对竖线右边的每一行数字进行排序。图38是表37数据集的茎叶图。 图38英语测试成绩的茎叶图 如图37所示,竖线右边的数字10、11、12、13是茎,竖线右边的每一个数字是叶。 根据茎叶图,我们用一个长方形围住每一个茎的叶。这样,我们得到图39。 图39处理后的茎叶图 如果将上图逆时针旋转90度,所得到的图形与105~110、110~115、115~120、120~125、125~130、130~135、135~140分组后的直方图非常相似。可以看出,茎叶图更易于手工绘制,而且相比于直方图,茎叶图提供了实际数据值和更多的显示信息。 326散点图和趋势线 散点图(scatter diagram)是两个变量之间关系的图形表述,为探索两个变量间关系提供了非常好的视角。 散点图使用数据值作为x,y坐标来绘制点。它可以揭示格网上所绘制的值之间的关系,还可以显示数据的趋势。当存在大量数据点时,散点图的作用尤为明显。散点图与折线图相似,而不同之处在于折线图通过将点或数据点相连来显示每一个变化。表314是某商场的促销广告次数与销售额之间的样本数据。该商场在过去的三个月通过在报纸派发免费购物券的广告来促销。管理人员想证实广告的促销次数和下一周商场的销售额之间是否存在关系。表315给出了10周销售额的样本数据(单位:万元)。 表315商场广告次数与销售额样本数据单位:万元 周广告次数销售额周广告次数销售额 12506138 25577563 31418348 43549459 545410246 图310所示是表315数据的散点图和趋势线。广告次数(x)显示在横轴上,销售额(y)显示在纵轴上。对第一周,x=2和y=50,在散点图上按这两个坐标画出该点。用相同的方法画出其他9周的点。注意,有两周做了一次广告,有两周做了两次广告,以此类推。 图310广告次数与销售量样本数据散点图和趋势线 绘制好的散点图表明,广告次数和销售额之间存在正相关关系。较高的销售额与较高的广告次数相联系。因为所有的点并不在一条直线上,所以这种关系是不完全的。然而,这些点的分布模式和趋势线表明,整体关系是正相关的。 33频数分布的类型 常见的频数分布曲线主要有对称分布和偏态分布。如图311所示。 图311频数分布曲线 对称分布是一种形曲线,有很多现象服从这种分布,如农作物的单位面积产量、零件的误差、纤维强度等都服从对称分布,实际上,对称分布只是一种理想的状态,在实际中总是会存在偏差,如果偏差较大,这时候用偏态分析更符合实际,下一章有具体的讨论。 5绘制下列数据的茎叶图。 1139610475831051093817775846388 6研究人员测定了一类植物的含氧量,用于药物研制。得到的测试数据如下: 1149013112411798104144151132 102106127119115106125122118118 (1) 为数据分组并编制频数分布。 (2) 绘制数据的茎叶图。 7表316的数据是两个变量x和y的30次观测结果。x的分类是A、B、C;y的分类是1和2。 表316变量x和y的观测结果 观测次数xy观测次数xy 1A116B2 2B117C1 3B118B1 4C219C1 5B120B1 续表 观测次数xy观测次数xy 6C221C2 7B122B1 8C223C2 9A124A1 10B125B1 11A126C2 12B127C2 13C228A1 14C229B1 15C230B2 (1) 用x为行变量,y为列变量,编制数据的交叉分组表。 (2) 计算行百分比。 (3) 计算列百分比。 (4) 绘制x和y的散点图,并描述两个变量之间的关系。 对于一个数据集,即使它的规模适中,对其原始形式直接解释往往也很困难。统计表和图形提供了整理和汇总数据的方法,揭示出数据的特征,并能更容易地解释数据。图312是本章介绍的汇总数据的方法。 图312汇总数据的方法