新时代·技术新未来 SPSS实战与统计思维 武松 编著 内 容 简 介 本书从统计学思维开始,由浅入深,全面系统地讲解了SPSS实战应用。本书涉及面广, 从软件基本操作到高级统计分析技术,涉及SPSS目前绝大部分的应用范畴。本书涵盖SPSS概 述、数据管理、统计描述分析、基本统计分析的报表制作、t检验、方差分析、Logistic回归、 中介效应与调节效应分析以及大量的专项统计方法。本书以案例式教学为特色,书中提供了大 量的应用案例,供读者实战演练。 本书不仅适合有一定统计基础的人员阅读,也适合SPSS初学者。通信、金融、制造、医 药、教育科研、市场调研、连锁零售和电子商务等行业的数据分析人员,可将本书作为一本易 学易练的案头参考书。信息技术、心理学、经济管理等专业的大中专院校的学生和教师,可将 本书作为一本教材使用。 本书封面贴有清华大学出版社防伪标签,无标签者不得销售。 版权所有,侵权必究。侵权举报电话:010-62782989 13701121933 图书在版编目(CIP)数据 SPSS实战与统计思维 / 武松编著. — 北京:清华大学出版社,2019 (新时代·技术新未来) ISBN 978-7-302-51322-3 Ⅰ. ①S… Ⅱ. ①武… Ⅲ. ①统计分析 统计程序 Ⅳ. ①C819 中国版本图书馆CIP数据核字(2018)第227132号 责任编辑:刘 洋 封面设计:徐 超 版式设计:方加青 责任校对:宋玉莲 责任印制:宋 林 出版发行:清华大学出版社 网  址:http://www.tup.com.cn,http://www.wqbook.com 地  址:北京清华大学学研大厦A座 邮  编:100084 社 总 机:010-62770175 邮  购:010-62786544 投稿与读者服务:010-62776969,c-service@tup.tsinghua.edu.cn 质 量 反 馈:010-62772015,zhiliang@tup.tsinghua.edu.cn 印 装 者:三河市铭诚印务有限公司 经  销:全国新华书店 开  本:187mm×235mm 印  张:26.5 字  数:510千字 版  次:2019年1月第1版   印  次:2019年1月第1次印刷 定  价:99.00元 ————————————————————————————————————————— 产品编号:079974-01 简介 作者 武松(松哥统计),安徽中医药大学副教授,中国疾病预防控制中心流行病与卫生 统计学博士,世界中联临床科研统计学会理事,国家高级统计分析师,SPSS高级数据 分析师,微信公众号精鼎统计(data973)创始人。擅长SPSS、SPSS-Modeler、SAS、 Stata、Revman等多种统计软件,国内多家杂志统计专业审稿人员,目前主持课题8项, 协作子课题11项,出版SPSS专著1部,另外以副主编的身份参与编写了8部图书,参 与过“十一五”“十二五”“国家自然基金”“卫生部专项基金”等百余项课题数据分 析。在国家级刊物以第一作者或通讯作者发表文章40余篇,其中SCI/Medline收录5篇, 获得国家发明专利1项,获得上海市出入境检验检疫局科技兴检三等奖1项。近年致力 于数据分析与挖掘技术的研究与推广,举办SPSS数据培训近百场,培训风格幽默风趣, 化复杂难懂的统计于举例与比喻之中,是业界最受欢迎的SPSS统计讲师之一。主编的 《SPSS统计分析大全》一书累计印刷15次,销量4万多册,雄踞多个图书销售网站统 计软件类图书榜首。 言 前 终于鼓起勇气,准备独自撰写一本SPSS实用教程。教书18载,看见太多的学生、 教师及相关科研工作者为统计分析而发愁。我也经常纳闷,咱们本科生、研究生及博士 生阶段都学习了统计,为什么一到用时就惊慌失措呢?这其中必然有教师和学生两方面 的原因,教师应付教学,学生应付考试,但归根结底还是统计老师的原因。 虽然古人告诉我们“不仅要知其然,还要知其所以然”,但是松哥对此表示不同意, 在科技发展如此迅猛的今天,我们能够知其然已属不易,知其所以然已不可能。比如手 机已经成为我们生活的一部分,咱们会用就可以了,何必追究其工作原理,除非通信就 是你的研究专业。对于统计学习,松哥一直提倡实战主义,因为需要数据分析的绝大多 数用户都是非统计专业人士,过多的学习和掌握统计学的公式推导,就已将非统计专业 人士的精力消耗殆尽,面对后续分析的学习,已经没有继续的勇气。所以对于初学者, 如果能用简明形象的语言传授其统计的思想,然后以实际案例进行分析与解读,其效果 将远胜于前者。正所谓:为伊消得人憔悴,一用就错学不会;舍得应付换应用,案例实 战真英雄。 鉴于此,松哥立意写一本没有统计公式的统计分析与SPSS实战教程,一些统计思 想与理论尽量用一些白话方式进行表达。思想阐明以后,就以实际案例进行案例分析, SPSS实战操作与结果的详细解读。其实松哥在2014年曾出过一本《SPSS统计分析大全》, 销量很好,出版社已经多次加印,但回头看还有很多地方不太完善,甚至今天松哥对当 时的写作思路都开始否定。于是决定,重新撰写一本《SPSS实战与统计思维》,这是一 个疯狂的、自虐式的决定,松哥给自己一年的时间,将自己的经验与心得呈现在读者的 面前,松哥相信这会是一本值得收藏的好书! 本书分为六个篇章进行讲述,第一篇:统计思维;第二篇:SPSS数据库构建与数据 管理;第三篇:初级统计说一说(描述性统计);第四篇:中级统计比一比(差异性分析); IV SPSS实战与统计思维 第五篇:高级找关系(统计模型);第六篇:专项统计。本书定位是一本初学者的入门宝典, 中级用户的提升指南,高级用户的拓展手册。本书发行后会继续征集读者意见,修订完善, 最终成为一本SPSS学习的红宝书! 本书得到安徽省教育厅重点研究项目(2015jyxm186)、安徽中医药大学教学研究课 题(NO.YB201012)和(2013xjzc012)资助,特此感谢。 写书是无比艰辛的,给自己一个目标,在岁月的河流中,留下活过的印记!立字为据! 松哥统计 2017年5月21日 于安徽合肥 录 目 第一篇 统计思维 第1章 核心统计概念 ····························································································002 1.1 总体与样本(population and sample) ·······································································002 1.1.1 总体 ··································································································································002 1.1.2 样本 ··································································································································002 1.2 参数与统计量(parameter and statistics) ··································································002 1.3 概率与频率(probability and frequency) ··································································003 1.3.1 概率 ··································································································································003 1.3.2 频率 ··································································································································004 1.4 误差(error)················································································································004 1.5 同质与变异(homogeneity and variation) ································································006 1.5.1 同质 ··································································································································006 1.5.2 变异 ··································································································································006 1.6 随机化原则(random principle) ················································································006 1.7 因素与水平(factor and level) ··················································································007 1.7.1 因素 ··································································································································007 1.7.2 水平 ··································································································································007 1.8 变量(variable) ··········································································································007 1.8.1 计量变量 ··························································································································008 1.8.2 计数变量 ··························································································································008 1.8.3 等级变量 ··························································································································008 1.8.4 变量之间相互转换 ··········································································································008 第2章 常见统计设计 ····························································································009 2.1 成组设计 ·······················································································································009 2.2 配比设计 ·······················································································································009 2.2.1 配对设计 ··························································································································010 2.2.2 配伍组设计 ······················································································································010 2.3 析因设计 ·······················································································································010 2.4 重复测量设计 ···············································································································011 2.5 其他设计 ·······················································································································012 第3章 统计思想 ····································································································013 3.1 抽样的思想 ···················································································································013 3.2 总体推断思想 ···············································································································013 3.3 反证法思想 ···················································································································014 3.4 小概率思想 ···················································································································014 3.5 误差控制思想 ···············································································································015 第二篇 SPSS数据库构建与数据管理 第4章 SPSS简介与数据库构建 ···········································································018 4.1 SPSS简介 ·····················································································································018 4.2 SPSS 24.0安装 ·············································································································018 4.2.1 确定计算机系统 ··············································································································019 4.2.2 安装步骤 ··························································································································019 4.3 SPSS启动与退出 ·········································································································022 4.4 SPSS 24.0窗口简介 ·····································································································022 4.4.1 数据编辑窗口 ··················································································································022 4.4.2 变量编辑窗口 ··················································································································023 4.4.3 结果输出窗口 ··················································································································024 VII 目 录 4.5 SPSS数据库构建 ·········································································································024 4.5.1 间接法数据库构建 ··········································································································025 4.5.2 直接法数据库构建 ··········································································································027 4.5.3 数据编辑 ··························································································································029 4.6 SPSS分析过程三级窗口 ·····························································································030 4.6.1 一级窗口(数据窗口) ··································································································030 4.6.2 二级窗口(功能窗口) ··································································································031 4.6.3 三级窗口(参数窗口) ··································································································031 第5章 SPSS 24.0数据管理 ·················································································032 5.1 文件、编辑、查看菜单介绍 ·······················································································032 5.1.1 文件(常用5个) ············································································································033 5.1.2 编辑(常用5个) ············································································································034 5.1.3 查看 ··································································································································035 5.2 10项常用数据管理功能 ······························································································036 5.2.1 排序个案(sort cases)(☆) ·······················································································036 5.2.2 转置文件(transpose) ···································································································037 5.2.3 合并文件(merge files) ································································································039 5.2.4 拆分文件(split files) ···································································································043 5.2.5 选择个案(select cases)(☆)····················································································045 5.2.6 加权个案(weight cases)(☆) ··················································································049 5.2.7 计算变量(compute) ····································································································051 5.2.8 重新编码(recode) ·······································································································051 5.2.9 自动重新编码 ··················································································································053 5.2.10 缺失值替换(replace missing value) ·········································································055 第三篇 初级统计说一说(描述性统计) 第6章 统计描述指标 ····························································································058 6.1 计量变量 ·······················································································································058 6.1.1 集中趋势 ··························································································································059 6.1.2 离散趋势 ··························································································································060 6.2 等级变量 ·······················································································································062 6.3 计数变量 ·······················································································································062 6.3.1 率(rate) ························································································································063 6.3.2 构成比(constituent ratio) ····························································································063 6.3.3 相对比(relative ratio) ··································································································063 第7章 统计表 ·······································································································064 7.1 统计表的结构 ···············································································································064 7.2 制表原则 ·······················································································································065 7.3 统计表分类 ···················································································································066 7.4 SPSS定制专业统计表 ·································································································066 7.5 SPSS统计结果展示方式 ·····························································································070 第8章 统计图 ·······································································································072 8.1 SPSS 24.0绘图功能简介 ·····························································································072 8.1.1 图表构建器简介 ··············································································································073 8.1.2 图形画板模板选择程序 ··································································································077 8.2 条形图(Bar)··············································································································079 8.2.1 统计图的结构 ··················································································································081 8.2.2 统计图的绘图原则 ··········································································································081 8.2.3 统计图形的选择 ··············································································································081 8.2.4 模块解读 ··························································································································082 8.2.5 统计图编辑 ······················································································································086 8.3 3-D条形图(3-D Bar) ·······························································································088 8.4 线图(Line) ················································································································089 8.5 面积图(Area)············································································································091 8.5.1 简单面积图 ······················································································································091 8.5.2 堆积面积图 ······················································································································092 8.6 饼图(Pie) ··················································································································093 8.7 高低图(High-Low Charts) ·······················································································094 8.8 箱图(Boxplot) ··········································································································096 8.9 误差条图(Error bar) ·································································································097 8.10 人口金字塔图(population Pyramid) ······································································099 8.11 散点图(Scatter) ······································································································100 8.11.1 简单分布散点图 ············································································································101 8.11.2 矩阵分布散点图 ············································································································101 8.11.3 简单点图 ························································································································102 8.11.4 重叠分布散点图 ············································································································103 8.11.5 3-D分布散点图 ··············································································································103 8.12 直方图(Histogram) ································································································104 第四篇 中级统计比一比(差异性分析) 第9章 t检验 ·········································································································108 9.1 基本思想与类型 ···········································································································108 9.2 单样本t检验 ················································································································109 9.2.1 设计思想 ··························································································································109 9.2.2 案例实战 ··························································································································109 9.2.3 案例解析 ··························································································································109 9.2.4 实战步骤 ··························································································································110 9.2.5 结果解读 ··························································································································110 9.2.6 拓展理解 ···························································································································111 9.3 两独立样本t检验 ········································································································111 9.3.1 设计思想 ···························································································································111 9.3.2 案例实战 ··························································································································112 9.3.3 案例解析 ··························································································································112 9.3.4 实战步骤 ··························································································································112 9.3.5 结果解读 ··························································································································113 9.3.6 拓展理解 ··························································································································114 9.4 配对样本t检验 ············································································································114 9.4.1 设计思想 ··························································································································114 9.4.2 案例实战 ··························································································································115 9.4.3 案例解析 ··························································································································115 9.4.4 实战步骤 ··························································································································116 9.4.5 结果解读 ··························································································································116 9.4.6 拓展理解 ··························································································································117 9.5 t检验小结 ·····················································································································118 第10章 方差分析 ···································································································119 10.1 单因素设计方差分析 ·································································································119 10.2 随机区组设计方差分析 ·····························································································124 10.3 析因设计方差分析 ·····································································································129 10.4 重复测量设计方差分析 ·····························································································135 10.5 协方差分析 ·················································································································159 10.6 交叉设计方差分析 ·····································································································163 10.7 拉丁方设计方差分析 ·································································································165 10.8 嵌套设计方差分析 ·····································································································168 10.8.1 两因素嵌套 ····················································································································169 10.8.2 三因素嵌套 ····················································································································172 10.9 正交设计方差分析 ·····································································································177 10.10 裂区设计方差分析 ···································································································181 第11章 卡方检验 ··································································································185 11.1 成组四格表卡方 ·········································································································186 11.2 成组R×C表 ················································································································189 11.3 成组R×C表效应指标比较 ························································································191 11.4 R×C表确切概率法 ·····································································································192 11.5 线性趋势卡方 ·············································································································193 11.6 配对设计方表 ·············································································································194 11.7 分层卡方 ·····················································································································196 11.8 卡方分割 ·····················································································································199 第12章 等级资料比较 ··························································································201 12.1 R×C表(单向有序) ·································································································201 12.1.1 列有序 ····························································································································201 12.1.2 行有序 ····························································································································201 12.2 R×C表(双向有序) ·································································································202 12.2.1 属性相同 ························································································································202 12.2.2 属性不同 ························································································································203 第13章 非参数检验 ······························································································205 13.1 非参数卡方 ·················································································································205 13.2 二项检验 ·····················································································································207 13.3 游程检验 ·····················································································································208 13.4 单样本K-S检验 ·········································································································209 13.5 2独立样本检验 ··········································································································210 13.6 K独立样本检验 ·········································································································212 13.7 2个相关样本检验 ······································································································214 13.8 K个相关样本检验 ·····································································································216 13.9 非参数检验和参数检验 ·····························································································218 13.9.1 非参数检验的优点 ········································································································219 13.9.2 非参数检验的缺点 ········································································································219 13.9.3 两种检验的选择与效度 ································································································219 第14章 多元方差分析 ··························································································220 14.1 单组资料 ·····················································································································220 14.2 两组比较 ·····················································································································222 14.3 多组比较 ·····················································································································223 14.4 轮廓分析 ·····················································································································226 第五篇 高级找关系(统计模型) 第15章 关联与相关分析 ·······················································································232 15.1 相关与关联简介 ·········································································································232 15.1.1 基本概念 ························································································································232 15.1.2 关联与相关的类型 ········································································································233 15.2 Pearson相关及偏相关 ································································································236 15.2.1 Pearson相关 ···················································································································236 15.2.2 偏相关分析 ····················································································································239 15.3 Spearman相关及偏相关 ····························································································243 15.3.1 Spearman相关 ················································································································243 15.3.2 Spearman偏相关 ············································································································244 15.4 典型相关 ·····················································································································246 15.5 拓展:相关的校正 ·····································································································249 第16章 线性回归 ··································································································251 16.1 简单线性回归 ·············································································································251 16.1.1 线性回归条件 ················································································································251 16.1.2 线性回归建模策略 ········································································································252 16.2 多重线性回归 ·············································································································257 第17章 Logistic回归 ····························································································262 17.1 二项Logistic回归 ······································································································262 17.2 有序Logistic回归 ······································································································267 17.3 多项Logistic回归 ······································································································269 17.4 条件Logistic回归 ······································································································272 第18章 生存分析 ··································································································277 18.1 生存分析概述 ·············································································································277 18.1.1 基本概念 ························································································································277 18.1.2 生存分析方法 ················································································································278 18.2 寿命表法 ·····················································································································278 18.3 Kaplan-Meier法 ··········································································································282 18.4 Cox回归 ······················································································································285 18.5 时间依赖Cox回归 ·····································································································288 第19章 聚类与判别分析 ·······················································································290 19.1 系统聚类 ·····················································································································290 19.1.1 简介 ································································································································290 19.1.2 基本思想 ························································································································290 19.1.3 案例实战 ························································································································290 19.1.4 案例解析 ························································································································291 19.1.5 实战步骤 ························································································································291 19.1.6 结果解读 ························································································································292 19.1.7 拓展理解 ························································································································294 19.2 快速聚类 ·····················································································································295 19.2.1 简介 ································································································································295 19.2.2 基本思想 ························································································································295 19.2.3 案例实战 ························································································································295 19.2.4 案例解析 ························································································································295 19.2.5 案例实战 ························································································································296 19.2.6 结果解读 ························································································································297 19.2.7 拓展理解 ························································································································299 19.3 两步聚类 ·····················································································································299 19.3.1 简介 ································································································································299 19.3.2 基本思想 ························································································································299 19.3.3 案例实战 ························································································································300 19.3.4 案例解析 ························································································································300 19.3.5 案例实战 ························································································································300 19.3.6 结果解读 ························································································································300 19.3.7 拓展理解 ························································································································302 19.4 Fisher判别与Bayes判别···························································································303 19.4.1 简介 ································································································································303 19.4.2 基本思想 ························································································································303 19.4.3 案例实战 ························································································································303 19.4.4 案例解析 ························································································································303 19.4.5 案例实战 ························································································································303 19.4.6 主要结果解读 ················································································································304 19.4.7 知识小结 ························································································································306 第20章 主成分与因子分析 ···················································································308 20.1 主成分分析 ·················································································································308 20.1.1 主成分思想 ····················································································································308 20.1.2 主成分分析 ····················································································································310 20.1.3 主成分回归 ····················································································································315 20.1.4 主成分评价 ····················································································································318 20.2 因子分析 ·····················································································································321 20.2.1 因子分析思想 ················································································································321 20.2.2 因子分析实战 ················································································································321 第六篇 专项统计 325 第21章 信度与效度分析 ·······················································································326 21.1 信度分析 ·····················································································································326 21.1.1 信度分类 ························································································································326 21.1.2 信度优化方法 ················································································································328 21.2 效度分析 ·····················································································································331 21.2.1 效度分类 ························································································································331 20.2.2 效度分析实战 ················································································································332 第22章 ROC曲线 ································································································337 22.1 诊断试验与ROC概述 ·······························································································337 22.2 连续性计量资料ROC ································································································340 22.2.1 问题(1)ROC实战 ······································································································340 22.2.2 问题(2)ROC实战 ······································································································342 22.2.3 问题(3)多指标联合诊断 ··························································································348 第23章 中介效应与调节效应 ················································································350 23.1 中介效应与调节效应简介 ·························································································350 23.2 中介效应SPSS实现 ··································································································352 23.2.1 案例实战 ························································································································352 23.2.2 案例解读 ························································································································352 23.2.3 实战步骤 ························································································································352 23.2.4 结果解读 ························································································································353 23.3 调节效应SPSS实现(X与M均为分类变量) ······················································354 23.3.1 案例实战 ························································································································355 23.3.2 案例实战 ························································································································355 23.3.3 结果解读 ························································································································355 23.4 调节效应SPSS实现(M为分类变量,X为连续变量) ············································356 23.4.1 案例实战 ························································································································356 23.4.2 案例实战 ························································································································356 23.4.3 结果解读 ························································································································356 23.5 调节效应SPSS实现(M为连续变量,X为分类或者连续变量) ·························357 23.5.1 案例实战 ························································································································357 23.5.2 案例实战 ························································································································357 23.5.3 结果解读 ························································································································358 23.6 Process插件安装 ········································································································359 23.7 Process分析中介效应 ································································································361 23.7.1 实战步骤 ························································································································361 23.7.2 结果解读 ························································································································362 23.8 Process分析调节效应 ································································································363 23.8.1 实战步骤 ························································································································363 23.8.2 结果解读 ························································································································364 第24章 倾向性评分 ······························································································366 24.1 PSM匹配 ····················································································································366 24.1.1 简介 ································································································································366 24.1.2 基本思想 ························································································································366 24.1.3 案例实战 ························································································································367 24.1.4 实战步骤 ························································································································367 24.2 PS分层 ························································································································373 24.2.1 简介 ································································································································373 24.2.2 案例实战 ························································································································373 24.3 PS回归 ························································································································375 24.3.1 简介 ································································································································375 24.3.2 案例实战 ························································································································376 24.4 PS加权 ························································································································376 24.4.1 简介 ································································································································376 24.4.2 案例实战 ························································································································377 第25章 多重响应分析 ··························································································378 25.1 多重响应变量定义与数据录入 ·················································································378 25.1.1 多重二分法 ····················································································································378 25.1.2 多重分类法 ····················································································································379 25.2 定义多重响应变量集 ·································································································380 25.3 不定项多选题频率描述分析 ·····················································································382 25.4 不定项多选题频率差异卡方检验 ·············································································383 25.5 不定项多选题交叉表分析 ·························································································384 25.6 不定项多选题交叉表卡方检验 ·················································································386 第26章 一致性分析 ······························································································389 26.1 定性资料一致性评价 ·································································································389 26.1.1 配对四格表(有金标准) ····························································································389 26.1.2 配对四格表(无金标准) ····························································································390 26.1.3 等级资料R×C表一致性评价 ························································································391 26.2 计量资料一致性评价 ·································································································392 26.2.1 配对t检验 ·······················································································································392 26.2.2 Pearson相关系数 ···········································································································392 26.2.3 组内相关系数(Intra-class correlation coefficients,ICC) ·······································392 26.2.4 Bland-Altman法 ·············································································································394 26.2.5 最小二乘回归 ················································································································395 26.2.6 Deming回归 ···················································································································396 26.2.7 Passing-Bablok回归估计 ·······························································································398 后记 ·························································································································400 参考文献 ··················································································································402 第1章 核心统计概念 统计学是处理复杂科学问题的艺术,概念是思维的基本单位,是思维的出发点和终点。 统计概念为统计的基石,一些统计核心概念的掌握将会促进初学者对统计思维的理解与 学习!本章重点讲解一些核心的统计概念,其他概念会在相关章节讲解。 . 1.1 总体与样本(population and sample) 1.1.1 总体 总体是指根据研究目的所确定的观察单位某项特征的集合。比如说我想研究安徽中 医药大学所有在校生的平均体重,那根据此目的,我们研究的总体就是:安徽中医药大 学所有在校生的体重数据的集合。但是需要注明一点:总体分为有限总体和无限总体, 上面的例子就是有限总体,毕竟安徽中医药大学的学生还是有限的,然而科研过程中面 临的大多数是无限的总体,如茫茫宇宙中星体的平均质量,如空气中某种物质的浓度, 我们是无法取得其总体进行研究的。那我们面对无限总体怎么办呢? 中国古话云:“君子性非异也,善假于物也。”大意是聪明的人并不是本质上与一 般人就不一样,只不过善于利用某种工具罢了。因此,我们为了研究无限总体,发明了 抽样的方法,就像我们想知道一锅老母鸡汤的咸淡,不需要喝完所有的汤,只要摇匀, 尝其一勺就可以了,这种思想就叫“抽样”。 1.1.2 样本 样本就是从总体中抽出的部分观察单位某项特征的集合。但是在抽样过程中必须遵 守随机化的原则。我们通常都是通过研究样本去推断研究总体的属性与特征。 生活中处处存在抽样的思想,如“一叶知秋”“豹窥一斑”、3·15质量抽检报告等。 . 1.2 参数与统计量(parameter and statistics) 参数是用于描述总体特征的指标,如总体均数(μ),总体标准差(σ)、总体率(π)、 总体相关系数(ρ)。 003 第1章 核心统计概念 统计量是用于描述样本特征的指标,如样本均数(X),样本标准差(s)、样本率(p)、 样本相关系数(r)。 一般而言,我们进行科学研究直接获取到的仅是样本的统计量而已,可是我们的研 究目的却是想获知总体的属性特征,即总体参数。统计学存在的核心价值就在于可以通 过描述样本的统计量去推断描述总体的参数,这是通过偶然去发现必然、通过一般去发 现普遍,这是以小见大的过程。参数与统计量的关系如图1-1所示。 图1-1 统计四概念关系 . 1.3 概率与频率(probability and frequency) 1.3.1 概率 概率(P)是用于反映某一事物发生可能性大小的一种量度。一般用大写的斜体P表示。 我们根据事物发生概率的大小,把事件分为3类:P=1为必然事件,发生率为 100%;P=0为不可能事件,发生率为0;0/<)。 1.8.4 变量之间相互转换 同一受试对象身上可以检测出上述的三种变量,三种变量反映受试对象信息的能力 顺序依次为计量变量、等级变量和计数变量。为了方便大家记忆,我们把三种变量依次 称为老大、老二和老三。变量之间可以相互转化,但只能从高级别变量向低级别变量转化。 意思是计量可以转为等级和计数,等级可以转为计数,但不可以逆转。 正如某医院的院长是老大、科室主任是老二、科里的医生是老三。哪一天这位院长 不想干了,他可以到科室当主任、也可以当科员,但是科员不是想当主任、想当院长就 能当的。 从专业上举个例子,如某人收缩压180mmHg(计量变量),可以转化为等级变量(高 血压、正常、低血压),也可以转化为计数变量(正常、异常),但是如果我只告诉你, 松哥的血压不正常,你是无法知道我是高是低,以及具体血压数值的。这点也给我们一 个启示,科研过程中尽量去获取计量资料,因为其信息多,而且可以转化。 第2章 常见统计设计 统计方法的选择可以总结为15字口诀:方法看变量,设计看类型,目的定乾坤。意 思是选择哪一类统计方法首先看变量到底属于我们前面说的三种中的哪一种,然后决定统 计方法,具体统计方法选择哪一类型,得看设计类型,当然最终方法的选择还得考虑研究 的目的,比如某班级不同性别两组大学生比较体重,一看研究指标是体重,为计量变量, 而且是2组,基本就考虑是t检验了,可是t检验有3种,到底如何选择呢?因为给出的 不同性别两组大学生,男女生之间相互独立,因此本例应该选择2独立样本t检验(此时 数据应该符合独立、正态、方差齐,否则还得换方法)。这个例子有点早,还没怎么开 始学,可能读者理解不了。下面我们就先学习统计设计,然后回头看这个例子也许会好点。 . 2.1 成组设计 成组设计是一种将受试对象随机分组或者按照某种属性特征将受试对象分配到2组 或K组中去。它的特征为组间的受试对象相互独立。成组设计模式图见图2-1和图2-2。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第2章\1.jpg F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第2章\2.jpg 图2-1 成组设计——2组模式 图2-2 成组设计——K组模式 大家注意,统计学上存在一种“2K效应”,成组设计中的2组与K组(K≥3), 虽然设计都是成组设计,但后续采用的统计分析方法是不一样的!如研究变量为计量变 量,成组2组设计优先考虑2独立样本t检验,而K组优先考虑单因素设计方差分析。 . 2.2 配比设计 配比设计是指受试对象按照一定的条件进行匹配,然后再随机分组的方法,包括配 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第8¢t..\14.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第2¢\4.jpg 生相互影响,也就是交互作用。 同样,统计学当研究多因素的时候,因素与因素之间也可能发生交互作用,可是我 们可以通过什么方法进行研究呢?本节的析因设计就是研究交互作用的一种方法。 析因设计是多因素多水平全面组合,每一种组合就 是一个研究分组的试验设计方法。试验设计模式图见 图2-5。图中可见研究2个因素,因素A有用和不用2 个水平,因素B有用和不用2个水平,2×2全面组合, 将有4组,如图中4个框。 此时,我们可以进行三次假设分别解决三个问题, 即因素A有没有效果、因素B有没有效果,以及A×B 之间有没有交互作用。析因设计是一种非常浪费样本量 的方法,因此实际工作中研究因素一般不超过3个,水 平数亦不可过多。如3×3×3析因设计,共27组,按照 每组10只老鼠计算,270只老鼠,再适当扩充一点以防止老鼠死亡损失,则300多只老鼠, 这对于一个课题组而言是不可思议的,很难保证这么多老鼠的干预措施的同质性。如果 研究因素较多,可以考虑正交设计或者均匀设计的方法。 . 2.4 重复测量设计 重复测量设计是近年受到重视的一种设计,该设计是指对同一个受试对象在不同的 测量时间点进行重复检测的设计。 图2-6 重复测量数据模式 注意:重复检测必须在同一个受试对象上,很多实验取材检测需要处死受试对象, 图2-5 析因设计模式 012 SPSS实战与统计思维 此时已经不能算作重复测量设计。一句话,坚持住不能死,一定要做“鼠坚强”,否则 应该当作析因设计进行分析。 .2.5 其他设计 其他设计还包括交叉设计、正交设计、拉丁方设计、嵌套设计、均匀设计等,此处不赘, 当讲到相应内容时再讲解。 第3章 统 计 思 想 任何一门学科,都有其定位的思想,其为学科之根,只有根深蒂固的思想,方能开 出灿烂的学科之花。统计学也不例外,以下5点统计学思想可供参考。 . 3.1 抽样的思想 除非研究目的非常特殊,不然我们的研究对象不可能获取到总体,几乎都是总体中 的样本,而样本都是从总体中按照随机化的原则抽取获得的。随机化抽样是指根据研究 目的确定的研究总体中任何一个研究对象都要有同等的机会被抽到作为样本进行研究, 从而推断总体情况。 抽样思想的精髓为化繁为简,化无限为有限,化不可能为可能。通过抽样我们可以 获取研究样本,对有限的研究样本进行研究,从而得到样本统计量,进而推断总体情况。 . 3.2 总体推断思想 样本统计量是实际可以检测获得的,可是我们却 志存高远,目的是研究总体。因为抽样误差的必然存 在,所以样本统计量不等于总体参数,但会与总体参 数比较接近。我们在一定误差的控制下,可以通过样 本统计量去预测总体参数,具体包括两种方法:点值 估计法和区间范围估计法,见图3-1。 点值估计认为样本统计量就等于总体参数,忽略了抽样误差,因此该法风险偏大, 基本不用;参数估计法是指通过样本统计量,去预测一个总体参数的95%(或90%、 99%,根据研究目的确定,95%最为常用)可信区间。 抽样思想与总体推断思想相互结合应用。只抽样,不推断,丧失了抽样的初衷。不抽样, 又失去了推断的基础。 图3-1 参数估计模式 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第2¢\10.jpg . 3.5 误差控制思想 尽管可以采用小概率事件原理进行统计推论以保证推论的准确性,然而,如果整个 实验或试验或调查没有进行很好的质量控制,也是白搭,因此,实验设计必须有着误差 控制的思想。误差控制可以具体体现在“三要素”和“四原则”上。同时假设检验也会 发生统计学I类和II类错误,统计分析时均需加以考虑,方能在最大程度上推测总体的 真实面目。统计学误差包括系统误差、抽样误差、随机测量误差和过失误差,相关章节 已述,此处不赘。 第4章 SPSS简介与数据库构建 . 4.1 SPSS简介 SPSS 是全球领先的统计分析与数据挖掘产品,是世界上应用最广泛的专业统计和数 据模型软件之一,全称为Statistical Product and Service Solutions,是由美国斯坦福大学 的三位研究生于1968年开发的;而SAS成立于1976年;Stata成立于1985年;R软件 于1995年才开始研发,R语言的前身S语言研发于1989年;Matlab创立于1982年; Eviews前身是1981年第1版的Micro TSP;Minitab INC成立于1983年;微软公司创立 于1975年。可见SPSS是最早的一款专业的统计分析软件。2009年SPSS公司被IBM收 购,自SPSS 19.0开始,产品名称更名为“IBM-SPSS”。截至2018年5月本书完稿之时, SPSS已经发布25.0版本。 “易学易用易普及”已成为SPSS软件最大的竞争优势之一,也是广大数据分析人 员对其偏爱有加的主要原因;而大量成熟的统计分析方法、完善的数据定义操作管理、 开放的数据接口以及灵活的统计表格和统计图形,更是SPSS长盛不衰的重要法宝。 SPSS在全球100多个国家和地区有分支机构或合作伙伴,约有28 万家产品用户,分布 于金融保险证券、制造业、市场调研、政府税务、教育科研、医疗卫生、化工行业、零 售业、电子商务等多个领域和行业,全球500 强中约有80%的公司使用SPSS;而在市 场研究和市场调查领域有超过80%的市场占有率,SPSS是世界上应用最广泛的专业统 计软件之一。 . 4.2 SPSS 24.0安装 登录IBM SPSS主页(https://www.ibm.com/analytics/cn/zh/technology/spss/)可以获取 下载试用版本,也可以通过百度搜索“SPSS 24.0”获取下载链接。本文主要讲解Windows 试用版如何安装(MAC版和Linux版安装类似,不再讲解),试用版除了使用期限有限 制外,功能与正式版一样。 4.2.1 确定计算机系统 SPSS 24.0分为32位系统和64位系统版本,你安装前首先得知道自己计算机为何种 系统。你可以在计算机桌面找到“计算机”图标,然后右键→属性,即可查看。 注意:64位的计算机系统可以安装32位的软件,32位系统不可以安装64位软件, 但最好版本一致,使用才会更加顺畅。 4.2.2 安装步骤 点击SPSS 24.0安装图标,安装过程的所有界面如图4-1~图4-12所示,按图操作 即可,没有特别之处。 C:\Users\Administrator\Desktop\SPSS24图库\001.jpg C:\Users\Administrator\Desktop\SPSS24图库\002.jpg 图4-1 准备安装 图4-2 空间计算 C:\Users\Administrator\Desktop\SPSS24图库\003.jpg C:\Users\Administrator\Desktop\SPSS24图库\004.jpg 图4-3 欢迎向导 图4-4 是否屏幕阅读 C:\Users\Administrator\Desktop\SPSS24..\005.jpg C:\Users\Administrator\Desktop\SPSS24..\006.jpg图4-5 是否加载Python 图4-6 是否接受许可 C:\Users\Administrator\Desktop\SPSS24..\007.jpg C:\Users\Administrator\Desktop\SPSS24..\008.jpg图4-7 是否接受Python 协议图4-8 开始复制文件 C:\Users\Administrator\Desktop\SPSS24..\009.jpg C:\Users\Administrator\Desktop\SPSS24..\010.jpg图4-9 安装确定图4-10 安装中 C:\Users\Administrator\Desktop\SPSS24图库\011.jpg C:\Users\Administrator\Desktop\SPSS24图库\012.jpg 图4-11 完成安装 图4-12 输入邮箱 单击“完成”按钮,SPSS 24.0将启动运行,如果未能启动,可以在程序栏中找到 IBM SPSS Statistics 24.0程序,单击运行,首次运行会弹出图4-12,在电子邮件框中填入 正确的邮箱,即可以获取试用权限进行试用。 填入电子邮件后,弹出SPSS数据视图,如图4-13所示,至此,SPSS 24.0试用版已 经安装完毕,可以开始SPSS数据分析之旅啦!如果你安装出现问题,请百度搜索“网 易云课堂”,在云课堂中搜索“松哥统计”,可以找到松哥发布的SPSS快速入门的免 费视频教程进行学习。 C:\Users\Administrator\Desktop\SPSS24图库\013.jpg 图4-13 SPSS界面 C:\Users\Administrator\Desktop\SPSS24..\18.jpg 1.“标题栏”:箭头1所指区域,显示窗口名称和编辑的数据文件名。如果当前数据编 辑器中是一个新建的文件,其显示为“未标题1【数据集0】—IBM SPSS Statistics数据编辑器”。 2.“菜单栏”:箭头2所指区域,从左至右包括“File”“Edit”“View”“Data” “Transform”“Analyze”“Direct Marketing”“Graphs”“Utilities”“Add-ons” “Windw”和“Help”菜单。 3.“常用工具栏”:箭头3所指区域,列出了数据编辑所使用的常用工具。SPSS数 据窗口最常用的工具见图4-15。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第4章\3.jpg 图4-15 工具栏常用工具 4.“数据和单元格信息显示栏”:箭头4所指区域,其中灰色区域显示单元格的位置; 空白区域为数据编辑区,显示当前选中的单元格的内容,用户可在该区域输入或修改相 应的内容。 5.“数据编辑显示区”:箭头5所在的中部网格区,该区最左边列显示单元序列号, 最上边一行显示变量名称。选中的单元格呈黄色显示,其内容将出现在数据和单元格信 息显示栏中,在此输入或修改单元格内容。 6.“视图转换栏”:箭头6所指区域,用于进行变量和数据视图的切换,用户只需 单击相应的标签便可以完成变量与数据视图的切换。 7.“系统状态栏”:箭头7所指区域,显示当前的系统操作,用户可通过该栏了解 SPSS当前的工作状态。对于初学者,系统状态栏务必保留,因为该栏可以帮助用户了解 自己对数据进行了哪些选择性的操作。 4.4.2 变量编辑窗口 在数据编辑窗口的左下角,单击“变量视图”按钮,即可弹出“变量编辑”窗口, 如图4-16所示。在该窗口可以命名变量的名称、类型、宽度、小数位、变量标签、变量 值标签、缺失值、列的宽度、对齐方式、度量标准及对角色进行设置,此处不赘,后面 数据库构建章节逐步进行详细介绍。 C:\Users\Administrator\Desktop\SPSS24..\19.jpg C:\Users\Administrator\Desktop\SPSS24..\17.jpg 因此调用Excel数据为较常用的间接法数据库构建;二为直接法,即利用SPSS直接构建 数据库,本法相对费事。虽然间接法更为常用,但直接法是SPSS初学者必须掌握的方法, 因为在利用间接法建库时,有些软件默认参数未必符合分析目的,需要进行调整,不会 直接法,将不知如何调整。就像你给你梦中情人写情书,不会写,抄了同学的情书送过 去了,送完才发现——署名也抄成同学的了。 SPSS数据格式为经典的行列式:每行代表一个记录、个案,每列代表一个变量。格 式参考表4-1。很多人习惯用Excel存储数据,切记,当用SPSS调用时,Excel数据也应 该录入为如下格式,否则SPSS无法准确识别。 表4-1 SPSS数据录入格式要求 人 员 编 号 性 别 部 门 体 检 日 期 体 重 健 康 状 况 1 女 公卫学院 08/10/2017 56 好 2 女 计算机学院 08/10/2017 49 好 3 女 外语学院 08/10/2017 53 一般 4 男 公卫学院 08/10/2017 58 差 5 男 管理学院 08/11/2017 55 差 6 男 公卫学院 08/11/2017 56 好 7 女 公卫学院 08/12/2017 51 一般 8 男 公卫学院 08/12/2017 52 好 9 女 计算机学院 08/12/2017 48 一般 10 男 管理学院 08/13/2017 57 好 4.5.1 间接法数据库构建 图4-18所示为一小型数据,存储于Excel文件中,现在利用SPSS直接调用,构建 SPSS数据库,操作如下。 图4-18 四名同学的一般资料数据 操作步骤 1.双击SPSS图标:打开SPSS;如果SPSS已经打开,直接按照第二步操作。 2.选择菜单:文件—打开—数据,弹出图4-19,将文件类型框选为“所有文件”, 然后单击“SPSS 数据库构建”,单击“打开”按钮。 3. 弹出询问框:自SPSS 24.0 开始,读取Excel 数据为可视化读取,用户可以可视 化观察数据读取的情况,如图4-20 所示。此处重点关注第一个复选框,询问是否将第一 行当作变量名录入;待录入资料的第一行就是变量名,故直接点击“确定”按钮。用户 可以尝试将复选框中的“√”取消,你会发现可视化读取窗口中的变量名由V1、V2 等代 替。另外,有时我们将数据放在Excel 的其他工作表,此时将“工作表”框下拉菜单打开, 选择相应的工作表即可。 C:\Users\Administrator\Desktop\SPSS24..\21.jpg图4-19 SPSS 打开数据窗口图4-20 询问窗口 4. 上步确定后,弹出SPSS 数据库,如图4-21,一般就可以进行后续数据整理与分析, 但有时会需要调整。点击:“文件—保存”,或者直接点击保存按钮,将此数据库进行保存, 即利用其他数据库形式构建了SPSS 数据库。 C:\Users\Administrator\Desktop\SPSS24..\22.jpg图4-21 Excel 读取后SPSS 数据 4.5.2 直接法数据库构建 直接法数据库构建为初学者必须掌握的数据库构建方法,可以分为两大步——先变 量后数据,即先定义数据库中的变量,然后录入相应的数据,有点先买票,然后才能进 入电影院就座看电影的意思;以知识结构而言,第一步更为重要。下面仍以图4-18的资 料为例进行说明。 操作步骤 1.双击桌面SPSS图标,打开SPSS。 2.点击菜单:文件—新建—数据,打开一个新的SPSS数据窗口,点击左下角“变 量视图”,转换到“变量”,如图4-22所示。 C:\Users\Administrator\Desktop\SPSS24图库\23.jpg 图4-22 变量视图 (1)每个变量需要设置11项属性,其中“类型”和“测量”相对较为重要,如果 设置出错可能会影响后续分析;其他属性设置基本仅与展示方式相关,不会影响分析; 变量类型设置与测量尺度设置窗口见图4-23、图4-24。 C:\Users\Administrator\Desktop\SPSS24图库\24.jpg C:\Users\Administrator\Desktop\SPSS24图库\25.jpg 图4-23 变量类型 图4-24 度量标准 (2)变量类型中初学者只需关注第一个“数字”和倒数第二个“字符串”即可。录 入变量值为数值时选择“数字”,录入的变量值为汉字、英语等字符时,选择“字符”。 图4-24 度量标准有三个选项,分别为“标度”“有序”和“名义”,分别对应于统计学 上的数值变量、有序分类变量与无序分类变量,大家要根据专业进行选择。 (3)数值型变量为标准型,系统默认宽度为8 位,小数点默认为2 位,小数点用圆点。 字符型变量(String),其值由字符串组成,系统默认为8,超过8 为长字符型变量,不 超过8 为短字符变量。字符型变量不能参与运算,且大、小写存在区别。注意SPSS 24.0 采用unicode 模式,每个汉字占位4 个字符,大家务必设置足够的宽度,否则无法显示完全。 3. 本例录入第一个变量,在第一行变量名称中录入“姓名”,类型选择“字符串”, “测量”选择“名义”,其他默认。后续的“性别”“血型”因为都是字符型,与“姓名” 录入方法类似;“身高”“体重”和“年龄”为数值型变量,输入相应变量名称后,类 型选择“数字”,度量标准选择“标度”,其他可以默认。本例变量设置完毕后如图4-25 所示。 C:\Users\Administrator\Desktop\SPSS24..\15.jpg图4-25 录入后变量属性设置 4. 变量录入完毕后,点击窗口左下角“数据视图”按钮,将每个变量的数据录入相 应的位置,完毕后保存数据库,即可完成直接法数据库的构建,最终数据库如图4-26 所示。 C:\Users\Administrator\Desktop\SPSS24..\29.jpg图4-26 直接法录入数据库 SPSS数据库构建完毕后,根据分析的需要,有时需要对数据库进行整理与清洗,包 括排序、选择个案、加权个案、缺失值替换、转置与重新编码等功能,具体统计分析方 法请参照本书相关章节的案例操作部分。 4.5.3 数据编辑 数据录入完毕后,可以对数据进行相应的编辑,如修改、删除、复制、粘贴等。此 处请大家把SPSS当作Excel,操作与Excel完全一样。下面向大家介绍三右键功能。 1. 列变量右键 当我们选择“体重”变量右键,可以弹出右键菜单,并可以执行相应的操作,大家 自己尝试,重点为可以直接对“体重”变量进行“描述统计”(见图4-27)。 2. 行变量右键 当我们选中某一行,点击右键,也可以进行相应的操作,具体如图4-28所示。 C:\Users\Administrator\Desktop\SPSS24图库\26.jpg C:\Users\Administrator\Desktop\SPSS24图库\27.jpg 图4-27 列变量右键功能 图4-28 行个案右键实现功能 3. 单元格右键 当我们选中某一个具体的单元格,点击右键,弹出图4-29,亦可进行相应的操作。 C:\Users\Administrator\Desktop\SPSS24图库\28.jpg 图4-29 单元格右键实现功能 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第4¢\4.jpg 4.6.2 二级窗口(功能窗口) 为了实现某项分析功能,则需要调用相应的功能窗口,如想知道男女生的身高有没 有差异,进行两独立样本t检验,调用独立样本t检验窗口,如图4-31。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第4章\6.jpg 图4-31 二级功能窗口 二级是实现某项统计功能的主要窗口界面,其上包含三个主要部分:一为数据库的 变量框(A),框中含有构建数据库中的各种变量名称;二为目前检验变量框(B),用 户将本次想进行分析的变量放入;三为参数按钮(C),点开按钮可以对实现t检验这个 功能的某些参数进行修改设置。二级窗口是进行SPSS数据分析最重要的窗口哦! 4.6.3 三级窗口(参数窗口) 三级窗口的打开,是借助二级窗口中的参数按钮,如点击图4-31中的“选项”参数按钮, 弹出图4-32,可以对置信区间范围及缺失值处理进行设置。三级窗口设置完毕后,点击“继 续”,会再次回到二级功能窗口,点击“确定”,此时软件就开始运行了。数据库不大的话, 一般1~2秒,运算完毕,然后结果输出窗口自动弹出,展示结果。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第4章\7.jpg 图 4-32 第5章 SPSS 24.0数据管理 在我们已经将科研数据构建入SPSS数据库,正式开始数据分析之前,为了让数据 能够符合我们研究目的的分析规范,还应该进行数据整理,这一过程称为数据管理。数 据管理就是我们从菜场买菜回来后,对菜进行清洗的过程,菜不是一买回来就能下锅的。 SPSS具备完备的数据管理功能,本章将讲解最常用的10项数据管理功能。数据管理功 能在SPSS的数据菜单和转换菜单,为了讲解的系统性,先介绍一下文件、编辑和查看菜单, 然后再介绍数据管理功能。 . 5.1 文件、编辑、查看菜单介绍 为了保证SPSS软件讲解的完整性,在讲解数据管理功能之前,把SPSS 11个菜单 中的前三个菜单(文件、编辑、查看)给大家简单介绍一下,见图5-1。数据管理菜单(数 据、转换)在5.2小节中讲解。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\4.jpg 图5-1 文件(A)、编辑(B)、查看菜单(C) 软件设计是按照完美方案进行设计,可是使用者学习是按照实用思路学习的,软件 的80%功能用处都是不大的,另外的20%的模块却承担着该软件的80%的应用,这就 是所谓的二八定律。因此根据松哥18年的使用SPSS的经验,挑出一些最常用实用的进 行讲解,见图5-1框中标注部分。 5.1.1 文件(常用5个) 文件菜单里面模块很多,但最常用的就是“新建”“打开”“保存”“另存为”和“导 出”选项。 1. 新建与打开 “新建”选项为创建新的SPSS相关文件,如图5-2所示。可以新建4种窗口文件(数 据窗口、语法窗口、结果输出窗口和脚本),其中最常用的是“数据窗口”。语法对于相 对高级用户才用到;“结果输出窗口”是自动弹出的,可以不管;“脚本”更是高级用户才用, 平时基本不用。而“打开”菜单与“新建”相对应,新建的文件存储后,下次都可以直接打开。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\5.jpg 图5-2 文件—新建菜单 2. 保存与另存为 当我们构建了数据库或对数据库进行了相应的修改后,点击“保存”选项会以原文 件名和原路径进行保存;“另存为”选项则可以更改文件名或者存储路径。 3. 导出 “导出”菜单可以将我们新建的数据库导出为其他10种数据库格式,具体见图5-3。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\6.jpg 图5-3 导出菜单 5.1.2 编辑(常用5个) 1. 插入变量与个案 当我们构建好数据库之后,发现需要在某处插入相应的变量与个案,可以通过此菜 单操作,见图5-1(B)部分。如用光标激活某个变量,然后点“插入变量”选项,即可 在当前激活变量之前插入一个变量名为“VAR0001 ”的变量,双击可以进入变量视图进 行变量名修改;同理激活某条记录(case),点击“插入个案”选项,则在当前记录之 前插入一条空的新记录,可以进一步录入数据。 2. 转到个案与变量 如果我们的数据库非常大,有超多的变量及上万条记录,想手动直接找到某个变 量或者某条记录,还是比较费时间的。这时我们可以利用转到个案与变量功能。打开 data01.sav 数据库,现在想定位到第500 条记录,然后定位到血型变量。 转至个案菜单操作:编辑—转到个案,弹出图5-4。框中输入“500”数据,然后点击“跳 转”即可。 转至变量菜单操作:编辑—转到变量,弹出图5-5。下拉框找到“血型”,点击“跳 转”,可以直接定位到“血型”变量。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\9.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\13.jpg图5-4 转至个案图5-5 转至变量 3. 选项 “选项”窗口是对SPSS 内部属性进行设置的窗口,初学者不用浪费过多的精力, 只要掌握如下两点,就够用了,一是语言(见图5-6),二是透视表(见图5-7)。 1)语言:用于软件的11 国语言互换,中文分为简体和繁体两种,更改语言应该对 输出和用户界面同时修改,或者根据用户自己需要修改。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\98.jpg 图5-6 语言设置 2)透视表:用于设置统计分析输出的统计表的格式,默认安装为经典缺省,但分析 出来的结果与专业上的三线表相差较大,此处请改为Academic,此时分析出来的统计表 与三线表非常接近。后面统计图表章节,松哥会讲授如何制作专业的统计表,或者直接 关注微信公众号data973,回复“asongge”即可直接拿到松哥编写好的模板,直接复制 到安装目录Looks文件夹内即可。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\99.jpg 图5-7 透视表设置 5.1.3 查看 “查看”菜单平时很少用到,即使不会使用也不会影响到数据分析的结果。其中的“字 体”可以帮助我们更改字体设置;状态栏用于显示是否显示系统状态,取消后,SPSS数 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\14.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\16.jpg 为升序和降序排列选项。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\18.jpg 图5-10 右键排序操作方式 3. 经验传授 1)升序排列(A)可以帮助我们发现某个变量有无缺失值及有无较小的异常值;降 序(D)排列可以帮助我们发现特大的异常值。 2)进行双排序,比如对身高和体重同时进行排序,若用右键操作,只能同时升序或 降序;若用菜单操作,可以分别对身高和体重排序方式进行定制,同时要注意,菜单操 作中先进入的变量优先排序。如先放入年龄,后放入身高,则先对年龄排序,在相同年 龄的情况下,再按照身高进行排序。 5.2.2 转置文件(transpose) SPSS数据格式为经典的行列式,即每行代表一条记录,每列代表一个变量。SPSS 统计分析只能够对变量进行分析。然而有时候,根据研究目的,我们需要对记录进行分析, 那就必须将记录转化为变量才可以,这个功能就叫作转置,其是将行记录变为列变量的 过程,模式见图5-11。 图5-11 转置模式图 案例实战:有10 位专家对某个单位进行4 项指标打分,数据为data02.sav,见图5-12, 点击工具栏“变量”工具,得图5-13,列出数据集中的各种变量,但如果我们想对10 位 专家打分之间有无差异进行分析,因图5-13 中并没有10 位专家分别的变量信息,故必 须对数据进行转置。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\20.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\21.jpg图5-12 10 位专家打分数据图5-13 变量视图 操作步骤:点击菜单数据—转置,见图5-14。弹出转置二级功能窗口(见图5-15), 将4 个变量指标放入变量框中(该框中变量将变为记录),将变量“用于专家姓名”放入“名 称变量”框中(该框中的变量的记录将变为变量)。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\22.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\24.jpg图5-14 转置功能窗口调用步骤图5-15 转置功能设置 点击“确定”后,提示未转置的变量将丢失,继续“确定”,软件将自动生成一个 新的数据集文件,见图5-16,大家发现10 位专家姓名已经变为变量。我们调用“变量” 工具,弹出图5-17,大家即可发现新的变量列表与未转置前的差别,现在就可以对每位 专家评分,以及专家之间的评分进行分析啦! F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\25.jpg F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\26.jpg 图5-16 转置后新的数据集 图5-17 转置后数据集变量列表 经验传授:如果你有数据需要转置,但不知将哪些变量放入哪个框中,松哥告诉你, 你把旧数据集中的所有变量放入转置图5-15右上角的框中,然后直接点击确定,在新生 成的数据集中,你会发现哪些是多余的变量,然后删除即可。转置过程中未放入栏中的 变量会在文件中遗失;字符串变量不能转置。熟练之后你就会知道如何选择啦! 5.2.3 合并文件(merge files) 合并文件就是将两个文件数据合并到一个文件中去的过程。根据研究目的,合并文 件有两种方式:横向合并与纵向合并(见图5-18)。 图5-18 合并文件的两种方式 1. 纵向合并 纵向合并是指增加了研究个案,数据集将变得更长。如某小组19人考试考了数学、 物理和化学3门课程,陈老师改了10名同学试卷并将成绩录入数据库data03.sav,武老 师改了9份试卷,并将成绩录入为data04.sav数据集,现在要把两位老师的数据集合并 起来,数据集的变量是一样的,此时其实就是人数的合并,合并后数据集将变长。 操作步骤 1)打开数据集data03.sav 和data04.sav 数据,图5-19 和图5-20。发现两个数据集变 量一样,而学号不一样。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\54.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\55.jpg图5-19 data03 数据库图5-20 data04 数据库 2)菜单:数据—合并文件—添加个案,弹出图5-21。从“打开数据集”框中选中 data04.sav,点击“继续”;如果data04.sav 没有打开,可以选择下面外部SPSS 文件进行调用。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\53.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\57.jpg图5-21 合并文件图5-22 合并文件变量选择 3)点击继续弹出图5-22,右侧框中显示为合并后数据集中的变量。如果两个数据 集有不同的变量,则在左侧框中显示未成对的变量。点击“确定”运行,查看数据集视 图窗口如图5-23 所示。为了节省篇幅,采用分屏显示,发现总的个案数为19 例,合并 成功。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\59.jpg 图5-23 合并后数据 2. 横向合并 用于增加数据集的变量个数,横向合并可以增加数据集的宽度。比如一个班级期末 考试,共考了6门课程,陈老师改了数学、物理和化学,松哥改了地理、历史和政治, 并分别录入数据库data05.sav和data06.sav数据集。 操作步骤 1)分别打开data05.sav和data06.sav数据集,如图5-24和图5-25所示。可见两个 数据集个案相同,但变量不一样,现在合并人数不会增加,但增加的是变量数。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\60.jpg F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\61.jpg 图5-24 data05数据库 图5-25 data06数据库 2)菜单操作:数据—合并文件—添加变量,弹出图5-26。选择data06.sav,然后点击 “继续”,弹出图5-27。同样地,如果data06.sav 没有打开,可以调用SPSS 外部数据。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\63.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\64.jpg图5-26 合并文件数据库选择图5-27 合并文件变量选择 3)横向合并属性设置。大家试想一下,如果有一个人右手五个手指头被人全部砍断 (有点残忍,还是被机器压断吧),你是一个医生,现在要把5 个手指头接上,断指是 不是应该接到对应的手指上。道理是一样的,两个数据集如果要横向合并,必须是同一 个同学的成绩才能合并,因此就必须要有一个变量,用于指示是不是同一个人,在本例中, 就是学号。因此学号应该作为连接两个数据库的识别变量。 因此,请将图5-27 操作为图5-28 后,点击“确定”。 4)回到数据视图,如图5-29 所示,发现10 名同学的6 门课成绩已经得到正确合并。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\66.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\67.jpg图5-28 关键变量设置图5-29 合并后数据 5.2.4 拆分文件(split files) 所谓“合久必分,分久必合”,前面我们学了2种合并文件的方法,这里讲解如何 拆分文件。注意SPSS合并文件是指把两个文件合为1个文件;SPSS拆分文件通常不是 指把一个文件拆分为2个文件,而是把1个文件按照某个变量分成几个部分。SPSS中还 有一个“拆分为文件”,是将1个文件真正地拆分为2个文件,使用较少,此处不赘。 案例实战 案例数据data01.sav,我们想知道不同性别学生的身高情况,该如何分析呢? 操作步骤 1. 打开数据集data01.sav,先分析一下全部学生的身高。 操作如下:分析—描述统计—描述(见图5-30)将“身高”放入变量框,点击“确定” 即可(见图5-31)。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\35.jpg F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\36.jpg 图5-30 统计描述功能 图5-31 描述设置 得到结果如图5-32所示。结果为全部学生590人的身高结果描述。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\68.jpg 图5-32 data01数据身高描述结果 2. 按照性别拆分文件。 操作步骤:数据—拆分文件,弹出拆分文件功能窗口(见图5-33)。选择“比较组”, 并将“性别”放入“分组依据”,点击“确定”。 3. 回到数据视图,并未发生明显变化,但最右下角系统状态栏显示“拆分依据: 性别”,见图5-34。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\70.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\72.jpg图5-33 拆分文件设置图5-34 拆分后状态栏显示 4. 再次分析一下data01.sav 数据集,对其身高进行统计学描述,步骤同上,得到结果 如图5-35 所示。如果图5-33 处选择为“按组组织输出”,则得到结果如图5-36 所示。两 个结果是一样的,只不过展示方式不一样,松哥更加喜欢“比较组”的结果,因其更加简洁。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\73.jpg图5-35 拆分条件:比较组 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\74.jpg图5-36 拆分条件:按组组织输出 经验传授 初学者在拆分之后进行其他分析时,会发现所有分析都是拆分的,无法直接进行分 析。因此拆分完,分析后,记得要还原。还原方法即所谓“解铃还须系铃人”,在“拆分” 功能窗口选择第一个“分析所有个案,不创建组”即可。另外初学者要实时关注SPSS 数据窗口的右下角的系统状态栏,它可以帮助你了解目前数据的状态,这也是前面松哥 让大家把系统状态栏留着的原因。 5.2.5 选择个案(select cases)(☆) 选择个案是在数据集中选择一些符合某些条件的案例进行后续分析。要想掌握“选 择个案”功能,只要完成松哥的3个案例就可以充分掌握啦! 案例一:如果满足某个条件方可入选 在数据集data01.sav中,选择年龄大于19岁的大学生,描述其身高。 操作步骤 1. 学习此功能之前,大家先描述一下所有大学生的身高,步骤为:分析—描述统计— 描述,将“身高”移入变量框中,点击“确定”,得到结果(见图5-37(A)),可见 590名大学生,身高均数为164.379cm,标准差为7.9816cm。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\34.jpg 图5-37 身高描述结果 2. 现在我们来选择年龄>19岁的学生分析身高,操作如下:数据菜单—选择个案,弹 出选择则个案框(见图5-38)。如图中红框选择点击“如果”按钮,弹出图5-39所示窗口。 3. 如图5-39所示 If条件框中,输入“年龄>19”,点击“确定”,回到图5-38,再次“确 定”,运行。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\28.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\30.jpg图5-38 选择个案-如果图5-39 If 设置 4. 回到数据视图,如图5-40 所示,数据库外观发生两处变化,一为凡是年龄不大于 19 岁的,数据库默认的ID 编号均被斜线划去,表示该个案删除不参加后续分析;二为 在数据库的最右边产生一个0、1 编码的filter控制变量,凡是1 的均是符合年龄大于19 岁, 0 表示不大于19 岁,其实SPSS 是通过产生一个过滤变量,以控制后续哪些个案参加分 析的。大家不信删除这个过滤变量,你会发现全部都参加分析了。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\31.jpg图5-40 条件选择后数据 5. 此时我们再次分析,描述一下身高,步骤同1,得到结果如图5-37 所示(B)的部分, 可以发现分析的大学生个案数278 人,身高均值164.505cm,标准差为8.4494cm。如果 测试删除右侧的filter 变量,再次分析,则又会得到图5-37(A)的结果。 案例二:随机个案样本的近似法 此功能其实是进行随机化抽样,依旧选择数据集data01.sav,随机化抽取其中的30% 的样本,进行其身高的描述。 操作步骤 1. 数据—选择个案,弹出图5-41,选择“随机个案样本”,然后点击“样本按钮” 弹出图5-42。 2. 图5-42中,选择“大约”框,并在框中填入“30”,意思即随机抽取30%的样本。 点击“继续”,回到5-41,再次确定。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\38.jpg F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\40.jpg 图5-41 随机个案样本 图5-42 随机样本设置 3. 返回数据视图如图5-43所示,大家发现系 统默认ID有斜线划去的个案,数据库最右边产生 filter变量。你们得到的图和松哥不一样,因为数据 库变量较多,为让大家看全,松哥设置了分屏哦! 4. 此时大家再次描述分析一下身高数据,得到结 果如图5-44所示。抽样188人,均值164.670cm。如 果你跟着做,虽然用的是同样数据集,你做的结果 和松哥肯定不一样,你肯定会想,那科研的严谨性、 可重复性呢,这个软件以后我还敢用吗? F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\42.jpg 图5-43 选择后样本 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\43.jpg图5-44 选择后样本分析结果 这个大家不用担心,之所以出现这样的结果,是因为我们采用的是近似抽样。也就 是大约抽样,即有的人抽了187 人、188 人、189 人,甚至也有190 人呢。如果咱们可以 设置同样的随机数字种子,那么得到的结果就会一模一样了。下面咱们就用精确法,抽 一个一样的结果的。 案例三:随机个案样本精确抽样 案例二的近似抽样,导致重现性较差,甚至你自己做两遍的结果都不一样,让心情 很是不爽。咱们现在要在数据集data01.sav 中精确抽样60 人,进行后续身高的描述分析。 操作步骤 1. 菜单:数据—选择个案。 2. 弹出图5-41,依旧选择“随机个案样本”,然后点击按钮“样本”。弹出如图5-45 所示窗口。 3. 图5-45 中,选择“正好为”,并在框中输入“60”,因为总共有590 个样本,所 以后面输入来自前“590”。注意如果你打算在前100 个里面抽,则输入100,该框可 以个性化选择方案,统计上的系统抽样(机械抽样)此处可以实现。点击“继续”,回到 图5-41 所示窗口。 4. 点击“确定”,回到数据集的数据视图,图5-46。发现系统默认ID 很多划去斜线 以及产生的filter 过滤变量。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\45.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\46.jpg图5-45 精确抽样图5-46 精确抽样结果 5. 我们现在再分析一下选取的60人的身高数据,方法同前,得到结果如图5-47所示。 发现抽样人数59人,什么?怎么就59人,刚才不是精确抽样抽60人吗?这是啥软件呀, 算了松哥,我不学了。 呵呵,此时在做的你可能是60,也有可能是58、59等。你肯定在想,前面案例二 咱们得到的不一样,说松哥说的是近似抽样,现在是精确抽样了,怎么还不一样,不会 是这个软件真的不靠谱吧? 其实是这样的,咱们每个人都抽到了60人,只不过呢,松哥运气不好,我抽到的那 60人里面,有1个人的身高值是缺失值,所以计算时只有59了,你明白了吗,哈哈! 如果你不相信,你对filter变量进行降序排列,你会发现确实有60个人,但是在60个人 中,确实有人身高值是缺失的。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\47.jpg 图5-47 精确抽样分析结果 经验传授 选择个案功能是数据管理非常常用的一项功能,掌握松哥所述的三个案例,基本够 大家用了。 (1)选择了其中一部分分析后,若再想分析全部数据,可以直接删除filter过滤变 量即可,这比重新菜单操作,选择全部案例要方便; (2)如果选择不是从第一个个案开始,可以选择图5-41中的“基于时间或个案范围”。 5.2.6 加权个案(weight cases)(☆) 加权个案是一个数据集简化的方式,是把同类个案放在一行记录进行呈现,如松哥 到超市买了3瓶矿泉水,每瓶2元,3个面包,每个5元,采用加权与不加权可以有两 种数据集构建方式,如图5-48和图5-49所示,你会发现后者比前者要简单得多。如果 松哥买了300瓶矿泉水和300个面包,你会发现,数据集图5-49的效率就不得了了,依 旧是2行就可以,而数据集图5-48则要600行。 讲到这里松哥相信你已经知道,图5-49中的变量“数量”,其实代表的就是前面商 品的权重。可是我们在分析时,软件是不知道“数量”就是权重变量的,因此我们就必 须告诉软件,这个过程就是“加权个案”。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\75.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\76.jpg图5-48 逐条录入式图5-49 同类合并式录入 为了验证我们的想法,我们分别对data07.sav 和data08.sav 数据集进行商品的平均价 格分析,感受分析操作上的不同。 1. 分析data07.sav :分析—描述统计—描述,在弹出对话框中,将“单价”放入右边 框中,点击“确定”,得到结果,如图5-50(A)所示。 2. 分析data08.sav :分析—描述统计—描述,在弹出对话框中,放入“单价”,点击 “确定”,得到图5-50(B)。发现个案数只有2 个,显然是不对的。 3. 加权分析:数据—个案加权,弹出图5-51,个案加权对话框,将“数量”放 入“个案加权系数”框中,点击“确定”。回到数据视图,你会发现系统状态栏显示“权 重开启”,表示你已经加权成功。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\79.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\77.jpg图5-50 描述结果图5-51 个案加权 4. 分析data08.sav :分析—描述统计—描述,在弹出对话框中,放入“单价”,点击 “确定”,会再次得到图5-50(A)。 经验传授:加权一般在频数表和分类变量资料的行列表时应用,共同特征为有一个 频数项,分析时需要对频数项进行加权。 5.2.7 计算变量(compute) 计算变量就是利用现有数据集中的变量,按照一定的数学公式与逻辑表达式,产生 一个新的变量的过程。 案例实战 依旧以data01.sav为例,数据集中有身高(cm)和体重(kg)变量,而我们知道体 质指数BMI=体重(kg)/身高(m)2。现在我们利用“计算”功能产生BMI新的变量。 操作步骤 1. 打开datajd01.sav数据集,将身高和体重变量拖放到一起,方便查看,不拖放一起 也没关系。 2. 菜单:转换—计算变量,弹出图5-52。左侧目标变量框中输入“BMI”,右侧 “表达式框中”输入“体重 /(身高 / 100)2”。注意身高单位为cm,因此身高应该除以 100。 3. 点击“确定”,回到数据视图5-53,你会发现数据集最右边产生了新的BMI变量。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\49.jpg F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\50.jpg 图5-52 计算变量对话框 图5-53 计算变量结果 5.2.8 重新编码(recode) 重新编码一般用于将连续性变量转化为分类变量。结合计算变量产生的BMI,我们 演示一个新的练习。 案例实战 已知BMI 的不同取值,代表的专业意义如图5-54 所示。我们上面计算得到的BMI 都是具体数字,能否直接显示专业上的“消瘦”“正常”等呢?这个就可以通过重新编 码实现。 级别BMI 范围评价 1 <18.49 消瘦 2 18.5 ~ 24.99 正常 3 25 ~ 29.99 超重 4 >30 肥胖 图5-54 BMI 专业意义代码 操作步骤 1. 调用重新编码菜单:转换—重新编码为不同的变量,操作如图5-55 所示,弹出图 5-56。 2. 图5-56 中,将BMI 放入右边框中,然后给重新编码为不同的新的变量起个名字, 本例取BMI_1,然后点击“变化量”,就会出现BMI—BMI_1,点击“旧值与新值”按钮, 弹出图5-57 所示窗口。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\80.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\82.jpg图5-55 重新编码为不同的变量菜单位置图5-56 重新编码为不同的变量 3. 图5-57 中,分别按照图5-54 的规则设置,完毕后点击“继续”,回到图5-56, 点击“确定”。 4. 回到数据视图,发现最右边产生一个新的变量BMI_1,其值分别为我们专业所需 的取值哦(见图5-58)! F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\84.jpg F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\85.jpg 图5-57 旧值与新值设置 图5-58 赋值后结果 经验传授 (1)大家发现图5-55,重新编码分为重新编码为相同的变量与重新编码为不同的变 量2种,建议大家只学不同,别学相同,因为相同编码会把原始数据覆盖,而且不可恢复, 如果没有备份,可能会造成很大的影响。因此,只学编码不同的变量,此时不会覆盖原 始变量。 (2)在学习时,可能会出现图5-57右上角的“值”框中无法输入汉字的情况,那 是因为没把右下角“输出变量是字符串”勾选上。 (3)SPSS重新赋值窗口,图5-57中,范围如果输入18和20,是指10≤X≤20; 在最低到某值,如果输入18,是指X≤18;如果输入某值到最高,如输入19,则是指 X≥19。意思是,SPSS中的范围设置都是包含等于的。因此设置时要密切注意,防止出 现同一个值有2个去处的可能。具体可以通过增加小数点进行分割,如年龄<18岁设置 为1,≥18为设置为2;此时2为包含等于没问题,那么1可以设置为X<17.999,就可 以区分开了! 5.2.9 自动重新编码 自动重新编码主要用于将字符型变量进行数值化,并且给予“值标签”编码。这是 非常实用的一个功能。 案例实战 案例数据集data01.sav,其中有个变量为“专业”,上下拖动数据集,你会发现专业 挺多,到底有几个呢? 操作步骤 1. 打开data01.sav,点击菜单:转换—自动重新编码,弹出图5-59。将变量“专业” 放入“变量—新名称”框,新名称框中输入“专业_1”,并点击“添加新名称”按钮, 点击“确定”。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\87.jpg图5-59 自动重新编码 2. 回到数据视图,见图5-60,在变量的最右边,产生一个新的变量“专业_1”,你 会发现专业_1 都是数字展示的。数字代表什么意思呢?大家到变量视图,找到“专业 _1”的值标签,知道每个数字代表的意思(见图5-61),并且知道总共有11 个专业。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\90.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第5¢\89.jpg图5-60 自动赋值后结果图5-61 自动赋值后的值标签 5.2.10 缺失值替换(replace missing value) 缺失值替换,顾名思义是对获取的数据集中的缺失值,采用统计的方法填补,有人说, 这不是造假吗?呵呵,还真不是的,这是一种统计处理技术,这种方法甚至可以写到你 的文章中去。 案例实战 案例数据集data01.sav,里面有很多缺失值,还记得咱们抽样的时候,明明抽60人, 却只有59个数吗?咱们现在对“身高”数据进行缺失值填补。 操作步骤 1. 打开data01.sav数据集。 2. 菜单:转换—替换缺失值,弹出图5-62,将“身高”放入新变量框中,名称为“身 高_1”。注意缺失值替换不会覆盖原始的变量,会产生新的变量。方法框中提供的是5 种缺失值替换的方法,(1)序列均值:是指用所有其他数据的均值,作为缺失数据的数 值;(2)临近点的均值:如果你的数据具有序列特征,并且数据可能符合正态分布,则 用临近点的均值比较合适,此时可以选择临近2个,还是3个临近点;(3)临近点的中 间值(中位数):同样用于有序列特征的数据,同时数据可能不符合正态分布;(4)线 性插值:利用线性模型,去预测缺失值;(5)临近点线性趋势:也是利用线性模型,但 当第一个值或者最后一个值缺失,用线性插值没法计算,线性趋势则可以。 3. 大学生的身高应该符合正态分布,因此我们采用默认“序列均值”进行演示,点击“确 定”。回到数据视图,发现最右边的“身高_1”。想知道是如何替代的,请大家对“身高” 进行升序排列,可以得到图5-63。你会发现所有缺失的身高,都已替换为164.4cm。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\92.jpg F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第5章\93.jpg 图5-62 缺失值替换 图5-63 缺失值替换结果 第6章 统计描述指标 世界是物质的,物质是运动的,运动是会产生数据的,数据是有规律的,而我们对 这种规律的认识必须通过某种工具才能发现,这种工具就是“统计学”。言下之意,统 计学是通过数据去发现规律的,而数据是统计学上变量的数值体现。 变量分为三种,计量、等级和计数,根据能力大小,分别称为老大、老二和老三, 第1章曾经介绍过。遗憾的是老二没有特定的描述指标,因此将老二下降一级变为老三, 所以统计上主流就有老大和老三的统计描述指标。老二不是没有,只不过不常用,如众数、 中位数和秩均值还是可以用的。 . 6.1 计量变量 我们人类对一个陌生事物的认知,首先从其外形开始,然后再探讨其属性性质。正 如大家在购买这本书时,看到作者是松哥统计,并想进一步了解他,则你首先会想,这 家伙长啥样子呢?然后会进一步想了解,松哥多大、高不高、胖不胖等属性特征!同样, 当我们初学计量变量,我们也首先想知道计量变量长啥样子呢? 松哥告诉你,对于绝大多数计量变量数据,其长相就是图6-1的单峰分布的样子, 为什么呢?不为什么,这是在人类没有干预的情况下,该种资料自然的分布形态,我们 就称为规律。 图6-1 计量变量的常见形态 上面三种分布类型分别为正偏态分布(A)、对称分布(B)和负偏态分布(C), 其中的对称分布当对称性和峰度较好时就是我们常说的“正态分布”了。三种分布以对 称分布为例,是不是像一个沙堆,并且发现沙堆越往中间沙子越多,中间的沙子最多, 这种越靠近中间频数越多的趋势就是统计学的集中趋势(centraltendency);如果我们 现在抓一捧沙,从沙堆中间慢慢流淌而下,此时会发生什么现象呢?是不是沙堆除了轻 微增高一点点(因为集中趋势)外,绝大部分的沙都顺着沙堆四周逃逸而去。可我们并 没有让它跑呀,而沙子自然而然地四散而去,这也是一种趋势,叫离散趋势(dispersion tendency)。 一句哲语“任何事物都具备两面性”,就像太极的“阴阳”,人间的“男女”,我 们计量数据分为“集中和离散”2个属性。因此在了解其外形之后,我们从集中和离散 两个角度来研究其属性。 6.1.1 集中趋势 1. 算数均数,简称均数(mean) 描述一组数据在数量上的平均水平,总体均数(μ)和样本均数(x_ )用不同符号表示。 适用范围为对称分布,特别是正态分布资料。其计算就是一个样本所有变量值相加除以 样本量,式(6-1)。松哥开篇说要写一本没有统计公式的SPSS论著,下面的公式仅为 让你理解,不需要记忆。 12nxxxxn+++ = (6-1) 2. 中位数(median,M) 中位数是将一组数据按照从小到大的顺序排列,位置居中的那个数。如6、8、5、9、 3的中位数就是6。因为中位数只要能够按照大小排序就可以计算,故适用范围更广,只 要能够大小排序的数据均可以计算中位数,中位数为计算集中趋势的“万金油”。但中 位数因为没有利用原始数据的信息,因此代表性没有均数好。和均数相比较为迟钝,只 有样本量较为充足时结果才稳定。 因此,一组数据符合对称分布尽量用均数,偏态分布时才考虑用中位数。 3. 几何均数(geometric mean,G) 当我们的计量数据是等比资料,我们还可以用几何均数计算其集中趋势。所谓的等 比资料分布如图6-1(A)所示,常见的有抗体滴度、药物效价和菌落计数,以抗体滴度 为例,常见数据为1∶20、1∶40、1∶80和1∶160等,这类数据特征为后面数据取 值都是前面的倍数关系,而不像身高类数据,都是连续性一点点递增。 几何均数是所有x相乘,然后开n次方,式(6-2),计算较为复杂,一般都是通过软 件计算。G是针对正偏态资料集中趋势的描述。适用范围:对数正态分布资料或等比资料。 12nnGxxx=××× (6-2) 4. 众数(mode) 一组数据中,出现频次最多的那个数。国内发表文章较少使用,常见于外文论文。 6.1.2 离散趋势 有好就有坏,有集中就有离散,上面谈了计量数据的集中趋势描述的指标,同样其 离散趋势也有特定的指标加以描述。 1. 极差(range,R) 既然离散反映的是数据的分散性,那么有人就用一组的最大值减去最小值,得到数 据分布的最大区间,这个指标就是极差,如图6-2 所示。 极差这个指标非常容易理解,但因为最大值和最小值往往是试验误差导致,因此, 极差很不稳定,不得已方用之。 2. 四分位数间距(quartile,Q) 既然极差指标的缺点是由最大值和最小值不稳定导致,那么能否消除其影响呢?于 是有人就将数据平均分为四等分,用上四分之一(P75)与下四分之一(P25)之差,来反 映离散趋势,这就是四分位数间距指标,如图6-2 所示。 百分位数(percentile,Px)是指将一组数据从小到大排序,位次居于第百分多少位的数, 如全班同学按照身高从矮到高排序,小强身高176cm,站在第80 个,则该班身高数据的 P80 为176cm。 图6-2 极差与四分位数间距 四分位数间距(Q)也很容易理解,比极差要稳定得多,但是也有缺点,就是对于 一组数据,不管你样本量多大,仅用到两个值P75 和P25 来反映整个一组数据的离散趋势。 肯定会犯以点概面、以偏概全的错误。如果能引入一个指标,可以把一组数据中每个数 据的离散趋势算出来并求和,那么这个指标就比较完美。 3. 方差(σ2 ) 鉴于上述情况,于是就设计出离均差和,式(6-3)。可是我们发现离均差和永远等 于0,我们计算指标是用于比较的,但是任何数据的离均差和均为0,无法比较。为什么 是0呢,是因为会出现正负抵消。如数据1、2、3,它们的离均差分别为-1、0和+1, 所以就等于0了。 ()0xμ.=Σ (6-3) 继续改进公式,如果让原始数据的离均差取平方后再求和,不就可以消除正负抵消 产生的影响了吗?于是产生离均差平方和(sum of square,SS),式(6-4)。 ()2SSxμ=.Σ (6-4) 此时貌似已经完美,可是如果一组数据100人,一组数据20人,如果要计算离均差 平方和的话,人多的数据离散性肯定要大呀,人多难管理,心不齐呀。看来样本量影响 是要扣除的,咱们就让SS除以各自的样本量,于是就得到了总体方差这个指标。 22()xnμ  . =  (6-5) 4. 标准差(σ) 方差这个指标考虑了每个数据的离散趋势,消除了负号以及样本量的影响,确实已 经不错了,可是也有缺点:因为采用平方去除负号,导致离散趋势被夸大。有人说, 没关系的呀,大家都平方了,要大都被放大,其实不是的,因为被放大的倍数是不一 样的。 如小明每月有20元零花钱,小强每月有30元零花钱,小强每月比小明多10元;如 果都平方,小明有400元,小强有900元,小强比小明多了500元,不再是10元,因此 扭曲了两人真实的差距。你肯定会问,那我们怎么办呢?很简单,再开方呀,作用就是 消除负号,于是得到标准差,式(6-6)。 2()xnμ  . = (6-6) 前面说到极差、四分位数间距、离均差平方和以及方差,没有谁敢说自己是标准差 的,既然给其标准差的定义,说明其已经是一个非常完美的指标了,为什么大家看论文时, 只要符合对称分布,都用标准差(S)来描述其离散趋势呢?你是否记得,很多文章统计 表都有x_±s的表示方法呢? 再次重申一下,总体标准差用σ,样本标准差用s表示。标准差用于对称或正态分布 数据离散趋势的描述。 062 SPSS实战与统计思维 5. 变异系数(CV) 貌似到第4 步标准差出来,应该结束了!但当度量衡单位不一样的数据,以及单位 一样但均数相差较大时的资料离散趋势比较不可以用标准差。 如某班级学生身高数据均值为160.0cm,标准差为5.0cm,体重数据均值为50kg, 标准差为4.0kg,请问身高和体重数据离散性哪个大呢?此时单位cm 和kg 是没法比的。 可是不管你单位如何,你的离散趋势是存在的,正如松哥抓了一把沙撒地上,再抓 一把花生撒地上,沙和花生不是同一样的东西,可是它们落地上,离散趋势还是有的呀, 我们比的就是离散趋势。但是毕竟它们单位又不同怎么办呢? 启发思考一下,我们人类把蚂蚁比喻为大力士,因为蚂蚁可以举起一粒大米的重量, 可我们人类可以举起50kg 大米呀,为啥不说人类是大力士呢?美国科学家马克莫费特研 究发现蚂蚁可以举起自身体重400 倍的重量,而我们人类以及其他动物都望尘莫及。所 以你不能看人家举多重,还要看人家自身有多重。因此,当度量衡单位不一致数据离散 趋势比较时,我们用各自的离散趋势标准差除以各自的均数,这样便能很好地实现可比, 这就是变异系数。 100%×= XSCV(6-7) 对于上述数据,很明显身高变异系数5/160 小于5/50,因此身高的变异程度(离散趋势) 小于体重! .6.2 等级变量 计量数据是老大,前面已经描述完毕,变量家族的老二是等级变量,等级变量描述 可以用中位数、秩均值和众数。中位数前面已说,此处不赘。秩均值的意思是按照数值 大小排序,然后提取每个数据的位次(秩次),然后求这么多数据的秩次的均值,简称 秩均值。这在后面非参数检验会用到。众数(Mode)是一组数据中,出现频次最多的数, 如一组数据1、2、2、2、3、4,则众数为2。 .6.3 计数变量 计数变量为老三,其反映数据间互不相容的属性和类别。对于老三描述指标有率、 构成比和相对比。 6.3.1 率(rate) 率是指在一定范围内某现象实际发生数与可能发生某现象的总数之比。应用意义为 常用于判定某种现象发生的强度与频率。简单点就是实际发生数与可能发生该现象的观 察单位数之比,实际除以可能。如某班级100人参加英语六级考试,实际通过80人,则 该班级英语六级通过率为80/100×100%=80%。 6.3.2 构成比(constituent ratio) 表示事物内部各个组成部分在整体中所占的比重,通常以100%为比例基数,以百 分比表示。局部除以全体。应用意义为说明事物内部各部分所占的比重或分布。 6.3.3 相对比(relative ratio) 定义为两个有关的指标之比。应用意义为说明两个指标的对比水平,即一个指标是 另一个指标的几倍或百分之几。 经验传授 对于呈对称分布的计量数据,我们通常采用(x_ ±s)表示,而对于偏态分布数据常 用中位数(四分位数间距),即M(Q)表示;而对于计数数据的三个指标中,率和构 成比在统计上应用较多,常可以进行卡方检验等统计分析。计量和计数数据更为常见, 而等级数据分析更容易出错。 第7章 统 计 表 上面我们所学的那么多的统计描述指标,往往是放在一个表格里呈现给读者,这个 表就是统计表。统计表是以表格的形式,表达被研究对象的特征、内部构成及研究项目 分组之间的数量关系。 . 7.1 统计表的结构 统计表的基本结构包括:标题、标目、线条、数字以及备注,见图7-1。 图7-1 统计表的结构 1. 标题 标题是统计表的名称,置于表的上方正中,要求用词确切,高度概括,说明表的主 要内容。必要时注明资料来源的时间和地点,有多张表时需加编号,编号与标题同行, 放在标题的前面,编号用(表)加上阿拉伯数字表示,如“表1”。当文中只有一张表时, 可以写成“附表”。 2. 标目 标目包括横标目和纵标目,分别用以表示表格中每行和每列数字的意义。习惯上, 将被描述对象(常按类别、属性等分组)放在表的左边,作为横标目,是表的主语;纵 标目位于表的右侧、分隔线以上,说明横标目的标志特征或统计指标的内容,是表的谓语。 主语和谓语连贯起来能读成一句完整而通顺的句子,如图7-1中表13-1的标题。在实验 设计时的三要素,受试对象、研究因素和受试效应中,一般研究因素作为横标目,实验 效应作为纵标目。复合表的纵标目和横标目之上冠以总标目。标目的内容应按照顺序排列, 如时间顺序、地区的自然排列、事物的重要性、数量多少等,以利于说明规律性。需要时, 横标目下面、纵标目右边可设有合计栏。 3. 线条 统计表中的线条力求简洁,但至少有三条横线,俗称“三线表”,顶线、底线和分割线, 有时根据需要也可以添加合计线,其余的线条一般都应去掉。表格中不宜出现竖线和斜 线,其中顶线和底线将表格与文章的其他内容分隔开来,标目分隔线将标目的文字区 与表格的数字区分隔开来。部分表格还可添加短横线将合计分隔开,或将两重纵标目分 割开。 4. 数字 表内数字用阿拉伯数字表示,同一指标的数据小数位数应该保持一致,并且小数点 要对齐。表内不能留有空格,如有缺失常用“…”表示,用“-”表示无数字,数据为0 时记为“0”。 5. 备注 表中不列备注项,如需说明者,可在右上方标出“*”“#”等符号,在表的下方再 以注释形式说明。 . 7.2 制表原则 统计表一般遵循以下几项原则。 1. 重点突出,一事一表 即一张表一般只表达一个中心内容,不要把过多的内容放在同一张统计表中,如果 内容较多,可以按照不同的内容对表格进行拆分,制备多个表格。通常表的维度不超过 3维,超过3维的一般采用分开描述制表。 2. 层次清楚 层次清楚要求标目的安排和分组要合理,符合逻辑,便于分析比较。表内各内容的 排列应有一定的规则。对有统一次序者(如疾病严重程度,病理的分期等)应该按照规 定的次序排列;没有一定的规定次序者可按照实物的重要性或者频度高低排列,对变量 频数分配资料可按照变量值的大小排列,把变量值小的放在上面;不同时期对比的内容, 应该按照时间顺序排列。 3. 简单明了 简单明了是指统计表中的一切文字、数字和线条等尽量从简。 第8章 统 计 图 统计分析最终成果的展现形式只有两种——统计表与统计图。统计表其实就是对统 计分析得到的指标进行表格集成,只要选择正确的统计分析,用得到的指标进行制表即可。 一般不会太难,更何况,很多时候软件自动将统计表生成,只需稍加整理。统计图是统 计分析结果表达的重要工具,它通过线段的升降、点的位置、直条的长短、面积的大小 来表现事物间的数量关系。使用统计图可形象、直观、生动的描述统计资料的相关信息, 广泛应用于资料的收集、整理及研究结果的对比分析。一张好的统计图能够准确、直观 地呈现统计结果,给读者留下深刻印象。业界有句话“一图胜千言”,由此可见统计图 的重要性,在这个既看才华又看颜值的时代,统计作图本领显得格外的重要。 . 8.1 SPSS 24.0绘图功能简介 打开要分析的数据文件,单击“图形”菜单,如图8-1所示。我们可以看到下拉 菜单包括“图表构建器”“图形画板模板选择器”及“旧对话框”,其中“旧对话框” 又包括常用的11种图形。统计图形除通过“图形”菜单直接实现外,部分图形还会 伴随其他分析过程而输出,如描述分析中的“频数”过程、回归分析过程、时间序列 过程等。 图8-1 SPSS24.0“图形”菜单一览 3. 轴系 轴系是指特定坐标空间中的一个或多个轴。我们在将图库项拖入“展示区”时,“图 表构建器”会自动创建轴系。用户也可以从“基本元素”选项中选择一个轴系,每个轴 系旁边都包含一个轴变量放置区,放置区呈现蓝色时,表示该区域需要放置变量。每个 图表都需要添加一个变量置x 轴变量放置区。 4.“库”选项卡 “库”选项卡位于图8-2 的左下角,具体如图8-4 所示。“选择范围”列表框涵盖了“图 表构建器”可以绘制的各种图形及收藏夹,当单击“选择范围”中某一图表类型时,右 侧即显示该图表类型的所有可用图库。用户可以单击选中所需的图表类型,将其拖入“画 布”,也可双击将所需图表放入“展示区”。如果“展示区”已经有图表,则会自动替代, 当然原先“画布”的图表也可以用右键单击,在出现的窗口选择“清除画布”。 图8-4 “库”选项卡 5.“基本元素”选项卡 在“图表构建器”对话框中单击“基本元素”,打开图8-5 所示的“基本元素”选 项卡界面。里面包括左侧5 种选择轴和右侧的10 种图形元素。一般用户先将选择轴拖 入“画布”,再将“选择元素”拖入“画布”。需要注意的是,并不是所有“选择元素” 都可以用于上述5 轴,每种轴系只支持特定的元素。另外对于初次使用用户建议使用 “图库图表”,因为“图库图表”能够自动设置属性并添加功能,可以简化创建图表的 过程。 6.“组/点ID”选项卡 在“构建图表程序”对话框,单击“组/ 点ID”选项卡,如图8-6 所示。若勾选 “组/ 点ID”选项卡中的某个复选框,将会在“画布”中增加相应的一个放置区;若取 消一个复选框,将会取消“画布”中相应的放置区。 5 6 图8-5 “基本元素”选项卡 图8-6 “组/点ID”选项卡 7.“标题/脚注” 在“构建图表器”对话框,单击“标题/脚注”选项卡,如图8-7所示。用户通过勾选“标 题/脚注”选项卡中界面中的复选框,并在右侧弹出的“元素属性”对话框中的“内容” 文本框中输入相应标题名或脚注名,然后单击“应用”按钮,就可使输出的图形添加标 题或脚注;同理通过取消复选框可以去除已经设置的标题或脚注。 7 图8-7 “标题/脚注”选项卡 8.“元素属性”按钮 单击“图形构建器”对话框中“元素属性”按钮,弹出如图8-8所示的对话框。 在“编辑属性”列表中,显示可以进行属性设置的图形元素,图8-8所示中包括条、 X-Axisl、Y-Axisl和GroupColor。每一种图形元素可以设置的属性一般不同,用户按照 预定目标对相应元素进行属性设置。点击图8-2“图表构建器”对话框右侧的“选项” 按钮,弹出图8-9“选项”按钮设置,使用者可以对缺失值与汇总统计量和个案值进行 设置。 8 9图8-8 “元素属性”选项卡图8-9 “选项”按钮设置 9.“选项”按钮 (1)分组变量。SPSS 在处理分组变量缺失值时包括两种方法,“排除”是指绘 图时忽略用户定义的缺失值;“包括”是指绘图时把缺失值作为一个单独的类别加以 统计。 (2)汇总统计量和个案值。若选择“排除列表,为图表获取一致的个案率”,则表 示绘图时直接忽略这个观测;若选择“排除逐个变量,最大化数据的使用率”,则表示 只有包含缺失值的变量用于当前计算和分析时才忽略这个样本。 (3)模板文件。该列表框用于对绘图时的模板进行设置。绘图时最先使用默认的模 板文件,也可以通过单击“添加”按钮,打开文件选择对话框,添加指定的文件预置模 板文件。 (4)图表大小与嵌板。图表大小用于设置图形生成的大小,默认值为100%;“嵌板” 用于图形列数过多时的显示设置。若勾选“换行嵌板”复选框,则表示图形列数过多时 允许自动换行;否则图形列数过多,每行上的图形会自动缩小以显示全部。设置完毕后, 单击“确定”按钮后返回主对话框。 图8-14 不同专业大学生肺呼量 图8-15 不同专业不同性别大学生肺呼量 图8-16 不同专业不同性别大学生肺呼量 8.2.1 统计图的结构 从图8-14、图8-15和图8-16可以看出,统计图的基本结构如下所述。 (1)图域:作图空间。取纵横坐标的交点为起点,以第一象限为作图区,图域的长 宽比例一般为7∶5或者5∶7。 (2)标题:概括统计图的内容。标题应简明扼要,告知统计图资料来源的时间、地 点及主要内容,其位置一般在图的正下方,同时标题前要标注图形的编号。 (3)标目:描述图所描述的事物或指标。纵标目和横标目分别放置在纵轴的左侧和 横轴的下方,并分别指明纵、横标目所代表的指标和单位。 (4)刻度:纵轴和横轴上的坐标。刻度数值按从小到大的顺序排列,常用算数尺度 和对数尺度,分别列在纵轴外侧和横轴下侧。 (5)图例:针对复杂统计图内不同事物和对象,需要用不同图标、颜色和线形加以 区分,并附图例加以说明。图例一般放在图域的空隙处。 8.2.2 统计图的绘图原则 绘制统计图的原则是:合理、精确、简明、协调。不同的统计图的适用条件和表达 的信息均不相同,应根据资料的类型和分析目的合理地选用统计图,此外,统计图应满 足视觉美观的要求。 8.2.3 统计图形的选择 应根据资料特征和分析目的选择合适的统计图,但研究者还可以根据具体情况设计 其他类型的统计图进行资料描述,如图8-17所示。 统 计 图 形 适 用 资 料 分 析 目 的 条图 分组资料 用直条的长短表达数值大小关系 3-D条图 分组资料 用立体图表达数值的大小关系 线图 连续性双变量资料 用线段的升降表达事物的动态变化 面积图 连续性双变量资料 用面积的大小表达事物的变化规律 饼图 构成比资料 用圆中的扇形面积表达所占比例 高低图 单变量资料 用多个垂直线段来表示数值区域 箱图 单变量资料 用“箱”和“触须”的位置标示变量的分布特征 误差条图 单变量资料 显示数据所来自的总体的离散程度 人口金字塔 单变量资料 用于描述某变量的频数分布 散点图 定量资料 用点的趋势和密集度标示两变量的相互关系 直方图 定量资料 用直条的高度或面积表达各组段的频率或者频数 时间序列图 双变量资料 用于观察变量是否随时间变化而呈现某种趋势 图8-17 常用统计图形的选择 088 SPSS实战与统计思维 3.“元素”菜单栏 可显示每一个直条的数据标签及绘制内插线。 其实在图表编辑窗口中,统计图可视为由各个基本单位构成,如标题、坐标、图例等, 可通过单击鼠标左键选中这些基本单位,然后再双击,即可弹出相应的对话框,从而完 成统计图的编辑。 .8.3 3-D 条形图(3-D Bar) 3-D 条形图是复式条图的三维立体表现形式。 例8.3:以例8.1 数据为例,绘制不同专业大学生的性别分布3-D 条形图。 (1)单击“图形”—“旧对话框”—“3-D 条形图”,弹出3-D 条形图对话框,如 图8-32 所示。其中个案组、单个变量和个别个案的定义与条图相同。 图8-32 3-D 条形图对话框图8-33 3-D 条形图定义对话框 (2)分别在X 轴代表含义和Z 轴代表含义选项框中选择“个案组”,单击“定义” 按钮,弹出3-D 条形图定义主对话框,如图8-33 所示。 (3)将年级和性别分别选入“X 类别轴”和“Z 类别轴”,其Y 轴表示描述统计量, 即为“图的表征”,本例选择默认的个案数;面板依据中的行与列的设置与条图相同, 堆积/ 分群依据中的“堆积”“X 中的分群”“Z 中的分群”是指将Y 轴、X 轴和Z 轴指 标按照某因素进行进一步的分类展示;标题、选项和模板的定义同条形图部分。 (4)由于本例只是对不同专业大学生的性别分布做3-D条形图,直接单击“确定” 按钮,获得结果,如图8-34所示。 100 .... 806040200 .... .... .... .... .... .... ........ .... .... .... .... .... .... .. .. .. .. .. .. .. 图8-34 不同专业大学生的性别分布 . 8.4 线图(Line) 线图是用线段的升降表示数值的变化,描述某统计量随另一变量变化而变化的趋势 或者速度,或某统计量随时间变化的过程。绘制线图的要求是两变量的观察值必须一一 对应,如果一个变量的一个观察值对应另一个变量的两个或多个观察值,就不能绘制线图, 可绘制散点图。有时会将两个或多个意义相同的线图放在同一个坐标系中,以利于直观 比较它们的变化趋势。 例8.4:以例8.1数据为例,绘制不同专业、不同性别间大学生肺呼量的垂直线图。 因简单线图及多线线图与单式条图和复式条图的制作方法几乎完全一致,这里不再 赘述,只展示垂直线图的制作构成。 (1)单击“图形”—“旧对话框”—“线图”命令,弹出线图对话框,如图8-35所示。 简单线图对应于单式条图,多线线图对应于复式条图,垂直线图则等同于堆积条图,所 不同的是堆积条图用的是直条的长短来显示数量间关系,垂直线图使用线条的高低来反 第9章 t检验 t检验为四大差异性统计分析方法之一,是基于t分布的统计理论,处理两个总体间 的计量资料之间的差异。t检验包括3种设计类型,统计分析时依据统计设计类型与资料 是否符合条件选择相应的类型进行统计分析。 . 9.1 基本思想与类型 按照中心极限定律,计量资料总体中抽样的样本均数分布符合t分布(见图9-1),t 分布曲线下面积为1,即A+B+C=1,其中A+C=0.05,而P≤0.05为小概率事件,可以理解为, 如果在一个计量资料的总体中抽取一个样本,样本均数落在A和C中的可能性为小概率 事件,而小概率事件在一次抽样过程中不可能发生,从而可以得出拒绝H0的结论。 图9-1 t分布与t检验原理 如某研究者在山区随机抽取了25人,得到平均脉搏为75.0次/分,标准差为5.0次/分, 而经过大量调查发现,一般健康男子脉搏为72.0次/分,我们千万不能认为75.0次/分 >72.0次/分,就认为山区组男子脉搏均数高于一般健康成年男子72.0次/分,因为一般 健康成年男子的72.0为总体参数,而山区组的75.0次/分仅为样本统计量,两者不在同 一级别,不可以比较。正如某国家总统访华,却让你去接见一样,不合适,你的级别不够。 而且样本统计量是由抽样而来,抽样必然会发生抽样误差。 虽然不可比,但我们可以通过假设检验来进行比较。对于上述的案例,背后的真理 只有两种可能:一为山区组健康成年男子与一般健康成年男子脉搏均数相同;二为两者 不同。如果我们通过小概率事件的原理,证明其中的一种可能不可能发生,则真理就在 剩下的那种假设里。 109 第9章 t检验 本例我们先假设山区组脉搏均数等于一般健康成年男子脉搏均数=(72.0次/分), 然后看能否在这个总体中抽25人,其均数为75.0次/分,标准差为5.0次/分,如果得 到这个结果的可能性落入A或者C区域,因为A、C区域为小概率事件,则认为不可能 发生,进一步反映我们的假设两者总体均数相等不成立;如果得到上述结果的可能落入 B区域,B区域发生的概率P>0.05,因此可以发生,故我们就没有足够的理由认为两者 的总体均数不同。 虽然都是t检验,但根据试验设计的不同,依然可以分为三类,即单样本t检验、两 独立样本t检验和配对样本t检验,随后分别进行讲解。 . 9.2 单样本t检验 9.2.1 设计思想 单样本t检验的设计模式图如下,已知一个总体(B),现在在一个未知的总体(A) 中随机抽取了一个已知的样本(C),而所问的问题是总体A与总体B之间有无差异? 为了形象记忆,单样本t检验的设计模式简称为“一个半鸭蛋”,即已知一个总体和未 知总体中的一个样本。 图9-2 单样本t检验设计模式 9.2.2 案例实战 假定大学生的平均体重为50kg,现在某高校随机抽取590名大学生并测其体重数据, 问该校大学生的体重与一般大学生是否有差异?(案例数据:data01.sav) 9.2.3 案例解析 假定大学生的平均体重为50kg,这是一个已知给予的总体参数。现在某高校随机抽 取了590 名大学生并测量其体重数据,这590 名大学生的体重是样本统计量,而该高校 为一个未知的总体,符合我们上面讲解的“一个半鸭蛋”模式。 9.2.4 实战步骤 1. 双击打开data01.sav 数据库。 2. 调用单样本t 检验窗口。 操作:分析—比较均值—单样本t 检验 C:\Users\Administrator\Desktop\SPSS24..\第8¢t..\3.jpg C:\Users\Administrator\Desktop\SPSS24..\第8¢t..\4.jpg图9-3 调用单样本t 检验步骤图9-4 单样本t 检验功能窗口 3. 单样本t 检验窗口属性设置。 本例研究的结果变量或者效应指标为体重,因此把体重放入检验变量框中;因为已 知总体均数为50kg,因此在检验值框中输入50,点击“确定”按钮即可,见图9-4。 9.2.5 结果解读 本例分析结果见图9-5。单样本t 检验结果解读为两步法。 第一步:三核心 由图9-5(A)拿到数据的三个核心基本统计量(样本量、样本均数和标准差),产 生主观意识。本例样本均数为55.238kg,我们感觉,可能该校学生的体重要高于一般大 学生的体重,但因为存在抽样误差,不能下主观结论,需要假设检验验证。 第二步:找t 和P 由图9-5(B)可见,本例t 检验的t=14.936,P=0.000<0.05,因此,小心翼(异)翼 (异),有差异,该校大学生体重的总体均数与一般大学生的平均数50.0kg 有差异,鉴 于55.238kg>50.0kg,因此可以认为该校大学生的体重要高于一般大学生的平均体重。 C:\Users\Administrator\Desktop\SPSS24图库\第8章t检验\6.jpg 图9-5 单样本t检验结果 9.2.6 拓展理解 单样本t检验结果解读两步法5指标,这5个指标在发表文章中都是必须要报道的, 结果中还有其他一些指标帮助理解,一般无须报告。 应用条件:样本数据符合正态分布,不符合时应该采用非参数检验;但当样本量较 大时数据略呈偏态分布也可以分析。 . 9.3 两独立样本t检验 9.3.1 设计思想 两独立样本t检验的思想是在两个未知的总体中分别抽取一个样本,然后比较两个 总体之间是否有差异,模式图见图9-6,形象比喻为“两个半个的鸭蛋”。 图9-6 两独立样本t检验模式 在实际研究中,两个样本的获取只有两种可能:一是随机分组,如60只SD大鼠, 随机分2 组,每组30 只,分别接受不同的处理,然后比较某个计量效应指标;二是按照 某种属性特征分组,如某班级按照性别分为男生组和女生组,然后比较男女生某门课程 的考试成绩差异。不管是随机分组还是按照属性特征分组,均是保证两组相互独立,不 受影响。 9.3.2 案例实战 某研究者在某高校随机抽取了590 名大学生,按照性别分为男生组和女生组,现想 知道男生与女生的肺呼量(mL)有无差异。(案例数据data01.sav) 9.3.3 案例解析 受试对象分为两组,本例不是随机分组,你是男生就必须进入男生组,女生就必须 进入女生组,因此本例为按照某种属性特征分组。男生和女生相互独立,效应指标肺呼 量(mL)为计量资料。符合上述的“两个半个的鸭蛋”设计模式图。 9.3.4 实战步骤 1. 调用两独立样本t检验功能窗口 操作步骤:分析—比较均值—独立样本t 检验,弹出图9-7。 C:\Users\Administrator\Desktop\SPSS24..\第8¢t..\10.jpg图9-7 独立样本t 检验窗口设置 2. 独立样本t检验窗口设置 在图9-7 窗口中,将效应指标“肺呼量”放入检验变量框中,将“性别”放入分组 变量框中,点击“定义组”按钮,设置1 和2。因为本例1 代表男,2 代表女。点击“确 定”得到结果(见图9-8)。 C:\Users\Administrator\Desktop\SPSS24图库\第8章t检验\12.jpg 图9-8 两独立样本t检验结果 9.3.5 结果解读 本例分析结果如图9-8所示。两独立样本t检验的结果解读为三步法。 第一步:三核心 见图9-8(A)部分,与单样本t检验一样,首先拿到两组数据的三个核心基本统计量(样 本量、均数和标准差),产生主观意识。本例男生肺呼量均数3887.16mL,女生肺呼量 2522.57mL,给我们感觉男生的肺呼量要高于女生,但因为都是抽样的样本,可能由抽样 误差导致,因此需要后续假设检验证实。 第二步:方差齐性(F和P) 大家知道两个拳击选手进行比赛,要求两个选手在同一个重量级别下比赛才比较公 平。同样两个抽样均数之间比较,要求两个t分布形态相差不大方才可以。t分布的形态 反映的是其离散趋势,方差也是反映离散趋势的指标,统计上采用levene方差齐性检验 进行判定两个分布是否相同。 故第二步看图9-8(B)部分,得到levene检验F=22.559,P=0.000<0.05,有差异, 因此两组t分布形态分布有差异,不在一个重量级别,不适合比较。 可是一个拳馆票已经售出,晚上只有两位拳手,而两位拳手又不在一个重量级别, 那就不打了吗?票已售出,非打不可,那我们可不可以,进行相关规则的调整:让重量 级别轻的打中一拳算两拳,级别重的打中一拳还算一拳进行校正,似乎也可以进行一场 精彩的比赛。因此当两独立t检验方差不齐的时候,我们也可以进行校正的两独立t'检验。 第三步:t检验(t和P) 见图9-8(C)部分,此部分有两行,各有一个t值和P值,如何选择呢,根据第二 114 SPSS实战与统计思维 步的判定。本例第二步发现两组方差不齐,不适合直接比较,因此应该校正。 第一行的结果为方差齐的结果,t=28.635,P=0.000;第二行为方差不齐进行校正的 结果,t=28.843,P=0.000,本例应该看第二行的结果。 9.3.6 拓展理解 两独立样本t 检验的条件为:独立性、正态性和方差齐性(简称:独立、正态、方差齐)。 (1)独立是指两组数据来自的总体相互独立,比如本例的男生和女生的总体是相互独立 的,独立性的判定是由试验设计决定的;(2)正态性是指两组数据应该符合正态分布, 正态与否是由研究数据决定的,但这条要求不是非常严格,t 检验对近似正态或轻微偏态 分布也比较耐受;(3)方差齐性要求非常严格,方差齐时直接用,方差不齐要校正。 .9.4 配对样本t检验 9.4.1 设计思想 配对设计t 检验模式图见图9-9。举个例子更容易理解:某医生想研究一种降压药是 否具有降压作用,选了5 名高血压患者(5 例太少,仅举例哦),检测了血压后,采用 该种药物进行治疗,治疗前后收缩压结果见图9-9,问该种降压药是否有效。 这是一种典型的干预前后配对设计,大家试想一下,如果这种降压药完全无效,理 论上治疗前与治疗后的差值应该为0,本例5 例样本的差值是不是类似这种降压药治疗 的总体中抽取的5 例样本,然后去和一个已知无效的总体均数0 比较。大家看图9-9(C) 和9.9(D),是不是又回到“一个半鸭蛋”的模式图啦!是的,配对样本t 检验是配对 的两组数据相减变成一组数据,然后去和已知总体0 比较,其实就是转化为单样本t 检 验做的哦! 图9-9 配对样本t 检验模式 配对设计还包括四种类型,见图9-10。其中A为干预前后配对,如同组病人降压药 治疗前后;B为同一受试对象身体不同部位配对,如测量同一个人左手和右手的血压、 检测某人癌组织与癌旁组织某个基因表达等;C为条件配对,如在一窝老鼠中,选取性 别和体重相同的2只作为1个对子,继续寻找多个这样的对子,然后每个对子中的2个 受试对象随机分配到2个处理组中去;D为同一份标本不同检测方法配对,如同一份血液, 分成2份,一份用显微镜法检测红细胞含量,一份用仪器法检测红细胞含量。 凡是上述4种,你会发现检测的两组数据之间存在相关性而不独立,这与两独立样 本设计有着本质的区别。也有人把4种分类分为同体配对:A、B、D;异体配对:C。 C:\Users\Administrator\Desktop\SPSS24图库\第8章t检验\14.jpg 图9-10 配对的四种类型 9.4.2 案例实战 某医生采用某降压药治疗10例高血压病人,服药前后分别 测量受试者的舒张压为检测指标,数据如图9-11所示,问该降 压药是否具有降压效果?(数据文件:data9.1.sav) 9.4.3 案例解析 受试对象为10名高血压患者,干预措施为某种降压药, 分别在服用降压药前与服用一段时间后进行舒张压的测量,效 应指标为舒张压,为计量资料。试验设计符合干预前后的配对 设计。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\第8章t检验\16.jpg 图9-11 本例数据库 9.4.4 实战步骤 1. 调用配对样本t检验窗口 步骤:分析—比较均值—配对样本t 检验,操作如图9-12,弹出图9-13。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第8¢t..\17.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第8¢t..\18.jpg图9-12 调用配对t 检验图9-13 成对样本t 检验属性设置 2. 配对t检验窗口设置 在图9-13 中,将变量“治疗前”和“治疗后”先后放入右边的配对框,配成1 对, 然后点击“确定”即可输出计算结果(见图9-14)。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\第8¢t..\20.jpg图9-14 配对样本t 检验结果 9.4.5 结果解读 配对样本t 检验结果解读也为三步法。 第一步:三核心 由图9-14(A)部分,获取治疗前后的样本量、均数和标准差。本例发现治疗前舒 张压为126.2mmHg,治疗后为110.20mmHg,主观感受为该药可能有降压效果,但有待 假设检验进行验证。 第二步:看相关 大多数情况下,本步可以忽略,因此国内外很多发表的论文并没有交代本步的结果。 但从统计的角度,本步相关的计算是为了验证配对数据的一致性(consistent),意思是 治疗前较低的个体,治疗后的值也处于较低的地位;治疗前较高的个体,治疗后也处于 较高的位置,用以说明干预措施作用的稳定性或一致性(Perry.R Hinton)。 可能存在四种情况: (1)相关与t检验均P<0.05,说明数据一致性好,差异有统计学意义,而且差异的 产生就是干预因素作用的结果; (2)相关不显著,t检验显著,暗示均数存在差异,但个体间均数差异变化不一致, 均数的差异可能还受其他因素的影响; (3)相关显著,但t检验不显著,说明数据有一致性,但均数差异不显著,即干预 措施未发挥作用; (4)相关与t检验均不显著,这点不容易解释,但受试者数据在两组不具备一致性, 组间均数差异没有意义。这种情况,没啥担心必要。 第三步:找t和P 本例配对t检验的t=16.181,P=0.000<0.05,因此有差异,认为治疗前后患者舒张压 的差异具有统计学意义,故可以认为该降压药具有降压效果。 9.4.6 拓展理解 表9-1为一组试验数据,请问应该如何进行分析呢? 表9-1 治疗前后中医证候积分的变化 组 别 n 治 疗 前 治 疗 后 针推组 30 16.63±2.87 4.57±2.43**△△ 针灸组 30 17.00±2.60 6.43±2.22△△ 注:**与针灸组比较,P<0.01,△△与治疗前比较P<0.01 这是较为常见的带基线数据组间比较,根据研究目的的不同,可以采用不同的统计 分析方法。 118 SPSS实战与统计思维 (1)如果想知道针推组或针灸组治疗前后是否有效,那么属于配对设计,应该采用 配对t 检验; (2)如果想知道针推组和针灸组疗效是否有差别,可以先计算两组治疗前后的差值, 然后采用两独立样本t 检验进行两组疗效比较;还可以采用协方差分析,将治疗前积分 当作协变量进行方差分析。有人直接对治疗前进行两独立t 检验,发现差异无统计学意义, 则直接对两组治疗后积分进行两独立t 检验,这种做法已不再提倡。 .9.5 t检验小结 不管单样本t 检验、配对样本t 检验还是两独立样本t 检验,都是用于检验两个总体 间计量资料的比较方法。单样本t 检验要求符合正态分布,两独立样本t 检验要求独立、 正态和方差齐,配对t 检验要求差值符合正态分布。上述三条对正态分布的要求不是非 常严格,近似正态分布依然可以分析,也可以采用非参数检验的方法进行分析。 t 检验的常见错误是,成组设计的多组计量资料之间比较,直接采用两两拆分后,采 用t 检验进行分析,这极大地增加了I 类误差发生的概率。如3 组资料,两两比较需要进 行3 次,每次进行一次假设检验即可能发生α=0.05 的I 类错误,3 次则会发生0.15(其 实是近似0.15,松哥这么说是方便大家记住),远远超出我们0.05 的预期,而我们进行 统计分析时,一个科学研究问题I 类误差的发生概率基本控制在0.05,因此直接拆分是 不可靠的。 第10章 方 差 分 析 t检验所处理的都是两个总体之间的计量变量的比较。你可能说不对呀,两独立样本t检 验是两个总体比,单样本t检验和配对样本t检验不就只有一个总体吗?大家还记得单样本t 检验的模式图“一个半鸭蛋”吗?还不是两个总体之间的比较吗?配对样本t检验是利用 差值转换为单样本t检验做的,还是两个总体之间比较。 可是当我们处理多个总体之间的比较的时候,如图 10-1,t检验就已经无能为力了。对于图10-1,很多人提出 这样的分析方案,说三个总体之间比较,可以转化为AB、 BC和AC三次t检验不就可以了吗?确实,以前还真有不 少人有这种想法,但这是错误的。 大家知道,我们进行假设检验会犯I类和II类统计学错误,I类错误就是α,就是我 们事先确定的检验水准,通常取值0.05,图10-1本来就是一个科学问题,问三个总体之 间有无差异,而你却采用了3次t检验,每一次都会犯0.05的I类错误,导致最终结果 的I类错误发生率远远高于0.05这个我们能够接受的水平,导致推断错误概率过大。 那怎么办呢?于是R.A Fisher就发明了一种处理K个总体间计量变量比较方法—— 方差分析。方差分析是用变异的思想,将总的变异分为组间变异和组内变异,组内变异 往往是个体变异导致,一般不会太大;而组间变异除了个体变异外,还有组间干预措施 导致的变异,因此,R.A. Fisher认为,如果组间的变异除以组内的变异,结果远远的大于1, 就有理由认为,组间的干预措施在发挥着作用,为了纪念Fisher,这种方法简称F检验。 同时根据不同的分组方法,或者说是干预措施的添加方法不同,方差分析有着不同 的类型,下面就逐一开始介绍。 . 10.1 单因素设计方差分析 单因素设计方差分析是研究一个研究因素不同水平(K≥3)间的计量变量比较。 受试对象分到K组中去,有两种分组方式:随机分组和按照某种属性特征分组。如一组 受试大鼠,按照随机化分组的方式分到3组中去,每组20只;再如某班级按照血型分为 四组,研究学生的学习成绩。前者就是随机分组,后者就是按属性特征分组,大家以后 进行判定一定要找随机与属性这两个关键点。如果大家还记得前面的内容,单因素设计 F检验其实就是我们前面说的成组设计K组的情况。 图10-1 多组比较模式图 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\2.jpg图10-2 单因素设计方差分析模式 案例实战 某学校教务处,欲研究传统教学、PBL 教学和翻转课堂的教学效果是否有差异,选 择了某班级95 名同学,按照学号随机分成3 组,分别接受三种教学方法进行统计学课程 教学,期末采用同样的试卷进行了考试,获得学生成绩数据(data10.1.sav),请采用合 适的方法进行统计分析,并进行解释。 案例解析 (1)受试对象(95 名学生)随机分组,分别接受三种教学方法,试验设计为成组 设计K 组。 (2)研究因素为教学方法,有三个水平,传统教学、PBL 和翻转课堂。 (3)试验效应指标,即本次研究的指标学生成绩为计量资料。 (4)综上所述,优先考虑单因素设计方差分析。 (5)方差分析的条件为:独立、正态和方差齐。本组组间为随机分组接受不同的处理, 故是独立的;正态性要求不高,常不关注;方差齐是必须的,因此需要进行齐性的验证。 实战步骤 (1)打开数据集data10.1.sav,分析—比较平均值—单因素ANOVA 检验,弹出图10-3。 (2)图10-3 中,将“期末考试成绩”放入“因变量列表”框;将“教学方法”放入“因 子”框。 (3)点击参数按钮“选项”,弹出图10-4,其中务必勾选“描述”和“方差齐性检 验”,因为描述是帮助我们拿到三个核心基本统计量,方差齐性检验为方差分析必备检验。 其他非必须放过。点击“继续”,回到图10-3。 (4)再点击参数设置按钮“事后比较”,弹出图10-5。这步的目的是如果方差分析 发现三组间是有差异的,到底是哪两组有差异,还是三组间全部都有差异,需要进行分析。 (5)图10-5 中勾选“LSD”和“SNK”法进行讲解演示,点击“继续”再次回到 图10-3。点击“确定”运行。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\4.jpg F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\6.jpg 图10-3 单因素ANOVA检验 图10-4 单因素ANOVA选项 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\7.jpg 图10-5 事后多重比较选项设置 结果解读 (1)三种教学方法的3个核心基本统计量,见图10-6(A),传统教学均分为62.88分, PBL教学为65.53分,翻转课堂为71.61分。看似有一定的差异,但有可能是误差导致, 因此需要检验。 (2)检验三组方差是否相同:见图10-6(B),显著性(P)=0.692>0.05,按照“大 同小异”的口诀,三组方差相同,可以进行后续方差分析。 (3)方差分析结果:ANOVA(analysis of variance)就是方差分析英文的缩写,见 图10-6(C),我们发现F=7.905,P=0.001,按照“大同小异”的口诀,三组间的考试 成绩有差异。然而只知道有差异,谁和谁有差异不清楚,需要进一步两两比较。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\10.jpg图10-6 单因素ANOVA 结果 (4)LSD 法两两比较:见图10-7(A),看标注框中“显著性”一栏,凡是显著性 (P)<0.05,表示两者之间有差异。结果发现翻转课堂与传统教学差异有统计学意义,翻 转课堂与PBL 差异有统计学意义;PBL 与传统教学差异无意义。 (5)SNK 法两两比较,见图10-7(B)。很多人反映看SNK 结果存在困难,这里 用心读一读哦,本例SNK 法认为三种教学方法可以分为2 组,翻转课堂自成1 组;PBL 和传统教学为1 组;那么翻转课堂就分别和PBL、传统教学有差异;而传统教学与PBL 无差异。结果和SLD 法一致。 (6)结合图10-6(A),可以认为翻 转课堂教学效果最好,PBL 和传统教学无 差异。 经验心得 1. 事后检验两两比较:SPSS 提供了 14 种用于组间方差齐时两两比较的方法; 而方差不齐时提供了4 种方法,共18 种。 2. 方差不齐时虽然提供了4 种两两比 较的方法,但业界主流学派还是认为方差 不齐不应该采用方差分析,故存在争议, 建议大家方差不齐还是采用非参数检验。 图10-7 LSD 和SNK 法事后比较3. 方差齐时的14 种方法:见图10-8, F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\11.jpg 虽然有每种方法的算法介绍,但对初学者往往还是无法选择,下面简单介绍一下: 事后检验方法说明 条件 方 法 适 用 条 件 方差 齐时 LSD法 最小显著性差异法。用t检验完成组间成对均值的比较,检验的敏感度较高, 即使各个水平间的均值存在细微差别也能被检验出来,但此法对第I类弃 真错误不进行控制和调整 Bonferroni法 为修正最小显著性差异法,用t检验完成组间成对均值的比较,即通过设 置每个检验的误差率来控制整个误差率,采用此法看到的显著值是多重比 较完成后的调整值 Sidak法 用t检验统计量完成多重配对比较后,为多重比较调整显著值,其比 Bonferroni方法的界限要小 Scheffe法 当各组人数不相等或者想进行复杂的比较时,用此法比较合适。对所有可 能的组合进行同步进入的均值配对比较。该方法用来检验组间所有可能的 线性组合,而不只是成对组合,并控制整体显著性水平等于0.05。该法相 对保守,有时候方差分析有显著性差异,但用此法却发现不了差异 R-E-G-WF法 是用F检验进行多重比较 R-E-G-WQ法 根据Student极差统计量的多重比较 S-N-K法 使用t范围分布在均值之间进行所有成对比较,同时使用步进式过程比较 具有相同样本大小的同类子集内的均值对。均值按从高到低排列,首先检 验极端的差分值 Turkey法 使用t范围统计量进行组间所有成对比较,并将实验误差率设置为所有成 对比较的集合误差率 Turkey’b法 用Student-Range统计量进行所有组间均值的配对比较,其临界值是 Turkey和S-N-K的相应值的平均值 Duncan法 在进行配对比较时,使用逐步顺序进行计算得出结果,与S-N-K检验顺序 一样,但不是给每个检验设定误差率,而是给所有的检验的误差率设定一 个临界值 Hochberg’s GT2法 使用学生化最大系数的多重比较和范围检验,与Turkey’s真实显著性差异 检验相似 Gabriel法 用正态标准系数进行配对比较,但单元数不等时,它通常比Hochberg’s GT2法更强大,但当单元数变化过大时,该检验可能会变得比较随意 Waller-Duncan法: 使用t检验进行多重比较,使用贝叶斯过程的多重比较检验,需要在输入 框中指定类型I和类型II的误差比 Duncan法 用t检验进行配对比较,先指定一组与其他各组比较。选中此法,其下“控 制类别”下拉列表和“检验”选项栏被激活。“控制类别”列表含最后一个 和第一个两项。“检验”栏中选择t检验方法有双侧、左控制和右控制3项 方差 不齐 Tamhane’s T2法 表示采用t检验的保守成对比较 Dunnett’s T3法 指用学生化最大系数进行配对比较检验 Games-Howell法 表示执行方差不齐时的配对比较检验,该方法比较常用 Dunnett+G12: G25’S C法 表示用Student-Range极差统计量进行配对比较检验 图10-8 事后比较选项 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\13.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\14.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\12.jpg 无差异,采用随机区组设计的方法,以窝别作为划分区组的特征,以消除遗传因素对体 重的影响,获取数据见data10.2.sav。请试做分析。 案例解析 1. 本例为了消除遗传因素影响,以窝别作为配伍的条件,同一窝老鼠找3只体重相 近的作为一个配伍组,然后每个配伍组中3只老鼠随机分配到三个干预组中去。 2. 主要研究因素为饲料,分为甲、乙、丙三个水平。区组因素分为8个水平;统计 上一般主要研究因素是研究的主要目的,区组因素一般是为了控制消除其影响的。实验 效应指标为体重增加量(g),为计量数据。 实战步骤 1. 调用:打开数据集data10.2.sav,分析—一般线性模型—单变量;弹出图10-12单 变量分析框。 图10-12 单变量分析窗口 2. 功能窗口设置:将“体重”放入因变量、将“区组”和“干预组”放入固定因子, 如图10-12所示。 3. 参数窗口设置。 (1)模型参数设置(见图10-13):点击“定制”,然后将“区组”和“干预组” 放入模型变量框,“构建项”选择“主效应”,点击“继续”。(不能选全因子,因为 全因子是用于分析交互作用的,随机区组设计是不分析交互作用的;区组和干预组变量 要分别放入右框,同时选中放入会变成交互项。) (2)事后比较参数设置(见图10-14):因为区组和干预组均为多组,故都需要事 后比较,将区组和干预组放入事后比较框;两两比较方法选择LSD和SNK。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\20.jpg图10-13 随机区组设计模型属性设置 (3)选项设置(见图10-15):将区组和干预组放入显示均值框,下面的比较主效 应无须勾选,因为事后比较已经设置过了,如果勾选则会重新分析;显示部分勾选描述 性统计和方差齐性检验。注意,因为随机区组设计每个单元格无重复,故方差齐性无法 计算。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\21.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\22.jpg图10-14 多重比较图10-15 单变量选项设置 4. 参数设置完毕,回到图10-12,单变量分析窗口,点击“确定”运行。 图10-12 单变量分析窗口中,因变量为计量类型的效应指标。固定因子:放入已知 全部分类类型的计数资料,如血型,只有A、B、O和AB。如性别,只有男和女;随机 因子:本身为连续性资料,本次实验分组为其中的一些点值分组,如温度,温度的级别 太多了,但我们安排实验的时候比如说安排了30度、40度和50度,那么此时的温度分 组就应该进入随机因子框;当某因素为协变量时,应该放入协变量框,详见后续协方差; 权重变量框用得较少,常用于处理频数表资料或者混合样本数据。 结果解读 随机区组设计得到的前三张表可忽略,第一张表反映试验因素的安排,第二张以单 元格为单位计算三个核心基本统计量,第三张表是方差齐性检验,对其他类型的方差分 析很重要,但随机区组因为无重复,故无法计算。主要结果解读如下: 1. 主体间效应检验 见图10-16,干扰信息较多,获取信息如图中标示框“两行两竖”,共4个数据,这4 个数据是我们需要报告的数据,即F区组=13.521,P=0.000;F干预组=2.719,P=0.101。因此, 根据“大同小异”口诀,不同区组老鼠体重增加有差异;而不同饲料组间体重增加无 差异。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\23.jpg 图10-16 主体间效应检验结果 2. 区组与干预组描述统计 见图10-17中加框部分,图10-17(A)为各区组的均值与标准差;图10-17(B)为 各干预组的均值与标准差。 3. 区组两两比较结果 图10-18为采用LSD法的两两比较结果,因为表格过长,选取了部分截图,看图中 显著性栏,凡是P<0.05,则两者间有统计学差异;图10-19为SNK法结果,多数情况下 两者结果一致,如果有差异,一般都是LSD法发现的差异比SNK法多。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\24.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\25.jpg图10-17 区组与干预组描述统计图10-18 LSD 事后比较结果 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\26.jpg图10-19 SNK 事后比较结果 4. 干预组两两比较 图10-20 和图10-21 分别为干预组LSD 法和SNK 法检验的结果。LSD 法发现乙和 丙差异有统计学意义,P=0.045<0.05;而SNK 法认为三组同属于一个亚组,三组无差异。 那么这题到底有无差异呢?因为前面方差分析已经发现干预组间差异P=0.101,无 差异,因此后续理应不再进行两两比较,即使比较也无差异,如SNK 法。LSD 法有差异 因为其过于敏感,I 类错误风险较大。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\27.jpg F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\28.jpg 图10-20 干预组LSD法结果 图10-21 干预组SNK法结果 经验小结 随机区组设计,每个单元只有一个数据,因此软件无法计算方差齐性检验。随机区 组设计一般试验性研究较多,社会科学类研究较少使用。 . 10.3 析因设计方差分析 析因设计是多因素多水平全面组合的一种设计方法,两个或多个因素如果存在交互 作用,表示各因素不是各自独立的,而是一个因素的水平有改变时,另一个或几个因素 的效应也相应有所改变;反之,如不存在交互作用,表示各因素具有独立性,一个因素 的水平发生改变时不影响其他因素的效应。析因设计中2×2析因设计是指有两个研究因 素,分别是2水平,所以一共构成4个单元,即4组;2×3×4表示三个研究因素,分别为2、 3和4个水平,所以一共构成24单元(组),但分组越多则实验实施难度越大,实验动 物消耗也越多,因此析因设计往往用于研究因素或者水平数不多的情况,当研究因素 较多时,我们可以采用正交设计或者均匀设计,本节以2×2析因设计为例进行讲解。 正式学习之前,先了解下析因设计的几个概念:单独效应(simple effects)、主效应 (main effects)与交互效应(interaction)。单独效应是指其他因素水平固定时,同一因 素不同水平之间的差异。如单因素设计方差分析不同组之间的试验效应的差异;主效应 是指某因素各单独效应的平均效应,即某一因素各水平之间的平均差别;交互效应是指 如果某因素的单独效应随着另一因素的水平变化而变化,则称这两个因素存在交互作用。 2×2析因设计模式图见图10-22。A因素(2水平)×B因素(2水平),共4个单元,本 模式图中每个单元10个受试对象。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\29.jpg图10-22 2×2 析因设计模式图 案例实战 某研究者研究两种药物A、B 对红细胞增加数的影响,采用2×2 析因设计,选取了 20 只实验鼠进行了实验,获得实验效应数据,见data10.3.sav ,问A、B 两种药物对红细 胞增加有无作用?A、B 因素之间有无交互作用? 案例解析 1. 本例研究2 个因素A 药和B 药,分别为用和不用两个水平,全面组合,共构成4 个单元,即4 组。 2. 干预因素有2 个,实验效应指标红细胞增加数为计量资料。 实战步骤 1. 调用单变量:案例数据data10.3.sav,菜单分析—一般线性模型—单变量,弹出单 变量功能窗口(见图10-23)。 2. 单变量主对话设置:如图10-23 将RBC 放入因变量,A 药和B 药放入固定因子。 3. 模型参数设置:点击“模型”,弹出图10-24,因为本例为析因设计,因此需要分 析交互作用,因此选择默认的“全因子”,点击“继续”返回。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\31.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\32.jpg图10-23 单变量对话框图10-24 单变量:模型 4. 事后比较参数设置:因为本例A药和B药均只有2个水平,水平数不超过3,因 此无须两两比较,如果你愿意勾选,软件会给出警告,但也会计算,但除了浪费计算机 资源,并无意义。 5. 选项参数设置:点击“选项”,弹出图10-25。将A、B和A*B放入“显示下列各 项的平均值”框,显示勾选“描述统计”和“方差齐性”,点击“继续”,回到功能窗口, 点击“确定”运行。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\34.jpg 图10-25 单变量:选项 结果解读 1. 各单元3个核心基本统计量,见图10-26。各单元的均值效应见标示框。 2. 各单元方差齐性检验,见图10-27,可见levene齐性检验F=0.722,P=0.554> 0.05,按照“大同小异”的口诀,各组方差齐,可以进行后续方差分析。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\35.jpg F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\36.jpg 图10-26 统计描述结果 图10-27 方差齐性结果 3. 主体间效应比较:见图10-28,2×2 析因设计看法为“三横两竖”,如图10-28, 得到FA=181.730,P=0.000,FB=90.919,P=0.000;FA*B=24.324,P=0.000。P 均小于0.05, 说明A 药和B 药均有效,同时A*B 药之间存在交互作用。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\37.jpg图10-28 方差分析结果 4. 主效应与单独效应 结果图10-29 为药物的效应值描述,其中如10.29(A)为A 药的主效应,图10-29(B) 为B 药物的主效应,如10.29(C)为A 和B 药物的单独效应。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\38.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\39.jpg图10-29 统计描述图10-30 轮廓图 5. 交互轮廓图 如果想显示A 和B 的交互效应的轮廓图,在图10-23 单变量功能窗口点击参数“图” 按钮,弹出图10-30,按图设置。则在结果输出轮廓图(图10-31)。可见两条线不平行, 如果延长将会交叉,因此存在交互作用。 大家试想一下,一个高三的学生高考前夕谈恋爱了,请问会不会影响学习?虽然绝 大多数会降低学业,但也有少数学生,因为爱情的力量,相约清华北大而发奋学习。因此, 本例发现存在交互作用,只是发现因素之间存在相互影响,但是又分为正向的交互(协同) 和反向的交互(拮抗)。 正向交互是A的效应随着B的增大而增大,反向交互是A的效应随着B的增大而减 小,两种典型的交互作用的轮廓图,见图10-32。 图10-31 轮廓图 图10-32 正向与反向交互 案例拓展 当析因设计存在明显的交互作用时,此 时A和B效应的比较就不能采用主效应了, 而应该采用单独效应进行比较。然而单独效 应在SPSS中没有直接分析的模块,一般采 用编程的方法实现。对于本例,大家可以在 操作步骤参数设置完毕后,不要点击“确定”, 点击“粘贴”按钮,然后在弹出的“语法” 窗口,改成图10-33即可。 编写完成,将光标移到最后,点击工具 栏,绿色运行箭头,或者点击菜单运行,选择全部,即可运行此程序。得到主要结果(见 图10-34)。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\42.jpg 图10-33 析因设计单独效应分析 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\44.jpg图10-34 单变量与单独效应结果 单变量结果发现B 药物在未用(0)时,A 药用和不用是有差别的,成对比较的 P=0.000;B 药物在用(1)时,A 药用和不用是也有差别的,成对比较的P=0.000;因为 上述程序设置的A 和B 分别作为对比,因此结果会出现两次。 错误辨析 数据表现有多种形态,就像同一种疾病有不同的表现型一样,有时候某些表现还会 误导疾病的诊断。正如下面图10-35 的数据一样,很多的时候,大家看到左侧的数据, 根据自己的经验认为这不就是4 个独立的组吗?采用单因素设计的方差分析啊。可是当 我们将数据的形态转化为右侧的时候,发现其实它是一个2×2 析因设计的方差分析。如 果我们采用的单因素分析,一设计类型不对,二会损失很多的信息。 图10-35 演示数据 . 10.4 重复测量设计方差分析 重复测量资料是指对同一批受试对象的同一观测指标在不同时间点上进行多次测量 所得的资料,其目的就是观察不同时间点的动态变化趋势特征。因为资料的类型分为数 值变量、分类变量和等级变量,因此重复测量数据分析就会相应产生这三类资料的重复 测量数据分析,因数值变量的重复测量更为常用,本节讲解数值变量资料的重复测量方 差分析。为了让大家更加全面地掌握,此处讲解单组重复和多组重复两个案例,由简单 到复杂进行讲解。 重复测量数据方差分析的分析条件如下所述。 1. 正态性:处理因素的各处理水平的样本个体之间是相互独立的随机样本,其总体 均数服从正态分布; 2. 方差齐性:相互比较的各处理水平的总体方差相等,即具有方差齐同; 3. 各时间点组成的协方差阵(covariance matrix)具有球形性(sphericity)特征: Box(1954)指出,若球形性质得不到满足,则方差分析的F值是有偏差的,这会造成 过多的拒绝本来是真的无效假设(增加了I型错误)。 案例实战一:单因素重复测量 某医院检验科室,欲研究血样放置时间对血糖检测的影响,采了8份人血标本,分 别于放置0min、45min、90min和135min对血糖进行检测,得到数据如下,问检测时间 是否对血糖有影响?(数据集:data10.4)如图10-36所示。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\45.jpg 图10-36 演示数据库 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\46.jpg1. 调用重复测量窗口 打开数据集,分析—一般线性模型—重复测量,弹出 重复测量因子定义窗口(图10-37)。注意此处SPSS 有个 bug,本例因为4 次重复测量,因此,在级别数里输入4, 然后点击“添加”,提示错误!因为默认的“因子1”中 间有个空格,消除空格即可。但是,初学者,为了更好理 解时间的意义,请大家把主体内因子名改为“time”,输 入4 个级别,然后点击“添加”,如图10-37 即可,然后 点击“定义”按钮,弹出图10-38。 2. 重复测量窗口设置 将4 个测量时间点务必按照测量时间的先后,放入主 体内变量框中。点击“图”按钮,弹出图10-39,轮廓图设置, 将time 放入水平框,点击“添加”“继续”。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\47.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\48.jpg图10-38 重复测量主对话框图10-39 重复测量-轮廓图 3. 选项按钮设置:点击“选项”,弹出图10-40 将time 因子放入显示均值框,勾选“比较主效应”,同时显示出勾选“描述统计”和“齐 性检验”。点击“继续”,回到重复测量功能窗口,点击“确定”运行。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\49.jpg 图10-40 重复测量:选项 4. 主要结果解读 (1)多变量检验(见图10-41):多变量检验是一种多元分析方法,因为本例4次检测, 类似于结果效应指标同时有4个的情况,符合多变量检验的条件,因此,SPSS默认进行 了多变量检测,其结果基本与后面的单变量检验一致。本例用到四种多变量分析方法,P 均小于0.05,因此认为不同时间的血糖浓度是有差别的。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\50.jpg 图10-41 多变量结果 (2)球形度检验(见图10-42):重复测量方差分析应该满足球形度,不满足则需 要进行校正。本例球形度检验显著性P=0.008,则不符合球形度,则后续分析应该采用 校正系数。下文提到了3种校正方法(Greenhouse-Geisser法、Huynh-Feldt法和Lower- bound法),相对来说第一种更常用,但一般三种结论相差不大。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\52.jpg图10-42 球形度检验结果 (3)主体内效应单变量检验图10-43(A),因为不符合球形度,所以单变量检验 的第一个“假设球形度”不可以采用,我们看第二个,格林豪斯-盖斯勒(Greenhouse- Geisser),发现P=0.000,结论与前面多变量结果一致,均认为不同时间血糖浓度有差别。 图10-43(B),既然已经发现不同时间血糖存在差异,则进一步探讨血糖变化符 合什么样的曲线。因为有4 次测量,最多拟合3 次曲线。下图结果可见线性和二次的 P<0.05,意即血糖随时间变化成线性或二次关系,但是到底哪个更符合呢,我们看各自 的F 值,线性F 值117.12 大于二次的F 值109.84,因此,线性关系更符合。 (4)成对比较结果 既然不同时间点的浓度存在差异,于是便进行进一步两两比较,结果见图10-44,请 见“显著性”这一栏,P<0.05 则认为差异有统计学意义。结果可见各个时间点之间的差 异全部有统计学意义。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\54.jpg F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\55.jpg图10-43 重复测量方差分析结果图10-44 不同时间的两两比较结果 (5)轮廓图:由图10-45 可知,随着时间的延长,血糖浓度呈现下降的趋势,结合 上面的拟合结果,应该更符合线性下降的趋势。因为仅检测4 次,不能全面了解变化的 趋势,如果进一步增加检测次数,也许能够发现更多的信息,当然这都得基于研究者的 目的进行考虑。 图10-45 不同时间的血糖浓度轮廓图 关于测量0时刻的问题,有学者认为,不应该作为重复测量的第一次测量,因为0 时刻受试对象所受的影响因素与后面不一致,因此不适合,但是对于本例不存在这样的 问题,因为血一抽出来就检测和后面检测只有时间不同,无其他干预因素的不同;但是 比如研究针灸对镇痛的影响,未针灸前检测和针灸后多次检测,则前后受试对象的均一 性就不一致。 讲到这里,单因素重复测量设计的计量资料分析方法基本讲解完毕。单因素重复没 有组间干预措施的影响,只有主体内(时间)的影响,下面我们再看看两因素其中一个 为重复测量数据方差分析如何实践。 案例实战二:两因素其中一个因素重复测量(1) 某研究者欲研究两种饲料A和B对家禽的增重效果,随机选取12只长白猪,随机 分成2组,第一组采用饲料A,第二组采用饲料B,并于实验开始的第1、2、3个月分 别测量2组猪的体重情况,数据如表10-1所示,数据库data10.5.sav。 表10-1 12只猪体重增重情况(kg) 受 试 对 象 组 别 测 试 时 间 第1月 第2月 第3月 1 1 3.0 6.0 7.6 2 1 2.0 4.0 6.5 3 1 1.0 3.0 5.0 4 1 2.0 5.5 6.0 续表 受试对象组别 测试时间 第1 月第2 月第3 月 5 1 1.0 3.0 4.0 6 1 0.5 2.5 4.5 7 2 2.0 4.0 5.0 8 2 0.5 2.0 4.0 9 2 1.0 3.0 6.0 10 2 3.0 5.0 8.0 11 2 3.5 5.0 7.0 12 2 3.5 4.0 6.0 1. 调用重复测量功能窗口 菜单分析—一般线性模型—重复测量,弹出图10-46。更改默认重测变量名“因子1” 为time,级别数为3,添加入重测框,点击“定义”,弹出图10-47。注意SPSS 23.0 版本, 此处有bug,因子与1 之间有空格,不能运算,可以将空格删除,或者重新起名。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\2017-06-13_15-09-38.jpg图10-46 重测定义因子图10-47 重复测量功能窗口 2. 重测功能窗口设置 将时间time1、time2 和time3 放入主体内框,切记,必须严格按照时间先后顺序放 入右框。将group 放入主体间因子框。 3. 三级参数窗口设置 (1)模型:保持默认,即全因子模型,因为需要分析交互作用。这里的交互作用是 指不同干预措施与时间之间的交互作用。 (2)图:将group放入单独线条,time放入水平轴,初学者不知如何放入,可以颠 倒再做一次,看看哪个图更好解释。一般规律:本次你最想表达的内容放入单独线条。 (3)事后比较:本例无需做,因为group只有2组,如果group有多组,此处则需要设置。 (4)选项:如图10-48将因子移入显示均值框,勾选“比较主效应”,默认LSD法, 也可以勾选其他2种方法。再选择“描述统计”和“齐性检验”。点击“继续”,回到 图10-47,点击“确定”运行。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\2017-06-13_15-31-31.jpg 图10-48 重测选项设置 图10-49 多变量检验结果 4. 主要结果解读 (1)多变量检验结果,如图10-49所示,发现time的趋势变化P=0.000<0.05,因此 猪的体重随时间发生趋势性变化,group×time交互作用,P=0.125>0.05,因此,group与 时间time无交互作用。大家试想一下,目前的结果,是不是两种方法的时间变化趋势相同, 体重变化有时间变化趋势。 (2)球对称检验,如图10-50所示,P=0.618>0.05,符合球对称性。可以进行单变 量重复测量方差分析。 (3)主体内效应检验,因为上面球对称符合,因此可以进行单变量重复测量检 验,如图10-51所示,因为符合球对称,所以看球形度检验结果,得到Ftime=165.424, P=0.000<0.05,认为体重变化具有时间变化趋势。Ftime×group=2,P=0.162>0.05,认为group 与time 无交互作用。大家可以发现,此处单变量检验和上面的多变量检验结果是一致的。 多种方法一致,也更加证明结果的可靠。 图10-50 球形度检验 图10-51 重测结果 (4)主体内对比。主体内对比是指不同时间点的比较,用于验证体重的时间变化符 合线性还是二次关系,由图10-52 可知线性的F=260.680,P=0.000<0.05,因此,可以认 为体重变化符合线性关系。 图10-52 时间趋势检验结果 (5)方差齐性检验和主体间效应比较。方差齐性检验(见图10-53),发现所有P 均大于0.05,因此方差齐,适合方差分析(如果方差不齐,可以做GEE或多水平模型)。 主体间效应发现,group组间比较(见图10-54)F=0.190,P=0.672>0.05,“大同小异”, 因此无差异,表示两种方法对猪的体重减重效果无差异。 图10-53 方差齐性检验 图10-54 组间效应比较 (6)不同时间点成对比较,从图10-55中,可以发现采用LSD法,各时间点P均 小于0.05,说明各时间点的体重变化量间均有差异。图10-56为轮廓图,可以发现两组 具有共同线性增长趋势,并且相互交织,没有差别。 图10-55 主体内两两比较 图10-56 轮廓图 讲解到这里,总结一下,本例group与time无交互,意思是两组的time效应是相同 的,两条线(或曲线)具有相同的趋势。然后发现time存在线性趋势,此时可以得出两 组应该是两条趋势变化相同的直线(注:毕竟只观察3次,基于3次数据的结果为线性)。 最终可得两种饲料都有效,相互间疗效无差别,疗效均呈现一致的线性变化趋势。 案例实战三:两因素其中一个重复测量(2) 当干预措施与时间无交互,分析较为简单,只要得到time有无意义,group有无意义, 基本就能够达到分析的目的。当干预与时间存在交互,不管是比较干预措施,还是时间 点间比较,因为存在交互,都受另一因素的影响,因此分析就要复杂得多。 案例实战 某研究机构研究2 种饲料对小鸡的增重效果,随机选取12 只小鸡,随机分成2 组, 每组6 只,分别饲以A 饲料和B 饲料,分别于1 周、2 周、3 周和4 周末称量小鸡的体重, 数据如图10-57 所示,试分析两种饲料的效果及时间变化趋势。 案例解析 1. 干预因素为饲料,分为2 水平,A 饲料和B 饲料; 2. 效应指标为体重(kg),为计量资料; 3. 每只小鸡在不同时间点检测了4 次,重复测量设计; 4. 综合上述分析,优先考虑重复测量数据的方差分析。 实战步骤 1. 调用重复测量因子设置框: 菜单:分析—一般线性模型—重复测量,弹出图10-58,如图设置,点击“定义”。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\2017-06-13_17-23-03.jpg图10-57 饲料增重数据图10-58 重复测量定义因子 2. 重复测量功能窗口,如图10-59 设置。时间放入主体内框,group 放入主体间框, 然后点击参数按钮“图”和“选项”。 3. 参数设置:“图”中将group 放入单独线条,time 放入水平轴。“选项”窗口如 图10-60 设置。点击“继续”回到主对话框,点击“确定”运行。 F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\2017-06-13_17-28-35.jpg F:\02-精鼎数据\000-统计思维与SPSS24.0实战\02SPSS24图库\9\2017-06-13_17-37-19.jpg 图10-59 重测主对话框设置 图10-60 重测选项设置 结果解读 1. 多变量检验结果 见图10-61,解释同前,本例time对应F=38.170,P<0.05,多变量结果认为不同时 间点体重不同。Group与time存在交互作用,P<0.05。 图10-61 重测检验结果 2. 球对称与主体内效应 结果见图10-62(A),显著性P=0.074>0.05,符合球对称性。主体内检验图10-62(B), 因为符合球对称,因此只看“假设球形度”结果,F=102.605,P=0.000<0.05,说明不同 时间点体重变化存在差异。结果和多变量结果一致。 3. 主体内对比与方差齐性 图10-62发现不同时间time存在差异,但会存在什么趋势性的变化呢,图10-63(A) 发现线性和三次均有意义,P<0.05,因为仅测4次,从4次结果得出函数关系本身就有点弱, 本例符合线性可能性更大,因为其F=138.193 远大于三次的8.508。 图10-63(B)为方差齐性检验结果,所有P 均大于0.05,说明不同时间点数据方差 齐性,适合进行方差分析。 F:\02-.鼎数据\000-..思.与SPSS24.0.战\02SPSS24..\9\2017-06-13_18-13-43.jpg图10-62 球形度检验与主体内检验结果 图10-63 趋势检验与方差齐性检验 4. 主体间效应检验 图10-64中,F=59.731,P=0.000<0.05,不同组间体重差异有统计学意义。但是,因 为前面group与time存在交互,此处尽管group间存在差别,但不能保证每个时间点两 组均有差别。 图10-64 主体间比较检验 5. 主体内不同时间点比较 图10-65,采用的是LSD法,发现所有的P<0.05,说明各时间点间的体重两两比较 均有差别。同上,因为group与time存在交互,虽然不同time有差别,并不能代表每个 time的group间存在差别。一句话,当group与time存在交互,研究group和time的主 效应已经无多大意义了,应该研究单独效应了! 6. 轮廓图 由轮廓图(见图10-66)可见,两组效应线不平行,存在交互,B饲料有明显上升趋 势,A饲料上升趋势较弱。 图10-65 主体内成对比较 图10-66 轮廓图 案例实战五:多因素重复测量 重复测量不是只能有2 因素,其中一个为重复测量,还可以有多因素的重复测量。 如案例:为了研究饮食、活动锻炼种类与人脉搏的关系,某医生将18 个人随机分配到饮 食结构不同的组,且每组成员又被分配至三种体育锻炼活动组,数据格式如图10-73,试 进行统计分析。 图10-73 数据视图 案例分析 本例研究3 个因素,锻炼因素、饮食因素还有时间因素,效应量为脉搏,计量资料, 初步考虑3 因素,其中一个因素为重复测量的多因素方差分析。 实战步骤 1. 调用重复测量因子级别定义窗口 菜单—分析—一般线性模型—重复测量,弹出图10-74,如图操作,点击“确定”后 弹出图10-75。 图10-74 重复测量定义因子图10-75 重复测量对话框