本书采用双色印刷,部分重点图片可扫码观看彩图。本书采用次加大开本印刷,使代码的阅读更加方便。
本书与常规介绍SAS、R语言、Stata和Python等统计软件的书籍**的区别在于避免只讲统计分析而忽略如何高效、准确地提取主要结果,如何生成可直接用于汇报、交流或达到SCI发表要求的表格。
本书立足于目前大数据研究的现状分三步进行讲解。首先强调必须掌握的数学和统计学基础知识;其次,根据真实世界的电子病历及健康注册系统的数据特征,模拟出与其复杂程度和处理难度相当的模拟数据库;再次,针对同一研究问题,在SAS、R语言、Stata和Python中进行同步处理,详细讲解如何在这4个统计软件中实现从数据导入、数据清洗、统计分析、整理输出结果(表格或图)到结果解释的全部过程,从而可完成软件的对比学习,达到事半功倍的效果。以上3点也是本书的特色所在。
笔者将着眼于真实世界的医学研究,主要介绍在四个软件中最常用的、**效的命令及编程方法,使数据工作者能够在短时间内掌握每个软件的精髓,并且能够学以致用,切实应用到自己的研究项目中解决相关问题。但本书不会过多的涉及诸如模型的比较和选择等问题,因该类问题常是由研究课题或项目来决定的,不存在放之四海而皆准的准则。对该类问题感兴趣的读者,请查阅相关书籍或文章。
本书主要是面向在校大学生、研究生以及欲掌握SAS、R语言、Stata和Python的数据工作者,熟悉4个软件的任意一个且欲短时间内掌握其他软件者,尤其适合医科学生、临床医生或药企人员等医疗相关人员学习使用。