





作者:孙江伟 王韵章 宁铮 李夏 王吟曦 李琳 卞伟玮
定价:198元
印次:1-1
ISBN:9787302570677
出版日期:2021.06.01
印刷日期:2021.05.31
图书责编:汪汉友
图书分类:零售
面对日渐复杂的大数据,科技工作者很难用单一的统计软件高效、完美地完成从数据挖掘、数据清洗、统计分析到结果呈现的全部工作,因此需要熟悉和掌握多种统计工具,各取所长、整合使用。本书立足于大数据研究的现状,基于实际医疗案例,介绍数学基础知识和统计学基础知识,SAS、R语言、Stata和Python这4款大数据常用分析工具的基础编程知识及实践操作。 本书主要面向在校本科生、研究生,以及要掌握SAS、R语言、Stata和Python的数据工作者,熟悉四个软件的任意一个且想要在短时间内掌握其他软件的读者,也适合医科学生、临床医生或药企人员等医疗相关人员学习使用。
孙江伟 复旦大学流行病与卫生统计学专业硕士,曾在强生公司(Johnson &Johnson)任生物统计师,对国内医药临床领域及国外医疗注册系统等大数据的数据管理、数据清洗、研究设计及统计分析,有丰富的理论及实践经验,现于瑞典卡罗林斯卡医学院进行卫生统计学方面的研究深造。在American Journal of Epidemiology、European Journal of Neurology等杂志发表相关领域SCI论文10篇。
前言 随着计算机与信息技术的发展,互联网、大数据、人工智能等现代信息技术不断实现突破,逐渐渗透到人类生产生活的各个领域,以前所未有的方式将人们带入一场剧烈的信息变革之中。随着社会信息化程度的日益加深,医疗行业数据系统的信息容量也在不断扩大,高效地挖掘和利用这些宝贵的医学信息资源,为疾病的预防、诊断和治疗提供科学的决策依据,促进医学研究的进一步发展,具有非常重要的意义。与此同时,数据数量与日俱增,数据质量参差不齐,这使得医疗工作者和科研人员的工作难度不断加大,对专业技术水平、数据分析方法和团队科研协作都提出了更高的要求。 面对日渐复杂的大数据,科学工作者很难用单一的统计软件高效、完美地完成从数据挖掘、数据清洗、统计分析到结果呈现的全部工作,因此需要熟悉和掌握多种统计工具,各取所长、整合使用。例如,SAS作为一个成熟度高、稳定性强的商业化系统,有强大的大数据管理及清洗的功能,在公司和企业中的应用非常广泛,但是它在对大数据(如健康注册系统)进行某些统计分析时,运行速度较慢。相对而言,Stata、R语言和Python却可以非常快速地完成同样的运算程序。此外,Stata是对初学者非常友好的软件,命令简单,运行速度快,是非常出色的统计软件;R语言有极其灵活和强大的绘图能力,可以更好地表现数据结果,大大提升数据分析的效率;Python以语言简单、分析高效而著称,尤其在机器学习、文本处理等领域表现突出。因此,如果能掌握几种统计软件的使用方法,并且能够根据具体研究目的自由切换不同的统计软件,则可以达到事半功倍的效果。 此外,大规模的项目通常需要跨单位、跨学科合作,科研团队的国际化、多元...
第1章数学基础1
1.1常用的数学符号1
1.2常见概念2
1.2.1集合2
1.2.2极限3
1.3微积分5
1.3.1导数与微分5
1.3.2基本初等函数的导函数和微分公式6
1.3.3导数与微分的运算法则7
1.3.4定积分与不定积分8
1.3.5基本的不定积分公式9
1.3.6定积分与不定积分的性质10
1.4线性代数11
1.4.1标量与向量11
1.4.2矩阵与线性方程组11
1.4.3行列式的定义与运算12
1.4.4矩阵的运算法则14
1.4.5特殊的矩阵16
1.4.6矩阵的秩17
1.4.7矩阵的转置与矩阵的逆18
1.4.8特征向量与特征值18
第2章统计学基础20
2.1概率论的基本概念20
2.2随机变量与分布21
2.2.1随机变量21
2.2.2累积分布函数222.2.3概率函数22
2.3随机变量的数学特征23
2.3.1数学期望23
2.3.2期望值的规律24
2.3.3条件期望25
2.3.4协方差与相关系数25
2.3.5样本均值和方差26
2.4常见的随机变量分布27
2.4.1离散变量分布27
2.4.2连续变量分布28
2.5统计学基本概念32
2.5.1总体与样本32
2.5.2参数和统计量32
2.5.3中心极限定理32
2.6统计描述32
2.6.1定量资料的统计描述32
2.6.2分类资料的统计描述34
2.7统计推断34
2.7.1参数估计34
2.7.2假设检验38
2.8多因素回归模型40
2.8.1多因素线性回归...
本书与常规介绍SAS、R语言、Stata和Python等统计软件的书籍**的区别在于避免只讲统计分析而忽略如何高效、准确地提取主要结果,如何生成可直接用于汇报、交流或达到SCI发表要求的表格。
本书立足于目前大数据研究的现状分三步进行讲解。首先强调必须掌握的数学和统计学基础知识;其次,根据真实世界的电子病历及健康注册系统的数据特征,模拟出与其复杂程度和处理难度相当的模拟数据库;再次,针对同一研究问题,在SAS、R语言、Stata和Python中进行同步处理,详细讲解如何在这4个统计软件中实现从数据导入、数据清洗、统计分析、整理输出结果(表格或图)到结果解释的全部过程,从而可完成软件的对比学习,达到事半功倍的效果。以上3点也是本书的特色所在。
笔者将着眼于真实世界的医学研究,主要介绍在四个软件中最常用的、**效的命令及编程方法,使数据工作者能够在短时间内掌握每个软件的精髓,并且能够学以致用,切实应用到自己的研究项目中解决相关问题。但本书不会过多的涉及诸如模型的比较和选择等问题,因该类问题常是由研究课题或项目来决定的,不存在放之四海而皆准的准则。对该类问题感兴趣的读者,请查阅相关书籍或文章。
本书主要是面向在校大学生、研究生以及欲掌握SAS、R语言、Stata和Python的数据工作者,熟悉4个软件的任意一个且欲短时间内掌握其他软件者,尤其适合医科学生、临床医生或药企人员等医疗相关人员学习使用。