图书前言

前    言

传统临床研究设计方法论产生的前提,是当时无法处理的海量临床数据,以及无法考察全集而必须抽样。无论是随机对照试验还是队列研究,其核心技术本质上都是围绕恰当的抽样设计而展开的。然而,由于疾病本身的复杂性和患者个体之间不可避免的差异性,随机对照试验和队列研究所揭示的真相是有限的。虽然扩大样本量可以减少异质性,但样本量的增加带来的异质性减少呈边际递减趋势,而成本却呈数量级上升。

随着计算机科学的进步,我们对临床数据的记录和处理能力已经远非20世纪80年代的研究者所能想象。但是,在利用计算机工具对这些海量数据进行清洗、建模和计算时,旧有的、适用于传统临床设计的统计工具已经无法胜任。这需要更为强大的计算机语言来实现。这种语言不仅能够用于假设和猜想的验证,还能在没有假设和猜想时,通过对数据进行模式识别来提取海量临床数据中的重要信息。这种模式识别分析方法对分析工具的灵活性要求很高,传统的固定分析软件难以实现。

R语言比现有商业化软件更适用于临床数据挖掘的新分析模式。在未来医学统计的工具中,R语言必将占有一席之地。特别是在公共医学数据库的应用日益广泛的背景下,基于这些数据库来撰写论文,不需要自己进行实验或采集数据,从而可以减少研究成本和时间。通过挖掘现有的临床大数据来发现新思路,也是一种有效的研究手段。目前,许多国际权威的公共医学数据库平台都鼓励医学科研人员使用R语言进行数据挖掘和科学研究。这些数据库中的数据来源可靠,样本量大,而且不用担心原始数据追溯和伦理等问题。

关于本书

培养精通数据挖掘、人工智能等新一代信息技术的未来医生,是时代赋予医科院校的重要使命。推进医学与IT信息技术的融合教育是培养未来医生的核心内容。

本书以让非统计专业读者易于理解为原则,强调实战和应用,着重介绍数据分析的思路和方法,以及数据分析的实质、特点、应用条件和结果,尽量减少统计方法的推导和计算。

本书力求以通俗易懂的方式,详细介绍R语言的基础理论和公共医学数据库挖掘,同时通过实际操作引导读者入门科研论文数据分析实战。

配套资源下载

本书的配套资源包括示例源码、PPT课件、作者微信群答疑服务,读者可以通过微信扫描下面的二维码获取来获取。如果在学习本书的过程中发现问题或有疑问,请发送邮件至booksaga@163.com,邮件主题为“R语言医学数据分析实践”。

本书读者

本书适合临床医学、公共卫生及其他医学相关专业的本科生或研究生使用,也可作为其他专业的学生和科研工作者进行数据挖掘和统计分析的参考书。希望本书能够帮助读者更深入地理解数据分析,并将其进一步应用于临床和科研领域。

致  谢

感谢我的父母、先生和女儿,你们一直在默默地支持我!

感谢我的福州三中校友宋立桓同学,他深厚的IT专业知识与医学视野的融合,为本书的撰写提供了宝贵的跨界合作!

感谢清华大学出版社的夏毓彦编辑为本书的出版提供的帮助!

万事开头难,只有打开一扇窗户,才能发现一个全新的世界。希望这本书能帮助读者打开学习R语言的大门,让更多的人感受并享受到大数据时代带来的便利!

                                                            李  丹

              福建医科大学附属协和医院消化内科主任医师、教授、博士生导师

2024年8月