前言
随着大数据时代的到来,数据科学逐渐成为一门独立的学科。数据科学旨在通过科学的方法和技术,对数据进行收集、处理、分析和解释,以发现数据中的规律和模式,为决策提供支持。在这个背景下,Stata作为一种功能强大的数据管理、分析、统计和计量工具,被广泛应用于经济、商业、医疗、教育以及公共管理等多个相关领域。例如,在经济学研究中,Stata被广泛应用于宏观经济、资本市场、金融科技、风险管理以及公司金融等领域; 在管理学研究中,Stata被用于研究组织行为、战略管理、市场营销等方面; 在医学研究中,Stata被用于临床试验、流行病学、生物统计学等领域; 在公共管理中,Stata被用于政策分析、公共服务管理、城市规划等方面。当前,Stata已经更新到了18.0版本,其强大的数据分析功能、丰富的社区资源以及即时性的模型更新必然能在当前的大数据时代占有一席之地。
写作目的
笔者从事统计、计量和数据分析相关的工作已有十多年,在这个过程中发现系统化的Stata教程十分匮乏。尽管在当前的信息化时代,互联网的学习资源较多,但这些资源都十分分散,而且大多数资源都是Stata某个命令的简单介绍。许多初学者在接触Stata时,往往感到无从下手。哪怕是具有多年Stata应用经验的研究者,在面对Stata海量的外部命令和函数时,也会经常感慨其“杂乱无章”的操作体系。事实上,作为一款优秀的数据分析和统计分析软件,Stata有着完整而又强大的功能生态体系,本书则是对这一功能生态的系统化。本书在章节设计上循序渐进,在章节内容上深入浅出,既囊括了环境设定、数据交互、数据清洗、数据转化、数据重构等基本操作,也囊括了函数应用、宏的调用、循环语句、程序编写以及综合应用等高级操作。同时,本书也设计了数据分析报告专题,详细介绍了表格生成与可视化的相关技术。总体来看,本书试图从学生学习的视角出发,以数据分析的基本环节和流程为主线,在数据科学的框架下为读者详细介绍Stata的数据分析体系,旨在为读者提供一本全面、实用和系统化的Stata教程,帮助他们掌握数据分析和建模的核心技能,希望本书能够给读者带来收获。
目标读者
本书的目标读者主要包括以下三类。
高校学生: 本书可以作为统计学、经济学、管理学、社会学、教育学以及医学等学科的教材或参考书,适用于高年级本科生以及硕士研究生或博士研究生学习和使用。
科研人员: 本书丰富的案例和前沿的应用专题为相关领域的科研人员提供了数据分析和数据建模的实际指导。
实务工作者: 本书对于在企业、政府或非营利组织工作的数据分析师来说,是一本有价值的工具书。
内容安排
本书共14章,整体内容安排可以分为基础章节、进阶章节与应用章节三大块。
基础章节为第1~5章,这部分内容偏重Stata基础的操作与常用命令的介绍和讲解,包括Stata的环境设置(第1章)、数据导入导出与基本分析(第2章)、变量的生成与设定(第3章)、变量的类型与操作转化(第4章)以及数据重构(第5章)等内容。通过这部分内容的学习,读者可基本掌握一般情形下的数据分析流程和数据清洗的命令代码,能够进行日常的数据分析工作。
进阶章节为第6~10章,这部分内容侧重Stata的高级操作,在介绍函数、矩阵以及循环语句的基础之上,讲解Stata的程序编写,进而大幅提高数据分析的效率。这部分内容主要包括Stata中的函数(第6章)、矩阵(第7章)、宏与返回值(第8章)、Stata循环与判断语句(第9章)以及Stata程序编写(第10章)。通过本部分内容的学习,读者能够利用循环和脚本程序高效率处理复杂的数据分析问题。
应用章节为第11~14章,这部分内容侧重数据建模的实际场景操作以及数据分析结果的汇报,其中第11章从字符串变量处理、滚动窗口、分组计算、地理计算与近邻地区匹配四个专题介绍了如何应用Stata进行建模和数据分析; 第12章介绍了Stata的数据可视化功能; 第13章介绍了如何以表格的形式生成Stata数据统计分析的结果,通过本章内容的学习,读者能够进一步掌握Stata在实际场景中的应用及其结果报告形式; 第14章介绍了蒙特卡洛模拟与自抽样的原理和应用场景,为读者在复杂情境下的数据建模和模拟分析提供了思路。
配套资源
本书以Stata 18.0为版本,书中所有示例的数据、程序、教学PPT以及课后习题参考答案可以在清华大学出版社官方网站下载。
关于致谢
本书在写作过程中,得到了所在部门和团队的大力支持与鼓励,在此一并感谢。常州大学吴敬琏经济学院与商学院·刘国钧管理学院的硕士研究生李静蕾、居萌、左文研、赵恬、王芳芳等参与了排版和校对的工作,这里表示感谢。本书获得了常州大学2021年研究生教材建设项目、江苏省“紫金文化人才培养工程”项目、江苏省“青蓝工程”教学团队项目以及常州大学研究生教学改革重点项目的支持,在此一并表示感谢。最后,要特别感谢清华大学出版社的崔彤编辑及其同仁们,为本书的编写提出了许多宝贵的意见,并付出了辛勤的劳动。
关于勘误
虽然编者花了很多的精力和时间去核对书中的文字和代码等内容,但因为时间仓促和水平有限,书中难免会有错误和纰漏。如发现不当之处,欢迎反馈。
其他说明
本书使用和提供的数据,除Stata官方数据,对其他外部数据均经过了脱敏处理,并对相关变量的数值进行了调整和优化,仅做案例使用,不可直接用于学术研究。
编者2025年1月
