图书前言

前言

统计语言学,研究如何利用概率论、数理统计、信息论等统计的、非离散数学的方法和计算机来对自然语言进行统计和分析。自然语言是其统计和分析的对象,概率论和数理统计等统计知识是其统计的理论基础,计算机是其可以实现统计的工具。因此,对语言进行统计不仅要有语言学方面的知识,而且还要有数学和计算机科学方面的知识。

本书分9章,详细阐述如何把语言学知识、数学知识和计算机知识结合起来对语言进行统计和分析。

第1章主要介绍统计语言学的基本概念,厘清了统计语言学、语料库语言学、计量语言学和计算语言学的区别、研究内容和应用领域,给出了统计语言学的研究步骤以及本书较为详细的研究内容。这是后面章节内容的总括。

第2章主要介绍了语料库的相关内容。阐述了语料库的定义、特点,根据不同标准的分类,并对国内外具有重要意义的语料库、其加工标注和应用进行了详细介绍。

第3章主要介绍了语言研究中的基本统计量:包括概率论和统计学的一些基本知识,方差、标准差、平均数、频率、概率,以及互信息、Dice系数、对数似然比、N元模型、汉字熵、Zipf法则、Z评分、Yule图、Fuchs公式以及词语的使用度和通用度等等。

第4章主要介绍了在语言研究中广泛使用的假设检验,根据语言研究中的总体是否为正态分布,分为参数假设检验与非参数假设检验。讨论了参数假设检验中的U检验、t检验、F检验以及χ2检验;非参数假设检验中的χ2检验以及秩和检验。详细地比较了不同检验使用的条件、公式和应用领域。

第5章主要介绍了方差分析,其主要应用于三个或三个总体以上的差异比较。讨论了单因素方差分析、无重复双因素方差分析、可重复双因素方差分析以及单因素的多重比较。

第6章主要介绍在语言研究中常用的一种机器学习方法——文本聚类。详细介绍了文本聚类的流程和主要算法,重点介绍了层次聚类和kmeans聚类。

第7章主要介绍了语言研究中常用的另一种机器学习方法——文本分类,并且详细介绍了文本分类的过程和主要的分类模型,包括朴素贝叶斯模型、KNN以及支持向量机等。

第8章介绍了在语言研究中经常使用到的一种程序语言——R语言,其具有强大的统计分析功能和绘图功能。重点介绍了R的基本操作、主要绘图功能,以及本书中用于语言研究的统计方法的R语言实现。

第9章讨论了计算风格学。从字符、词汇、句子、词类、短语和段落方面全面阐述计算风格学研究使用的语言特征。以莫言和余华各自六部小说为例,从字符、词汇、句子、词类、短语和段落方面,分别运用基本统计、假设检验、文本聚类和文本分类等来对两位作者的写作风格进行系统地研究。这些特征的统计主要利用R语言来实现。因此,可以说,第9章是把全书各章节内容结合的一个范例。

本书可作为中文、外语、计算机等专业高年级的本科教材,教授时间可为32~64学时。如果学生掌握了语言学知识和基本的统计理论,并能用R语言实现本书介绍的统计模型,则对学生掌握计算机统计自然语言和分析语言打下坚实基础。

本书在写作时尽量做到通俗易懂,所有的统计都利用真实的小说语料进行了示例和分析。本书的读者如果具有一定的概率和统计知识和R语言编程,则能自如地利用本书的统计知识进行语言处理。若在此基础上还掌握计算机编程知识(数据库、Java编程或C语言编程),则可容易地扩展本书的现有内容并进行更广泛的语言统计和分析。

本书的写作参考了许多学者的论文和著作,本书能够出版与他们所作的工作紧密相关,谨向他们表示衷心感谢。

由于本人水平和时间限制,本书难免存在疏漏和不足之处。欢迎各位读者批评指正。

刘颖

2014年7月15日