





作者:刘颖
定价:56元
印次:1-1
ISBN:9787302378150
出版日期:2014.09.01
印刷日期:2014.09.19
图书责编:梁斐
图书分类:教材
统计语言学是一门涉及语言学、计算机科学和数学等多门学科的交叉学科,覆盖面广。本书详细阐述语言统计知识、语言统计的R语言实现、统计结果的直观展示和统计结果的语言分析。主要介绍语言学的基本统计、参数假设检验、非参数假设检验、方差分析、文本聚类、文本分类和综合运用这些统计知识的计量风格学研究。 本书结构完整,层次分明,条理清楚。既便于教学,又便于自学。可作为中文、外语、计算机等专业高年级本科生和研究生教材,也可供从事语言统计和计量分析的研究者参考。
1998年从中科院计算所博士毕业后一直在清华中文系工作,2002年被评为副教授。从2006年2月开始的一年时间,在美国卡耐基梅隆大学语言技术研究所作访问学者。共发表论文50多篇。用英文在“IEEE自然语言处理和知识工程”等国际会议发表论文20多篇,用中文在《中文信息学报》、《计算机研究与发展》和《计算机科学》等中文核心期刊发表20多篇;有17篇被EI检索,4篇进入EI刊源,10篇被ISTP检索。2002年出版《计算语言学》,2010年出版《离散数学》,2012年出版《语料库语言学》。
前言 统计语言学,研究如何利用概率论、数理统计、信息论等统计的、非离散数学的方法和计算机来对自然语言进行统计和分析。自然语言是其统计和分析的对象,概率论和数理统计等统计知识是其统计的理论基础,计算机是其可以实现统计的工具。因此,对语言进行统计不仅要有语言学方面的知识,而且还要有数学和计算机科学方面的知识。 本书分9章,详细阐述如何把语言学知识、数学知识和计算机知识结合起来对语言进行统计和分析。 第1章主要介绍统计语言学的基本概念,厘清了统计语言学、语料库语言学、计量语言学和计算语言学的区别、研究内容和应用领域,给出了统计语言学的研究步骤以及本书较为详细的研究内容。这是后面章节内容的总括。 第2章主要介绍了语料库的相关内容。阐述了语料库的定义、特点,根据不同标准的分类,并对国内外具有重要意义的语料库、其加工标注和应用进行了详细介绍。 第3章主要介绍了语言研究中的基本统计量:包括概率论和统计学的一些基本知识,方差、标准差、平均数、频率、概率,以及互信息、Dice系数、对数似然比、N元模型、汉字熵、Zipf法则、Z评分、Yule图、Fuchs公式以及词语的使用度和通用度等等。 第4章主要介绍了在语言研究中广泛使用的假设检验,根据语言研究中的总体是否为正态分布,分为参数假设检验与非参数假设检验。讨论了参数假设检验中的U检验、t检验、F检验以及χ2检验;非参数假设检验中的χ2检验以及秩和检验。详细地比较了不同检验使用的条件、公式和应用领域。 第5章主要介绍了方差分析,其主要应用于三个或三个总体以上的差异比较。讨论了单因素方差分析、无重复双因素方差分析、可重复双因素方差分...
第1章概论
1.1统计语言学
1.2统计语言学与其他学科
1.2.1计量语言学
1.2.2计算语言学
1.2.3语料库语言学
1.2.4与三个学科的联系与区别
1.3使用统计方法研究的语言特征
1.4统计语言学基本研究方法
1.5统计语言学研究的步骤
1.6统计的语言学应用
第2章语料库
2.1语料库的定义
2.2语料库的类型
2.2.1口语语料库与书面语语料库
2.2.2单语语料库、双语语料库与多语语料库
2.2.3通用语料库与专用语料库
2.2.4共时语料库与历时语料库
2.2.5动态语料库与静态语料库
2.2.6同质语料库与异质语料库
2.2.7生语料库与标注语料库
2.3国内外主要语料库
2.3.1国外的语料库
2.3.2国内的语料库
2.4本章小结
第3章统计在语言研究中的基本应用
3.1统计学的基本概念
3.1.1总体、个体、样本
3.1.2参数与统计量
3.1.3常量、变量
3.1.4实际值与观测值
3.2平均数
3.2.1简单算术平均数
3.2.2加权算术平均数
3.3方差与标准差
3.3.1未分组数据的方差与标准差
3.3.2分组数据的方差与标准差
3.4频度、频率、概率、条件概率、贝叶斯定理
3.4.1概率论中的常用概念
3.4.2概率
3.4.3独立性
3.4.4贝叶斯定理
3.4.5频度与频率
3.5互信息
3.6 Z评分
3.7Dice系数
3.8Phi平方系数(Φ2)
3.9对数似然比
3.10N元模型
3.10.1N元语法
3.10.2... 查看详情