图书目录

目录

第 1章绪论 .......................................................................................................1 

1.1基本概念 ................................................................................................1 

1.2文本挖掘任务 .........................................................................................2 

1.3文本挖掘面临的困难 ...............................................................................5 

1.4方法概述与本书的内容组织 .....................................................................8 

1.5进一步阅读 ........................................................................................... 10 习题 ............................................................................................................ 11

第 2章数据预处理和标注 ................................................................................. 12 

2.1概述 ..................................................................................................... 12 

2.2数据获取 .............................................................................................. 12 

2.3数据预处理 ........................................................................................... 16 

2.4数据标注 .............................................................................................. 18 

2.5基本工具 .............................................................................................. 20 

2.5.1汉语自动分词与词性标注 ............................................................ 20 

2.5.2句法分析 ................................................................................... 22 

2.5.3 n元语法模型 ............................................................................. 23 

2.6进一步阅读 ........................................................................................... 24 习题 ............................................................................................................ 24

第 3章文本表示 ............................................................................................... 25 

3.1概述 ..................................................................................................... 25 

3.2向量空间模型 ....................................................................................... 25 

3.2.1向量空间模型的基本概念 ............................................................ 25 

3.2.2特征项的构造与权重 ................................................................... 26 

3.2.3文本长度规范化 ......................................................................... 27 

3.2.4特征工程 ................................................................................... 28 

3.2.5其他文本表示方法 ...................................................................... 30 

3.3词的分布式表示 .................................................................................... 31 

文本数据挖掘 (第 2版) 

3.3.1神经网络语言模型 ...................................................................... 32 

3.3.2 C&W模型 ................................................................................. 36 

3.3.3 CBOW与 Skip-gram模型 .......................................................... 38 

3.3.4噪声对比估计与负采样 ............................................................... 39 

3.3.5字词混合的分布式表示方法 ......................................................... 41 

3.4短语的分布式表示 ................................................................................. 43 

3.4.1基于词袋的分布式表示 ............................................................... 43 

3.4.2基于自动编码器的分布式表示 ..................................................... 43 

3.5句子的分布式表示 ................................................................................. 46 

3.5.1通用的句子表示 ......................................................................... 46 

3.5.2任务相关的句子表示 ................................................................... 49 

3.6文档的分布式表示 ................................................................................. 52 

3.6.1通用的文档分布式表示 ............................................................... 53 

3.6.2任务相关的文档分布式表示 ......................................................... 55 

3.7进一步阅读 ........................................................................................... 56 习题 ............................................................................................................ 57

第 4章预训练语言模型 ..................................................................................... 58 

4.1概述 ..................................................................................................... 58 

4.2 ELMo:源自语言模型的语境化分布式向量表示 ....................................... 58 

4.2.1基于双向 LSTM的语言模型 ....................................................... 59 

4.2.2适应下游任务的语境化 ELMo词向量 .......................................... 60 

4.3 GPT:生成式预训练模型 ....................................................................... 61 

4.3.1 Transformer................................................................................62 

4.3.2 GPT预训练 .............................................................................. 63 

4.3.3 GPT微调 .................................................................................. 64 

4.4 BERT:双向 Transformer编码表示 ........................................................ 65 

4.4.1 BERT预训练 ............................................................................ 66 

4.4.2 BERT微调 ................................................................................ 68 

4.4.3 XLNet:广义自回归预训练模型 ................................................... 68 

4.4.4 UniLM ....................................................................................... 71 

4.5进一步阅读 ........................................................................................... 72 习题 ............................................................................................................ 72

第 5章文本分类 ............................................................................................... 74 

5.1概述 ..................................................................................................... 74 

5.2传统文本表示 ....................................................................................... 75 

目录 XI 

5.3特征选择 .............................................................................................. 76 

5.3.1互信息法 ................................................................................... 76 

5.3.2信息增益法 ................................................................................ 79 

5.3.3卡方统计量法 ............................................................................. 80 

5.3.4其他方法 ................................................................................... 81 

5.4传统分类算法 ....................................................................................... 82 

5.4.1朴素贝叶斯模型 ......................................................................... 82 

5.4.2 logistic回归、 softmax回归与最大熵模型 ..................................... 84 

5.4.3支持向量机 ................................................................................ 86 

5.4.4集成学习 ................................................................................... 88 

5.5深度神经网络方法 ................................................................................. 89 

5.5.1基于前馈神经网络的文本分类方法 ............................................... 89 

5.5.2基于卷积神经网络的文本分类方法 ............................................... 89 

5.5.3基于循环神经网络的文本分类方法 ............................................... 91 

5.6文本分类性能评估 ................................................................................. 94 

5.7进一步阅读 ........................................................................................... 97 习题 ............................................................................................................ 97

第 6章文本聚类 ............................................................................................... 99 

6.1概述 ..................................................................................................... 99 

6.2文本相似性度量 .................................................................................... 99 

6.2.1样本间的相似性 ....................................................................... 100 

6.2.2簇间的相似性 ........................................................................... 102 

6.2.3样本与簇之间的相似性 ............................................................. 103 

6.3文本聚类算法 ..................................................................................... 103 

6.3.1 K-均值聚类 ............................................................................. 103 

6.3.2单遍聚类 ................................................................................. 107 

6.3.3层次聚类 ................................................................................. 108 

6.3.4密度聚类 ................................................................................. 111 

6.4性能评估 ............................................................................................ 113 

6.4.1外部标准 ................................................................................. 113 

6.4.2内部标准 ................................................................................. 115 

6.5进一步阅读 ......................................................................................... 115 习题 .......................................................................................................... 116

第 7章主题模型 ............................................................................................. 117 

7.1概述 ................................................................................................... 117 

文本数据挖掘 (第 2版) 

7.2潜在语义分析 ..................................................................................... 118 

7.2.1词项-文档矩阵的奇异值分解 ...................................................... 118 

7.2.2词项和文档的概念表示及相似度计算 ......................................... 121 

7.3概率潜在语义分析 ............................................................................... 123 

7.3.1模型假设 ................................................................................. 123 

7.3.2参数学习 ................................................................................. 124 

7.4潜在狄利克雷分布 ............................................................................... 125 

7.4.1模型假设 ................................................................................. 125 

7.4.2词项和主题序列的联合概率 ....................................................... 127 

7.4.3模型推断 ................................................................................. 129 

7.4.4新文档的推断 ........................................................................... 131 

7.4.5 PLSA与 LDA的联系与区别 ..................................................... 132 

7.5进一步阅读 ......................................................................................... 132 习题 .......................................................................................................... 133

第 8章情感分析与观点挖掘 ............................................................................ 135 

8.1概述 ................................................................................................... 135 

8.2情感分析任务类型 ............................................................................... 136 

8.2.1按目标形式划分 ....................................................................... 136 

8.2.2按分析粒度划分 ....................................................................... 137 

8.3文档或句子级情感分析方法 ................................................................. 139 

8.3.1基于规则的无监督情感分类 ....................................................... 140 

8.3.2基于传统机器学习的监督情感分类 ............................................. 141 

8.3.3深度神经网络方法 .................................................................... 144 

8.4词语级情感分析与情感词典构建 ........................................................... 146 

8.4.1基于语义知识库的方法 ............................................................. 147 

8.4.2基于语料库的方法 .................................................................... 147 

8.4.3情感词典性能评估 .................................................................... 149 

8.5属性级情感分析 .................................................................................. 150 

8.5.1属性抽取 ................................................................................. 150 

8.5.2属性情感分类 ........................................................................... 153 

8.5.3主题与情感的生成式建模 .......................................................... 157 

8.6情感分析中的特殊问题 ........................................................................ 159 

8.6.1情感极性转移问题 .................................................................... 159 

8.6.2领域适应问题 ........................................................................... 160 

8.7文本情绪分析 ..................................................................................... 163 

8.7.1心理学情绪理论 ....................................................................... 163 

目录 XIII 

8.7.2文本情绪识别 ........................................................................... 163 

8.7.3情绪原因挖掘 ........................................................................... 165 

8.8进一步阅读 ......................................................................................... 167 习题 .......................................................................................................... 168

第 9章话题检测与跟踪................................................................................... 170 

9.1概述 ................................................................................................... 170 

9.2术语与任务 ......................................................................................... 172 

9.2.1术语 ........................................................................................ 172 

9.2.2任务 ........................................................................................ 173 

9.3报道或话题的表示与相似性计算 ........................................................... 175 

9.4话题检测 ............................................................................................ 177 

9.4.1话题在线检测 ........................................................................... 177 

9.4.2话题回溯检测 ........................................................................... 179 

9.5话题跟踪 ............................................................................................ 179 

9.6评估方法 ............................................................................................ 181 

9.7社交媒体话题检测与跟踪 ..................................................................... 182 

9.7.1社交媒体话题检测 .................................................................... 182 

9.7.2社交媒体话题跟踪 .................................................................... 184 

9.8突发话题检测 ..................................................................................... 184 

9.8.1突发状态识别 ........................................................................... 185 

9.8.2以文档为中心的方法 ................................................................. 187 

9.8.3以特征为中心的方法 ................................................................. 188 

9.9进一步阅读 ......................................................................................... 190 习题 .......................................................................................................... 190

第 10章信息抽取........................................................................................... 191 

10.1概述 ................................................................................................. 191 

10.2命名实体识别 .................................................................................... 193 

10.2.1基于规则的命名实体识别方法 ................................................ 194 

10.2.2基于有监督学习的命名实体识别方法 ...................................... 195 

10.2.3半监督的命名实体识别方法 .................................................... 201 

10.2.4命名实体识别方法评价 .......................................................... 203 

10.3共指消解 .......................................................................................... 204 

10.3.1基于规则的共指消解方法 ....................................................... 205 

10.3.2数据驱动的共指消解方法 ....................................................... 207 

10.3.3共指消解评价 ........................................................................ 210 

文本数据挖掘 (第 2版) 

10.4实体消歧 .......................................................................................... 213 

10.4.1基于聚类的实体消歧方法 ....................................................... 213 

10.4.2基于链接的实体消歧 .............................................................. 217 

10.4.3实体消歧任务的评价方法 ....................................................... 223 

10.5关系抽取 .......................................................................................... 224 

10.5.1基于离散特征的关系分类方法 ................................................ 226 

10.5.2基于分布式特征的关系分类方法 ............................................. 232 

10.5.3基于远程监督的关系分类方法 ................................................ 234 

10.5.4关系分类性能评价 ................................................................. 235 

10.5.5知识图谱 .............................................................................. 235 

10.6事件抽取 .......................................................................................... 236 

10.6.1事件描述模板 ........................................................................ 236 

10.6.2事件抽取方法 ........................................................................ 238 

10.6.3事件抽取评价 ........................................................................ 245 

10.6.4事理图谱 .............................................................................. 245 

10.7进一步阅读 ....................................................................................... 246 习题 .......................................................................................................... 247

第 11章文本自动摘要 .................................................................................... 248 

11.1概述 ................................................................................................. 248 

11.2抽取式自动摘要 ................................................................................ 249 

11.2.1句子重要性评估 .................................................................... 250 

11.2.2基于约束的摘要生成方法 ....................................................... 258 

11.3压缩式自动摘要方法 .......................................................................... 259 

11.3.1句子压缩方法 ........................................................................ 259 

11.3.2基于句子压缩的自动摘要方法 ................................................ 263 

11.4理解式自动摘要 ................................................................................ 265 

11.4.1基于信息融合的生成式摘要方法 ............................................. 265 

11.4.2基于编码-解码的生成式摘要方法 ............................................ 270 

11.5基于查询的自动摘要 .......................................................................... 272 

11.5.1基于语言模型的相关性计算方法 ............................................. 272 

11.5.2基于关键词语重合度的相关性计算方法 ................................... 273 

11.5.3基于图模型的相关性计算方法 ................................................ 273 

11.6跨语言和多语言自动摘要方法 ............................................................ 274 

11.6.1跨语言自动摘要 .................................................................... 274 

11.6.2多语言自动摘要 .................................................................... 277 

目录 XV 

11.7摘要质量评估方法和相关评测 ............................................................ 279 

11.7.1摘要质量评估方法 ................................................................. 279 

11.7.2相关评测活动 ........................................................................ 283 

11.8进一步阅读 ....................................................................................... 285 习题 .......................................................................................................... 285

第 12章技术应用 ........................................................................................... 288 

12.1概述 ................................................................................................. 288 

12.2电子病历分析与挖掘系统 ................................................................... 289 

12.2.1任务目标 .............................................................................. 289 

12.2.2数据准备和标注 .................................................................... 290 

12.2.3系统实现 .............................................................................. 292 

12.3多语言政策法规分析与挖掘系统 ......................................................... 300 

12.3.1任务目标 .............................................................................. 300 

12.3.2数据采集和标注 .................................................................... 301 

12.3.3系统实现 .............................................................................. 302 习题 .......................................................................................................... 302

参考文献 ........................................................................................................... 303

名词术语索引 ..................................................................................................... 327