目录
第 1章绪论 .......................................................................................................1
1.1基本概念 ................................................................................................1
1.2文本挖掘任务 .........................................................................................2
1.3文本挖掘面临的困难 ...............................................................................5
1.4方法概述与本书的内容组织 .....................................................................8
1.5进一步阅读 ........................................................................................... 10 习题 ............................................................................................................ 11
第 2章数据预处理和标注 ................................................................................. 12
2.1概述 ..................................................................................................... 12
2.2数据获取 .............................................................................................. 12
2.3数据预处理 ........................................................................................... 16
2.4数据标注 .............................................................................................. 18
2.5基本工具 .............................................................................................. 20
2.5.1汉语自动分词与词性标注 ............................................................ 20
2.5.2句法分析 ................................................................................... 22
2.5.3 n元语法模型 ............................................................................. 23
2.6进一步阅读 ........................................................................................... 24 习题 ............................................................................................................ 24
第 3章文本表示 ............................................................................................... 25
3.1概述 ..................................................................................................... 25
3.2向量空间模型 ....................................................................................... 25
3.2.1向量空间模型的基本概念 ............................................................ 25
3.2.2特征项的构造与权重 ................................................................... 26
3.2.3文本长度规范化 ......................................................................... 27
3.2.4特征工程 ................................................................................... 28
3.2.5其他文本表示方法 ...................................................................... 30
3.3词的分布式表示 .................................................................................... 31
文本数据挖掘 (第 2版)
3.3.1神经网络语言模型 ...................................................................... 32
3.3.2 C&W模型 ................................................................................. 36
3.3.3 CBOW与 Skip-gram模型 .......................................................... 38
3.3.4噪声对比估计与负采样 ............................................................... 39
3.3.5字词混合的分布式表示方法 ......................................................... 41
3.4短语的分布式表示 ................................................................................. 43
3.4.1基于词袋的分布式表示 ............................................................... 43
3.4.2基于自动编码器的分布式表示 ..................................................... 43
3.5句子的分布式表示 ................................................................................. 46
3.5.1通用的句子表示 ......................................................................... 46
3.5.2任务相关的句子表示 ................................................................... 49
3.6文档的分布式表示 ................................................................................. 52
3.6.1通用的文档分布式表示 ............................................................... 53
3.6.2任务相关的文档分布式表示 ......................................................... 55
3.7进一步阅读 ........................................................................................... 56 习题 ............................................................................................................ 57
第 4章预训练语言模型 ..................................................................................... 58
4.1概述 ..................................................................................................... 58
4.2 ELMo:源自语言模型的语境化分布式向量表示 ....................................... 58
4.2.1基于双向 LSTM的语言模型 ....................................................... 59
4.2.2适应下游任务的语境化 ELMo词向量 .......................................... 60
4.3 GPT:生成式预训练模型 ....................................................................... 61
4.3.1 Transformer................................................................................62
4.3.2 GPT预训练 .............................................................................. 63
4.3.3 GPT微调 .................................................................................. 64
4.4 BERT:双向 Transformer编码表示 ........................................................ 65
4.4.1 BERT预训练 ............................................................................ 66
4.4.2 BERT微调 ................................................................................ 68
4.4.3 XLNet:广义自回归预训练模型 ................................................... 68
4.4.4 UniLM ....................................................................................... 71
4.5进一步阅读 ........................................................................................... 72 习题 ............................................................................................................ 72
第 5章文本分类 ............................................................................................... 74
5.1概述 ..................................................................................................... 74
5.2传统文本表示 ....................................................................................... 75
目录 XI
5.3特征选择 .............................................................................................. 76
5.3.1互信息法 ................................................................................... 76
5.3.2信息增益法 ................................................................................ 79
5.3.3卡方统计量法 ............................................................................. 80
5.3.4其他方法 ................................................................................... 81
5.4传统分类算法 ....................................................................................... 82
5.4.1朴素贝叶斯模型 ......................................................................... 82
5.4.2 logistic回归、 softmax回归与最大熵模型 ..................................... 84
5.4.3支持向量机 ................................................................................ 86
5.4.4集成学习 ................................................................................... 88
5.5深度神经网络方法 ................................................................................. 89
5.5.1基于前馈神经网络的文本分类方法 ............................................... 89
5.5.2基于卷积神经网络的文本分类方法 ............................................... 89
5.5.3基于循环神经网络的文本分类方法 ............................................... 91
5.6文本分类性能评估 ................................................................................. 94
5.7进一步阅读 ........................................................................................... 97 习题 ............................................................................................................ 97
第 6章文本聚类 ............................................................................................... 99
6.1概述 ..................................................................................................... 99
6.2文本相似性度量 .................................................................................... 99
6.2.1样本间的相似性 ....................................................................... 100
6.2.2簇间的相似性 ........................................................................... 102
6.2.3样本与簇之间的相似性 ............................................................. 103
6.3文本聚类算法 ..................................................................................... 103
6.3.1 K-均值聚类 ............................................................................. 103
6.3.2单遍聚类 ................................................................................. 107
6.3.3层次聚类 ................................................................................. 108
6.3.4密度聚类 ................................................................................. 111
6.4性能评估 ............................................................................................ 113
6.4.1外部标准 ................................................................................. 113
6.4.2内部标准 ................................................................................. 115
6.5进一步阅读 ......................................................................................... 115 习题 .......................................................................................................... 116
第 7章主题模型 ............................................................................................. 117
7.1概述 ................................................................................................... 117
文本数据挖掘 (第 2版)
7.2潜在语义分析 ..................................................................................... 118
7.2.1词项-文档矩阵的奇异值分解 ...................................................... 118
7.2.2词项和文档的概念表示及相似度计算 ......................................... 121
7.3概率潜在语义分析 ............................................................................... 123
7.3.1模型假设 ................................................................................. 123
7.3.2参数学习 ................................................................................. 124
7.4潜在狄利克雷分布 ............................................................................... 125
7.4.1模型假设 ................................................................................. 125
7.4.2词项和主题序列的联合概率 ....................................................... 127
7.4.3模型推断 ................................................................................. 129
7.4.4新文档的推断 ........................................................................... 131
7.4.5 PLSA与 LDA的联系与区别 ..................................................... 132
7.5进一步阅读 ......................................................................................... 132 习题 .......................................................................................................... 133
第 8章情感分析与观点挖掘 ............................................................................ 135
8.1概述 ................................................................................................... 135
8.2情感分析任务类型 ............................................................................... 136
8.2.1按目标形式划分 ....................................................................... 136
8.2.2按分析粒度划分 ....................................................................... 137
8.3文档或句子级情感分析方法 ................................................................. 139
8.3.1基于规则的无监督情感分类 ....................................................... 140
8.3.2基于传统机器学习的监督情感分类 ............................................. 141
8.3.3深度神经网络方法 .................................................................... 144
8.4词语级情感分析与情感词典构建 ........................................................... 146
8.4.1基于语义知识库的方法 ............................................................. 147
8.4.2基于语料库的方法 .................................................................... 147
8.4.3情感词典性能评估 .................................................................... 149
8.5属性级情感分析 .................................................................................. 150
8.5.1属性抽取 ................................................................................. 150
8.5.2属性情感分类 ........................................................................... 153
8.5.3主题与情感的生成式建模 .......................................................... 157
8.6情感分析中的特殊问题 ........................................................................ 159
8.6.1情感极性转移问题 .................................................................... 159
8.6.2领域适应问题 ........................................................................... 160
8.7文本情绪分析 ..................................................................................... 163
8.7.1心理学情绪理论 ....................................................................... 163
目录 XIII
8.7.2文本情绪识别 ........................................................................... 163
8.7.3情绪原因挖掘 ........................................................................... 165
8.8进一步阅读 ......................................................................................... 167 习题 .......................................................................................................... 168
第 9章话题检测与跟踪................................................................................... 170
9.1概述 ................................................................................................... 170
9.2术语与任务 ......................................................................................... 172
9.2.1术语 ........................................................................................ 172
9.2.2任务 ........................................................................................ 173
9.3报道或话题的表示与相似性计算 ........................................................... 175
9.4话题检测 ............................................................................................ 177
9.4.1话题在线检测 ........................................................................... 177
9.4.2话题回溯检测 ........................................................................... 179
9.5话题跟踪 ............................................................................................ 179
9.6评估方法 ............................................................................................ 181
9.7社交媒体话题检测与跟踪 ..................................................................... 182
9.7.1社交媒体话题检测 .................................................................... 182
9.7.2社交媒体话题跟踪 .................................................................... 184
9.8突发话题检测 ..................................................................................... 184
9.8.1突发状态识别 ........................................................................... 185
9.8.2以文档为中心的方法 ................................................................. 187
9.8.3以特征为中心的方法 ................................................................. 188
9.9进一步阅读 ......................................................................................... 190 习题 .......................................................................................................... 190
第 10章信息抽取........................................................................................... 191
10.1概述 ................................................................................................. 191
10.2命名实体识别 .................................................................................... 193
10.2.1基于规则的命名实体识别方法 ................................................ 194
10.2.2基于有监督学习的命名实体识别方法 ...................................... 195
10.2.3半监督的命名实体识别方法 .................................................... 201
10.2.4命名实体识别方法评价 .......................................................... 203
10.3共指消解 .......................................................................................... 204
10.3.1基于规则的共指消解方法 ....................................................... 205
10.3.2数据驱动的共指消解方法 ....................................................... 207
10.3.3共指消解评价 ........................................................................ 210
文本数据挖掘 (第 2版)
10.4实体消歧 .......................................................................................... 213
10.4.1基于聚类的实体消歧方法 ....................................................... 213
10.4.2基于链接的实体消歧 .............................................................. 217
10.4.3实体消歧任务的评价方法 ....................................................... 223
10.5关系抽取 .......................................................................................... 224
10.5.1基于离散特征的关系分类方法 ................................................ 226
10.5.2基于分布式特征的关系分类方法 ............................................. 232
10.5.3基于远程监督的关系分类方法 ................................................ 234
10.5.4关系分类性能评价 ................................................................. 235
10.5.5知识图谱 .............................................................................. 235
10.6事件抽取 .......................................................................................... 236
10.6.1事件描述模板 ........................................................................ 236
10.6.2事件抽取方法 ........................................................................ 238
10.6.3事件抽取评价 ........................................................................ 245
10.6.4事理图谱 .............................................................................. 245
10.7进一步阅读 ....................................................................................... 246 习题 .......................................................................................................... 247
第 11章文本自动摘要 .................................................................................... 248
11.1概述 ................................................................................................. 248
11.2抽取式自动摘要 ................................................................................ 249
11.2.1句子重要性评估 .................................................................... 250
11.2.2基于约束的摘要生成方法 ....................................................... 258
11.3压缩式自动摘要方法 .......................................................................... 259
11.3.1句子压缩方法 ........................................................................ 259
11.3.2基于句子压缩的自动摘要方法 ................................................ 263
11.4理解式自动摘要 ................................................................................ 265
11.4.1基于信息融合的生成式摘要方法 ............................................. 265
11.4.2基于编码-解码的生成式摘要方法 ............................................ 270
11.5基于查询的自动摘要 .......................................................................... 272
11.5.1基于语言模型的相关性计算方法 ............................................. 272
11.5.2基于关键词语重合度的相关性计算方法 ................................... 273
11.5.3基于图模型的相关性计算方法 ................................................ 273
11.6跨语言和多语言自动摘要方法 ............................................................ 274
11.6.1跨语言自动摘要 .................................................................... 274
11.6.2多语言自动摘要 .................................................................... 277
目录 XV
11.7摘要质量评估方法和相关评测 ............................................................ 279
11.7.1摘要质量评估方法 ................................................................. 279
11.7.2相关评测活动 ........................................................................ 283
11.8进一步阅读 ....................................................................................... 285 习题 .......................................................................................................... 285
第 12章技术应用 ........................................................................................... 288
12.1概述 ................................................................................................. 288
12.2电子病历分析与挖掘系统 ................................................................... 289
12.2.1任务目标 .............................................................................. 289
12.2.2数据准备和标注 .................................................................... 290
12.2.3系统实现 .............................................................................. 292
12.3多语言政策法规分析与挖掘系统 ......................................................... 300
12.3.1任务目标 .............................................................................. 300
12.3.2数据采集和标注 .................................................................... 301
12.3.3系统实现 .............................................................................. 302 习题 .......................................................................................................... 302
参考文献 ........................................................................................................... 303
名词术语索引 ..................................................................................................... 327
