第1章概述 1
1.1引言1
1.2信息获取与数据获取 2
1.3信息获取技术的发展 3
1.4信息获取基本概念 4
1.5信息获取系统的过去、
现在和将来 5
1.6信息获取的过程 6
1.7本书的结构 7
1.8本章小结10
第2章信息获取模型 11
2.1引言 11
2.2布尔模型 11
2.3向量模型 12
2.4概率论模型 14
2.5神经网络模型 16
2.6基于命题逻辑的模型及其应用… 18
2.6.1基本概念不相交及其
与向量模型的关系 19
2.6.2基本概念相交及其与布尔模型的关系 21
2.7本章小结 23
第3章标记语言与文本操作 24
3.1引言 24
3.2标记语言 24
3.2.1HTML语言 25
3.2.2XML语言 26
目录
搜索引擎与信息获取技术3.3文本预处理 29
3.3.1文本的词法分析 30
3.3.2中文分词技术 31
3.3.3无用词汇的删除 32
3.3.4词干提取技术 32
3.3.5索引词条的选择 37
3.3.6词典 37
3.4文档聚类 38
3.5文本压缩 39
3.5.1基本概念 39
3.5.2统计方法 40
3.5.3字典方法 41
3.5.4倒排文件压缩 42
3.5.5文本压缩方法比较 44
3.6本章小结 45
第4章索引和搜索 46
4.1引言 46
4.2倒排文件 47
4.2.1倒排文件的搜索 48
4.2.2倒排文件的构造 49
4.3后缀树与后缀数组 50
4.4布尔查询 52
4.5顺序查询 53
4.6结构化查询 54
4.7对压缩文本的搜索 55
4.8模式匹配 56
4.8.1容错匹配 56
4.8.2正规表达式和扩展模式 56
4.8.3利用索引进行模式匹配 57
4.9本章小结 58
第5章信息获取系统评价 59
5.1引言 59
5.2相关性 60
5.3召回率和精度 61
5.3.1召回率与精度的计算 61
5.3.2汇聚技术 62
5.4复合度量 64
5.5本章小结 65
第6章查询处理 66
6.1引言 66
6.2基于用户反馈信息的查询扩展 66
6.2.1向量模型的查询扩展和词条权重重新计算…67
6.2.2概率论模型中的词条权重重新计算 69
6.3自动局部分析 71
6.3.1通过局部聚集进行查询扩展 71
6.3.1.1关联聚集 72
6.3.1.2距离聚集 73
6.3.1.3标量聚集 74
6.3.1.4搜索表达式的改变 75
6.3.2通过局部上下文分析进行查询扩展 76
6.4自动全局分析 78
6.4.1基于相似词典的查询扩展 78
6.4.2基于统计词典的查询扩展 80
6.5本章小结 82
第7章目录式检索服务与聚类分析 83
7.1引言 83
7.2目录检索服务的构成 84
7.2.1网页采集过程 84
7.2.2网页分类方法 85
7.3聚类过程 86
7.3.1文档关联度的衡量 86
7.3.1.1相似度 86
7.3.1.2相异度 87
7.3.2文档聚类 88
7.3.2.1基于相似度的分类过程 88
7.3.2.2基于相异度的分类过程 92
7.4基于聚类的信息获取 94
7.5本章小结 94
第8章基于因特网的搜索引擎 95
8.1引言 95
8.2基于因特网的搜索引擎的构成 97
8.3搜索引擎的主要指标及其分析 98
8.3.1搜索引擎的精度 99
8.3.2搜索引擎受欢迎的程度 100
8.3.3搜索引擎相关性考虑 101
8.4搜索引擎的数据结构 102
8.4.1Bigfile文件系统 103
8.4.2信息库 103
8.4.3文本索引 104
8.4.4词典 104
8.4.5采样表 104
8.4.6前向索引 105
8.4.7后向索引 106
8.5网页的获取 107
8.6建立索引的方法和过程 108
8.6.1搜索引擎建立索引的方法 108
8.6.2索引的过程 111
8.7搜索过程 112
8.8搜索结果排序方法 112
8.9搜索引擎的发展趋势 116
8.10本章小结 118
第9章元搜索引擎 120
9.1引言 120
9.2基本构成 120
9.3元搜索引擎分类 122
9.4与独立搜索引擎的比较 124
9.5主要指标及其分析 126
9.6元搜索引擎面临的问题、对策和发展趋势 129
9.6.1查询预处理 131
9.6.2搜索结果集成 132
9.7元搜索引擎调度策略研究 134
9.7.1GSE基本思想 134
9.7.2遗传算法在元搜索引擎调度中的应用 135
9.7.2.1编码方法 136
9.7.2.2适应函数和选择 137
9.7.2.3初始化种群 139
9.7.2.4重组 139
9.7.2.5变异 140
9.7.3GSE中的智能调度器 141
9.7.4实验——自适应过程运行周期的确定 142
9.8文档选择 143
9.8.1用户决定法 145
9.8.2权重分配法 145
9.8.3基于学习的方法 146
9.8.4确保取回法 147
9.9结果归并 150
9.9.1基本定义 150
9.9.2元搜索引擎结果集成方法 152
9.9.2.1几种常用元搜索引擎结果集成
方法及其存在问题 152
9.9.2.2摘要排序法 153
9.9.2.3位置排序法 154
9.9.2.4摘要/位置排序法 155
9.9.3搜索结果集成技术比较 155
9.9.4实验分析 157
9.9.5元搜索引擎搜索结果集成技术展望 158
9.10元搜索引擎可扩展性 159
9.10.1XML与XSL语言 160
9.10.2可扩展元搜索引擎的基本结构 161
9.10.3元查询映射 163
9.10.4结果归并 166
9.10.5搜索引擎接入元搜索引擎的过程 171
9.11本章小结 172
第10章基于客户端的个性化应用研究 173
10.1利用代理个性化搜索结果 173
10.1.1用户兴趣模型 174
10.1.1.1个性化信息抽取与兴趣生成树 174
10.1.1.2词干抽取与信息预处理 176
10.1.1.3用户个人兴趣模型 177
10.1.1.4共同兴趣模型 178
10.1.2个性化搜索代理系统PSA 180
10.1.2.1用户个人兴趣代理 180
10.1.2.2共同兴趣代理 181
10.1.2.3利用兴趣剖像过滤搜索结果 182
10.1.3工作流程 182
10.1.4性能分析 183
10.2数据挖掘技术在Web预取中的应用研究 184
10.2.1简化WWW数据模型 185
10.2.2兴趣关联知识库与用户行为预测 187
10.2.3数据挖掘技术 190
10.2.4基于代理的Web预取技术 193
10.2.5实例研究 195
10.3本章小结 196
第11章基于服务器端的个性化应用研究 198
11.1引言 198
11.2带反馈自适应搜索引擎系统 199
11.3数据采集与反馈信息库的生成 200
11.3.1数据采集 200
11.3.2反馈信息库的生成及其算法 202
11.4反馈响应过程 205
11.5自适应搜索引擎系统原型设计与实验 207
11.5.1一个实验性带反馈自适应搜索引擎ASE… 207
11.5.2实验 208
11.6本章小结 211
第12章搜索引擎策略——站点角度 212
12.1引言 212
12.2提高网站在搜索引擎中的排名位置的方法 213
12.2.1了解不同的搜索引擎 213
12.2.2关键词的选择 214
12.2.3标题 217
12.2.4Meta值的使用 217
12.2.5提升自己网站排名的技巧 220
12.2.5.1隐藏的表单input 220
12.2.5.2不可见关键词堆砌 221
12.3如何提交自己的网站 221
12.3.1提交工具 221
12.3.2如何跟踪 222
12.4阻止网络检索器索引网页 222
12.4.1阻止网络检索器的方法 223
12.4.2文件Robots.txt的格式 224
12.4.3Robots.txt 使用实例分析 225
12.5本章小结 226
第13章搜索引擎策略——用户角度 227
13.1引言 227
13.2数学命令在搜索中应用 229
13.2.1查询条件具体化 229
13.2.2使用加号+ 229
13.2.3使用减号- 230
13.2.4使用引号″ ″230
13.2.5组合符号 231
13.3增强的搜索命令 232
13.3.1搜索标题 232
13.3.2搜索网站 233
13.3.3百搭命令 (*) 233
13.4搜索引擎的辅助功能 234
13.4.1相关搜索 234
13.4.2搜索结果重组 237
13.4.3相近搜索 239
13.4.4延伸搜索条件 241
13.5搜索引擎功能特点分析图表 242
13.6本章小结 245
附录1搜索引擎导航 246
附录2术语 250
参考文献 252
图 目 录
图2\|1包含两个文档与三个关键词的
简单神经网络17
图2\|2布尔信息获取文档表示示例23
图4\|1构造倒排索引实例50
图4\|2后缀树实例51
图4\|3一有层次关系的关键词集合52
图5\|1精度\|召回率曲线的拟合64
图6\|1由全连接算法生成的3个类别的
层次结构81
图7\|1根据相似度和阈值生成的对象图… 89
图7\|2根据子图来划分的可能类90
图7\|3层次树状图92
图7\|4单连接方法根据相异度生成图
进行分类的过程93
图8\|1搜索引擎受欢迎程度比较100
图8\|2信息库数据结构103
图8\|3采样的结构(两个字节)105
图8\|4前向索引数据结构106
图8\|5后向索引数据结构107
图9\|1元搜索引擎原理图121
图9\|2GSE中的智能调度器141
图9\|3几种排序方法偏移度比较157
图9\|4可扩展元搜索引擎SMetaSearch框架162
图9\|5元查询映射164
图目录
搜索引擎与信息获取技术图9\|6扩展元查询实例164
图9\|7扩展元本地查询DTD和用其格式化后的
扩展本地查询XLQ165
图9\|8扩展本地查询向本地查询映射转换程序166
图9\|9搜索结果及其模板168
图9\|10搜索结果DTD及其用其格式化后的搜索结果169
图9\|11将搜索结果转换为HTML形式的XSL程序170
图10\|1兴趣生成树176
图10\|2个性化搜索代理系统PSA180
图10\|3简化WWW数据模型186
图10\|4利用知识库预测用户链接次序188
图10\|5基于代理的Web预取系统194
图11\|1带反馈自适应搜索引擎系统原理图200
图11\|2反馈信号响应过程205
图11\|3自适应搜索引擎ASE207
图11\|4相异度曲线及趋势210
图11\|5相异度总体曲线与总体趋势211
图13\|1AltaVista的相关搜索功能234
图13\|2AOL Search中的相关搜索链接235
图13\|3Excite 列出的相关关键词235
图13\|4Excite提供的相关词搜索236
图13\|5Go 提供的相关搜索236
图13\|6HotBot的相关结果搜索237
图13\|7Yahoo的相关搜索词237
图13\|8AltaVista的搜索结果重组功能238
图13\|9Excite将网页按网站组合的功能238
图13\|10Go 中的关闭重组功能239
图13\|11HotBot中查看网站中其他网页的功能239
图13\|12Northern Light的搜索结果重组功能240
图13\|13AOL Search的相近搜索功能240
图13\|14Excite的相近搜索功能240
图13\|15Google的相近搜索功能241
图13\|16HotBot的延伸搜索功能241
图13\|17MSN Search的延伸搜索功能242
图13\|18Snap的延伸搜索功能242
表格目录
表3\|1文本压缩方法比较44
表5\|1相关文档的集合定义61
表5\|2(a) 查询1的召回率与精度63
(b) 查询2的召回率与精度63
(c) 对查询1与查询2汇聚后
得到的召回率与精度63
表8\|1搜索引擎结果中的质量100
表8\|2搜索引擎索引方法比较110
表9\|1元搜索引擎比较128
表9\|2GSE中遗传算法执行频率与
智能代理性能的变化143
表10\|1取不同参数n对用户满意
程度的影响184
表10\|2实验结果分析196
表11\|1反馈信息库数据结构208
表13\|1如何选择搜索引擎228
表13\|2搜索引擎的数学命令242
表13\|3增强的搜索命令243
表13\|4辅助搜索功能244
表13\|5结果显示功能245
算法目录
算法10\|1用户个人兴趣剖像生成算法
算法10\|2用户个人兴趣剖像的更新算法
算法10\|3共同兴趣剖像抽取算法
算法10\|4兴趣关联知识库调整增量算法
算法10\|5利用兴趣关联知识库预测用户
行为
算法10\|6从用户高速缓存数据中挖掘兴
趣关联规则
算法11\|1平凡事务序列生成算法
网站目录
在本书的讨论中,经常涉及到一些典型的网站,为了减少书中正文的篇幅又便于读者查找,我们将这些网站统一列于下面。
Yahoo(www.yahoo.com)
Google (www.google.com)
Inquery系统(www.inquery.com)
Looksmart ( www.looksmart.com/)
Open Directory(www.litavista.com)
searchengine watch(www.searchenginewatch.com)
Nielsen/NetRatings(www.nielsen\|netratings.com/)
CORI Net(www.cora.jprc.com)
AltaVista(www.AltaVista.com)
HotBot(www.HotBot.com)
Freeality (www.freeality.com)
BeeLine(www.transcom)
Ixquick(www.ixquick.com)
Metor (www.metor.com)
C4(www.c4.com)
InfoZoid(www.infozoid.com)
Search.com (www.search.com)
Dogpile(www.dogpile.com)
MetaCrawler(www.go2net.com/search.html)
ProFusion(www.profusion.com)
INM公司(www.ineural.com/entrance.html)
NedStat(usa. nedstat.net/)
WebTracker(www.fxweb. com/tracker/)
Global PromoBot(foreverweb. com/cgi\|foreverweb/spider_click.cgi?IM1361)
Submit Wolf (www.msw.com.au /cgi\|bin/msw/entry?id=1960)
搜狐(www.sohu.com)
新浪(www.sina.com.cn)
网站目录Ⅹ
搜索引擎与信息获取技术中文雅虎(www.yahoo.com.cn)
常青藤(www.tonghua.com.cn)
微软亚洲研究院(www.microsoft.com /china/research)
悠游(www.goyoyo.com)
万维搜索(www.widewaysearch.com)中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军
中国人民解放军中国人民解放军中国人民解放军中国人民解放军
中国人民解放军中国人民解放军中国人民解放军中国人民解放军
中国人民解放军中国人民解放军中国人民解放军中国人民解放军
中国人民解放军中国人民解放军中国人民解放中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军
中国人民解放军中国人民解放军中国人民解放军中国人民解放军
中国人民解放军中国人民解放军中国人民解放军中国人民解放军
中国人民解放军中国人民解放军中国人民解放军中国人民解放军
中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军
中国人民解放军中国人民解放军中国人民解放军中国人民解放军
中国人民解放军中国人民解放军中国人民解放军中国人民解放军
中国人民解放军中国人民解放军中国人民解放军中国人民解放军
中国人民解放军中国人民解放军中国人民解放军中国人民解放军五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型
五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型
五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型
五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型