图书目录

第1章概述 1

1.1引言1

1.2信息获取与数据获取 2

1.3信息获取技术的发展 3

1.4信息获取基本概念 4

1.5信息获取系统的过去、

现在和将来 5

1.6信息获取的过程 6

1.7本书的结构 7

1.8本章小结10

第2章信息获取模型 11

2.1引言 11

2.2布尔模型 11

2.3向量模型 12

2.4概率论模型 14

2.5神经网络模型 16

2.6基于命题逻辑的模型及其应用… 18

2.6.1基本概念不相交及其

与向量模型的关系 19

2.6.2基本概念相交及其与布尔模型的关系 21

2.7本章小结 23

第3章标记语言与文本操作 24

3.1引言 24

3.2标记语言 24

3.2.1HTML语言 25

3.2.2XML语言 26

目录

搜索引擎与信息获取技术3.3文本预处理 29

3.3.1文本的词法分析 30

3.3.2中文分词技术 31

3.3.3无用词汇的删除 32

3.3.4词干提取技术 32

3.3.5索引词条的选择 37

3.3.6词典 37

3.4文档聚类 38

3.5文本压缩 39

3.5.1基本概念 39

3.5.2统计方法 40

3.5.3字典方法 41

3.5.4倒排文件压缩 42

3.5.5文本压缩方法比较 44

3.6本章小结 45

第4章索引和搜索 46

4.1引言 46

4.2倒排文件 47

4.2.1倒排文件的搜索 48

4.2.2倒排文件的构造 49

4.3后缀树与后缀数组 50

4.4布尔查询 52

4.5顺序查询 53

4.6结构化查询 54

4.7对压缩文本的搜索 55

4.8模式匹配 56

4.8.1容错匹配 56

4.8.2正规表达式和扩展模式 56

4.8.3利用索引进行模式匹配 57

4.9本章小结 58

第5章信息获取系统评价 59

5.1引言 59

5.2相关性 60

5.3召回率和精度 61

5.3.1召回率与精度的计算 61

5.3.2汇聚技术 62

5.4复合度量 64

5.5本章小结 65

第6章查询处理 66

6.1引言 66

6.2基于用户反馈信息的查询扩展 66

6.2.1向量模型的查询扩展和词条权重重新计算…67

6.2.2概率论模型中的词条权重重新计算 69

6.3自动局部分析 71

6.3.1通过局部聚集进行查询扩展 71

6.3.1.1关联聚集 72

6.3.1.2距离聚集 73

6.3.1.3标量聚集 74

6.3.1.4搜索表达式的改变 75

6.3.2通过局部上下文分析进行查询扩展 76

6.4自动全局分析 78

6.4.1基于相似词典的查询扩展 78

6.4.2基于统计词典的查询扩展 80

6.5本章小结 82

第7章目录式检索服务与聚类分析 83

7.1引言 83

7.2目录检索服务的构成 84

7.2.1网页采集过程 84

7.2.2网页分类方法 85

7.3聚类过程 86

7.3.1文档关联度的衡量 86

7.3.1.1相似度 86

7.3.1.2相异度 87

7.3.2文档聚类 88

7.3.2.1基于相似度的分类过程 88

7.3.2.2基于相异度的分类过程 92

7.4基于聚类的信息获取 94

7.5本章小结 94

第8章基于因特网的搜索引擎 95

8.1引言 95

8.2基于因特网的搜索引擎的构成 97

8.3搜索引擎的主要指标及其分析 98

8.3.1搜索引擎的精度 99

8.3.2搜索引擎受欢迎的程度 100

8.3.3搜索引擎相关性考虑 101

8.4搜索引擎的数据结构 102

8.4.1Bigfile文件系统 103

8.4.2信息库 103

8.4.3文本索引 104

8.4.4词典 104

8.4.5采样表 104

8.4.6前向索引 105

8.4.7后向索引 106

8.5网页的获取 107

8.6建立索引的方法和过程 108

8.6.1搜索引擎建立索引的方法 108

8.6.2索引的过程 111

8.7搜索过程 112

8.8搜索结果排序方法 112

8.9搜索引擎的发展趋势 116

8.10本章小结 118

第9章元搜索引擎 120

9.1引言 120

9.2基本构成 120

9.3元搜索引擎分类 122

9.4与独立搜索引擎的比较 124

9.5主要指标及其分析 126

9.6元搜索引擎面临的问题、对策和发展趋势 129

9.6.1查询预处理 131

9.6.2搜索结果集成 132

9.7元搜索引擎调度策略研究 134

9.7.1GSE基本思想 134

9.7.2遗传算法在元搜索引擎调度中的应用 135

9.7.2.1编码方法 136

9.7.2.2适应函数和选择 137

9.7.2.3初始化种群 139

9.7.2.4重组 139

9.7.2.5变异 140

9.7.3GSE中的智能调度器  141

9.7.4实验——自适应过程运行周期的确定 142

9.8文档选择 143

9.8.1用户决定法 145

9.8.2权重分配法 145

9.8.3基于学习的方法 146

9.8.4确保取回法 147

9.9结果归并 150

9.9.1基本定义 150

9.9.2元搜索引擎结果集成方法 152

9.9.2.1几种常用元搜索引擎结果集成

方法及其存在问题 152

9.9.2.2摘要排序法 153

9.9.2.3位置排序法 154

9.9.2.4摘要/位置排序法 155

9.9.3搜索结果集成技术比较 155

9.9.4实验分析 157

9.9.5元搜索引擎搜索结果集成技术展望 158

9.10元搜索引擎可扩展性 159

9.10.1XML与XSL语言 160

9.10.2可扩展元搜索引擎的基本结构 161

9.10.3元查询映射 163

9.10.4结果归并 166

9.10.5搜索引擎接入元搜索引擎的过程 171

9.11本章小结 172

第10章基于客户端的个性化应用研究 173

10.1利用代理个性化搜索结果 173

10.1.1用户兴趣模型 174

10.1.1.1个性化信息抽取与兴趣生成树 174

10.1.1.2词干抽取与信息预处理 176

10.1.1.3用户个人兴趣模型 177

10.1.1.4共同兴趣模型 178

10.1.2个性化搜索代理系统PSA 180

10.1.2.1用户个人兴趣代理 180

10.1.2.2共同兴趣代理 181

10.1.2.3利用兴趣剖像过滤搜索结果 182

10.1.3工作流程 182

10.1.4性能分析 183

10.2数据挖掘技术在Web预取中的应用研究 184

10.2.1简化WWW数据模型 185

10.2.2兴趣关联知识库与用户行为预测 187

10.2.3数据挖掘技术 190

10.2.4基于代理的Web预取技术 193

10.2.5实例研究 195

10.3本章小结 196

第11章基于服务器端的个性化应用研究 198

11.1引言 198

11.2带反馈自适应搜索引擎系统 199

11.3数据采集与反馈信息库的生成 200

11.3.1数据采集 200

11.3.2反馈信息库的生成及其算法 202

11.4反馈响应过程 205

11.5自适应搜索引擎系统原型设计与实验 207

11.5.1一个实验性带反馈自适应搜索引擎ASE… 207

11.5.2实验 208

11.6本章小结 211

第12章搜索引擎策略——站点角度 212

12.1引言 212

12.2提高网站在搜索引擎中的排名位置的方法 213

12.2.1了解不同的搜索引擎 213

12.2.2关键词的选择 214

12.2.3标题 217

12.2.4Meta值的使用 217

12.2.5提升自己网站排名的技巧 220

12.2.5.1隐藏的表单input 220

12.2.5.2不可见关键词堆砌 221

12.3如何提交自己的网站 221

12.3.1提交工具 221

12.3.2如何跟踪 222

12.4阻止网络检索器索引网页 222

12.4.1阻止网络检索器的方法 223

12.4.2文件Robots.txt的格式 224

12.4.3Robots.txt 使用实例分析 225

12.5本章小结 226

第13章搜索引擎策略——用户角度 227

13.1引言 227

13.2数学命令在搜索中应用 229

13.2.1查询条件具体化 229

13.2.2使用加号+ 229

13.2.3使用减号- 230

13.2.4使用引号″ ″230

13.2.5组合符号 231

13.3增强的搜索命令 232

13.3.1搜索标题 232

13.3.2搜索网站 233

13.3.3百搭命令 (*) 233

13.4搜索引擎的辅助功能 234

13.4.1相关搜索 234

13.4.2搜索结果重组 237

13.4.3相近搜索 239

13.4.4延伸搜索条件 241

13.5搜索引擎功能特点分析图表 242

13.6本章小结 245

附录1搜索引擎导航 246

附录2术语 250

参考文献 252

图 目 录

图2\|1包含两个文档与三个关键词的

简单神经网络17

图2\|2布尔信息获取文档表示示例23

图4\|1构造倒排索引实例50

图4\|2后缀树实例51

图4\|3一有层次关系的关键词集合52

图5\|1精度\|召回率曲线的拟合64

图6\|1由全连接算法生成的3个类别的

层次结构81

图7\|1根据相似度和阈值生成的对象图… 89

图7\|2根据子图来划分的可能类90

图7\|3层次树状图92

图7\|4单连接方法根据相异度生成图

进行分类的过程93

图8\|1搜索引擎受欢迎程度比较100

图8\|2信息库数据结构103

图8\|3采样的结构(两个字节)105

图8\|4前向索引数据结构106

图8\|5后向索引数据结构107

图9\|1元搜索引擎原理图121

图9\|2GSE中的智能调度器141

图9\|3几种排序方法偏移度比较157

图9\|4可扩展元搜索引擎SMetaSearch框架162

图9\|5元查询映射164

图目录

搜索引擎与信息获取技术图9\|6扩展元查询实例164

图9\|7扩展元本地查询DTD和用其格式化后的

扩展本地查询XLQ165

图9\|8扩展本地查询向本地查询映射转换程序166

图9\|9搜索结果及其模板168

图9\|10搜索结果DTD及其用其格式化后的搜索结果169

图9\|11将搜索结果转换为HTML形式的XSL程序170

图10\|1兴趣生成树176

图10\|2个性化搜索代理系统PSA180

图10\|3简化WWW数据模型186

图10\|4利用知识库预测用户链接次序188

图10\|5基于代理的Web预取系统194

图11\|1带反馈自适应搜索引擎系统原理图200

图11\|2反馈信号响应过程205

图11\|3自适应搜索引擎ASE207

图11\|4相异度曲线及趋势210

图11\|5相异度总体曲线与总体趋势211

图13\|1AltaVista的相关搜索功能234

图13\|2AOL Search中的相关搜索链接235

图13\|3Excite 列出的相关关键词235

图13\|4Excite提供的相关词搜索236

图13\|5Go 提供的相关搜索236

图13\|6HotBot的相关结果搜索237

图13\|7Yahoo的相关搜索词237

图13\|8AltaVista的搜索结果重组功能238

图13\|9Excite将网页按网站组合的功能238

图13\|10Go 中的关闭重组功能239

图13\|11HotBot中查看网站中其他网页的功能239

图13\|12Northern Light的搜索结果重组功能240

图13\|13AOL Search的相近搜索功能240

图13\|14Excite的相近搜索功能240

图13\|15Google的相近搜索功能241

图13\|16HotBot的延伸搜索功能241

图13\|17MSN Search的延伸搜索功能242

图13\|18Snap的延伸搜索功能242

表格目录

表3\|1文本压缩方法比较44

表5\|1相关文档的集合定义61

表5\|2(a) 查询1的召回率与精度63

(b)  查询2的召回率与精度63

(c) 对查询1与查询2汇聚后

得到的召回率与精度63

表8\|1搜索引擎结果中的质量100

表8\|2搜索引擎索引方法比较110

表9\|1元搜索引擎比较128

表9\|2GSE中遗传算法执行频率与

智能代理性能的变化143

表10\|1取不同参数n对用户满意

程度的影响184

表10\|2实验结果分析196

表11\|1反馈信息库数据结构208

表13\|1如何选择搜索引擎228

表13\|2搜索引擎的数学命令242

表13\|3增强的搜索命令243

表13\|4辅助搜索功能244

表13\|5结果显示功能245

算法目录

算法10\|1用户个人兴趣剖像生成算法

算法10\|2用户个人兴趣剖像的更新算法

算法10\|3共同兴趣剖像抽取算法

算法10\|4兴趣关联知识库调整增量算法

算法10\|5利用兴趣关联知识库预测用户

行为

算法10\|6从用户高速缓存数据中挖掘兴

趣关联规则

算法11\|1平凡事务序列生成算法

网站目录

在本书的讨论中,经常涉及到一些典型的网站,为了减少书中正文的篇幅又便于读者查找,我们将这些网站统一列于下面。

Yahoo(www.yahoo.com)

Google (www.google.com)

Inquery系统(www.inquery.com)

Looksmart ( www.looksmart.com/)

Open Directory(www.litavista.com)

searchengine watch(www.searchenginewatch.com)

Nielsen/NetRatings(www.nielsen\|netratings.com/)

CORI Net(www.cora.jprc.com)

AltaVista(www.AltaVista.com)

HotBot(www.HotBot.com)

Freeality (www.freeality.com)

BeeLine(www.transcom)

Ixquick(www.ixquick.com) 

Metor (www.metor.com)

C4(www.c4.com)

InfoZoid(www.infozoid.com)

Search.com (www.search.com)

Dogpile(www.dogpile.com)

MetaCrawler(www.go2net.com/search.html)

ProFusion(www.profusion.com)

INM公司(www.ineural.com/entrance.html)

NedStat(usa. nedstat.net/)

WebTracker(www.fxweb. com/tracker/)

Global PromoBot(foreverweb. com/cgi\|foreverweb/spider_click.cgi?IM1361)

Submit Wolf (www.msw.com.au /cgi\|bin/msw/entry?id=1960)

搜狐(www.sohu.com)

新浪(www.sina.com.cn)

网站目录Ⅹ

搜索引擎与信息获取技术中文雅虎(www.yahoo.com.cn)

常青藤(www.tonghua.com.cn)

微软亚洲研究院(www.microsoft.com /china/research)

悠游(www.goyoyo.com)

万维搜索(www.widewaysearch.com)中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军

中国人民解放军中国人民解放军中国人民解放军中国人民解放军

中国人民解放军中国人民解放军中国人民解放军中国人民解放军

中国人民解放军中国人民解放军中国人民解放军中国人民解放军

中国人民解放军中国人民解放军中国人民解放中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军

中国人民解放军中国人民解放军中国人民解放军中国人民解放军

中国人民解放军中国人民解放军中国人民解放军中国人民解放军

中国人民解放军中国人民解放军中国人民解放军中国人民解放军

中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军中国人民解放军

中国人民解放军中国人民解放军中国人民解放军中国人民解放军

中国人民解放军中国人民解放军中国人民解放军中国人民解放军

中国人民解放军中国人民解放军中国人民解放军中国人民解放军

中国人民解放军中国人民解放军中国人民解放军中国人民解放军五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型

五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型

五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型

五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型五笔字型