





定价:29元
印次:1-2
ISBN:9787302227960
出版日期:2010.07.01
印刷日期:2013.08.14
图书责编:张瑞庆
图书分类:教材
这是一本关于搜索引擎的教科书,它从研究实践者的角度介绍了搜索引擎的相关技术及其产业,并试图协助读者成为搜索引擎领域的局内人。与传统的将搜索引擎作为信息检索系统实现的一个特殊实例的做法不同,作者试图把搜索引擎作为一个独立的研究课题,从纷繁复杂的互联网数据现象和搜索引擎工作案例中提炼知识点,对现代商业搜索引擎的体系结构、运行原理、运营机制和核心算法进行总结和讲解。 本书是清华大学计算机系与百度公司合作在清华大学开设的“搜索引擎技术基础”课程的教材,适合作为高等院校信息科学技术、图书馆学等相关专业本科生与研究生相关课程的教材,也可作为相关领域技术人员与搜索引擎技术爱好者的参考资料。
序 言 2 18世纪的著名英国作家塞缪尔·约翰逊曾经说过: “知识有两种,其一是我们自己精通的问题,其二是我们知道在哪里找到关于某问题的知识。”但显然,在互联网和搜索引擎出现之前,获得第二种知识的渠道艰难而匮乏。 互联网堪称是20世纪以来影响整个世界的最伟大发明。在互联网的带动下,人们一下子进入了一个崭新的信息爆炸时代,各种各样的知识和信息层出不穷,令人眼花缭乱。面对浩瀚的信息海洋,人类所面临的最大困扰是: 如何在尽可能短的时间里,找到最想要的东西? 搜索引擎技术的出现和发展,让这一切变得简单。 借助搜索引擎,塞缪尔·约翰逊所说的第二种知识的获取过程变得容易起来,每个人都可以轻而易举地在互联网上找到所求。可以说,搜索引擎的问世,拉近了各种地域、阶层和职业的人们与信息之间的距离,在消除信息鸿沟和加速知识进化过程中发挥着越来越重要的作用;而同时,由于具备更加精准、高效、低成本、高覆盖等特点,搜索引擎也彻底颠覆了传统的营销观念和模式,成为众多企业首选的营销推广方式,在推进传统经济向数字化经济迈进的过程中贡献出了巨大力量。 更为重要的是,搜索引擎技术的发展,不仅关系到用户和企业的利益,也关系到一个国家的信息安全和更长远、更深层次的网民的知情权。虽然互联网信息技术发展一日千里,但至今拥有市场认可的独立搜索引擎技术的国家也只有四个: 美国、韩国、俄罗斯和中国。 目前,拥有近4亿网民的中国,已经成为全球最大的互联网国家,互联网相关应用与创新层出不穷,搜索引擎也已经日益渗透到社会生活和国家发展的各个层面,成为衡量我国信息技术发展水平的重要标志。在这一局势下,建立中国自己的搜索引...
1.1 互联网上最重要的应用系统1
1.2 人类历史上最大规模的信息集散平台2
1.3 学术界重要的技术研发平台3
1.4 经济领域能够盈利的“生意”4 第2章 搜索引擎的基本概念与发展历史6
2.1 互联网与万维网的发展6
2.2 英雄辈出: 搜索引擎的发展历史回顾11
2.3 搜索引擎的定义与运行原理概述15
2.4 总结: 我们能够从历史中学到什么?17
参考文献18 第3章 搜索引擎性能评价20
3.1 搜索引擎评价与Cranfield评价体系22
3.2 查询样例集合构建24
3.2.1 查询样例集合构建中的真实性24
3.2.2 查询样例集合构建中的代表性26
3.2.3 查询样例集合构建中信息需求表述的完整性27
3.3 正确答案集合构建31
3.4 搜索引擎评价指标34
3.5 搜索引擎性能评价的新进展39
参考文献42 第4章 搜索引擎体系结构概述44
4.1 数据抓取子系统的主要功能与性能需求46
4.1.1 及时性47
4.1.2 全面性50
4.1.3 高效性51
4.2 内容索引子系统的主要功能与性能需求54
4.2.1 内容索引子系统的主要功能54
4.2.2 倒排索引结构55
4.2.3 内容索引子系统的性能需求57 4.3 内容检索子系统的主要功能与性能需求60
4.3.1 内容检索子系统与文本信息检索系统60 ... 查看详情