第1章 互联网信息资源 1.1互联网上的信息资源 互联网已发展成为当今世界最大的信息平台,它是全球范围内发布、传播和交流海量科研信息、教育信息、商业和社会信息,实现信息资源共享的最主要的渠道,也是最大的信息宝库。人们要想在这浩瀚无边、变化多端而又鱼龙混杂的信息海洋中发现并查找出有利用价值的信息并不是一件易事。要完成确实、有效的网络信息检索,首先就必须对互联网上信息资源的分布、种类和利用价值等有较全面的认识和把握。 随着互联网普及率的提高,互联网正渗透到社会生活的方方面面,成为推动社会经济发展的重要引擎。在互联网发展初期,人们存在的对网络信息资源的误解和偏见虽已逐渐消退,但是仍然有必要建立对互联网信息资源全面、客观的认识。如: 要了解互联网信息资源并非应有尽有、唾手可得; 要意识到在互联网上找到的、下载的信息并非都是正确的; 要明确互联网在整个信息生态环境、信息交流链中所处的位置,了解网络信息资源的特点和利用价值; 同时还应掌握各类网络搜索工具的特点、功能和查找方法; 进而在面对各种媒体、各种信息系统、搜索工具时,能够根据检索需求的不同,做出正确的选择。 在当今的信息环境下,能够“在适宜的时机,以适宜的形式、适宜的价格找到确切的信息”是具有较高检索水平的重要体现。 1.1.1网络上的信息内容 作为检索、利用互联网信息资源综合策略的第一步,就要了解网上主要有哪些信息内容,哪些信息内容是不容易被发现和查找到的。互联网上主要的信息内容包括以下几种。 1. 政府信息 政府信息是指国际组织、各国政府及其相关部门所发布的信息。包括: 有关组织机构的宗旨、业务范围、人员、出版物、最新消息发布; 还有各种法律、法规或相关政策信息; 从统计数据到立法建议等,内容相当广泛。政府信息可以说是网上最有价值的一部分信息,由于出自官方,所以具有权威性、可靠性等特点。另一个突出的特点是价廉,其中大部分信息都是免费的,网民可以免费获得许多没有版权限制的政府文件。 2. 科研信息 科研信息主要指各专业学术机构(如学会、协会、研究院所等)所设立的网站及其相关信息,包括目标、宗旨、成员、主要出版物、最新学术活动安排(如会议、展览等)、各种学术性电子期刊、学科专题论坛、讨论组,各学科应用的工具性计算机软件,还有近年来兴起的许多开放存取资源等。 3. 教育信息 教育信息主要有各大学所设立的网站及相关信息。其内容相当广泛,有该校各学院、系、专业的介绍,学位、奖学金的设立,入学申请表、校历,以及学校周边环境、生活设施、公共交通。还有各学科专业的教学计划、课程表,以及教师的个人网页(通常含教师个人资历、所任课程的教学大纲、研究成果、著述、近期研究活动等)。另外,互联网已经发展成为一种重要的教育手段、学习环境,它所包含的教育信息是极为丰富的,如: 各种远程教育的课件; 用于学生自我学习的交互式虚拟教室; 还有为教师教学而提供的大量参考资料与素材,如有关科学、艺术和人类感知的各种图片、照片等多媒体网站及数据库。 4. 媒体信息 媒体信息主要包括各类信息媒体(如报纸、杂志、电视、广播等)的网站资源,世界各地图书馆的数字化馆藏及其他提供各类电子书、数字期刊等信息内容的网站。近年来,互联网作为新型媒体快速崛起,网络媒体受众广泛、关注度高、交互性强、价格低廉,在满足人们不同信息消费需求方面具有独特优势,已成为最具活力、最具发展潜力的大众媒体。 5. 商务信息 目前,互联网正从信息传播和娱乐消费为主向商务服务领域延伸,电子商务的迅速发展使得互联网开始逐步深入到国民经济的更深层次和更宽领域,网络上各种与商务活动有关的信息也日渐增多,既有各种原材料、制成品的供求信息、价格行情,也有各种市场调查、市场研究与分析预测信息,还有各种采购、招标、推广与服务信息等。随着电子商务在整体网络经济中的占比继续扩大,网络商务信息也将不断丰富和繁盛。 6. 休闲娱乐信息 休闲娱乐信息曾被认为是网上“最成功”并具有占比优势的领域,包括各种网络游戏、网络文学、音乐、视频信息。有为任何一种可想象出的兴趣、爱好(如足球、音乐、电影、收藏、烹饪等)而开设的各种网站、讨论组、俱乐部等,也有各类旅游信息,风景名胜、特产、民俗,以及宾馆、饭店、住宿、交通等信息。 1.1.2网上不容易获取的信息内容 尽管网上信息发展繁盛,事实上还是有许多重要信息不能在网上公开,或不能让用户自由访问、获取,比如有关企业的战略,发展规划,技术、商业、贸易秘密等。各类有知识产权限制的文学、艺术作品、技术成果和数据库等,一般都是要经过付费、订阅等途径获得认证、授权后,才能访问、浏览或下载到相关内容。 另外,应了解到互联网上还存在着“看不见的网页”(The Invisible Web,或称隐形网页),简单来说就是指由于各种原因,不能被通用搜索引擎(如Google、百度等)搜索到的网页。这部分网络资源曾被认为有很大数量。Bright Planet公司曾估计,相比较于被普通搜索引擎收录的10亿网页,仍有5500亿网页未被收录“看不见的网页”介绍,http://www.sowang.com/SOUSUO/20041130.htm。该公司近期网页数据显示: 据早前的估计,这部分隐身网页的数量是被收录网页数量的4000~5000倍。当然,随着搜索引擎技术的不断发展,以及搜索服务商与内容提供商之间合作的加强,许多过去隐身的网页现在开放了、可以被检索和使用了。但网络用户还是应意识到: 并非所有的网络资源都能够通过搜索引擎检索到,而搜索不到的网页或信息内容并非在网络上不存在。 1.2互联网信息资源的特点及局限性 互联网作为数字化、网络化信息的核心和集成,它与传统的信息媒体和信息交流渠道相比有很大的不同。用户在享用互联网信息资源的同时,要了解其特点、优势和局限性,才能使互联网信息资源的价值能够得到更好的发挥。 1.2.1互联网信息资源的特点 互联网信息资源的特点可以概括为以下几点。  广泛性。互联网连接了世界范围数以亿计的计算机,信息容量巨大,传播广泛。互联网上的信息资源极为丰富,覆盖面广,涵盖了各种学科、领域,几乎无所不包。  多样性。互联网以超文本、超媒体、集成式地提供多种信息类型,除文字信息外,还有声音、图像等音频、视频信息,人们可通过网络搜索到歌曲、文章、电影等多种形式的信息资源。  共享性。互联网是一种共享程度极高的信息资源配置平台,由于其信息存储形式及数据结构具有通用性、开放性和标准化的特点,使得网络信息资源在时间和空间上得到了最大程度的延伸和扩展。一份信息资源上网后,不仅可以及时地提供给本地用户,而且可以通过网络传播到世界各地供所有网络用户共享。  新颖性。互联网提供了辐射全世界的高速信息传输通道,网络信息具有出版周期短,时效性强的特点。网站、网页会随着时间的推移而不断更新,同时许多新的互联网交流形式(如推特/微博、博客等)更丰富了信息的传播渠道,加快了信息的传播速度,对一些突发事件、社会新闻、科学发现报道的原创率、首发率甚至超越了传统的新闻媒体和出版发行系统,已经成为追求信息新颖性、时效性的用户不可忽视的信息平台。  互动性。网络信息资源具有交互性、互动性,用户既是网络信息资源的利用者,也是网络信息资源的开发主体和建设者。以网络为媒介,世界各地的学者可以通过加入网络社区、群组交流探讨研究心得; 教师和学生则可以利用在线学习平台交流学习资料,营造开放、自由的学习气氛; 用户可以通过在线问答系统获得其他用户的帮助,还可以利用自己所掌握的知识为他人释疑解惑。  经济性。互联网是一种比较经济、廉价的信息获取方式,用户获取网络信息资源大多是免费的,一般只需付出查找信息的时间成本、一定的通信费用和打印费用。对比传统的通过订阅、购买印刷型出版物获取信息的方式,在时间和费用上都是比较经济的。 1.2.2互联网信息资源的局限性 网络用户在享受互联网信息平台的方便、快捷时,也要意识到互联网信息资源的局限性。要注意选择相关的信息工具、掌握检索网络信息的方法,有效地查找、获取信息,并对所获取信息资源的信息价值做出客观判断,才能充分地利用网络信息。互联网信息的局限性主要体现在以下几方面。  分散。网络信息资源来自世界各地数以亿计的计算机,信息生产及传播渠道的分散性很强。既有组织机构、企业发布的信息,也有用户的原创; 互联网在为使用者提供了广阔信息空间和丰富信息机会的同时,也使用户难以把握所需信息的来源和传播渠道。  无序。由于大量信息资源分散在网络的不同层次和节点,不具有中心点,没有统一的管理机构和发布标准,致使信息资源缺乏组织、整理,处于无序状态。  多变。网络信息资源传播迅速,动态性、变化性很强,大部分资源站点更新非常频繁,网页的变化、更迭、新生、消亡等随时随地都在发生,致使某些信息内容稍纵即逝、难以捕捉。  信息质量难以控制。由于信息创造者的水平处于不同层次,致使生产出的网络信息资源形式各样,质量良莠不齐。  信息安全难以保障。伴随着电子商务市场的扩大和交易额的增长,网络欺诈活动日益猖獗,用户在利用网路资源时常常会遭遇到虚假网站、身份窃取、账户丢失、黑客攻击等事件,使个人隐私及财产受到侵犯和威胁。 1.3互联网上信息资源的种类 互联网信息资源丰富多彩、包罗万象、分布广泛,呈现着无限、无序的特点。了解互联网信息资源的大致分类,有助于用户理清网络信息资源的分布、交流渠道,认识不同类型、不同信息价值网络资源的传播、获取方式等。对互联网信息资源的分类可以从多个不同的角度进行,例如,根据媒体类型的不同,可分为文本、图形、图片、声音、音乐、电影及各种视频影像等多种媒体格式的信息; 根据使用权限的不同,可分为开放信息(无访问、使用限制,可自由访问的网络信息)与限制访问信息(即有一定访问限制,需要付费订阅或注册登记获得授权以及账户密码后才能访问、使用的网络信息); 根据信息的表现形式,可以分为全文型(如各种报纸、杂志)、数据型(如各种报价网站)、目录型(如图书馆藏书目录)、事实型(如个人主页)等。而较常见的还是按照信息资源所采用的网络传输协议的不同来划分。 1.3.1Web信息资源 Web是World Wide Web(WWW,3W)的缩写,中文译为“全球信息网”、“万维网”。它起源于1989年3月欧洲量子物理实验室 CERN(European Laboratory for Particle Physics)的科学家Tim Berners Lee提出的一份立项报告,建议采用超文本技术设计分布式信息系统并把CERN内部的各个实验室连接起来,在系统建成后,将可能扩展到全世界。同年夏天,Tim Berners Lee成功开发出世界上第一个Web服务器和第一个Web客户机,虽然还非常简陋,但它确实是一个所见即所得的超文本浏览/编辑器; 1989年年底,该发明被正式定名为World Wide Web。由于用户在通过Web浏览器访问信息资源的过程中,无须再关心一些技术细节,而且界面非常友好,人们只要通过输入、点击、链接等简单方法,就可以很便捷地浏览、获得丰富的信息资料。因而Web在互联网上一经推出就受到热烈欢迎,引起广泛关注和大面积推广使用。1994年互联网上传送的WWW数据量首次超过FTP数据量,成为访问网络资源的最流行的方法。至今,Web服务器已成为互联网上最大的计算机群,Web文档之多、链接的范围之广,令人难以想象。可以说,WWW技术给互联网注入了强大的发展动力,使互联网的普及迈出了开创性的一步。 WWW之所以受到人们的欢迎,在于其高度的集成性。它把各种类型的信息(如文本、声音、动画、录像等)和服务(如News、FTP、Telnet、Gopher、Mail等)无缝链接,提供了丰富多彩的图形界面,直观方便; 其信息服务支持超文本和超媒体; 可使用户在全世界范围内查询、浏览最新信息。Web信息由资源地址域名和Web网站、站点组成,Web站点可以相互链接,以提供信息查找和漫游访问,还可以使用户与信息发布者或其他用户相互交流信息。掌握Web资源的使用需要了解以下几个重要概念。 1. 超文本传输协议(HTTP) HTTP是浏览器与Web服务器之间相互通信、传输、响应用户请求的协议。Web服务器根据客户提出的HTTP请求,为用户提供信息浏览、数据查询、安全验证等方面的服务。 2. 超文本标记语言(HTML) HTML是一种专门编程语言,具体规定和描述了文件显示的具体格式。也即Web的描述语言,用于编制通过WWW显示的超文本文件。 3. 通用资源定位程序(URL) 通用资源定位程序又称网络资源的统一定位格式或统一资源定位器。实际上就是一个用以标识文档类型及其所在网络地址的字符串,它的用途是用统一的方式指明互联网上信息资源的位置。URL包括3部分: 所使用的传输协议、服务器名称、该服务器上定位文档的全路径名。URL不仅用于HTTP协议,还适用于FTP、Gopher、Telnet等协议。 4. 主页(Home Page) 主页是浏览器访问某个Web服务器上的信息时第一个链接到的文档。它是该服务器入口处的HTML文件,是进入该服务器、访问其所提供的各类信息资源的导引页,要为用户浏览该服务器中的有关信息提供方便。 5. 链接(Link) 链接是Web网页的元素,是指向其他信息资源的指针,把Web页捆绑在一起。跟随链接可从一个文档跳到另一个相关文档。 6. 浏览器 浏览器指Web服务客户端的浏览程序,是显示网页服务器或档案系统内的文件,并让用户与这些文件互动的一种软件。可向Web服务器发送各种请求,并对从服务器发来的超文本信息和各种多媒体数据格式进行解释、显示和播放。个人计算机上常见的网页浏览器包括微软的Internet Explorer(IE)、Mozilla的Firefox、Google的Chrome、苹果的Safari等。国内也有搜狗浏览器、傲游浏览器、百度浏览器等多家。大部分浏览器支持除了HTML之外的广泛格式,如JPEG、GIF等图像格式,并且能够扩展支持众多的插件(plug-ins)。另外,许多浏览器还支持其他的URL类型及其相应的协议,如FTP、Gopher、HTTPS(HTTP协议的加密版本)。HTTP内容类型和URL协议规范允许网页设计者在网页中嵌入图像、动画、视频、声音、流媒体等。 目前,WWW是互联网上最为流行的信息传播方式,Web资源成为互联网上最具优势的主流信息资源。为满足各种不同的信息发布和交流要求,Web资源呈现了快速、多样化的发展,有各种不同的网站形式,如门户网站、社交网站、搜索网站、商务网站、教育网站、新闻网站、内容网站、数据库网站等; 还有适合不同信息传播需要的网站功能,如博客(Blog)、微博(twitter,推特)、聚合内容(RSS-Really Simple Syndication)等。 1.3.2Telnet资源 Telnet协议是互联网远程登录服务(Remote Login)的标准协议和主要方式,其功能是通过在远程计算机上登录,使用户正在使用的计算机暂时成为它所登录的某一远程主机的仿真远程终端,进而实时访问、共享、使用到远程计算机系统中对用户开放的相应资源。可以通过Telnet方式使用的资源既包括硬件资源,如超级计算机、精密绘图仪、高速打印机、高档多媒体输入/输出设备等; 也包括软件资源,如大型的计算程序、图形处理程序,以及大型数据库、电子图书与档案等内容信息资源。虽然这些资源一般都存储在远程或异地的计算机系统中,但通过互联网使用起来却像在身边一样方便。 使用Telnet协议进行远程登录时需要满足以下条件: 在本地计算机上必须装有包含Telnet协议的客户程序; 必须知道远程主机的IP地址或域名; 必须有登录标识与口令。访问Telnet信息资源的一般过程是: (1) 在Telnet命令中输入远程计算机的域名或IP地址,在本地机与远程主机间建立一个TCP连接。 (2) 连接成功后,在本地终端上输入用户名和口令以获得系统认证或访问授权。 (3) 获得访问授权后,按给定的访问权限,访问权限允许的相关资源或使用该系统提供的各种互联网服务,如E-mail、FTP、Archie等。其间用户所输入的任何命令或字符是以NVT(Net Virtual Terminal)格式,通过一个IP数据包从本地主机传送到远程主机,而远程主机输出的NVT格式的数据也转化为本地所接受的格式发送回本地终端,包括输入命令回显和命令执行结果等。 (4) 访问结束,本地终端还要与远程主机撤销连接。 Telnet曾经是一个强有力的互联网资源共享工具,通过Telnet方式提供的信息资源主要有: 政府部门、研究机构对外开放的数据库,某些商业性联机检索系统(如Dialog、Lexis-Nexis等),一些大学和研究机构开设的电子布告栏系统BBS(Bulletin Board System),还有许多大中型图书馆的在线公共检索目录(Online Public Access Catalog,OPAC)等。但近年来,Telnet的应用在逐渐减少,主要原因有: 个人计算机的性能日益提高使得在其他计算机中运行高端程序的要求逐渐减弱; Telnet服务在通信和工作过程中是以“明码”状态来传输资料和指令的,其安全性欠佳; Telnet使用中需要了解和掌握一些指令,初学者操作起来不是很容易。还有原来需要用Telnet访问的许多信息资源(如BBS)都逐步开发了其功能更强大、更高效的Web访问界面。 1.3.3FTP信息资源 FTP(File Transfer Protocol)是互联网使用的专门用来传输文件的协议。该协议的主要功能是完成从一个系统到另一个系统完整的文件拷贝,即在联网计算机之间传输文件。一般来说,用户联网的首要目的就是实现信息共享,文件传输是信息共享中一个非常重要的内容。要解决在运行不同操作系统的联网计算机之间的文件交流问题,需要建立一个统一的文件传输协议,使用户可以把自己的文件传送给其他人,或者从其他的用户环境中获得文件。与大多数互联网服务一样,FTP也是一个客户机/服务器系统。用户通过一个支持FTP协议的客户机程序,连接到在远程主机上的FTP服务器程序。用户通过客户机程序向服务器程序发出命令,服务器程序执行用户所发出的命令,并将执行的结果返回到客户机。例如,用户发出一条命令,要求服务器向用户传送某一个文件的一份拷贝,服务器会响应这条命令,将指定文件送至用户的机器上。客户机程序代表用户接收到这个文件,将其存放在用户目录中。通过FTP,用户不仅可以从远程计算机下载(download)文件,也可将文件从本地机上载(upload)到远程计算机。因此,FTP是获取各种计算机文件、共享软件资源不可缺少的工具。 使用FTP时必须首先登录,在远程主机上获得适当授权、取得相应权限后,方可上传或下载文件。通过FTP获取文件的一般步骤包括以下几点。 (1) 登录: 旨在为FTP客户软件提供FTP服务器的地址,通过FTP与远程主机连接后,需输入用户名和口令。若访问的是匿名FTP,则只需以“anonymous”做用户名,E-mail地址或“guest”作为口令; 一般这种访问被限制在公共目录(public或pub)下。 (2) 浏览目录,找到所需文件。 (3) 设置文件传输参数,选择文件的传输模式。如: ASCII模式——用于传输文本文件; 二进制(Binary)模式——用于传输非文本文件。 (4) 下载所需文件。 当远程主机提供匿名FTP服务时,会指定某些目录向公众开放,允许匿名存取。系统中的其余目录则处于隐匿状态。为保障信息安全,大多数匿名FTP主机只允许用户从其下载文件,而不允许用户向其上载文件。即使有些匿名FTP主机允许用户上载文件,用户也只能将文件上载至某一指定上载目录中,经过系统管理员对文件安全性进行检查后,才会将这些文件移至某一公共下载目录中,供其他用户下载。匿名FTP使用户有机会免费存取到世界范围内容丰富的信息库,这个信息库经过日积月累,并且还在不断增长,永不关闭,涉及几乎所有的主题。 FTP主要用于下载公共文件,其可能获得的信息资源类型很广泛,有电子图书、电子期刊与杂志、文稿、数据文件、教学课件、图片、影像资料、各公司技术支持文件、各种共享工具软件、应用程序等。 提供FTP信息资源的服务器遍布全世界,且数量不断增加,信息量日益扩大。若想有目的地查找到所需要的文件,了解某一特定文件可从哪个匿名FTP服务器的哪一个目录中获得,则无异于大海捞针,必须借助相应的检索工具,如Archie服务。当然现在一些通用搜索引擎也支持对FTP资源的检索,相关内容将在本书后面的章节中予以介绍。 1.3.4用户组信息资源 网上各种各样的用户新闻组、邮件群曾经是互联网上很流行的信息交流形式,包括: 新闻组(Usenet Newsgroup)、电子邮件群(Mailing List)、专题讨论组(Discussion group)、兴趣组(Interest group)、论坛(Forum)等。虽名称各异,但实质上都是由一组对某一特定主题事物有共同兴趣的网络用户组成的邮件群组或电子论坛,是一种有组织的电子邮件系统,用户在其间通过电子邮件(E-mail)进行一对多的交流。它是电子邮件功能的进一步扩展,使人们能更便捷地进行多向交流。其主要优点如下。 1. 直接交互 在用户组中,每个人都可以自由发布自己的消息,不管是什么样的问题,都可直接发布到组中和成千上万的人进行讨论。 2. 全球互联 通过互联网,全球绝大多数的新闻服务器都相互连接,在某个新闻服务器上发表的消息会被送到与该新闻服务器相连接的其他服务器上; 而通过电子邮件群,群组中交流的每一篇文章都可能漫游到世界各地。 3. 主题鲜明 国际新闻组在命名和分类上有其约定俗成的规则,如: .comp: 计算机专业类,.sci: 科学研究类,.soc: 社会科学类,.rec: 休闲、娱乐类,.biz: 商业类,.talk: 热门话题类等。看每个新闻组的命名就能清楚其主题,用户可以直奔主题而加入某个用户组,找到与自己志趣相投的人群进行更有针对性的交流。而用户组的主题范围也十分广泛,用户所需所求的任何主题几乎都能找到与之对应的用户组,其信息交流的广泛性、直接性是其他信息资源不能比拟的。上述用户服务组通常都具有以下几种功能。 (1) 订阅该组; (2) 取消订阅该组; (3) 读取组中文章; (4) 发布文章至该组; (5) 跟随文章(跟帖,在读取文章中加入心得或建议); (6) 回复; (7) 转发。 而通过上述用户组形式传递、交流的信息也就构成了互联网上不容忽视的一类信息资源。尽管由于近年来随着互联网的发展、宽带的普及,出现了更多快速、便捷的实时交流方式,如RSS、Blog、Twitter等,使用户组的风头逐渐削弱。但在科研和教学方面,用户组还是一种值得重视的、丰富的、自由的、最具有开放性的资源。通过加入某一电子邮件群,用户可以订阅某一行业快报、电子期刊,定期了解业界新闻动态、技术发展、学术会议等; 而通过加入某一主题的新闻组、论坛,更可以有效获取某个学科主题领域的新闻、研究动向、最新成果发布,浏览各种讨论、评论,可以与世界各地各领域的专家学者直接交流讨论、质疑解惑、发表自己的观点,就学习研究中遇到的疑难问题求教于同行,分享有益经验。对于研究人员来讲,应该将其视为获取正式出版渠道以外研究性信息的一个重要渠道,其直接、方便、快捷、非正式等特点都对学术研究大有裨益。 1.4互联网信息资源的评价 互联网上的信息发布是比较自由的,由于信息发布者可以虚拟身份、自由发表,这使得网上信息数量庞大、极为丰富多彩,但同时也带来了信息资源的优劣混杂、良莠不齐。因此,在人们有目的地获取与利用互联网信息时,就产生了对网上信息质量如何评价的问题。 1.4.1评价的意义 与传统的信息资源相比,互联网信息资源的首要特点即广泛的可存取性(accessibility)。网络信息的自由存取和易用性,导致了网络信息资源的繁盛。任何可以想象到的学科、主题领域每日每时都有大量的网络信息产生。网上信息广泛、丰富,来源分散,却缺乏组织和质量控制,呈现着无限、无序、优劣混杂的发展状态。正如国外学者指出的那样: “网络的最大优势,同时也是其最薄弱之处即任何人、任何机构随时都可以在互联网上发布信息,生产出一个数字化文件DLO(document-like-object,即类似文献的电子文件)。”网络用户均明显地感觉到由信息过载(information overloaded)所引起的焦虑和无所适从。另外,互联网改变了传统的信息发布和评价过程。在印刷文献时代,信息的发表、过滤和评价一般是由专业的编辑、出版部门、专家学者、书评人员或权威机构等承担的。而在互联网时代,信息发布具有很大的自由性和任意性。发表自由使信息的生产跳过了编辑出版这一至关重要的质量控制环节,网络信息的整体质量缺乏必要的控制和管理机制,就不可避免地产生了大量的信息污染。 而用户对获取高质量网络信息的期望在日益提高,他们希望所获取的网络信息是有效的、可靠的、权威的、相关的、适用的。面对着网络信息资源的质量不均衡状态,发展网络信息资源的评价方法及相关标准和工具是至关重要的。对网络信息资源进行质量评价,从信息海洋中经过甄别、筛选出有学术价值或利用价值的精华部分,推荐给网络用户使用,可以较好地屏蔽一些信息污染或检索噪音,大大地提高用户利用互联网信息资源的效率。 1.4.2评价的标准 互联网信息资源评价受到了广泛重视,在国外已经成为一个较热门的研究课题。一些机构和研究人员纷纷在有关研究的基础上,提出若干系列的评价标准。 对互联网信息资源的评价一般是以网站(Website)或网页(Webpage)为评价单位,评价标准一般是借鉴了传统的对印刷型文献评价的标准并结合网络信息的特点,主要着眼于网页所提供的信息内容质量和信息存取方式等综合而成的。评价标准分为以下若干方面。 1. 目的(Purpose) 目的,即该网站是否有明确说明其目的、对象?是宣传报道、教育教学,还是销售或娱乐?网站面向什么层次、水平的用户对象: 是专业人员、一般人员,还是外行或学校学生?你是否属于该用户层?网站的信息内容是否符合其目的、要求?是否适用于其所面向的用户层? 2. 范围(Scope) 范围,即该网站所覆盖的主题领域,所提供信息的广度、深度,时间范围以及所包括的网络资源类型和服务范围(如Telnet、FTP或RSS订阅等)。 3. 内容(Content) 该网站所提供的信息是事实性的,还是评论性的?网站是否包括原始信息还是仅提供链接?评价主要围绕网站内容的如下方面。 (1) 准确性(Accuracy)。该网站是否提供信息的来源、出处以备用户进一步核查?其页面语言是否准确、严谨、无拼写、语法错误?是否明确列出网站信息的编辑、提供等责