首页 > 图书中心 > 文本挖掘与信息检索概论

前言

前言

近年来,随着互联网的发展,廉价的图形用户界面和大容量存储设备逐渐出现,基于网络环境的信息检索系统以显著优势引起人们的关注。企业要想在激烈的市场竞争中脱颖而出,成为市场的大赢家,就必须运用各种现代化的技术,打造出一套属于自己的决策系统。科学的决策,源于对信息资料的充分了解与认识,信息检索是国家、部门、单位和个人等决策者获取信息的重要途径。信息检索使国家、部门、单位和个人的决策建立在科学基础之上,大大增加了决策的科学性,减少了决策的盲目性。

当今,信息呈爆炸式增长,不仅如此,信息载体也发生了巨大的变化,除了传统纸介质信息外,每天都有大量的电子信息及各类网上信息涌现出来,这些浩如烟海的信息的多样性、离散性与无序性及其复杂的检索界面和使用方法,增加了信息利用的难度,极大地影响了人们获取信息的质量与效率。而文本挖掘的出现为文本信息的整理、分析、挖掘提供了更有效的手段。

本书讨论了信息检索基础,主要介绍信息检索的定义、进展及发展趋势,使读者对信息检索有一个概要的认识; 论述了信息检索的经典模型(向量空间检索模型、概率检索模型、基于语言建模的信息检索模型); 简要介绍了信息检索的评价方法; 详细介绍了文本挖掘的具体方法,即文本分类技术、文本聚类技术、自动摘要技术、文本推荐技术、链接分析技术。在此基础上,分别讨论了各个文本挖掘技术在信息检索领域中的应用。

本书由蔡晓妍、杨黎斌、程塨、姚西文、姚超、韩军伟编著,蔡晓妍编写第1、8章,杨黎斌编写第2、7章,程塨编写第4章,姚西文编写第5章,姚超编写第3章,韩军伟编写第6章。蔡晓妍、杨黎斌负责全书的策划、大纲的制定和统纂工作。

本书在编写过程中参考了国内外许多公开发表的相关资料,在此对所涉及的各位专家、学者表示诚挚的感谢。研究生石锴乐、王楠鑫、梅欣、赵金涛、芮志远、李立群,本科生王铭杨、余霖智、王赞硕、张奥、孙世彬分别对本书进行了校对并提出了宝贵的建议,特表示感谢。由于编写时间紧迫,加之编者理论水平和实践经验有限,书中难免有不当和疏漏之处,恳请广大读者批评和指正。

本书配套PPT课件、教学大纲和典型算法的Python源码,读者可以关注清华大学出版社公众号“书圈”(见封底)来下载资源,如有相关问题和建议请发邮件至404905510@qq.com。

编者

2022年6月

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘