图书目录

第1版译者序

作为互联网上最重要的应用之一,Web(万维网)提供了便捷的文档发布与获取机制,并逐步成为各类信息资源的聚集地。据Google于2008年发布的官方报告,他们已经在互联网上发现超过1万亿个Web文档,而且这个数字还在以每天新增几十亿的速度持续增长。面对如此巨大的信息量,普通Web用户往往迷失其中,他们迫切需要一种机制快速定位到所需信息。Web挖掘便应运而生,伴随Web的发展而备受关注。它建立在信息检索、数据挖掘以及知识管理等技术的基础上,通过对大量Web文档进行分析来获得隐含的知识和模式,从而帮助人们更好地进行信息搜索和决策制定。也正是Web挖掘技术的不断进展推动了Web的进一步蓬勃发展。

目前Web挖掘已经引起了学术界、工业界、社会学家的广泛关注,也吸引了众多研究人员与开发人员投身其中。国内外很多大学与研究机构先后开设了Web挖掘课程。但长期以来并没有专门针对Web挖掘的教材与专著。刘兵教授2006年出版的这本著作填补了该领域的空白。该教材针对Web挖掘中众多关键主题进行了深入分析。清华大学出版社独具慧眼,决定将该书翻译成中文版在国内出版,这必将对我国Web挖掘的教学与研究产生积极的推动作用,有幸承担该书的翻译工作,我们感到十分荣幸。

本书是由伊利诺伊大学芝加哥分校(UIC)的刘兵(Bing Liu)教授历经一年的时间所著的“Web Data Mining”的翻译版。刘兵教授是Web挖掘研究领域的国际知名专家,曾担任多个国际期刊的编辑,也是多个国际学术会议(如WWW, KDD与AAAI等)的程序委员会委员。刘兵教授在Web内容挖掘、互联网观点挖掘、数据挖掘等领域有非常高的造诣。他先后在国际著名学术期刊与重要国际学术会议上发表论文一百多篇。本教材中的部分章节也融入了刘兵教授从事Web挖掘研究多年的心血。

全书主要包括前言与12章节。本书的翻译和审校由俞勇、薛贵荣和韩定一共同完成。其中,俞勇负责前言、第1至2章,薛贵荣负责第3至7章,韩定一负责第8至12章。参加翻译工作的还有韩定一(前言、第1、8章)、徐生良(第2章)、凌霄(第3章)、郭晋文(第4、5章)、王亮(第6章)、陈林虎(第7章)、傅临云(第9章)、第7张迪(第10章)、包胜华(第11章)和王乐天(第12章)。上海交通大学APEX数据和知识管理实验室的全体同学参加了本书的校对工作。

在本书的翻译过程中,得到了刘兵教授的大力支持。他向译者提供了全文书稿的最终版本,并对翻译工作提出了指导性建议。同时,感谢微软亚洲研究院李航博士的引荐,使我们有机会学习和翻译此书。最后,感谢清华大学出版社的编辑们,是他们使得本书能够尽快与读者见面。

由于本书所涉及内容非常广泛,许多术语目前尚无固定译法,翻译难度相对较大。尽管我们对某些术语进行了推敲,但仍然可能出现词不达意的地方。此外,由于译者水平有限,译文中不当之处也在所难免。我们也真诚地希望同行与读者朋友们不吝赐教。如果您能将您的意见与建议发往yyu@apex.sjtu.edu.cn,我们将不胜感激。

译者    

2009年3月

第2版译者序

伊利诺伊大学芝加哥分校(UIC)的刘兵(Bing Liu)教授历所著的“Web Data Mining”是少有的专门针对Web挖掘领域的教材与专著,笔者曾有幸学习和翻译此书的第1版。在过去的几年里,Web挖掘领域取得了许多重大的进展,为了反应这些进展,刘兵教授出版了“Web Data Mining”第2版。笔者很荣幸能够受到刘兵教授认可,继续承担本书第2版的翻译工作。

相比于第一版而言,本书的第2版根据目前的研究前沿对于已有的章节进行了内容的增加和修正。特别的,本书的11、12章加入了社会网络分析、推荐系统、协同过滤等方向的进展。本书的英文第2版也从原来的532页变成了622页。读者能够通过本书了解到Web挖掘领域的基础知识以及最新动向。

第2版的翻译是在第一版翻译的基础上翻译审校完成的。第2版的翻译和审校由俞勇、薛贵荣、韩定一和陈天奇共同完成。参加翻译工作的还有陈相如(第1、2、6章)、潘俊峰(第3、4、5章)、孙辛若(第7、8、9章)、牛星(第10章)、陈凯龙和殷力昂(前言、第11章)、张伟楠和陆秋霞(第12章)。戎术、陈柏良、潘晔等参加了本书的校对工作。感谢上海交通大学APEX数据和知识管理实验室的全体同学对本书的翻译及校对工作的大力支持。

由于译者水平有限,译文中不当之处也在所难免。我们也真诚地希望同行与读者朋友们不吝赐教。如果您能将您的意见与建议发往yyu@apex.sjtu.edu.cn,我们将不胜感激。

译者    

2012年12月

序    言

在过去的20年里,Web的迅速发展使其成为世界上规模最大的公共数据源。Web挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息。依据在挖掘过程中使用的数据类别,Web挖掘任务可以被划分为3种主要类型:Web结构挖掘、Web内容挖掘和Web使用挖掘。Web结构挖掘从表征Web结构的超链接中寻找知识。Web内容挖掘从网页内容中抽取有用的信息和知识。而Web使用挖掘则从使用日志和其他形式的用户交互记录中挖掘用户的活动模式。从本书在2006年底的第1版发行之后,很多领域已经有了重大的进展。大部分的章节都已经添加了新的材料来反应这些进展。主要的改动在第11章和第12章中,这两章已经被重新撰写并做了重要的扩展。在撰写第1章的时候,观点挖掘(第11章)的研究仍处于初步阶段。从那以后,搜索社区对这个问题已经拥有了一个更好的理解并提出了许多新颖的技术来解决问题的各个方面。为了将Web使用挖掘(第12章)的最新进展包含进来,关于推荐系统、协同过滤、用户日志挖掘和计算广告学的话题已经被添加进来。新版比原来长了很多。

本书旨在讲述上述的互联网数据挖掘任务以及它们的核心挖掘算法;尽可能涵盖每个话题的广泛内容,给出足够多的细节,以便读者无须借助额外的阅读,即可获得相对完整的关于算法和技术的知识。其中第5章--监督学习的部分内容、结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘--是本书的特色,这些内容在其他书籍中没有提及,但它们在Web数据挖掘中却占有非常重要的地位。当然,传统的Web挖掘主题,如搜索、页面爬取和资源探索以及链接分析在书中也做了详细描述。

本书尽管题为“Web数据挖掘”,但依然涵盖了数据挖掘和信息检索的核心主题;因为Web挖掘大量使用了它们的算法和技术。数据挖掘部分主要由关联规则和序列模式、监督学习(分类)、无监督学习(聚类)这三大重要的数据挖掘任务,和半监督学习这个相对深入的主题组成。而信息检索对于Web挖掘而言最重要的核心主题都有所阐述。因此,本书自然的分为两大部分,第1部分包括第2~5章,介绍数据挖掘的基础,第2部分包括第6~12章,介绍Web相关的挖掘任务。

有两大指导性原则贯穿本书始末。其一,本书的基础内容适合本科生阅读,但也包括足够多的深度资料,以满足打算在Web数据挖掘和相关领域研读博士学位的研究生。书中对读者的预备知识几乎没有作任何要求,任何对算法和概率知识稍有理解的人都应当能够顺利地读完本书。其二,本书从实践的角度来审视Web挖掘的技术。这一点非常重要,因为大多数Web挖掘任务都在现实世界中有所应用。在过去的几年中,我有幸直接或间接地与许多研究人员和工程人员一起工作,他们来自于多个搜索引擎、电子商务公司,甚至是对在业务中利用Web信息感兴趣的传统公司。在这个过程中,我获得了许多现实世界问题的实践经历和第一手知识。我尽量将其中非机密的信息和知识通过本书传递给读者,因此本书能在理论和实践中有所平衡。我希望本书不仅能够成为学生的教科书,也能成为Web挖掘研究人员和实践人员获取知识、信息、甚至是创新想法的一个有效渠道。

致    谢

在撰写本书的过程中,许多研究人员都给予我无私的帮助;没有他们的帮助,这本书也许永远也无法成为现实。我最深切的感谢要给予Filippo Menczer、Bamshad Mobasher和Olfa Nasraoui,他们热情地撰写了本书中重要的两个章节。他们也是相关领域的专家。Filippo负责Web爬取的整一章,Bamshad和Olfa负责Web使用挖掘这一章的所有片段,除了推荐系统那一节,但是他们也提供了帮助。我还要感谢Wee Sun Lee(李伟上),他帮助完成第5章的很大一部分。

Jian Pei(裴健)帮助撰写了第2章中PrefixSpan算法,并且检查了MS-PS算法。Eduard Dragut帮助撰写了第10章的最后一节,并且多次阅读并修改这一整章。Yuanlin Zhang对第9章提出很多意见。Simon Funk、Yehuda Koren、Wee Sun Lee、Jing Peng、Arkadiusz Paterek和Domonkos Tikk对第12章中的推荐系统的撰写提供了帮助。我对他们所有人都有所亏欠。

还有许多研究人员以各种方式提供了帮助。Yang Dai(戴阳)和Rudy Setiono在支持向量机(SVM)上提供帮助。Chris Ding(丁宏强)帮助社交网络分析。Clement Yu(于德)和ChengXiang Zhai(翟成祥)阅读了第6章。Amy Langville阅读了第7章。Kevin C.-C. Chang(张振川)、Ji-Rong Wen(文继荣)和Clement Yu(于德)帮助了第10章的许多方面。Justin Zobel帮助理清了索引压缩的许多议题。Ion Muslea帮助理清了包裹简介的一些议题。Divy Agrawal、Yunbo Cao(曹云波)、Edward Fox、Hang Li(李航)、Xiaoli Li(李晓黎)、Zhaohui Tan、Dell Zhang(张德)和Zijian Zheng帮助检查了各个章节。在此对他们表示感谢!

和许多研究人员的讨论也帮助本书成形。这些人包括Amir Ashkenazi、Imran Aziz、 Roberto Bayardo、Shenghua Bao(包胜华)、Roberto Bayardo、Wendell Baker、Ling Bao、Jeffrey Benkler、Brian Davison、AnHai Doan、Byron Dom、Juliana Freire、Michael Gamon、Robert Grossman、Natalie Glance、Jiawei Han(韩家炜)、Meichun Hsu、Wynne Hsu、Ronny Kohavi、Birgit K?nig、David D. Lewis、Ian McAllister、Wei-Ying Ma(马维英)、Marco  Maggini、Llew Mason、Kamel Nigan、Julian Qian、Yan Qu、Thomas M. Tirpak、Andrew Tomkins、Alexander Tuzhilin、Weimin Xiao、Gu Xu(徐谷)、Philip S. Yu和 Mohammed Zaki、Yuri Zelenkov和Daniel Zeng。

我已毕业和在读的学生们 Gao Cong、Xiaowen Ding、Murthy Ga-napathibhotla、Minqing Hu、Nitin Jindal、Xin Li、Yiming Ma、Arjun Muk-herjee、Quang Qiu(浙江大学的访问学生)、William Underwood、Yanhong Zhai、Zhongwu Zhai(清华大学的访问学生)、Lei Zhang和Kaidi Zhao这些年来贡献了非常多的研究思路,而且还检查了很多算法并作出了许多更正。书中的大部分章节已经用在芝加哥大学我的研究生课程里。我感谢那些在客上实现了一些算法的学生。他们的问题帮助我提升并在某些情况下更正了算法。在这里列出他们所有人的名字不太可能。这里,我特别想感谢John Castano、Hari Prasad Divyakotti、Islam Ismailov、Suhyuk Park、Cynthia Kersey、Po-Hsiu Lin、Srikanth Tadikonda、Makio Tamura、 Ravikanth Turlapati、Guillermo Vazquez、Haisheng Wang和Chad Williams指出了文字、例子或算法的错误。德保尔大学的Michael Bombyk也找到了几个打字错误。

与Springer出版社的员工一起工作是一段令人愉快的经历。我感谢编辑Ralf Gerstner在2005年初征询我对撰写一本有关Web挖掘的书籍是否感兴趣。从那以后,我们一直保持着愉快的合作经历。我还要感谢校对Mike Nugent提高了本书内容的表达质量,以及制作编辑Michael Reinfarth引导我顺利完成了本书的出版过程。还有两位匿名评审也给出不少有见解的评论。伊利诺伊斯大学芝加哥分校计算机科学系对本项目提供了计算资源和工作环境的支持。

最后,我要感谢我的父母和兄弟姐妹,他们给予我一贯的支持和鼓励。我将最深刻的感激给予我自己的家庭成员:Yue、Shelley和Kate。他们也在许多方面给予支持和帮助。尽管Shelley和Kate还年幼,但他们阅读了本书的绝大部分,并且找出了不少笔误。我的妻子将家里一切事情打理地秩序井然,使我可以将充分的时间和精力花费在这本书上。谨以此书献给他们!

Bing Liu(刘兵)