前 言
众所周知,数据库技术从20世纪80年代开始,已经得到广泛的普及和应用。随着数据库容量的膨胀,特别是数据仓库以及Web等新型数据源的日益普及,人们面临的主要问题不再是缺乏足够的信息可以使用,而是面对浩瀚的数据海洋如何有效地利用这些数据。面对这一挑战,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。数据挖掘和知识发现使数据处理技术进入了一个更高级的阶段。它不仅能对过去的数据进行查询,而且能够找出过去数据之间的潜在联系,进行更高层次的分析,以便更好地解决决策、预测等问题。历经了十几年的发展,数据挖掘技术本身已经积累了一批有价值的理论和技术成果。同时,包括统计学、人工智能等在内相关学科的发展从某种程度上对数据挖掘技术发展起到了极大地推动作用。根据麻省理工学院的《科技评论》评估,"数据挖掘"技术是对未来人类产生重大影响的十大新兴技术之一。毫不夸张地说,如今的数据挖掘已经成为计算机、信息科学以及相关领域的一个时髦名词,而且在诸如银行、电信、保险、交通、零售(如超级市场)以及天文学、分子生物学等领域得到应用。
诚然,要真正理解数据挖掘技术并不是一件容易的事。一方面,数据挖掘技术覆盖范围很广泛,需要从理论到应用、从概念到算法的完整过程;另一方面,作为年轻的交叉研究领域,不同背景的研究人员(数据库、人工智能、数学等)可能提供不同的视点,而且本身仍在发展中。第一作者长期从事相关方面的教学工作,其中面临的问题之一就是教材的选择。由于目前相关书籍较少,而且侧重点不同,内容的完整性和科学性有待商榷。由于没有合适教材可用,在教学的初期不得不通过指定大量参考书或文献来解决,之后也采用补充讲义的形式来扩充。同时,对于一些软件工程师或工程硕士、在职硕士进修班等要求提高实践能力的人员来说,也需要在科学的理论(原理)框架下理解和掌握数据挖掘技术。基于这样的要求,第一作者在多年各类教学和软件工程的实践基础上,对积累的素材进行了整理和加工,并且邀请段立娟博士、王实博士和石云博士进行本书的编写。本书的许多内容是作者们在攻读博士学位期间的工作总结。这些保证了本书的系统性、先进性和实用性。
本书可作为计算机专业研究生教材、高年级本科生选修教材,也可以作为从事计算机研究和开发人员的参考资料。为了保证内容的先进性和深度,对重点内容进行了重点阐述。本书内容相对全面,各章之间耦合度小。作为教材,教师可以根据学生类型、学时安排等进行选择性教学。作为参考书,读者可以根据自己的基础进行选择性学习或查阅。由于在每章后面都设置专门一节来对本章内容和文献引用情况进行归纳,它不仅可以帮助读者对相关内容进行整理,而且对读者,特别是研究人员,也起到文献的注释性索引功能。本书的所有典型算法都通过具体跟踪执行实例来进一步说明,这对于读者正确理解和应用算法是有益的。对于工程技术人员来说,这些算法完全可以通过理解基础上的改进或改造应用到实际工作中。
本书共分8章。第1章是绪论,系统地介绍了数据挖掘的概念、产生背景以及应用价值;第2章给出了知识发现的过程分析和应用体系结构设计,并对数据挖掘应用系统的主要功能部件和关键步骤进行了较为详尽地剖析;第3章全面阐述了关联规则挖掘的原理和算法,并对一些新的焦点问题(如多维、数量、约束关联规则挖掘)的最新成果尽可能地加以介绍;第4章给出分类的主要理论和算法描述;第5章讨论聚类的常用技术和算法;第6章对时间序列分析技术和序列挖掘算法进行论述;第7章系统地介绍了Web挖掘的主要研究领域和相关技术及算法。第8章是对空间数据挖掘技术和算法的分析和讲述。本书的1~3章由毛国君执笔,4~6章由段立娟执笔,第7章由王实执笔,第8章由石云执笔。全书由毛国君统稿。
特别感谢北京工业大学刘椿年教授和中国科学院高文和孙玉方研究员,因为他们作为作者们的导师,在作者们攻读博士学位期间对本书素材的积累提供了极大的帮助。本书也凝聚了北京工业大学硕士研究生徐启贵、鲁杰、尤春梅、邱洪君、罗春雨、孙岳、刘旭和本科生冯磊、赵勇、靳威、刘宇、寿敏捷等人的心血,他们在本书算法实例整理和验证等方面进行了很好的工作。此外,第一作者也感谢北京工业大学参加过相关课程学习的各类学生,它们的许多意见和文字更正,提高了本书的内容编排质量。同时第一作者也感谢所有作者及其家人,我们的合作是愉快的,家人的支持是保证本书顺利出版的必要前提,相信通过我们出色而有成效的工作将为读者提供一本有价值的专业书。在本书初稿提交时,第一作者的女儿将一周岁,也作为一个礼物送给她和她的妈妈。
作 者
2005年4月于北京