图书前言

数据仓库是将大量传统数据库数据进行抽取、清洗和转换,并按主题进行重新组织,可比喻为随时间推移不断丰富的“宝藏”; 而数据挖掘是从海量数据中发现人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息,挖掘的知识表示形式为概念、规则、规律和模式等,可比喻为“淘宝”。随着Internet的迅速普及和广泛应用,每天都产生大量各种各样的信息,但它们背后到底隐藏着什么,这驱使人类不断探索。

工欲善其事必先利其器。在当今信息爆炸的时代,数据挖掘堪比“利器”,让我们面对海量数据时不再感到茫然和不知所措。随着数据仓库的发展和应用,数据挖掘将展现无限的生机和活力,可以辅助、部分代替甚至拓展人的智能和决策,造福人类。

数据经整合汇总为信息,信息经挖掘抽象为知识,知识是智能的基石。因此,信息化到知识化再到智能化将是人类社会发展的必然趋势。数据仓库和数据挖掘正逐步渗透和深入到社会的各个领域,并不断催生新的应用。

本书主要介绍数据仓库和数据挖掘的理论、方法、技术及其应用。此外,用较多篇幅阐述数据仓库和数据挖掘新的应用实例。

全书分为三篇。第一篇介绍数据仓库的起源和演变过程,阐述数据仓库的定义、体系结构、组成、元数据、数据粒度和数据模型以及ETL过程,论述数据仓库设计和实现的方法,并结合具体应用详细阐述了如何构建数据仓库及其主要应用,包括OLAP和OLAM等。第二篇介绍数据挖掘的起源和发展趋势,以及数据挖掘与Web挖掘的技术和方法,包括聚类分析、分类、预测和关联分析等,详细分析了数据挖掘在电信领域的具体应用,如客户细分、重入网识别和WAP日志挖掘等。第三篇讨论数据、信息和知识的关系,论述知识表示的主要方法和知识管理的核心技术,介绍当前研究热点——语义网和本体的核心技术和方法,分析了语义网和本体的主要应用。

本书编写过程中,参考了许多专家和学者的著作和论文,在此谨向他们表示衷心感谢。

作者潜心撰写历时多年完成,旨在奉献精品以飨广大读者。由于水平有限,不当之处恳请赐教。

作者2010年8月