图书前言

海量的数据中隐藏了丰富的、有价值的知识。然而,数据中不一致、不精确、不完备等不确定性给知识发现带来了巨大挑战。粗糙集理论是波兰学者 Z.Pawlak于 20世纪 80年代提出的一种描述数据的不确定性的数学工具,能够有效地刻画不精确数据中的不一致性。 1990年,Dubois和 Prade针对 Pawlak粗糙集无法处理实值和模糊数据的缺陷,提出了模糊粗糙集模型,扩展了粗糙集理论的应用领域,提升了该理论解决实际问题的能力。粗糙集理论在近十余年里得到了迅速发展,成为不确定性建模和机器学习领域十分活跃的分支。

然而,无论是 Pawlak粗糙集,还是模糊粗糙集对数据噪声都十分敏感。在实际应用中,采集和存储的数据往往由于某种因素的影响存在不同程度的噪声。噪声的存在使得粗糙集的边界增大,降低了粗糙集理论处理不确定性的能力,严重制约了该理论在实际应用中的效果。粗糙集的稳健性问题成为该理论的研究热点之一。各国学者纷纷采取不同的措施改进粗糙集理论的稳健性能,拓展了经典粗糙集理论中的基本定义,提出了一些稳健的粗糙集模型。

本书根据应用中数据噪声的特点将稳健粗糙集模型划分为两大类:一类是不考虑数据概率分布信息的稳健模型,另一类是考虑数据概率分布信息的稳健模型。其中,基于可变精度的稳健粗糙集模型、基于软距离的稳健粗糙集模型和基于稳健统计量的模糊粗糙集模型是未考虑数据分布信息的稳健模型;概率模糊粗糙集模型是考虑噪声分布信息的稳健模型。本书不仅阐述了这些稳健粗糙集模型的基本性质,还设计了基于稳健粗糙集的分类方法。此外,本书以实际应用验证了稳健粗糙集模型的有效性。

理论始终是为实践服务的。本书的主要特色是从应用出发,将实际应用中遇到的问题抽象成数学模型,进而研究问题的解决方案,有效地将理论模型、学习算法与实际应用结合起来。

本书共分为 9章。第 1章综述稳健粗糙集理论的研究现状;第 2章介绍数据噪声的类型、噪声检测方法以及一些抗噪声模型;第 3章介绍 Pawlak粗糙集模型及其拓展模型 ——优势关系粗糙集、邻域粗糙集和模糊粗糙集;第 4~7章分别介绍了 4类稳健粗糙集模型,即基于可变精度的稳健粗糙集模型、基于软距离的稳健粗糙集模型、基于稳健统计量的模糊粗糙集模型、概率模糊粗糙集模型;第 8章介绍 3种基于稳健粗糙集的分类模型;第 9章介绍稳健粗糙集的两种应用。

本书工作能够顺利完成离不开很多专家和朋友的帮助。黄鑫、谢宗霞、于霄、朱鹏飞和车勋建在研究过程中给予了大力帮助,加速了本书的出版进程;马诗咏和张保军为本书的顺利出版提供了莫大的支持。由于作者水平有限,书中难免存在不足,甚至错误之处,恳请读者批评指正。

本书相关研究受到国家自然科学基金( 61202259,61222210)、河北省自然科学基金( F2013501052)和国家博士后基金( 2013M530874)资助。

编者 2015年 11月