首页 > 图书中心 >图书详情
数据仓库与数据挖掘教程(第4版)
作者:陈文伟
丛书名:高等院校信息技术系列教材
定价:69元
印次:4-2
ISBN:9787302668107
出版日期:2024.08.01
印刷日期:2025.01.09
"数据仓库是商务智能的基础,数据仓库中的数据是大企业和大单位所需的大数据。数据挖掘是指从数据中获取知识,它是人工智能的核心。 首先,本书系统介绍了数据仓库原理、联机分析处理、数据仓库的决策支持,以及数据挖掘原理和方法,包括决策树、粗糙集、关联规则挖掘、神经网络、遗传算法、公式发现、知识挖掘等。其次,本书对当前兴起的深度学习、强化学习和迁移学习新技术的原理、算法和实例进行了详细的介绍。再次,本书介绍了软件进化和数学进化的知识挖掘,软件是计算机的核心,数学是软件的基础。最后,本书对商务智能、计算智能和人工智能概念进行了比较,并将三者的概念统一为“人工智能”。 本书配有部分问答题、设计题和计算题的参考答案。问答题便利学生解惑,设计题和计算题便利学生上机实验。 本书适合作为高等院校计算机、软件工程专业高年级本科生、研究生的教材,可供对UML比较熟悉并且对软件建模有所了解的开发人员、广大科技工作者和研究人员参考。 "
more >第4版前言 数据仓库(data warehouse, DW)是从数据库发展起来的。数据仓库中的数据是集成了多个相关的数据库的数据,又包含它们的综合数据和多年的历史数据。它的数据量达到了数据库的100倍。数据库是为管理业务服务的,而数据仓库是为决策服务的。数据仓库结合多维数据分析工具(OLAP)和数据挖掘算法,实现了商务智能。即从大量数据中获取现状信息和变化信息,为决策提供有力支持,能够解决商务中随机出现的问题,从而提高企业的利润和竞争力。数据仓库也是大企业和政府部门所需的大数据。 数据挖掘(data mining,DM)算法来自机器学习(machine learning,ML)中涉及数据库的有关算法(如归纳学习算法)。数据挖掘是知识发现(knowledge discovery in database,KDD)过程中一个最重要的步骤。它已经成为数据库的发展新方向,独立形成了一门学科。数据挖掘和机器学习都是人工智能的核心组成部分。 本书简化了决策树方法和粗糙集方法的原理,用同一个例子的计算进行了对比。书中突出了信息论中的互信息的价值,选取最大值的属性用来建决策树。取最小值的属性作为粗糙集中被约简的约简集,从而对两个方法的原理和方法有更深入的了解,为读者给出了一个新的思路。 本书对深度学习的卷积网络、强化学习和迁移学习等机器学习方法的原理、算法和实例进行了详细的介绍。卷积网络中的卷积核,把方块中的数用网络线的权值来代替,样本误差的回传公式就同BP反向传播公式一样,很容易理解。强化学习的过程和我们常说的从错误中吸取教训相似。对于迁移学习,与类比学习和基于案例推理进行了比较。对于以上3个新的机器学习方法,换一个角度来理解,就能很容易掌握它们的实质。 人工智能在进入深度学习后,强调了“算法、算力和数据”的作用,没有提“知识”。实际上“知识”仍然是极为重要的一个角色,深度学习中的神经网络在完成大样本数据的学习后,得到的网络权值(卷积网络的卷积核)与网络结构共同组成了“知识”,它是具有规律性的信息,它的表现形式不同于人们认知的规则知识形式。网络节点(网络权值的线性组合)的几何意义是超平面,大量网络节点的组合,才达到了分割样本的效果。由于大家没有仔细地去深入了解它,把它忽略了。在此应该认为,使人工智能兴起的机器学习,它的核心是算法、算力、数据和知识(这里提的“数据”实质上是“信息”,即有含义的数据)。 在人工智能的兴起过程中,一直强调“知识”的核心作用,在深度学习出现后,也不能忽略这种知识的价值。全靠这种知识,才能完成所有样本和非样本的分类效果。 〖3〗数据仓库与数据挖掘教程(第4版)2022年末,以机器人ChatGPT和GPF\|4为代表的生成式人工智能,能生成全新的、完全原创的内容(如文字、图片、视频),引起了世界各国的关注。2024年2月发布的“文本生成视频模型Sora”,可以根据用户的文本提示,创建最长60秒的逼真视频。人工智能在理解真实世界并与之互动的能力方面再次实现了飞跃。 生成式人工智能是当前的最重大进展。本书专门做了介绍。 在大数据中,强调了“相关关系”的研究。书中对“比较、矛盾、机遇”3个相关关系做了较详细的分析,它们都是创新的重要方法。相关关系的有效结果,就成了因果关系。人工智能强调的是“因果关系”,大数据中强调的是“相关关系”。它们都是知识,都能解决问题和发挥创新的作用。对于大数据型研究已经成为科学研究的新范式。 本书对商务智能、计算智能与人工智能的关系和特点进行了比较,它们的共同点是,能够适应“变化”的要求,并且它们都属于机器智能。 本书还介绍了软件进化和数学进化的知识挖掘。“数字化”极大地推动了软件的发展,“形式化”促进了数学进化。数字化和形式化是科学技术进步的两个最重要的推手。 本书提供了部分问答题的参考答案和设计题与计算题的参考答案,以帮助读者更好地掌握书中的内容,其中计算题可以作为实习内容。 由于数据挖掘的基础理论涉及面较宽,建议在本科生教学中对信息论原理和集合论方法只讲定义和例子,对神经网络和遗传算法只讲公式和应用,省略原理的深层内容和公式的推导。这些省略的内容适合研究生教学。 作者从事数据仓库与数据挖掘多年,并得到了国家自然科学基金和国防预研项目的资助。本书还介绍了作者领导的课题组完成的科研成果:①IBLE决策规则树方法(用信道容量代替互信息,决策树的节点取一个属性改为取多个属性,产生的知识更有效);②FDD公式发现系统(启发式规则中,采用两个变量之间的运算向直线靠拢,区别于BACOM的向常数靠拢);③遗传分类学习系统GCLS(遗传算法一般用于求最优值,现改为求覆盖例子多的规则知识);④变换规则的知识挖掘(在静态的规则知识中加入变换,形成变换规则知识,使知识具有变化的特点,扩充了知识的应用范围)。这些内容并不要求本科生掌握,而在于启发他们如何去创新,它们更适合研究生学习和相关科技人员参考。 为本书的出版做出贡献的人员有:陈晟、陈芃、王朝霞、钟鸣、邹雯、马建军、陆飊、高人伯、赵东升、黄金才、赵新昱、何义、廖建文、杨春燕等。 欢迎广大读者与作者进行交流,为促进我国数据仓库、数据挖掘和人工智能的发展而共同努力。 陈文伟2024年3月 数据仓库(data warehouse,DW)是商务智能的基础,它从大量数据中获取信息和知识,解决商务中随机出现的问题。数据仓库也是大企业和大单位所需的大数据。 数据挖掘(data mining,DM)和机器学习(machine learning,ML)都是从数据中获取知识,它们都是人工智能(artificial intelligence,AI)的核心。本书增加了当前兴起的深度学习、强化学习和迁移学习新技术,对其原理、算法和实例进行了详细的介绍,读者可以在实践中参考。 本书对商务智能、计算智能与人工智能的关系和特点进行了比较,它们都属于机器智能。用“人工智能”概念统一起来,商务智能和计算智能分别是人工智能的分支。人工智能的长远目标是模拟人的智能行为。但在人的认知问题上,人工智能还有较大差距。人工智能目前能解决的问题属于随机出现的问题如医疗专家系统能给不同的人看病,无人驾驶汽车能在不同路况下行驶,图像识别能对不同图像给出结论意见。这些随机出现的问题是靠大量知识做支撑的。符号表示的规则知识和数字表示的网络权值都是知识,它们都是具有规律的信息。 数据挖掘的各种算法的原理可以归纳为3个: ①信息论原理。对数据库的属性计算它的信息量(互信息和信道容量)来建决策树。②集合论原理。讨论所有记录数据的集合(如条件属性的集合和结论属性的集合)之间的覆盖关系和相交关系,并计算集合中元素的个数所对应的概率和条件概率来获取知识。③仿生物技术。如神经网络和遗传算法,它们采用了简化生物结构(如神经元)和运行原理(如交配和变异),并指出了反复迭代计算的运算方向(如神经网络的梯度下降和遗传算法中适应值函数取大者)。最后利用计算机的快速运算和大量存储的能力,逐步收敛到所需要的知识(网络权重)和接近的最优解(遗传算法)。这实质上是一种非常有效的启发式方法。 生物结构和运行原理实际上是生物进化了千亿年才形成的,人类一下子难于理解它。用简化的原理和提出迭代的方向,再用上计算机快速的运行来解决问题。这种启发式方法是今后设计新算法时的有效途径。 在第11章知识挖掘中,介绍了软件进化和数学进化的知识挖掘。软件是计算机的核心,数学是软件的基础。在软件进化中,对汉字、多媒体存入和处理需要采用二值数据表示,这是数字化的重要方法,从而开启了万物的数字化过程,极大地推动了科技的进步。在数学进化中,形式化方法是抽去了事物的内容,变成了符号的推演,从而加速了数学的进化发展,也使数学成了自然科学的坚实基础。数字化和形式化是两项极为重要的科学技术进化的推手。 本书增加了部分问答题、设计题与计算题的参考答案。这样,既可以帮助读者更好地熟悉书中的内容,又扩充了书中的内容。希望借助本书的内容,帮助读者根据书中介绍的方法编写出计算机程序并实现它。 由于数据挖掘的基础理论涉及面较宽,建议在本科生教学中,对信息论原理和集合论方法只讲定义和例子,对神经网络和遗传算法只讲公式和应用,省略原理的深层内容和公式的推导。这些省略的内容适合研究生教学。 作者从事数据仓库与数据挖掘研究工作多年,并得到过国家自然科学基金项目的资助。书中还介绍了作者领导的课题组完成的IBLE决策规则树方法、FDD经验公式发现系统、遗传分类学习系统(GCLS)、变换规则的知识挖掘等。这些内容并不要求本科生掌握,关键在于启发他们如何去创新,它们更适合研究生学习和相关工作人员参考。 欢迎广大读者与作者进行交流,为促进我国数据仓库与数据挖掘的发展而共同努力。 陈文伟2020年10月〖3〗数据仓库与数据挖掘教程(第4版)第3版前言〖3〗 数据仓库(data warehouse,DW)和数据挖掘(data mining,DM)是决策支持的两项重要技术。在数据仓库中利用多维数据分析来发现问题,并找出问题产生的原因,能从大量历史数据中预测未来;利用数据挖掘方法能从大量数据中获取知识。两项技术的共同特点是都需要利用大量的数据资源。 数据仓库和数据挖掘是在20世纪90年代中期兴起的,经过10多年的发展,在技术和应用两方面都得到了很大的提高。为了提高数据仓库的决策支持效果,近年来开展了对综合数据的数据立方体的压缩技术研究,以及对多维数据分析的MDX语言的推广。本书第2版增加了这两项内容。为了强化数据挖掘中神经网络与遗传算法两项实用技术,在第2版中把它们列为独立的两章。在神经网络中,按从易到难的顺序将内容重新安排,并增加了径向基函数(RBF)网络的内容。在遗传算法中增加了进化计算的内容,以便扩大读者的视野。 本书仍保留了按数据仓库的形成过程来讲述其内容的方式,即从数据库到数据仓库及对比,从联机事务处理(OLTP)到联机分析处理(OLAP)及对比,用它们的对比来突出数据仓库决策支持的作用。按形成过程讲述,既有利于掌握它们的连贯性,又有利于掌握数据仓库的新特点。 本书保留了依照数据挖掘的理论基础来讲述数据挖掘的方法:大家熟悉的决策树方法实质上是利用信息论中计算信息量的公式来选择属性构造决策树的节点;影响较大的粗糙集方法是典型的利用集合的覆盖原理;关联规则挖掘方法是对相关事务(项)的子集占整个集合的比例,大于阈值时建立关联规则;在集合论方法中增加了影响最大的k均值聚类算法。读者在懂得数据挖掘方法的理论基础后,能够更好地掌握和使用这些方法。 本书第12章由原来第12章的“数据仓库与数据挖掘的发展”修订为“知识挖掘”,这一章是全新的内容。第13章做了部分修改,增加了“Web日志分析与实例”一节。 作者从事数据仓库与数据挖掘研究工作多年,在本书第12章中介绍了作者完成的项目——“软件进化规律的知识挖掘”,相信能对本科生有启发作用。掌握这些软件进化规律,一方面能够帮助读者提高软件使用能力;另一方面能够引起他们的兴趣,再进一步去挖掘软件进化规律,促进软件进化。本书中也介绍了作者领导的团队完成的项目:IBLE决策规则树方法、FDD经验公式发现系统、遗传分类学习系统(GCLS)、变换规则的知识挖掘等。这些内容并不要求本科生掌握,关键在于启发他们如何去创新。它们更适合研究生学习和相关行业的工作人员参考。 建议在本科教学中,对信息论原理、集合论方法、神经网络和遗传算法,只讲公式和应用,概略地说明原理的深层内容和公式的推导。这些知识的详细内容适合于研究生教学。 王珊教授曾说过:我觉得数据仓库或者数据挖掘,有时候挖掘出来的东西并不是很有用,可能要经过很长时间,也许在某些情况下得到一个非常好的结果,能够给领导者一个启示。但是不会像宣传的那样,我们今天建立了数据仓库系统,明天就能够解决商业竞争中的很多问题,就能取得很大的效益。而且,领导者的素质也是一个重要因素。领导者能不能发现这些问题,技术人员给他的新提示他能不能接受,数据挖掘对他是否有效,等等。这些问题都影响了数据仓库和数据挖掘的效果。 这段话说明了一个问题,即数据仓库与数据挖掘的应用有时比技术显得更重要。作者也希望学员在学习这门课程时,除学习原理与技术外,还要加强应用能力的锻炼,即通过计算机去亲自实现它,体会它的真正价值。 欢迎广大读者与作者进行交流,为促进我国数据仓库与数据挖掘的发展而共同努力。 陈文伟2011年9月于广州〖3〗数据仓库与数据挖掘教程(第4版)第2版前言〖3〗 数据仓库(data warehouse,DW)是利用数据资源提供决策支持的技术。它比利用模型资源辅助决策更有效,而且辅助决策的范围更大。由于在现实中,数据大量存在,而且在迅速增长,只要将面向应用(事务驱动)的数据库重新组织转变为面向决策分析的数据仓库,就可以帮助决策者从不同的视角,通过综合数据分析掌握现状,通过多维数据分析发现存在的各种问题,通过对数据层次的钻取找出问题产生的原因,通过历史数据预测未来。由于数据仓库辅助决策效果明显,数据仓库已经从20世纪90年代中期兴起,经过几年的发展,迅速形成了潮流。 数据挖掘(data mining,DM)是指从数据中挖掘出信息和知识,它是从人工智能(artificial intelligence,AI)的机器学习(machine learning,ML)中发展而来的。机器学习是通过让计算机模拟人的学习方法来获取知识。机器学习中的大量学习方法已经引入数据挖掘中。数据挖掘也是20世纪90年代中期兴起的。正是由于数据挖掘具有获取知识的能力,目前各数据仓库均将数据挖掘作为数据仓库的前端分析工具,用于提高数据仓库的决策支持能力。 数据仓库、数据挖掘和联机分析处理(online analytical processing, OLAP)结合起来的新决策支持系统是以数据驱动的决策支持系统。而传统决策支持系统(decision support system,DSS)是以模型和知识驱动的,是由模型库系统、知识库系统、数据库系统和人机交互系统组成的。新决策支持系统利用的是数据资源,而传统决策支持系统利用的是模型资源和知识资源,它们辅助决策的方式和效果均不相同。新决策支持系统并不能代替传统决策支持系统,它们是相互补充的。新决策支持系统与传统决策支持系统结合起来形成的综合决策支持系统将是决策支持系统发展的新方向。 数据仓库、数据挖掘、联机分析处理等结合起来的技术也称为商务智能(business intelligence,BI)。商务智能是一种新的智能技术,区别于人工智能和计算智能(computational intelligence,CI)。人工智能采用的技术是符号推理,符号推理过程形成了概念的推理链。计算智能采用的技术是计算推理,模拟人和生物的模糊推理、神经网络计算和遗传进化过程。商务智能是从数据仓库和数据挖掘中获取信息和知识,对变化的商业环境提供决策支持。商务智能是目前企业界正在大力推广的知识管理(knowledge management,KM)的基础。 作者于1997年6月30日在《计算机世界》报上发表了一组关于数据开采(数据挖掘)的文章,最早向国内学者介绍了数据挖掘概念和技术。作者又于1998年6月15日在《计算机世界》报上发表了一组关于数据仓库与决策支持系统的文章,在介绍基于数据仓库的决策支持系统上,提出了将基于数据仓库的决策支持系统和传统决策支持系统结合的综合决策支持系统,在国内产生了一定的影响。 本书的特点是从数据仓库与数据挖掘的兴起与演变来说明它们的本质,通过例子来解释它们的原理,既系统地介绍了数据仓库和数据挖掘的概念和技术,又介绍了它们之间的关系,以及今后的发展。 在数据仓库的章节中,重点介绍数据仓库原理、联机分析处理、数据仓库设计与开发、数据仓库的决策支持应用。在数据挖掘的章节中重点介绍信息论方法、集合论方法、公式发现、神经网络和遗传算法,这些数据挖掘方法在现实中应用较广泛。由于数据挖掘的基础理论涉及面较宽,建议在本科生教学中对信息论原理和集合论方法只讲定义和例子,对神经网络和遗传算法只讲公式和应用,省略原理的深层内容和公式的推导。这些省略的内容适合研究生教学。 作者从事数据仓库与数据挖掘工作多年,并得到过国家自然科学基金项目的资助。书中还介绍了作者领导的课题组完成的IBLE决策规则树方法、FDD经验公式发现系统、遗传分类学习系统(GCLS)等。本书也包含了作者提出的综合决策支持系统概念和可拓数据挖掘概念及理论,这些内容适合研究生学习和相关工作人员参考。 欢迎广大读者与作者进行交流,为促进我国数据仓库与数据挖掘的发展而共同努力。 参加本书录入的同志有毕季明、廖建文、赵健、徐怡峰、田昊等,在此表示感谢! 陈文伟 2006年5月29日于广州
more >