首页 > 图书中心 >图书详情
数据挖掘原理与算法(第4版)
作者:毛国君、段立娟、贺文武
丛书名:21世纪高等学校计算机类专业核心课程系列教材
定价:69.80元
印次:4-4
ISBN:9787302629207
出版日期:2023.08.01
印刷日期:2024.08.09
本书是一本全面介绍数据挖掘基本原理、核心算法以及典型应用方法的专业书籍。第4版在前三版的基础上,对数据挖掘的方法论和知识点进行了重新归纳,按照基础篇、提高篇和应用篇进行设计。从方法论上说,数据挖掘是一个方法和原理逐步演变的过程。首先,最基础的数据挖掘方法主要有“关联规则”“分类”“聚类”,它们是数据挖掘的灵魂和基础,因此基础篇是了解和学习数据挖掘技术的入门知识。其次,随着数据挖掘技术研究和应用的深入,序列数据挖掘和深度神经网络得到充分研究。前者突破数据库的数据约束,面向时间序列发现有价值的知识模式; 后者突破浅层神经网络的性能瓶颈,为多模态数据的自主挖掘提供新的解决途径。因此,“序列模式”和“深度神经网络”构成提高篇。最后,以互联网数据挖掘、空间数据挖掘构成应用篇。全书分为3篇共9章,各章相对独立,以利于读者选择性学习。在每章后面都专设一节对本章内容和文献引用情况进行归纳,以利于读者了解本章内容的知识点和检索原始参考资料。 本书可作为计算机专业研究生或高年级本科生教材,也可作为从事计算机研究和开发人员的参考资料。作为教材,教师可以根据课时安排进行选择性教学。对于研究和开发人员,本书不仅是一本具有较高参考价值的专业书籍,而且也是学习典型算法及其原理的很好的教科书。
more >FOREWORD 前言 《数据挖掘原理与算法》历经26年,经过第1版到第3版,现在到第4版,其内容也随着数据挖掘技术的发展逐步增减,力求做到经典而不失先进、丰富而不失易学。据不完全统计,前三版已经被国内近百所高校作为专业教材、参考书和馆藏。特别感谢多年来专业教师、学生及计算机从业者对本书的青睐和及时反馈,你们是本书不断完善的直接推动者。第4版除了对必要的表述和文字进行修正外,重点从数据挖掘方法论的角度对全书内容进行了增减和编排,使之更符合该研究领域及技术的发展规律。特别地,第4版按照数据挖掘的基础算法、提高算法以及典型应用方法分成基础篇、提高篇和应用篇,更利于读者使用及选择性学习。 数据挖掘是20世纪90年代得到飞速发展的技术。包括麻省理工学院的《科技评论》等国际权威发布,“数据挖掘”被认为是对人类产生重大影响的重要技术之一。从技术影响力来说,数据挖掘已经成为博士、硕士学位论文相关度最高的技术之一,也是支撑新一代IT公司最基础的技术之一。从应用范围来说,数据挖掘几乎涉猎现代工业、农业、商业、国防、文化体育等行业,是新一轮科技革命、产业数字化所依附的重要技术之一。 自20世纪80年代开始,随着数据库、因特网等数据的膨胀,传统的数据库检索、网络搜索引擎等技术已经无法满足人们利用海量数据的需求。突出的问题不再是没有数据,而是没有时间和能力去消化这些看起来遮天蔽日、杂乱无章的浩瀚数据。面对这一挑战,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。20世纪90年代,随着数据库技术、统计学以及知识工程等研究和应用的延伸,数据挖掘技术逐步从这些领域交叉衍生出来,其中,“关联规则”“分类”“聚类”3种方法脱颖而出,对应的算法被提出,构成了数据挖掘中最经典和最核心的技术方法。 历经30余年的发展,数据挖掘技术已经积累了一批有价值的理论及算法成果。随着大数据时代的到来,数据挖掘技术也在不断发展。第一,大数据有批式和流式两种处理方法,传统的数据挖掘主要是面向数据库中的知识发现,侧重于批式大数据。流式大数据希望从随时间变化的数据序列中发现有价值的知识模式,因此时间序列挖掘成为流式大数据挖掘的骨干支撑技术之一。此外,大数据的结构多样性特点,使得图像、声音、视频等多媒体数据成为数据挖掘中不可或缺的数据来源,而深度学习的提出和发展为多模态数据挖掘提供了可行的解决途径。因此,本书第4版设置“提高篇”,集中讲述时间序列数据挖掘和深度神经网络学习原理与算法。 诚然,要真正理解数据挖掘技术并不是一件容易的事。一方面,数据挖掘技术覆盖范围很广泛,需要从理论到应用、从概念到算法的完整过程; 另一方面,数据挖掘所涉及的应用领域极其宽泛。在许多学科的应用研究中大量出现,难免有概念不专业之使用,需要读者甄别和理解。同时,大大小小的公司都在尝试使用数据挖掘的技术,也有浮夸肤浅之倾向。因此,本书第4版将以数据挖掘在网络数据、空间数据上的应用为例,讲述数据挖掘技术的应用模式及其方法。 本书作者长期从事数据挖掘的研究和教学工作,熟知相关课程的知识重点和难点,尽量保证了本书内容的系统性、先进性和实用性。本书可作为计算机专业研究生教材、高年级本科生的选修教材,也可作为从事计算机研究和开发人员的参考资料。为了保证内容的先进性和深度,对重点内容进行了重点阐述。本书内容相对全面,各章之间耦合度小。作为教材,教师可以根据学生类型、学时安排等进行选择性教学。作为参考书,读者可以根据自己的基础进行选择性学习或查阅。在每章后面都专设一节对本章内容和文献引用情况进行归纳,它不仅可以帮助读者对相关内容进行整理,而且对读者,特别是研究人员,也起到文献的注释性索引功能。本书的所有典型算法都通过具体跟踪执行实例来进一步说明,这对读者正确理解和应用算法是有益的。对工程技术人员来说,这些算法完全可以在理解的基础上进行改进或改造应用到实际工作中。 全书分为三篇,相对独立,读者可以根据自己的需要进行选择性教学和学习。第一篇是基础篇,主要讲述数据挖掘概念、过程及其关联规则、分类、聚类等挖掘方法。第一篇设置了5章,其中,第1章是绪论,系统地介绍了数据挖掘的概念、产生背景以及应用价值; 第2章给出了知识发现的过程分析和应用结构设计,并对数据挖掘应用系统的主要功能部件和关键步骤进行了较为详尽的剖析; 第3章全面阐述了关联规则挖掘的理论和算法,并对一些新的焦点问题(如多维、数量、约束关联规则挖掘)的最新成果尽可能地加以介绍; 第4章给出分类的主要理论和算法描述; 第5章讨论聚类的常用技术和算法。第二篇是提高篇,主要讲述时间序列数据挖掘和深度神经网络挖掘原理与算法。第二篇设置了2章,其中,第6章对时间序列分析技术和序列挖掘算法进行论述; 第7章简述神经网络及其深度学习原理与技术。第三篇是应用篇,主要讲述数据挖掘在网络数据、空间数据中的应用方法。第三篇设置了2章,其中,第8章对Web挖掘的应用方法及其原理进行介绍; 第9章简述空间数据挖掘的基本原理与技术。 许多同行专家、教师和计算机从业者为本书的改版提出了宝贵的意见,包括许多来自一线的教学与研发的经验,在此一并表示感谢。特别感谢北京工业大学刘椿年教授以及中国科学院高文和孙玉方研究员,作为作者的导师,他们在作者攻读博士学位期间对本书素材的积累提供了极大的帮助。本书也凝聚了北京工业大学、中央财经大学、福建工程学院一些研究生的心血,他们在本书算法实例整理和验证等方面做了很多工作,在此就不一一列举了。 作者2023年4月于北京、福州
more >