首页 > 图书中心 >图书详情
数据挖掘:方法与应用
作者:徐华
丛书名:清华大学计算机系列教材
定价:25元
印次:1-9
ISBN:9787302369011
出版日期:2014.10.01
印刷日期:2021.07.26
本书主要根据作者近几年在清华大学面向研究生和本科生开设的“数据挖掘:方法与应用”课程的教学实践与积累,参考近几年国外著名大学相关课程的教学体系,系统的介绍数据挖掘的基本概念和基本原理方法;结合一些典型的应用实例展示用数据挖掘的思维方法求解问题的一般性模式与思路。 本书可作为有一定数据结构、数据库和程序设计基础的研究生或本科生开展数据挖掘知识学习和研究的入门性教材与参考读物。
more >序 “清华大学计算机系列教材”已经出版发行了30余种,包括计算机科学与技术专业的基础数学、专业技术基础和专业等课程的教材,覆盖了计算机科学与技术专业本科生和研究生的主要教学内容。这是一批至今发行数量很大并赢得广大读者赞誉的书籍,是近年来出版的大学计算机专业教材中影响比较大的一批精品。 本系列教材的作者都是我熟悉的教授与同事,他们长期在第一线担任相关课程的教学工作,是一批很受本科生和研究生欢迎的任课教师。编写高质量的计算机专业本科生(和研究生)教材,不仅需要作者具备丰富的教学经验和科研实践,还需要对相关领域科技发展前沿的正确把握和了解。正因为本系列教材的作者们具备了这些条件,才有了这批高质量优秀教材的产生。可以说,教材是他们长期辛勤工作的结晶。本系列教材出版发行以来,从其发行的数量、读者的反映、已经获得的国家级与省部级的奖励,以及在各个高等院校教学中所发挥的作用上,都可以看出本系列教材所产生的社会影响与效益。 计算机学科发展异常迅速,内容更新很快。作为教材,一方面要反映本领域基础性、普遍性的知识,保持内容的相对稳定性;另一方面,又需要紧跟科技的发展,及时地调整和更新内容。本系列教材都能按照自身的需要及时地做到这一点。如王爱英教授等编著的《计算机组成与结构》、戴梅萼教授等编著的《微型计算机技术及应用》都已经出版了第四版,严蔚敏教授的《数据结构》也出版了三版,使教材既保持了稳定性,又达到了先进性的要求。 本系列教材内容丰富,体系结构严谨,概念清晰,易学易懂,符合学生的认知规律,适合教学与自学,深受广大读者的欢迎。系列教材中多数配有丰富的习题集、习题解答、上机及实验指导和电子教案,便于学生理论联系实际地学习相关课程。 随着我国进一步的开放,我们需要扩大国际交流,加强学习国外的先进经验。在大学教材建设上,我们也应该注意学习和引进国外的先进教材。但是,“清华大学计算机系列教材”的出版发行实践以及它所取得的效果告诉我们,在当前形势下,编写符合国情的具有自主版权的高质量教材仍具有重大意义和价值。它与国外原版教材不仅不矛盾,而且是相辅相成的。本系列教材的出版还表明,针对某一学科培养的要求,在教育部等上级部门的指导下,有计划地组织任课教师编写系列教材,还能促进对该学科科学、合理的教学体系和内容的研究。 我希望今后有更多、更好的我国优秀教材出版。 清华大学计算机系教授,中国科学院院士 前言 近年来,随着计算机硬件资源成本的持续下降,软件开发技术的不断进步,基于不同领域的大数据(Big Data)研究与应用性研发工作正在如火如荼地开展起来。作为大数据挖掘、分析与处理的关键方法与技术之一,“数据挖掘”正在被不同的专业领域所关注。“数据挖掘”也逐渐演变成一门具有通用性和基础性的数据处理方法与技术。正是在这样的大环境背景之下,作者于2011年春季学期开始开设了面向清华大学非计算机专业学生的专业课程“数据挖掘: 方法与应用”。开设这门课程的主要目的是为了让不同专业领域的学生能够掌握数据挖掘的基本概念、基本方法和基本算法实现技术,能够针对不同专业领域的数据挖掘与分析问题,开展相应的数据挖掘与分析工作。 参照国外相关大学的教材、课件和应用实例,本书内容的编排顺序主体上是按照一个典型的知识发现过程进行编排的,分别是基本概念、数据预处理、数据仓库构建、关联规则挖掘与相关性分析、聚类分析(无监督的学习分类)、分类方法(有监督的学习分类)。在相关方法与算法讲解的基础之上,进一步展示用本书所介绍的数据挖掘与相关知识开展的一个快速消费品领域消费者调查问卷的挖掘与分析实例,以及在此基础上所构建的一个消费者皮肤状况预测模型。 作为面向非计算机专业学生的课程,本书以介绍概念和讲解方法的主要思想为主。对于有进一步深入学习需求的学生,建议进一步研读高级机器学习、高级数据挖掘等知识内容相关的书籍。在课程教学计划安排上,建议理论方法讲解安排32学时,同时安排16学时的课程实践与讨论环节,以进一步增强学生在数据挖掘与分析方面的应用实战能力,提升未来对于本专业领域数据挖掘与分析的能力。 由于作者水平所限,本书在编写过程中纰漏和疏忽之处在所难免,望读者不吝指正。 徐华 2014年初春于清华园关于教学计划编排的建议 采用本书作为教材时,视学生具体情况、教学目标及课时总量的不同,授课教师可从以下两种典型的学时分配方案中选择其一。教学方案与学时分配 教学内容方案A方案B部分章节一、 引言第1章绪论1.1~1.822二、 基本方法第2章数据预处理2.1~2.744第3章数据仓库3.1~3.822第4章相关性与关联规则4.1~4.644第5章分类和预测5.1~5.1066第6章聚类分析6.1~6.966第7章数据挖掘应用7.1~7.622三、 应用与讨论讨论课1文献调研讨论课23讨论课2课程设计方案讨论课3讨论课3课程成果展示讨论课23本书所有相关教学资料均向公众开放,包括勘误表、插图和讲义等。
more >