图书前言

前    言

在数字化浪潮席卷全球的今天,数据已成为驱动社会发展的核心要素。我国在“十四五”规划中明确提出加快数字化发展,推动人工智能、大数据等前沿技术与实体经济深度融合。数据挖掘与机器学习作为这一进程的核心技术,其重要性不言而喻。

《数据挖掘与机器学习》是浙江省登峰学科(浙江工商大学统计学)、国家一流本科专业建设点(经济统计学)、浙江省大数据专业教材研究基地、浙江省普通本科高校“十四五”重点立项建设教材的建设成果之一,具有以下显著特点。

(1) 编写风格简洁明了,结构清晰。本教材每章的知识导图将教材中的重要概念和关键内容以图形化方式显示,从而更直观地呈现知识结构和逻辑。同时,本教材注重阐述关键概念和算法的基本思想,避免过度的公式推导,使读者更容易理解和掌握。

(2) 注重实践,涵盖全流程知识。实践的观点是马克思主义哲学的核心观点,本教材注重实践,不仅阐述了数据挖掘和机器学习的经典理论与方法,还涵盖了实践全流程所需的知识,包括数据类型与存储环境、大数据平台(采集、存储、处理与分析)、预处理与特征工程常用的方法等。

(3) 强化育人功能,注重个性化发展。本教材在内容安排上将价值性与知识性相统一,每章以与该章知识紧密相联的导读开篇,引导读者从国家需求、行业痛点和社会价值等维度思考问题。在个性化发展方面,本教材安排了R与Python两类工具的实践案例,包含详细的分析过程和可视化内容;每章末尾的“拓展”部分,提出了可进一步学习的不同方向,便于读者选择性学习。

(4) 数字化资源丰富,便于学习。本教材教学资源丰富,读者可通过扫描右侧的二维码获取教学课件、案例数据、R与Python软件代码、习题答案等数字资源,还可通过扫描文中二维码进行在线测试、观看学习视频。已建设完成的省级精品在线开放课程网址,可通过扫描右侧二维码获取。

本教材共分为8章。第1章为概述,主要介绍数据挖掘的发展历程、过程模型、功能、机器学习、应用领域等;第2章主要介绍数据与数据平台;第3章介绍数据预处理与特征工程;第4~8章介绍各类数据挖掘与机器学习方法的基本概念、经典算法及基于R和Python的实践案例。

《数据挖掘与机器学习》主要针对统计学、数据科学与大数据等相关专业的高年级本科生和硕士研究生编写,以帮助学生领悟数据挖掘与机器学习的精髓,掌握从数据中挖掘知识、从模型中获取决策依据的能力,并为其未来在学术研究或行业实践中应用打下坚实基础。本教材也可作为其他数据挖掘与机器学习爱好者的参考用书。

结合笔者近二十年的教学实践,以48学时为例(一学期16周,每周3学时),本教材的理论教学内容建议安排33学时,第4~8章的实践内容建议安排15学时。在编写过程中,笔者参考了国内外相关领域许多学者的研究成果,在此深表谢意!

笔者虽已尽心竭力,但限于水平,书中谬误之处在所难免,敬请读者批评指正。

编者

2025年7月于杭州