首页 > 图书中心 > 数据仓库与数据挖掘应用教程

前言

前言

数据仓库是企业决策支持系统和联机分析处理(OLAP)的结构化数据环境,具有面向主题、集成性、稳定性和随时间变化的(时变性)的特征。数据挖掘(Data Mining)是从大量的、有噪声的、不完全的数据中提取隐含的、人们事先未知的有用知识和信息的过程。数据仓库和数据挖掘是电子商务数据分析的有效手段。本书讨论数据仓库和数据挖掘应用的相关技术,其内容组织如下。

第1章为数据仓库和数据挖掘概述,介绍数据仓库的特征、数据仓库系统及开发工具、商业智能和数据仓库的关系、数据挖掘的定义和数据挖掘过程。

第2章为OLAP和多维数据模型,介绍OLAP定义和特性、多维数据模型和数据仓库的维度建模。

第3章为数据仓库设计,介绍数据仓库规划与需求分析、数据仓库建模、数据仓库物理模型设计和数据仓库部署与维护。

第4章为SQL Server数据仓库开发实例,介绍一个基于在线电子产品销售数据的OnRetDW数据仓库的设计过程,包括需求分析、建模、数据抽取工具设计等。

第5章为关联分析算法,介绍关联分析的相关概念、Apriori算法、SQL Server挖掘关联规则方法和电子商务数据的关联规则挖掘过程。

第6章为决策树分类算法,介绍基本分类步骤、决策树分类、SQL Server决策树分类方法和电子商务数据的决策树分类过程。

第7章为贝叶斯分类算法,介绍贝叶斯公式、朴素贝叶斯分类原理、SQL Server朴素贝叶斯分类方法和电子商务数据的贝叶斯分类过程。

第8章为神经网络算法,介绍人工神经网络相关概念、用于分类的前馈神经网络、SQL Server神经网络分类方法和电子商务数据的神经网络分类过程。

第9章为回归分析算法,介绍回归分析相关概念、线性回归分析、非线性回归分析、逻辑回归分析方法和电子商务数据的逻辑回归分析过程。

第10章为时间序列分析,介绍时间序列分析相关概念、确定性时间序列分析、随机时间序列模型、SQL Server时间序列分析方法和电子商务数据的时间序列分析过程。

第11章为聚类算法,介绍聚类相关概念、k均值算法及其应用、EM算法及其应用、电子商务数据的聚类分析过程以及Microsoft顺序分析和聚类分析算法。

书中提供了大量的练习题和上机实验题供读者选用,附录A给出了部分练习题参考答案,附录B给出了所有上机实验题参考答案,附录C给出了书中数据库和包含的数据表。其中带“*”部分为选修内容。

本书紧扣数据仓库和数据挖掘开发所需要的知识、技能和素质要求,以技术应用能力培养为主线构建教材内容,具有以下特色: 

内容全面、知识点翔实: 在内容讲授上力求翔实和全面,细致解析每个知识点和各知识点的联系。

条理清晰、讲解透彻: 从介绍数据仓库和数据挖掘的基本概念出发,由简单到复杂,循序渐进介绍数据仓库和数据挖掘系统的开发过程。

精选实例、实用性强: 列举了大量的应用示例,读者通过上机模仿可以大大提高使用应用系统开发能力。

配套教学资源丰富: 提供了教学PPT、书中所有示例代码、相关数据库文件和ETL源程序,便于读者打开和调试。配套的教学资源可以从清华大学出版社网站下载。

本教材的编写工作得到武汉大学教务部教改项目的资助,解放军理工大学和清华大学出版社给予了大力支持,连续多届选课的同学提出了许多宝贵的建议,编者在此表示衷心感谢。

编者 

2016年4月

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘