图书目录

目录

第1章数据挖掘概述

1.1基本概念

1.1.1数据挖掘基本概念

1.1.2数据挖掘发展简史

1.1.3数据挖掘的特点

1.2数据挖掘系统的一般结构

1.2.1数据挖掘系统的体系结构

1.2.2数据挖掘步骤

1.3数据挖掘面临的主要问题

1.3.1挖掘方法所面临的问题

1.3.2用户交互性的问题

1.3.3应用与社会影响

1.4数据挖掘的常用方法

1.4.1基于统计学习的数据挖掘方法

1.4.2基于机器学习的数据挖掘方法

1.4.3数据挖掘的衡量标准

1.5数据挖掘与石油勘探开发

第2章基于数据仓库的数据挖掘

2.1数据仓库概述

2.1.1数据仓库的产生

2.1.2数据仓库的定义

2.1.3数据仓库的发展

2.1.4数据库、数据仓库和数据挖掘的关系

2.1.5数据仓库系统的组成

2.2多维数据模型

2.2.1数据立方体

2.2.2典型的OLAP操作

2.2.3常用的多维数据模型

2.3数据仓库设计

2.3.1数据仓库的设计方法

2.3.2数据仓库的设计过程

第3章数据预处理

3.1认识数据

3.1.1数据对象与数据属性

3.1.2数据的基本统计描述

3.2预处理的必要性

3.3数据清理

3.3.1数据缺失的处理

3.3.2噪声数据的处理

3.3.3数据清理过程

3.4数据集成和变换

3.4.1数据集成

3.4.2数据变换

3.5数据归约

3.5.1维归约

3.5.2数据压缩

3.5.3数值归约

3.5.4数据离散化和概念分层

第4章数据可视化

4.1数据可视化概论

4.2视觉感知与认知

4.2.1格式塔理论

4.2.2视觉通道

4.3数据分析与探索

4.3.1数据属性

4.3.2数据初探

4.3.3数据预处理

4.3.4数据存储

4.3.5数据分析

4.4数据可视化流程

4.4.1数据可视化流程

4.4.2数据处理和数据变换

4.4.3可视化编码

4.5时空数据可视化

4.5.1一维标量数据可视化

4.5.2二维标量数据可视化

4.5.3三维标量数据可视化

4.6层次和网络数据可视化

4.6.1树和图与可视化

4.6.2层次数据可视化

4.6.3网络数据可视化

4.7可视化工具

4.8综合案例——气井产量预测分析

4.8.1项目简介

4.8.2数据集说明

4.8.3数据整体分析

4.8.4外输压力和日产气量关联分析

4.8.5产水量和日产气量的关联分析

4.8.6生产时间和日产气量的关联分析

4.8.7气嘴直径和日产气量的关联分析

4.8.8平均油压、平均套压和日产气量

第5章分类与预测

5.1分类的基本过程

5.2分类模型的构造方法

5.2.1数据准备

5.2.2分类方法

5.2.3方法评估标准

5.3基于决策树(判定树)的分类

5.3.1决策树分类步骤

5.3.2决策树ID3算法

5.3.3属性选择方法

5.3.4基本决策树方法的改进

5.3.5树剪枝

5.3.6由决策树(判定树)提取分类规则

5.3.7决策树归纳的可扩展性

5.4其他分类方法

5.4.1K最邻近(近邻)分类

5.4.2基于统计的分类策略

第6章聚类分析

6.1聚类分析的概念

6.1.1基本概念

6.1.2聚类分析原理

6.1.3聚类的主要应用

6.2聚类分析算法分类

6.2.1按照聚类标准

6.2.2按照聚类算法所处理的数据类型

6.2.3按照聚类的尺度

6.2.4按照聚类算法的思路

6.3聚类分析中的数据类型

6.3.1基本的数据结构

6.3.2标准化

6.3.3数值型数据的相异性度量

6.3.4其他类型的变量相似性值

6.4主要聚类方法

6.4.1层次方法

6.4.2划分方法

6.4.3基于密度的聚类方法

6.4.4基于网格的聚类方法

6.4.5基于模型的聚类方法

6.4.6模糊聚类算法FCM

第7章关联规则挖掘

7.1基本概念

7.1.1购物篮问题分析

7.1.2频繁项集和关联规则

7.1.3关联规则挖掘的应用

7.1.4关联规则挖掘分类

7.2关联规则挖掘方法

7.2.1关联规则挖掘基本过程

7.2.2Apriori算法

7.2.3由频繁项集产生关联规则

7.2.4Apriori算法的改进思路

7.3挖掘频繁项集的模式增长方法

7.3.1FPtree的构建

7.3.2FPGrowth算法

7.4多种关联规则挖掘

7.4.1多层关联规则挖掘

7.4.2多维关联规则挖掘

7.5关联模式评估

7.5.1客观兴趣度度量

7.5.2辛普森悖论

第8章文本抽取算法

8.1潜在语义分析应用背景

8.2创建单词文档矩阵

8.3TFIDF修改权重

8.4SVD矩阵分析

8.5相似度计算

8.6文献检索

8.7数学基础

8.7.1特征值和特征向量

8.7.2SVD求解

8.7.3SVD的几何意义

第9章推荐算法

9.1推荐算法概述

9.2冷启动问题

9.2.1利用非个性化推荐

9.2.2利用用户注册信息

9.2.3利用物品的内容信息

9.2.4根据用户的手机信息

9.3推荐算法分类

9.3.1根据推荐结果是否具有个性化

9.3.2根据推荐引擎的数据源

9.3.3根据推荐模型的建立方式

9.3.4混合推荐算法

9.4协同过滤

9.4.1基于用户的协同过滤

9.4.2基于物品的协同过滤

9.4.3UserCF和ItemCF

9.4.4基于模型的协同过滤

9.5综合案例: 基于用户的协同过滤

第10章网络数据挖掘

10.1引言

10.2网络的定义与表示

10.2.1网络的定义

10.2.2图的邻接矩阵表示

10.2.3网络的类型

10.3网络的基本性质

10.3.1路径与连通性

10.3.2结点的度和度分布

10.3.3聚类系数

10.3.4无标度网络与小世界网络

10.4网络结点的中心性

10.4.1度中心性

10.4.2介数中心性

10.4.3接近中心性

10.4.4特征向量中心性

10.4.5Katz中心性

10.4.6PageRank算法

10.5链路预测与相似性度量

10.5.1问题定义和评价指标

10.5.2共同邻居

10.5.3优先链接指标

10.5.4AdamicAdar指标

10.5.5资源分配指标

10.5.6局部和全局路径指标

10.5.7链路预测算法实例分析

10.6社团检测算法

10.6.1模块度

10.6.2CNM社团检测算法

第11章页岩油压裂水平井产能数据挖掘分析

11.1技术背景

11.2页岩油井产能数据的特征

11.3页岩油井产能数据预处理方法

11.3.1数据清洗

11.3.2页岩油产能主要控制因素筛选

11.4页岩油井产能/生产动态预测

11.4.1非时间序列型模型

11.4.2时间序列型模型

11.5实例分析

11.5.1非时间序列型模型

11.5.2时间序列型模型

参考文献