图书目录

目    录

第1章  大数据分析概述 1

1.1  大数据分析背景 1

1.2  大数据分析的应用 2

1.3  大数据分析算法 3

1.4  大数据分析工具 5

1.5  本章小结 8

第2章  数据特征算法分析 9

2.1  数据分布性分析 9

2.1.1  数据分布特征集中趋势的测定 9

2.1.2  数据分布特征离散程度的测定 14

2.1.3  数据分布特征偏态与峰度的测定 17

2.2  数据相关性分析 19

2.2.1  数据相关关系 19

2.2.2  数据相关分析的主要内容 22

2.2.3  相关关系的测定 22

2.3  数据聚类分析 24

2.3.1  聚类分析定义 24

2.3.2  聚类类型 25

2.3.3  聚类应用 26

2.4  数据主成分分析 27

2.4.1  主成分分析的原理及模型 27

2.4.2  数据主成分分析的几何解释 29

2.4.3  数据主成分的导出 30

2.4.4  证明主成分的方差是依次递减的 31

2.4.5  数据主成分分析的计算 32

2.5  数据动态性分析 33

2.6  数据可视化 36

2.7  本章小结 38

第3章  大数据分析工具:NumPy 39

3.1  NumPy简介 39

3.2  NumPy环境安装配置 40

3.3  ndarray对象 41

3.4  数据类型 42

3.5  数组属性 45

3.6  数组创建例程 47

3.7  基本切片和高级索引 52

3.8  广播 55

3.9  数组与元素操作 56

3.9.1  数值迭代 56

3.9.2  数组变形 60

3.9.3  数组翻转 62

3.9.4  修改维度 65

3.9.5  数组连接 69

3.9.6  数组分割 73

3.9.7  添加/删除元素 75

3.10  位操作与字符串函数 80

3.11  数学运算函数 84

3.12  算术运算 86

3.13  统计函数 89

3.14  排序、搜索和计数函数 93

3.15  字节交换 96

3.16  副本和视图 96

3.17  矩阵库 99

3.18  线性代数模块 101

3.19  Matplotlib库 104

3.20  Matplotlib绘制直方图 106

3.21  IO文件操作 107

3.22  NumPy实例:GPS定位 108

3.23  本章小结 111

第4章  大数据分析工具:SciPy 112

4.1  SciPy简介 112

4.2  文件输入和输出:SciPy.io 113

4.3  特殊函数:SciPy.special 114

4.4  线性代数操作:SciPy.linalg 115

4.5  快速傅里叶变换:Scipy.fftpack 115

4.6  优化器:SciPy.optimize 116

4.7  统计工具:SciPy.stats 117

4.8  SciPy实例 118

4.8.1  最小二乘拟合 118

4.8.2  函数最小值 119

4.9  本章小结 121

第5章  大数据分析工具:Matplotlib 122

5.1  初级绘制 122

5.2  图像、子区、子图、刻度 128

5.3  其他种类的绘图 130

5.4  本章小结 136

第6章  大数据分析工具:Pandas 137

6.1  Pandas系列 137

6.2  Pandas数据帧 140

6.3  Pandas面板 144

6.4  Pandas快速入门 147

6.5  本章小结 158

第7章  大数据分析工具:Statsmodels与Gensim 159

7.1  Statsmodels 159

7.1.1  Statsmodels统计数据库 159

7.1.2  Statsmodels典型的拟合模型概述 161

7.1.3  Statsmodels举例 162

7.2  Gensim 164

7.2.1  基本概念 164

7.2.2  训练语料的预处理 164

7.2.3  主题向量的变换 166

7.2.4  文档相似度的计算 167

7.3  本章小结 167

第8章  大数据分析算法 168

8.1  分类算法 168

8.1.1  决策树 169

8.1.2  随机森林 174

8.1.3  支持向量机 177

8.1.4  朴素贝叶斯 180

8.1.5  K最近邻 182

8.1.6  逻辑回归 185

8.2  聚类算法 188

8.2.1  K均值 188

8.2.2  层次聚类 192

8.2.3  DBSCAN 194

8.2.4  高斯混合模型 195

8.3  回归算法 198

8.3.1  线性回归 198

8.3.2  岭回归 201

8.3.3  Lasso回归 203

8.3.4  多项式回归 204

8.4  关联规则学习 206

8.4.1  Apriori算法 206

8.4.2  FP-Growth算法 210

8.5  降维算法 213

8.5.1  线性判别分析 214

8.5.2  t-分布邻域嵌入 216

8.5.3  自编码器实现 219

8.5.4  局部线性嵌入 222

8.5.5  多维缩放 224

8.5.6  独立成分分析 225

8.5.7  因子分析 228

8.5.8  奇异值分解 229

8.6  推荐算法 231

8.6.1  基于内容的推荐 231

8.6.2  协同过滤 233

8.6.3  矩阵分解 235

8.6.4  基于深度学习的推荐算法 237

8.6.5  混合推荐算法 240

8.6.6  基于图的推荐算法 242

8.6.7  基于上下文感知的推荐 245

8.6.8  基于强化学习的推荐算法 247

8.6.9  评估推荐算法的指标 250

8.6.10  冷启动问题的解决方案 252

8.7  时间序列分析 253

8.7.1  自回归移动平均数 255

8.7.2  指数平滑 257

8.7.3  Prophet 261

8.8  异常检测 263

8.8.1  Z-Score 264

8.8.2  LOF 266

8.8.3  Isolation Forest 268

8.8.4  One-Class SVM 270

8.8.5  生成对抗网络 272

8.9  自然语言处理 276

8.9.1  词袋模型 277

8.9.2  TF-IDF 278

8.9.3  主题模型LDA 280

8.9.4  词嵌入Word2Vec 282

8.9.5  N-gram 284

8.10  深度学习 288

8.10.1  卷积神经网络 289

8.10.2  循环神经网络 292

8.10.3  长短期记忆网络 296

8.11  图算法 298

8.11.1  PageRank 299

8.11.2  社区发现 302

8.11.3  最短路径算法(Dijkstra算法) 305

8.12  优化算法 307

8.12.1  随机梯度下降 308

8.12.2  遗传算法 310

8.12.3  粒子群优化 313

8.12.4  模拟退火 316

8.13  流数据处理 318

8.13.1  滑动窗口 319

8.13.2  聚合计算 322

8.13.3  过滤 324

8.13.4  模式匹配 331

8.14  本章小结 337

第9章  经典案例分析 338

9.1  文本分析与情感分析 338

9.2  金融大数据分析 352

9.3  社交网络分析 360

9.4  地理数据分析 372

9.5  城市交通数据分析 383

9.6  本章小结 392

参考文献 394