图书目录

目录

第1章大数据简介/1

1.1何为大数据2

1.1.1大数据时代的到来2

1.1.2大数据的来源与发展4

1.1.3大数据定义7

1.1.4大数据的分类8

1.2世界各国大数据发展战略9

1.2.1中国大数据发展战略9

1.2.2国外主要国家大数据发展战略14

1.3大数据特征15

1.3.1大数据的结构化15

1.3.2大数据的5V特点16

1.3.3大数据的3S/3I特点21

1.4大数据全生命周期22

1.5大数据对经济社会发展的影响24

1.5.1大数据引发的社会变革24

1.5.2大数据引发的经济变革25

1.5.3大数据引发的个人生活方式变化27

1.6大数据的战略意义与面临的挑战27

1.6.1大数据的战略意义27

1.6.2大数据发展面临的挑战28

课后习题29

第2章大数据的获取/30

2.1大数据获取概述31

2.1.1大数据的获取来源31

2.1.2大数据获取的概念和类型31

2.2网络爬虫32

2.2.1网络爬虫的概念与类型32

2.2.2网络爬虫的基本爬取方式33

2.2.3网络爬虫的爬取策略332.2.4数据解析35

2.3互联网数据获取方法40

2.3.1网络爬虫框架40

2.3.2采集器软件45

2.3.3其他互联网数据获取方法47

2.4离线数据获取方法47

2.4.1传感器47

2.4.2系统日志48

2.5实践案例: “无人潜水器”专利数据采集49

2.5.1采集目标49

2.5.2使用Python网络爬虫49

2.5.3使用网络爬虫框架54

2.5.4使用采集器软件57

课后习题64

第3章大数据预处理/66

3.1大数据预处理概述67

3.1.1数据存在的问题67

3.1.2数据预处理的主要任务67

3.2数据清洗68

3.2.1缺失值处理68

3.2.2重复值处理68

3.2.3异常值处理69

3.2.4逻辑错误清洗70

3.3数据集成71

3.3.1实体统一问题71

3.3.2数据冗余问题72

3.3.3数据冲突问题73

3.4数据变换74

3.4.1简单函数变换74

3.4.2数据标准化75

3.4.3数据离散化76

3.4.4数据编码77

3.5数据归约77

3.5.1数量归约77

3.5.2维度归约77

3.6实践案例: 专利情报数据预处理78

3.6.1数据清洗78

3.6.2数据集成80

3.6.3数据变换80

3.6.4数据归约82

课后习题83

第4章大数据存储技术/85

4.1大数据存储概述86

4.1.1大数据存储的关键问题与面临的挑战86

4.1.2大数据存储方式87

4.2基于文件系统的数据存储88

4.2.1基于文件系统的数据存储的特点与优势88

4.2.2分布式文件系统89

4.2.3Hadoop分布式文件系统90

4.3基于关系数据库的数据存储91

4.3.1什么是关系数据库91

4.3.2基于关系数据库的数据存储的特点与优势92

4.3.3MySQL数据库93

4.4NoSQL数据存储94

4.4.1NoSQL数据存储的特点与优势94

4.4.2键值数据库95

4.4.3列族数据库95

4.4.4文档数据库96

4.4.5图形数据库96

4.4.6关系数据库与非关系数据库的比较97

4.5新一代大数据存储技术97

4.5.1云存储技术97

4.5.2NewSQL99

4.6实践案例: Neo4j导入药材供应链数据102

4.6.1Neo4j安装102

4.6.2Neo4j启动104

4.6.3Cypher基本语句106

4.6.4药材供应链数据下载与介绍109

4.6.5图数据库构建与可视化111

附录117

课后习题118

第5章大数据分析与挖掘方法/120

5.1大数据分析与挖掘方法概述121

5.1.1大数据分析与数据挖掘的含义121

5.1.2大数据分析与挖掘的发展趋势121

5.2大数据分析的类型122

5.2.1描述性分析122

5.2.2诊断性分析127

5.2.3预测性分析128

5.2.4规范性分析129

5.3大数据分析与挖掘的经典模型130

5.3.1分类算法130

5.3.2聚类算法133

5.3.3回归分析算法136

5.3.4关联规则挖掘算法138

5.4大数据分析与挖掘的现代模型140

5.4.1神经网络140

5.4.2深度学习142

5.4.3强化学习144

5.4.4大模型147

5.5大数据分析与挖掘的应用场景148

5.5.1文本数据分析148

5.5.2图像数据分析151

5.5.3音频数据分析153

5.5.4其他非结构化数据分析155

5.6实践案例: 基于某社交平台的推文内容分析156

5.7实践案例: 基于水下无人潜水器技术专利的Kmeans聚类分析158

课后习题160

第6章大数据可视化展示/161

6.1数据可视化概述162

6.1.1什么是数据可视化162

6.1.2数据可视化的发展162

6.1.3大数据可视化的分类163

6.2数据可视化基础166

6.2.1数据可视化的基本流程166

6.2.2数据可视化设计原则167

6.2.3大数据可视化的图表类型168

6.3大数据可视化方法应用171

6.3.1时间数据可视化171

6.3.2关系数据可视化172

6.3.3文本数据可视化173

6.3.4比例数据可视化175

6.4大数据可视化工具与软件175

6.4.1常见的大数据可视化技术175

6.4.2ECharts180

6.4.3D3.js187

6.5实践案例: 基于某社交平台帖子数据的可视化190

6.5.1可视化实现思路190

6.5.2时间数据可视化192

6.5.3关系数据可视化199

6.5.4文本数据可视化200

6.5.5比例数据可视化201

课后习题203

第7章大数据驱动的管理变革/204

7.1大数据驱动的管理变革概述205

7.1.1大数据时代管理面临的问题和挑战205

7.1.2大数据时代管理变革的整体架构206

7.1.3大数据时代管理变革的不同阶段207

7.2大数据时代的管理思维变革208

7.2.1经验主义与数据主义208

7.2.2自上而下管理与协同参与管理209

7.2.3人工决策与智能决策211

7.3大数据时代的组织结构变革212

7.3.1组织结构变革框架212

7.3.2组织结构类型213

7.3.3组织结构变革方法214

7.4大数据时代的运营模式变革215

7.4.1研发模式变革215

7.4.2生产模式变革216

7.4.3营销模式变革217

7.5大数据时代的管理决策变革218

7.5.1传统管理决策范式218

7.5.2大数据驱动的管理决策范式转变219

7.5.3大数据驱动的管理决策框架222

7.5.4不同类型数据的管理决策223

7.6大数据时代的管理决策应用227

7.6.1商务大数据决策应用227

7.6.2交通大数据决策应用230

7.6.3医疗大数据决策应用235

课后习题240

第8章数据质量管理/242

8.1数据质量管理概述243

8.1.1数据质量的基本概念243

8.1.2影响数据质量的因素247

8.1.3数据质量管理的流程248

8.2数据质量管理技术与工具249

8.2.1数据质量管理技术249

8.2.2数据质量管理工具251

8.3数据质量评估方法252

8.3.1定性评估方法252

8.3.2定量评估方法254

8.3.3综合评估方法255

8.4数据质量提升方法259

8.4.1事前数据质量提升方法260

8.4.2事中数据质量提升方法261

8.4.3事后数据质量提升方法262

8.5实践案例: 社交媒体平台数据质量评估263

8.5.1数据源及数据集说明263

8.5.2数据质量维度264

8.5.3数据质量评估265

8.5.4数据质量评估结果266

课后习题267

第9章大数据开放共享/268

9.1大数据开放共享的定义和框架269

9.1.1大数据开放共享的定义269

9.1.2大数据开放共享的多元主体269

9.1.3大数据开放共享流程框架270

9.1.4大数据开放共享流程271

9.2大数据开放共享技术和工具272

9.2.1大数据开放共享的技术272

9.2.2大数据开放共享的工具274

9.3大数据开放共享风险分析与安全防护274

9.3.1大数据开放共享风险分析274

9.3.2大数据开放共享安全体系设计275

9.4目前大数据开放共享面临的挑战276

9.4.1大数据开放共享的隐私风险276

9.4.2大数据开放共享标准规范问题277

9.4.3公益性与收益模式间的平衡问题277

9.5政府数据开放共享应用277

9.5.1政府数据开放共享277

9.5.2实践案例: 贵州省政府数据开放共享应用278

课后习题281

参考文献/282