目录
第1章大数据简介/1
1.1何为大数据2
1.1.1大数据时代的到来2
1.1.2大数据的来源与发展4
1.1.3大数据定义7
1.1.4大数据的分类8
1.2世界各国大数据发展战略9
1.2.1中国大数据发展战略9
1.2.2国外主要国家大数据发展战略14
1.3大数据特征15
1.3.1大数据的结构化15
1.3.2大数据的5V特点16
1.3.3大数据的3S/3I特点21
1.4大数据全生命周期22
1.5大数据对经济社会发展的影响24
1.5.1大数据引发的社会变革24
1.5.2大数据引发的经济变革25
1.5.3大数据引发的个人生活方式变化27
1.6大数据的战略意义与面临的挑战27
1.6.1大数据的战略意义27
1.6.2大数据发展面临的挑战28
课后习题29
第2章大数据的获取/30
2.1大数据获取概述31
2.1.1大数据的获取来源31
2.1.2大数据获取的概念和类型31
2.2网络爬虫32
2.2.1网络爬虫的概念与类型32
2.2.2网络爬虫的基本爬取方式33
2.2.3网络爬虫的爬取策略332.2.4数据解析35
2.3互联网数据获取方法40
2.3.1网络爬虫框架40
2.3.2采集器软件45
2.3.3其他互联网数据获取方法47
2.4离线数据获取方法47
2.4.1传感器47
2.4.2系统日志48
2.5实践案例: “无人潜水器”专利数据采集49
2.5.1采集目标49
2.5.2使用Python网络爬虫49
2.5.3使用网络爬虫框架54
2.5.4使用采集器软件57
课后习题64
第3章大数据预处理/66
3.1大数据预处理概述67
3.1.1数据存在的问题67
3.1.2数据预处理的主要任务67
3.2数据清洗68
3.2.1缺失值处理68
3.2.2重复值处理68
3.2.3异常值处理69
3.2.4逻辑错误清洗70
3.3数据集成71
3.3.1实体统一问题71
3.3.2数据冗余问题72
3.3.3数据冲突问题73
3.4数据变换74
3.4.1简单函数变换74
3.4.2数据标准化75
3.4.3数据离散化76
3.4.4数据编码77
3.5数据归约77
3.5.1数量归约77
3.5.2维度归约77
3.6实践案例: 专利情报数据预处理78
3.6.1数据清洗78
3.6.2数据集成80
3.6.3数据变换80
3.6.4数据归约82
课后习题83
第4章大数据存储技术/85
4.1大数据存储概述86
4.1.1大数据存储的关键问题与面临的挑战86
4.1.2大数据存储方式87
4.2基于文件系统的数据存储88
4.2.1基于文件系统的数据存储的特点与优势88
4.2.2分布式文件系统89
4.2.3Hadoop分布式文件系统90
4.3基于关系数据库的数据存储91
4.3.1什么是关系数据库91
4.3.2基于关系数据库的数据存储的特点与优势92
4.3.3MySQL数据库93
4.4NoSQL数据存储94
4.4.1NoSQL数据存储的特点与优势94
4.4.2键值数据库95
4.4.3列族数据库95
4.4.4文档数据库96
4.4.5图形数据库96
4.4.6关系数据库与非关系数据库的比较97
4.5新一代大数据存储技术97
4.5.1云存储技术97
4.5.2NewSQL99
4.6实践案例: Neo4j导入药材供应链数据102
4.6.1Neo4j安装102
4.6.2Neo4j启动104
4.6.3Cypher基本语句106
4.6.4药材供应链数据下载与介绍109
4.6.5图数据库构建与可视化111
附录117
课后习题118
第5章大数据分析与挖掘方法/120
5.1大数据分析与挖掘方法概述121
5.1.1大数据分析与数据挖掘的含义121
5.1.2大数据分析与挖掘的发展趋势121
5.2大数据分析的类型122
5.2.1描述性分析122
5.2.2诊断性分析127
5.2.3预测性分析128
5.2.4规范性分析129
5.3大数据分析与挖掘的经典模型130
5.3.1分类算法130
5.3.2聚类算法133
5.3.3回归分析算法136
5.3.4关联规则挖掘算法138
5.4大数据分析与挖掘的现代模型140
5.4.1神经网络140
5.4.2深度学习142
5.4.3强化学习144
5.4.4大模型147
5.5大数据分析与挖掘的应用场景148
5.5.1文本数据分析148
5.5.2图像数据分析151
5.5.3音频数据分析153
5.5.4其他非结构化数据分析155
5.6实践案例: 基于某社交平台的推文内容分析156
5.7实践案例: 基于水下无人潜水器技术专利的Kmeans聚类分析158
课后习题160
第6章大数据可视化展示/161
6.1数据可视化概述162
6.1.1什么是数据可视化162
6.1.2数据可视化的发展162
6.1.3大数据可视化的分类163
6.2数据可视化基础166
6.2.1数据可视化的基本流程166
6.2.2数据可视化设计原则167
6.2.3大数据可视化的图表类型168
6.3大数据可视化方法应用171
6.3.1时间数据可视化171
6.3.2关系数据可视化172
6.3.3文本数据可视化173
6.3.4比例数据可视化175
6.4大数据可视化工具与软件175
6.4.1常见的大数据可视化技术175
6.4.2ECharts180
6.4.3D3.js187
6.5实践案例: 基于某社交平台帖子数据的可视化190
6.5.1可视化实现思路190
6.5.2时间数据可视化192
6.5.3关系数据可视化199
6.5.4文本数据可视化200
6.5.5比例数据可视化201
课后习题203
第7章大数据驱动的管理变革/204
7.1大数据驱动的管理变革概述205
7.1.1大数据时代管理面临的问题和挑战205
7.1.2大数据时代管理变革的整体架构206
7.1.3大数据时代管理变革的不同阶段207
7.2大数据时代的管理思维变革208
7.2.1经验主义与数据主义208
7.2.2自上而下管理与协同参与管理209
7.2.3人工决策与智能决策211
7.3大数据时代的组织结构变革212
7.3.1组织结构变革框架212
7.3.2组织结构类型213
7.3.3组织结构变革方法214
7.4大数据时代的运营模式变革215
7.4.1研发模式变革215
7.4.2生产模式变革216
7.4.3营销模式变革217
7.5大数据时代的管理决策变革218
7.5.1传统管理决策范式218
7.5.2大数据驱动的管理决策范式转变219
7.5.3大数据驱动的管理决策框架222
7.5.4不同类型数据的管理决策223
7.6大数据时代的管理决策应用227
7.6.1商务大数据决策应用227
7.6.2交通大数据决策应用230
7.6.3医疗大数据决策应用235
课后习题240
第8章数据质量管理/242
8.1数据质量管理概述243
8.1.1数据质量的基本概念243
8.1.2影响数据质量的因素247
8.1.3数据质量管理的流程248
8.2数据质量管理技术与工具249
8.2.1数据质量管理技术249
8.2.2数据质量管理工具251
8.3数据质量评估方法252
8.3.1定性评估方法252
8.3.2定量评估方法254
8.3.3综合评估方法255
8.4数据质量提升方法259
8.4.1事前数据质量提升方法260
8.4.2事中数据质量提升方法261
8.4.3事后数据质量提升方法262
8.5实践案例: 社交媒体平台数据质量评估263
8.5.1数据源及数据集说明263
8.5.2数据质量维度264
8.5.3数据质量评估265
8.5.4数据质量评估结果266
课后习题267
第9章大数据开放共享/268
9.1大数据开放共享的定义和框架269
9.1.1大数据开放共享的定义269
9.1.2大数据开放共享的多元主体269
9.1.3大数据开放共享流程框架270
9.1.4大数据开放共享流程271
9.2大数据开放共享技术和工具272
9.2.1大数据开放共享的技术272
9.2.2大数据开放共享的工具274
9.3大数据开放共享风险分析与安全防护274
9.3.1大数据开放共享风险分析274
9.3.2大数据开放共享安全体系设计275
9.4目前大数据开放共享面临的挑战276
9.4.1大数据开放共享的隐私风险276
9.4.2大数据开放共享标准规范问题277
9.4.3公益性与收益模式间的平衡问题277
9.5政府数据开放共享应用277
9.5.1政府数据开放共享277
9.5.2实践案例: 贵州省政府数据开放共享应用278
课后习题281
参考文献/282
