图书目录

目录

第1章基础理论

1.1术语定义

1.2研究目的

1.3研究视角

1.4发展简史

1.5理论体系

1.6基本原则

1.7相关理论

1.8人才类型

习题

参考文献

第2章理论基础

2.1数据科学的学科地位

2.2统计学

2.3机器学习

2.4数据可视化

习题

参考文献

第3章流程与方法

3.1基本流程

3.2数据加工

3.3数据审计

3.4数据分析

3.5数据可视化

3.6数据故事化

3.7数据科学项目管理

习题

参考文献

第4章技术与工具

4.1数据科学的技术体系

4.2MapReduce

4.3Hadoop 

4.4Spark

4.5NoSQL与NewSQL

4.6R与Python

4.7数据湖与湖仓一体化

4.8发展趋势

习题

参考文献

第5章数据产品及开发

5.1定义

5.2主要特征

5.3关键活动

5.4数据柔术

5.5数据能力

5.6数据战略

5.7数据治理

5.8数据安全、隐私、道德与伦理

习题

参考文献

第6章典型案例及实践

6.1统计分析

6.2机器学习

6.3数据可视化

6.4Spark编程

6.52012年美国总统大选

习题

参考文献

附录A本书案例的R语言版代码

附录B数据科学的重要资源

附录C大数据与数据科学领域的名人名言

附录D术语索引

图目录

图11传统统计学中的总体与样本的关系3

图12DIKW 金字塔模型3

图13数据与数值的区别5

图14数字信号与模拟信号5

图152010—2025年全球数据规模估计和预测数据(单位: ZB)6

图16大数据的特征7

图17大数据的本质8

图18人工智能、机器学习和深度学习的区别与联系10

图19数据洞见11

图110业务数据化与数据业务化11

图111常用驱动方式12

图112数据的层次性12

图113大数据生态系统示意图13

图114数据科学的新研究视角14

图115Gartner技术成熟度曲线16

图116数据科学的萌芽期(1974—2009年)16

图117数据科学的快速发展期(2010—2013年)17

图118数据科学的逐渐成熟期(2014年至今)18

图119数据科学的理论体系20

图120数据科学的主要内容20

图121数据科学的“三世界原则”22

图122科学研究范式23

图123数据科学的“三个要素”及“3C精神”24

图124计算密集型应用与数据密集型应用的区别25

图125算法的性能与可解释的矛盾25

图126数据范式与知识范式的区别26

图127数据管理范式的变化27

图128数据的“资产”属性27

图129常用驱动方式29

图130CAPTCHA方法的应用30

图131ReCAPTCHA项目31

图132数据与算法之间的关系31

图133BellKors Pragmatic Chaos团队获得Netflix大奖32

图134Netflix大奖公测结果33

图135数据科学与商务智能的区别与联系34

图136数据科学与数据工程在企业应用中的区别与联系35

图137数据科学的DevOps35

图138DevOps的流程及常用工具36

图139DevOps生命期流程36

图140数据科学人才类型及其收入37

图141RStudio中编辑Markdown的窗口39

图142数据科学家团队42

图143大数据人才应具备的不同知识结构44

图144学习数据科学的四则运算原则48

图21数据科学的理论基础55

图22Jeffrey D.Ullman对Conway的数据科学维恩图的评价57

图23Jeffrey D.Ullman提出的数据科学维恩图57

图24统计方法的分类(行为目的与思路方式视角)58

图25统计学中的数据推断59

图26数据统计方法的类型(方法论视角)59

图27数据统计基本方法60

图28元分析与基本分析60

图29GFT预测与美国疾病控制中心数据的对比62

图210GFT估计与实际数据的误差(2013年1月)63

图211大数据时代的思维模式的转变64

图212西洋双陆棋65

图213机器人驾驶65

图214机器学习的示意图66

图215机器学习的三要素68

图216机器学习的类型69

图217KNN算法的基本步骤70

图218决策树示例——识别鸟类73

图219MP神经元的结构74

图220前向神经网络75

图221归纳学习与分析学习77

图222增强学习77

图223深度学习与传统机器学习的区别78

图224机器学习的类型79

图225IBM Watson80

图226Pepper机器人81

图227可解释性人工智能系统82

图228机器学习中的数据83

图229Anscombe四组数据的可视化88

图230John Snow所绘的地图88

图231在Tableau中加利福尼亚州政府收入来源数据的可视化89

图31数据科学的基本流程93

图32量化自我94

图33干净数据与规整数据的区别95

图34规整数据示意图96

图35残差99

图36数据分析的类型100

图37Analytics 1.0~3.0101

图38数据加工方法102

图39数据审计与数据清洗104

图310缺失数据处理的步骤104

图311冗余数据处理的方法104

图312数据分箱处理的步骤与类型106

图313均值平滑与边界值平滑106

图314内容集成109

图315结构集成109

图316数据脱敏111

图317数据连续性的定义及重要性115

图318可视化审计示例116

图319Gartner分析学价值扶梯模型117

图320数据分析的类型及方法对应关系118

图321冰激凌的销售量与谋杀案的发生数量119

图322数据分析的类型121

图323拿破仑进军俄国惨败而归的历史事件的可视化123

图324可视分析学的相关学科124

图325可视分析学模型124

图326数据可视化的方法体系125

图327视觉图形元素与视觉通道126

图328雷达图示例126

图329齐美尔连带126

图330视觉隐喻的示例——全球变暖127

图331地铁路线图的创始人Henry Beck128

图332Henry Beck的伦敦地铁线路图128

图333视觉突出的示例129

图334完图法则的示例129

图335黄金比例示意图131

图336黄金比例示意图1131

图337黄金比例示意图2132

图338视觉通道的精确度对比132

图339视觉通道的可辨认性133

图340上下文导致视觉假象1133

图341上下文导致视觉假象2133

图342对亮度和颜色的相对判断容易造成视觉假象的示例134

图343文学故事与数据故事的对比138

图344数据的可视化和数据的故事化的区别和联系138

图345数据故事的金字塔模型141

图346数据故事化的作用143

图347数据故事认知的PCA模型143

图348KISS原则144

图349项目管理的主要内容145

图412017大数据产业全景图152

图42大数据参考架构154

图43MapReduce执行过程156

图44MapReduce对中间数据的处理160

图45以MapReduce为核心和以YARN为核心的软件栈对比162

图46下一代MapReduce框架163

图47Apache的Hadoop项目163

图48Hadoop生态系统164

图49Hadoop MapReduce数据处理过程165

图410Apache Hive官方网站167

图411Apache Pig官方网站168

图412Apache Mahout官方网站169

图413Apache HBase官方网站169

图414HBase与Hadoop项目170

图415HBase的逻辑模型171

图416Apache ZooKeeper官方网站172

图417Apache Flume官方网站173

图418Apache Sqoop官方网站174

图419Spark技术架构175

图420Spark的基本流程176

图421Spark的执行步骤181

图422Lambda 架构的主要组成部分183

图423传统关系数据库的优点与缺点184

图424关系数据库技术与NoSQL技术之间的关系186

图425NoSQL数据分布的两个基本途径187

图426分片处理188

图427主从复制189

图428对等复制190

图429数据不一致性191

图430CAP理论192

图431CAP理论的应用策略192

图432Memcached官方网站195

图433一致性散列的分配方式196

图434服务器增加时的变化197

图435Databricks的Delta Lake数据管理架构201

图436云计算的演变过程202

图437数据管理的新变化204

图4382021年数据科学及机器学习平台的魔术象限207

图439基于Databricks的统一分析平台的架构209

图51数据产品开发中的数据与数据柔术216

图52知识范式与数据范式218

图53数据产品的多样性219

图54数据产品的层次性220

图55Google全球商机洞察221

图56数据产品链222

图57传统产品开发与数据产品开发的区别223

图58D.J.Patil223

图59UI(User Interface)设计方案与设计思维225

图510Google搜索的用户体验226

图511人与计算机图像内容识别能力的不同226

图512Amazon Mechanical Turk平台228

图513一个HIT的生命周期228

图514基于人与计算机的数据处理成本曲线229

图515亚马逊的数据产品——其他商家(Other Sellers)230

图516LinkedIn的数据产品——你可能认识的人们231

图517LinkedIn的数据产品——你的观众是谁231

图518逆向交互定律232

图519LinkedIn的数据产品——岗位推荐234

图520LinkedIn的数据产品——帮助你的朋友找到工作235

图521Facebook的良好用户体验235

图522DMM模型基本思路238

图523CMM基本思想239

图524CMM成熟度等级240

图525DMM关键过程域241

图526DMM层级划分及描述243

图527IDEAL模型245

图528组织机构数据管理能力成熟度评估结果的可视化246

图529DoD数据战略框架247

图530数据战略与数据管理目标的区别248

图531数据战略的目标248

图532数据战略的侧重点249

图533数据战略的范畴249

图534数据管理与数据治理的区别250

图535IBM提出的企业数据管理的范畴251

图536数据治理的PDCA模型252

图537DGI数据治理框架253

图538P2DR模型255

图539从欧洲大陆的空战中返回的轰炸机256

图61KMeans算法的基本步骤287

图62奥巴马2012年总统竞选芝加哥总部307

图63George Clooney308

图64Sarah Jessica Parker308

图65奥巴马及“快速捐赠计划”310

图66奥巴马通过Reddit与选民互动311

图672012年美国总统竞选财务数据官方网站312

图A1女性体重与身高的线性回归分析334

图A2工资数据的可视化347

图A3起飞延误时间359

图A4到达延误时间359

图A5捐助人职业、党派及捐助额度分析372

图A6分箱处理后的捐款数据可视化373

图A7捐款日期与金额的可视化374

图A8捐款月份与金额变化分析375

图A9投票结果的可视化377

表目录

表11结构化数据、非结构化数据与半结构化数据的区别与联系5

表12数据量及大小6

表13某位数据科学家的画像40

表21参数估计与假设检验的主要区别59

表22统计学与机器学习的术语对照64

表23机器学习的相关学科69

表24已知6部电影的类型及其中出现的接吻次数和打斗次数71

表25已知电影与未知电影的距离71

表26分析学习和归纳学习的比较77

表27深度学习与传统机器学习的应用场景比较79

表28Anscombe的四组数据87

表31测试数据A96

表32测试数据B96

表33测试数据C96

表34Pew论坛部分人员信仰与收入数据统计(规整化处理之前)97

表35Pew论坛部分人员信仰与收入数据统计(规整化处理之后)97

表36探索性统计中常用的集中趋势统计量99

表37探索性统计中常用的离散程度统计量99

表38探索性统计中常用的数据分布统计量99

表39常见的数据变换策略107

表310过滤式方法与包裹式方法的区别107

表311十进制第一数字的使用概率114

表312数据分析中常见错误121

表313数据类型及所支持的操作类型130

表314数据类型与视觉通道的对应关系130

表315数据故事与文学故事的区别139

表316数据故事化的相关概念及其区别142

表317数据科学项目中的主要角色及其任务145

表41Transformation常用函数178

表42Action常用函数178

表43RDD的存储级别179

表44Spark数据类型和R数据类型之间的映射关系182

表45较有代表性的云数据库产品186

表46NoSQL数据库中常用的数据模型187

表47R与Python对比198

表48数据湖与数据仓库的对比200

表49云计算的基本类型203

表410数据科学平台的分类206

表411数据科学及机器学习平台的魔术象限208

表51数据转换与数据加工的区别217

表52Google公司的十大产品和服务217

表53数据管理原则237

表54数据管理成熟度模型的过程域分类242

表55信息系统安全等级及保护基本要求254

表56肾结石治疗数据分析——两种治疗方案的分别统计258

表57两种治疗方案的汇总统计258

表61数据集women268

表62Protein数据集286

表63工资信息294

表64各字段的名称及含义312

表A1Spark版本差异性351

表A2Spark与R的数据类型对比352

表A3SparkR与sparklyr比较360