Spark实战(第2版)
引导你创建端到端分析应用程序,是大数据和实时数据流处理工作人员的必备书籍和实用指南。随书赠送附录和源代码,获取地址见书封底二维码。

作者:[法]吉恩·乔治·佩林(Jean-Georges Perrin) 著 林赐 译

丛书名:数据科学与大数据技术

定价:99.8元

印次:1-2

ISBN:9787302596783

出版日期:2022.03.01

印刷日期:2023.07.10

图书责编:王军

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

用Java编写的Spark应用程序; Spark应用架构; 提取文件、数据库、数据流和Elasticsearch的数据; 使用Spark SOL查询分布式数据集

Jean-Georges Perrin是-位经验丰富的数据和软件架构师。他是法国的第一位IBM Champion,并连续12年获奖,成为终身IBM Chempion。Jean-Georges Perrin 对软件工程和数据的各个方面充满热情。**项目促使他转向分布式的数据工程,在此项目中,他在混合云环境中广泛使用Apache Spark、Java和其他工具。他很自豪地成为法国第一个公认的IBM Champion,并连续12年获奖。作为获奖的数据和软件工程专家,现在,他在全球范围内都开展了业务,但重心在他所居住的美国。Jean-Georges是资深的会议演讲者和参与者,他以书面或在线媒体的形式发表文章,分享他在IT行业超过25年的经验。

前 言 Apache Spark早已闻名遐迩,不必赘述。如果你正在阅读本部分,那么你可能多多少少对《Spark实战(第2版)》的内容有所了解:大规模数据工程和数据科学、分布式处理等。但是从Rob Thomas的序言和第1章开始,很快你就会发现,Spark的内容远不止于此。 就像Obelix沉迷于魔药 一样,2015年,我开始痴迷于Spark。当时,我在一家法国计算机硬件公司工作,协助设计高性能的数据分析系统。与众人一样,一开始我对Spark持怀疑态度。之后,我开始使用它,到如今,你就看到了《Spark实战(第2版)》的问世。从最初的怀疑,到最后我对如此神奇的工具产生了真正的热情,这个工具使我们能以一种非常简单的方式处理数据——这就是我真诚的信念。 我用Spark启动了几个项目,这让我能够在Spark Summit、IBM Think以及All Things Open、Open Source 101 上发表演讲。通过本地的 Spark 用户组,我在北卡罗来纳州的Raleigh-Durham 地区与他人合作进行了动画制作。这让我结识了一些优秀的人,还看到了大量与Spark相关的项目。结果,我的热情继续燃烧。 《Spark实战(第2版)》分享了我的这种热情。 虽然《Spark实战(第2版)》中的示例(或实验)基于Java,但唯一的存储库也包含Scala和Python。随着Spark 3.0的推出,Manning团队和我决定确保《Spark实战(第2版)》讲解的是最新版本,而不是过期的想法。 也许你已经猜到了,我喜欢漫画书,且伴随着漫画书长大。...

暂无课件

样章下载

暂无网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情
目    录

 

第Ⅰ部分  通过示例讲解理论

第1章  Spark介绍   3

1.1  Spark简介及其作用   4

1.1.1  什么是Spark   4

1.1.2  Spark神力的四个支柱   5

1.2  如何使用Spark   7

1.2.1  数据处理/工程场景中的Spark   7

1.2.2  数据科学场景中的Spark   8

1.3  使用Spark,能做些什么   9

1.3.1  使用Spark预测NC餐饮行业的餐馆质量   10

1.3.2  Spark允许Lumeris进行快速数据传输   10

1.3.3  Spark分析CERN的设备日志   10

1.3.4  其他用例   11

1.4  为什么你应该喜欢数据帧   11

1.4.1  从Java角度了解数据帧   11

1.4.2  从RDBMS角度理解数据帧   12

1.4.3  数据帧的图形表示   12

1.5  第一个示例   13

1.5.1  推荐软件   13

1.5.2  下载代码   13

1.5.3  运行第一个应用程序   14

1.5.4  第一份代码   15

1.6  小结   16

第2章  架构和流程   17

2.1  构建思维模型   17

2.2  使用Java代码构建思维模型   18

2.3  运行应用程序   21

2.3.1  连接到主机   21

2.3.2  加载或提取CSV文件   22

2.3.3  转换数据   25

2.3.4  将数据帧中完成的工作保存到数...

企业数据的分析始于读取、过滤和合并来自多个数据源的文件和数据流。Spark数据处理引擎是这方面的佼佼者,可处理各种量级的数据,其传输速度比Hadoop
系统快100倍。得益于SQL的支持、直观的界面和简单的多语言API,你可轻松使用Spark,而不必学习复杂的新型生态系统。
《Spark实战(第2版)》将引导你创建端到端分析应用程序。在本书中,你可学习基于Java的有趣示例,包括用于处理NASA卫星数据的完整数据管道。你还可查看托管在GitHub.上的有关Java、Python和Scala的代码示例, 并探索、修改此代码。此外,本书的附录为你提供速查表,帮助你安装工具和理解特定的Spark术语。