





定价:99.8元
印次:1-2
ISBN:9787302596783
出版日期:2022.03.01
印刷日期:2023.07.10
图书责编:王军
图书分类:零售
用Java编写的Spark应用程序; Spark应用架构; 提取文件、数据库、数据流和Elasticsearch的数据; 使用Spark SOL查询分布式数据集
Jean-Georges Perrin是-位经验丰富的数据和软件架构师。他是法国的第一位IBM Champion,并连续12年获奖,成为终身IBM Chempion。Jean-Georges Perrin 对软件工程和数据的各个方面充满热情。**项目促使他转向分布式的数据工程,在此项目中,他在混合云环境中广泛使用Apache Spark、Java和其他工具。他很自豪地成为法国第一个公认的IBM Champion,并连续12年获奖。作为获奖的数据和软件工程专家,现在,他在全球范围内都开展了业务,但重心在他所居住的美国。Jean-Georges是资深的会议演讲者和参与者,他以书面或在线媒体的形式发表文章,分享他在IT行业超过25年的经验。
前 言 Apache Spark早已闻名遐迩,不必赘述。如果你正在阅读本部分,那么你可能多多少少对《Spark实战(第2版)》的内容有所了解:大规模数据工程和数据科学、分布式处理等。但是从Rob Thomas的序言和第1章开始,很快你就会发现,Spark的内容远不止于此。 就像Obelix沉迷于魔药 一样,2015年,我开始痴迷于Spark。当时,我在一家法国计算机硬件公司工作,协助设计高性能的数据分析系统。与众人一样,一开始我对Spark持怀疑态度。之后,我开始使用它,到如今,你就看到了《Spark实战(第2版)》的问世。从最初的怀疑,到最后我对如此神奇的工具产生了真正的热情,这个工具使我们能以一种非常简单的方式处理数据——这就是我真诚的信念。 我用Spark启动了几个项目,这让我能够在Spark Summit、IBM Think以及All Things Open、Open Source 101 上发表演讲。通过本地的 Spark 用户组,我在北卡罗来纳州的Raleigh-Durham 地区与他人合作进行了动画制作。这让我结识了一些优秀的人,还看到了大量与Spark相关的项目。结果,我的热情继续燃烧。 《Spark实战(第2版)》分享了我的这种热情。 虽然《Spark实战(第2版)》中的示例(或实验)基于Java,但唯一的存储库也包含Scala和Python。随着Spark 3.0的推出,Manning团队和我决定确保《Spark实战(第2版)》讲解的是最新版本,而不是过期的想法。 也许你已经猜到了,我喜欢漫画书,且伴随着漫画书长大。...
第Ⅰ部分 通过示例讲解理论
第1章 Spark介绍 3
1.1 Spark简介及其作用 4
1.1.1 什么是Spark 4
1.1.2 Spark神力的四个支柱 5
1.2 如何使用Spark 7
1.2.1 数据处理/工程场景中的Spark 7
1.2.2 数据科学场景中的Spark 8
1.3 使用Spark,能做些什么 9
1.3.1 使用Spark预测NC餐饮行业的餐馆质量 10
1.3.2 Spark允许Lumeris进行快速数据传输 10
1.3.3 Spark分析CERN的设备日志 10
1.3.4 其他用例 11
1.4 为什么你应该喜欢数据帧 11
1.4.1 从Java角度了解数据帧 11
1.4.2 从RDBMS角度理解数据帧 12
1.4.3 数据帧的图形表示 12
1.5 第一个示例 13
1.5.1 推荐软件 13
1.5.2 下载代码 13
1.5.3 运行第一个应用程序 14
1.5.4 第一份代码 15
1.6 小结 16
第2章 架构和流程 17
2.1 构建思维模型 17
2.2 使用Java代码构建思维模型 18
2.3 运行应用程序 21
2.3.1 连接到主机 21
2.3.2 加载或提取CSV文件 22
2.3.3 转换数据 25
2.3.4 将数据帧中完成的工作保存到数...
系统快100倍。得益于SQL的支持、直观的界面和简单的多语言API,你可轻松使用Spark,而不必学习复杂的新型生态系统。
《Spark实战(第2版)》将引导你创建端到端分析应用程序。在本书中,你可学习基于Java的有趣示例,包括用于处理NASA卫星数据的完整数据管道。你还可查看托管在GitHub.上的有关Java、Python和Scala的代码示例, 并探索、修改此代码。此外,本书的附录为你提供速查表,帮助你安装工具和理解特定的Spark术语。
同系列产品
查看详情-
构建大模型数据科学应用:从机器学习升级到大模型
[美] 克里斯汀·科勒(Kristen Kehrer) 凯莱布·凯撒(Caleb Kaiser)著 王奕逍 译
ISBN:9787302685838
定 价:49.8元
-
极速Python:高性能编码、计算与数据分析
[美] 蒂亚戈·罗德里格斯·安道(Tiago Rodrigues Antao)著 沈冲 译
ISBN:9787302656296
定 价:79.8元
-
Python贝叶斯建模与计算
[阿根廷] 奥斯瓦尔多·A. 马丁(Osvaldo A. Martin),[美]拉万·库马尔(Ravin Kumar)[美]劳俊鹏(Junpeng Lao)著 郭涛 译
ISBN:9787302654858
定 价:98元
-
漫画算法与数据结构(大规模数据集)
[波黑]黛拉·梅杰多维奇(Dzejla Medjedovic) 埃明·塔希罗维奇(Emin Tahirovic)著 伊内斯·德多维奇(Ines Dedovic) 绘 郭涛 袁洪斌 译
ISBN:9787302645207
定 价:79.8元