前 言
Apache Spark早已闻名遐迩,不必赘述。如果你正在阅读本部分,那么你可能多多少少对《Spark实战(第2版)》的内容有所了解:大规模数据工程和数据科学、分布式处理等。但是从Rob Thomas的序言和第1章开始,很快你就会发现,Spark的内容远不止于此。
就像Obelix沉迷于魔药 一样,2015年,我开始痴迷于Spark。当时,我在一家法国计算机硬件公司工作,协助设计高性能的数据分析系统。与众人一样,一开始我对Spark持怀疑态度。之后,我开始使用它,到如今,你就看到了《Spark实战(第2版)》的问世。从最初的怀疑,到最后我对如此神奇的工具产生了真正的热情,这个工具使我们能以一种非常简单的方式处理数据——这就是我真诚的信念。
我用Spark启动了几个项目,这让我能够在Spark Summit、IBM Think以及All Things Open、Open Source 101 上发表演讲。通过本地的 Spark 用户组,我在北卡罗来纳州的Raleigh-Durham 地区与他人合作进行了动画制作。这让我结识了一些优秀的人,还看到了大量与Spark相关的项目。结果,我的热情继续燃烧。
《Spark实战(第2版)》分享了我的这种热情。
虽然《Spark实战(第2版)》中的示例(或实验)基于Java,但唯一的存储库也包含Scala和Python。随着Spark 3.0的推出,Manning团队和我决定确保《Spark实战(第2版)》讲解的是最新版本,而不是过期的想法。
也许你已经猜到了,我喜欢漫画书,且伴随着漫画书长大。我喜欢这种交流方式,你将在《Spark实战(第2版)》中看到这种交流方式。虽然这不是一本漫画书,但是它有近200张图片,应该可帮助你了解Apache Spark这个奇妙的工具。
Asterix有Obelix作为朋友,同样,《Spark实战(第2版)》有参考资料作为补充。你可从Manning网站的资源部分免费下载参考资料。此补充材料包含Spark静态函数的参考信息,我希望最终它将成为更有用的参考资源。
如果你喜欢《Spark实战(第2版)》,请在亚马逊上撰写评论。如果你不喜欢《Spark实战(第2版)》,那么请如人们在婚礼上所说的那样,永远保持沉默。尽管如此,我仍然真诚地希望你喜欢《Spark实战(第2版)》。
大局已定,木已成舟(Alea iacta est)。