图书前言

前    言

如今大数据技术已广泛应用于金融、医疗、教育、电信、政府等领域,各个行业都积累了大量的历史数据,并不断产生大量新数据,数据计量单位出现PB、EB、ZB、YB,甚至BB、NB、DB。大数据的处理方式与传统数据不同,需要通过分布式存储和分布式运算来实现,由此也催生了优秀的大数据处理框架和生态组件。Spark的特色在于它首先为大数据应用提供了一个统一的平台。从数据处理层面看,模型可以分为批处理、交互式、流处理等多种方式;而从大数据平台层面看,已有成熟的Hadoop、Cassandra、Mesos以及其他云的供应商。Spark整合了主要的数据处理模型,并能够很好地与现在主流的大数据平台集成。

许多大型互联网公司,如谷歌、阿里巴巴、百度、京东等都急需掌握大数据技术的人才,因此大数据相关人才出现了供不应求的状况。Spark作为继Hadoop之后的下一代大数据处理引擎,经过飞跃式发展,现已成为大数据产业中的一股中坚力量:RDD模型具有强大的表现能力,并通过不断完善自己的功能而逐渐形成了一套自己的生物圈,提供了全栈(full-stack)的解决方案,其中主要包括Spark内存中批处理、Spark SQL交互式查询、Spark Streaming流式计算、GraphX图计算和Spark ML机器学习算法库。

关于本书

本书基于Spark 3.3.1新版本展开,符合企业目前的开发需要。本书全面讲解Spark大数据技术的相关知识和实战应用,内容包括Scala编程基础、Spark框架全生态体验、Spark RDD、Spark SQL、Spark Streaming、Kafka、Spark GraphX、Spark ML、Redis等技术框架及其应用,并通过广告点击实时分析和电影影评分析两个大数据分析综合项目进行实战提升,夯实Spark大数据分析的基础知识,提升开发技能。

本书重视实践操作开发,内容安排从框架搭建和开发环境安装、技术框架快速示例引入、技术框架详细案例讲解,到大数据分析综合项目实战提升等,将实战与理论知识相结合,从而加深读者对Spark框架应用的理解。

笔者是具有多年大数据分析和处理实战经验的高级工程师,书中融入了笔者多年的实战经验,讲解细致、内容丰富、示例清晰、语言通俗易懂,方便读者提高学习效率,保证学习质量。

配套示例源码、PPT课件等资源下载

本书配套示例源码、PPT课件、教学大纲,需要用微信扫描下边二维码获取。如果下载有问题或阅读中发现问题,请用电子邮件联系booksaga@163.com,邮件主题为“Spark入门与大数据分析实战”。

适合的读者

?Spark框架初学者。

?大数据分析技术人员。

?大数据应用开发工程师。

?高等院校或高职高专大数据课程的师生。

笔  者  

2023年3月