





定价:48元
印次:1-1
ISBN:9787302681052
出版日期:2025.03.01
印刷日期:2025.03.14
图书责编:袁勤勇
图书分类:教材
"本书以Spark 3.x和Python 3.x为主线,全面介绍了Spark及其生态体系中常用大数据项目的安装和使用。全书共8章,分别讲解了Spark基础知识、Spark部署、Spark RDD、Spark SQL、Spark Streaming、Kafka、Structured Streaming和Spark MLlib,并在最后完整开发了一个在线教育学生学习情况分析系统,帮助读者巩固前面所学的内容。 本书附有配套视频、教学PPT、教学设计、测试题等资源,同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。 本书可以作为高等院校数据科学与大数据技术及相关专业的教材,也适合大数据开发初学者、大数据分析与挖掘的从业者阅读。 "
张明强,担任江苏传智播客教育科技股份有限公司教材研发中心教材编辑一职,负责编写大数据技术相关教材和制作教材的配套资源,有多年教育领域相关工作经验,曾编写《大数据项目实战》《Spark项目实战》《Hive数据仓库》《NoSQL数据库技术与应用》等大数据技术教材。
前言 党的二十大指出“实践没有止境,理论创新也没有止境”。随着互联网技术的快速发展,各种数字设备、传感器、物联网设备等在全球范围内产生了海量的数据。这些数据以几何速度爆发性增长,给传统的数据处理方式带来了前所未有的挑战。如何满足大规模数据处理的需求,成为了一个热门的研究课题,基于这种需求,人们需要新的技术来处理海量数据。 Spark提供了快速、通用、可扩展的大数据处理分析引擎,有效地解决了海量数据的分析、处理问题,因此基于Spark的各种大数据技术得到了广泛应用和普及。自Spark项目问世以来,Spark生态系统不断壮大,越来越多的大数据技术基于Spark进行开发和应用,在国内外各企业中得到了广泛应用,对于要往大数据方向发展的读者而言,学习Spark是一个不错的选择。 在开发Spark程序的过程中,选择合适的编程语言对于提高开发效率和代码质量至关重要。虽然Spark支持多种编程语言,包括Java、Scala和Python,但是Python语言在Spark开发中的应用越来越受欢迎。其原因在于Python语言在大数据和机器学习领域有着广泛的应用。许多机器学习框架和库,如Scikitlearn、TensorFlow和PyTorch,都提供了Python的API。因此,使用Python语言开发Spark程序可以更方便地整合大数据处理和机器学习任务,使得开发者能够更轻松地构建复杂的数据处理和分析流水线。 本书基于Spark 3.x和Python 3.x,循序渐进地介绍了Spark的相关知识以及Spark生态体系一些常用的组件和开源大数据项目。本书共8章,具体如下。 ...
目录
第1章Spark基础1
1.1初识Spark1
1.1.1Spark概述1
1.1.2Spark的特点2
1.1.3Spark应用场景3
1.1.4Spark与MapReduce的区别3
1.2Spark基本架构及运行流程4
1.2.1基本概念4
1.2.2Spark基本架构5
1.2.3Spark运行流程6
1.3Spark的部署模式7
1.4部署Spark7
1.4.1基于Local模式部署Spark7
1.4.2基于Standalone模式部署Spark9
1.4.3基于High Availability模式部署Spark14
1.4.4基于Spark on YARN模式部署Spark19
1.5Spark初体验20
1.6PySpark的使用22
1.7PyCharm开发Spark程序23
1.8本章小结29
1.9课后习题30
第2章Spark RDD弹性分布式数据集31
2.1RDD简介31
2.2RDD的创建32
2.2.1基于文件创建RDD32
2.2.2基于数据集合创建RDD33
2.3RDD的处理过程34
2.3.1转换算子34
2.3.2行动算子39
2.4RDD的分区42
2.5RDD的依赖关系43
2.6RDD机制44
2.6.1持久化机制44
2.6.2容错机制46
2.7Spark的任务调度46
2.7.1DAG的概念46
2.7.2RDD在Spark中的运行流程48
2.8本章小结49
2.9课后习题49
目录Spark大数据分析与应用(Python... 查看详情
提供从基础理论到实际操作的系统化学习路径
结合案例系统讲解Spark核心组件的原理与应用
通过综合案例完整呈现项目开发流程
提供教学视频、PPT、教学设计、测试题等丰富的教学资源
"