Python和PySpark数据分析
详细介绍了如何将PySpark 应用到日常的数据科学工作中。源代码下载地址见书封底二维码。

作者:[加] 乔纳森·里乌 (Jonathan Rioux)著 殷海英 译

丛书名:数据科学与大数据技术

定价:118元

印次:1-1

ISBN:9787302645368

出版日期:2023.10.01

印刷日期:2023.09.27

图书责编:王军

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

Spark数据处理引擎是一个惊人的分析工厂:输入原始数据,输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线,并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。 《Python和PySpark数据分析》帮助你使用PySpark解决数据科学的日常挑战。你将学习如何跨多台机器扩展处理能力,同时从任何来源(无论是Hadoop集群、云数据存储还是本地数据文件)获取数据。一旦掌握了基础知识,就可以通过构建机器学习管道,并配合Python、pandas和PySpark代码,探索PySpark的全面多功能特性。 主要内容 ● 组织PySpark代码 ● 管理任何规模的数据 ● 充满信心地扩展你的数据项目 ● 解决常见的数据管道问题 ● 创建可靠的长时间运行的任务

作为一家数据驱动软件公司的ML总监,Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。

关 于 本 书 本书将教你如何使用PySpark执行自己的大数据分析程序,以实际的场景讲授如何使用PySpark以及为什么使用PySpark。你将学习如何有效地采集和处理大规模数据,以及如何编写自己的数据转换程序。读完本书后,你应该能够熟练地使用PySpark编写自己的数据分析程序。 本书目标读者 本书使用由浅入深的用例展开,从简单的数据转换一直到机器学习管道。本书涵盖了数据分析的整个生命周期,从数据采集到结果使用,添加了更多关于数据源使用和转换的实用技术。 本书主要面向数据分析师、数据工程师和数据科学家,他们希望将Python代码扩展到更大的数据集。理想情况下,你应该在工作中或学习编程时编写过一些与数据相关的程序。如果已经熟练使用Python编程语言及其生态系统,你会从本书中学到更多的实用内容。 Spark(当然还有PySpark)从面向对象和函数式编程中借鉴了很多内容。我认为,仅仅为了有效地使用大数据,就要求完全掌握两种编程范式是不合理的。如果你理解Python类、装饰器和高级函数,就能熟练使用书中一些更高级的结构,让PySpark按照你的意愿运行。如果你对这些概念不熟悉,我会在本书(如果适用)正文和附录中讨论PySpark。 本书组织结构:路线图 本书分为3部分。第Ⅰ部分介绍PySpark及其计算模型。本部分还会介绍如何构建和提交一个简单的数据程序,重点介绍在每个PySpark程序中都会用到的核心操作,如数据帧中的数据选择、筛选、连接和分组。 第Ⅱ部分通过引入分层数据进一步深入介绍数据转换,分层数据是PySpark中可扩展数据程序的...

暂无课件

样章下载

暂无网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情
第1章  介绍 1

1.1  什么是PySpark 1

1.1.1  从头开始:什么是Spark 2

1.1.2  PySpark = Spark + Python 3

1.1.3  为什么选择PySpark 3

1.2  PySpark的工作原理 5

1.2.1  使用集群管理器进行物理规划 6

1.2.2  懒惰的主管成就工厂的高效 8

1.3  你将从本书学到什么 11

1.4  我们将如何开始 12

1.5  本章小结 13

第Ⅰ部分  介绍:PySpark的第一步

第2章  使用PySpark编写的第一个数据处理程序 17

2.1  设置pyspark shell 18

2.1.1  SparkSession入口点 20

2.1.2  配置PySpark的日志级别 21

2.2  映射程序 22

2.3  采集和探索:为数据转换奠定基础 23

2.3.1  用spark.read将数据读入数据帧 24

2.3.2  从结构到内容:使用show()探索数据帧 27

2.4  简单的列转换:将句子拆解为单词列表 29

2.4.1  使用select()选择特定的列 30

2.4.2  转换列:将字符串拆分为单词列表 31

2.4.3  重命名列:alias和withColumnRenamed 33

2.4.4  重塑数据:将list分解成行 34

2.4.5  处理单词:更改大小写并删除标点符号 36

2.5  筛选记录 38

2.6  本章小结 40

2.7  扩展练习 40

第3章  提交并扩展你的第一...

《Python和PySpark数据分析》有 14 章和 3 个附录,详细介绍了如何将PySpark 应用到日常的数据科学工作中。通过通俗易懂的示例,介绍了PySpark中的实用知识点和语法,使你能够轻松掌握PySpark的核心概念,并将其应用于实际工作中。在本书中,你将学习如何使用 PySpark 进行数据预处理、模型训练和评估等常见的数据科学任务。每个章节都以具体的示例和案例展示了 PySpark 在不同情景下的应用方法和技巧。通过实际操作,你将了解如何使用 PySpark 处理大规模数据集、构建复杂的数据处理流程以及应对常见的数据质量和性能挑战。