清华大学出版社--图书详情

+教师申领样书

首页 > 图书 > 图书详情

Python和PySpark数据分析

详细介绍了如何将PySpark 应用到日常的数据科学工作中。源代码下载地址见书封底二维码。

作者：[加] 乔纳森·里乌（Jonathan Rioux）著殷海英译

丛书名：数据科学与大数据技术

定价：118元

印次：1-1

ISBN：9787302645368

出版日期：2023.10.01

印刷日期：2023.09.27

图书责编：王军

图书分类：零售

电子书

在线购买

京东天猫电子书

内容简介

作者简介

前言序言

资源下载

查看详情查看详情查看详情

Spark数据处理引擎是一个惊人的分析工厂：输入原始数据，输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线，并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。《Python和PySpark数据分析》帮助你使用PySpark解决数据科学的日常挑战。你将学习如何跨多台机器扩展处理能力，同时从任何来源(无论是Hadoop集群、云数据存储还是本地数据文件)获取数据。一旦掌握了基础知识，就可以通过构建机器学习管道，并配合Python、pandas和PySpark代码，探索PySpark的全面多功能特性。主要内容 ● 组织PySpark代码 ● 管理任何规模的数据 ● 充满信心地扩展你的数据项目 ● 解决常见的数据管道问题 ● 创建可靠的长时间运行的任务

作为一家数据驱动软件公司的ML总监，Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。

关于本书本书将教你如何使用PySpark执行自己的大数据分析程序，以实际的场景讲授如何使用PySpark以及为什么使用PySpark。你将学习如何有效地采集和处理大规模数据，以及如何编写自己的数据转换程序。读完本书后，你应该能够熟练地使用PySpark编写自己的数据分析程序。本书目标读者本书使用由浅入深的用例展开，从简单的数据转换一直到机器学习管道。本书涵盖了数据分析的整个生命周期，从数据采集到结果使用，添加了更多关于数据源使用和转换的实用技术。本书主要面向数据分析师、数据工程师和数据科学家，他们希望将Python代码扩展到更大的数据集。理想情况下，你应该在工作中或学习编程时编写过一些与数据相关的程序。如果已经熟练使用Python编程语言及其生态系统，你会从本书中学到更多的实用内容。 Spark(当然还有PySpark)从面向对象和函数式编程中借鉴了很多内容。我认为，仅仅为了有效地使用大数据，就要求完全掌握两种编程范式是不合理的。如果你理解Python类、装饰器和高级函数，就能熟练使用书中一些更高级的结构，让PySpark按照你的意愿运行。如果你对这些概念不熟悉，我会在本书(如果适用)正文和附录中讨论PySpark。本书组织结构：路线图本书分为3部分。第Ⅰ部分介绍PySpark及其计算模型。本部分还会介绍如何构建和提交一个简单的数据程序，重点介绍在每个PySpark程序中都会用到的核心操作，如数据帧中的数据选择、筛选、连接和分组。第Ⅱ部分通过引入分层数据进一步深入介绍数据转换，分层数据是PySpark中可扩展数据程序的...

暂无课件

样章下载

暂无网络资源

版权信息

扫描二维码
下载APP了解更多

荐语

查看详情查看详情

第1章介绍 1

1.1 什么是PySpark 1

1.1.1 从头开始：什么是Spark 2

1.1.2 PySpark = Spark + Python 3

1.1.3 为什么选择PySpark 3

1.2 PySpark的工作原理 5

1.2.1 使用集群管理器进行物理规划 6

1.2.2 懒惰的主管成就工厂的高效 8

1.3 你将从本书学到什么 11

1.4 我们将如何开始 12

1.5 本章小结 13

第Ⅰ部分介绍：PySpark的第一步

第2章使用PySpark编写的第一个数据处理程序 17

2.1 设置pyspark shell 18

2.1.1 SparkSession入口点 20

2.1.2 配置PySpark的日志级别 21

2.2 映射程序 22

2.3 采集和探索：为数据转换奠定基础 23

2.3.1 用spark.read将数据读入数据帧 24

2.3.2 从结构到内容：使用show()探索数据帧 27

2.4 简单的列转换：将句子拆解为单词列表 29

2.4.1 使用select()选择特定的列 30

2.4.2 转换列：将字符串拆分为单词列表 31

2.4.3 重命名列：alias和withColumnRenamed 33

2.4.4 重塑数据：将list分解成行 34

2.4.5 处理单词：更改大小写并删除标点符号 36

2.5 筛选记录 38

2.6 本章小结 40

2.7 扩展练习 40

第3章提交并扩展你的第一... 查看详情

《Python和PySpark数据分析》有 14 章和 3 个附录，详细介绍了如何将PySpark 应用到日常的数据科学工作中。通过通俗易懂的示例，介绍了PySpark中的实用知识点和语法，使你能够轻松掌握PySpark的核心概念，并将其应用于实际工作中。在本书中，你将学习如何使用 PySpark 进行数据预处理、模型训练和评估等常见的数据科学任务。每个章节都以具体的示例和案例展示了 PySpark 在不同情景下的应用方法和技巧。通过实际操作，你将了解如何使用 PySpark 处理大规模数据集、构建复杂的数据处理流程以及应对常见的数据质量和性能挑战。

查看详情

同系列产品

查看详情

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

同系列产品