Python大数据处理库PySpark实战
使用Python进行Spark分布式机器学习

作者:汪明

定价:79元

印次:1-5

ISBN:9787302575085

出版日期:2021.03.01

印刷日期:2026.01.22

图书责编:夏毓彦

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

我国提出新基建概念,要加快大数据中心、人工智能等新型基础设施的建设进度,这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理,降低大数据学习门槛,本书正是一本PySpark入门教材,适合有一定Python基础的读者学习使用。 本书分为7章,第1章介绍大数据的基本概念、常用的大数据分析工具;第2章介绍Spark作为大数据处理的特点和算法;第3章介绍Spark实战环境的搭建,涉及Windows和Linux操作系统;第4章介绍如何灵活应用PySpark对数据进行操作;第5章介绍PySpark ETL处理,涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容;第6章介绍PySpark如何利用MLlib库进行分布式机器学习(Titanic幸存者预测);第7章介绍一个PySpark和Kafka结合的实时项目。 本书内容全面、示例丰富,可作为广大PySpark入门读者必备的参考书,同时能作为大中专院校师生的教学参考书,也可作为高等院校计算机及相关专业的大数据技术教材使用。

汪明,硕士,毕业于中国矿业大学,徐州软件协会副理事长,某创业公司合伙人。从事软件行业十余年,发表论文数十篇。著有图书《TypeScript实战》《Go并发编程实战》。

前 言 PySpark是Apache Spark为Python开发人员提供的编程API接口,以便开发人员用Python语言对大数据进行分布式处理,可降低大数据处理的门槛。 PySpark优势有哪些?首先PySpark是基于Python语言的,简单易学。其次,PySpark可以非常方便地对大数据进行处理,其中可用SQL方便地从Hadoop、Hive及其他文件系统中读取数据并进行统计分析。最后,PySpark编写的大数据处理程序,容易维护,且部署方便。 PySpark可以从多种数据源中读取数据,并可以对数据进行统计分析和处理,其中包括批处理、流处理、图计算和机器学习模型构建等。它还可以将数据处理的结果持久化到多种文件系统中,为大数据UI展现提供数据支持。PySpark比Java/Scala更容易学习,借助IDE开发工具,可以非常方便地进行代码编写和调试。 如果你对大数据处理有一定兴趣,了解基本的编程知识,立志构建大数据处理的相关应用,那么本书将适合你。本书作为PySpark的入门教材,由浅入深地对PySpark大数据处理方法进行介绍,特别对常用的操作、ETL处理和机器学习进行详细的说明,最后结合实战项目将各个知识点有机整合,做到理论联系实际。 本书特点 (1)理论联系实际,先从大数据基本概念出发,然后对Hadoop生态、Spark架构和部署方式等知识点进行讲解,并结合代码进行阐述,最后通过一个实战项目来说明如何从头到尾搭建一个实时的大数据处理演示程序。 (2)深入浅出、轻松易学,以实例为主线,激发读者的阅读兴趣,让读者能够真正学习到PySpark最实用、最前沿的...

目录
荐语
查看详情 查看详情
目    录

第1章  大数据时代 1

1.1  什么是大数据 1

1.1.1  大数据的特点 2

1.1.2  大数据的发展趋势 3

1.2  大数据下的分析工具 4

1.2.1  Hadoop 5

1.2.2  Hive 6

1.2.3  HBase 6

1.2.4  Apache Phoenix 7

1.2.5  Apache Drill 7

1.2.6  Apache Hudi 7

1.2.7  Apache Kylin 8

1.2.8  Apache Presto 8

1.2.9  ClickHouse 8

1.2.10  Apache Spark 9

1.2.11  Apache Flink 10

1.2.12  Apache Storm 10

1.2.13  Apache Druid 10

1.2.14  Apache Kafka 11

1.2.15  TensorFlow 11

1.2.16  PyTorch 12

1.2.17  Apache Superset 12

1.2.18  Elasticsearch 12

1.2.19  Jupyter Notebook 13

1.2.20  Apache Zeppelin 13

1.3  小结 14

第2章  大数据的瑞士军刀——Spark 15

2.1  Hadoop与生态系统 15

2.1.1  Hadoop概述 15

2.1.2  HDFS体系结构 19

2.1.3  Hadoop生态系统 20

2.2  Spark与Hadoop 23

2... 查看详情

PySpark可以对大数据进行分布式处理,降低了大数据的学习门槛。本书是一本PySpark入门教材,重点讲述PySpark安装、PySpark用法、ETL数据处理、PySpark机器学习及其实战,最后给出一个综合实战案例。本书逻辑线索清晰,内容体系合理,适合有一定Python基础的大数据分析和处理人员学习使用。 查看详情