PySpark可以对大数据进行分布式处理,降低了大数据的学习门槛。本书是一本PySpark入门教材,重点讲述PySpark安装、PySpark用法、ETL数据处理、PySpark机器学习及其实战,最后给出一个综合实战案例。本书逻辑线索清晰,内容体系合理,适合有一定Python基础的大数据分析和处理人员学习使用。