清华大学出版社--图书详情

+教师申领样书

首页 > 图书 > 图书详情

Spark大数据分析技术（Python版·微课版）

学习Spark非常适用的教材，案例丰富，操作性强。提供课件、大纲、源码，咨询QQ：2301891038（仅限教师）。

作者：曹洁

丛书名：面向新工科专业建设计算机系列教材

定价：59元

印次：1-3

ISBN：9787302625520

出版日期：2023.03.01

印刷日期：2024.07.01

图书责编：杨帆

图书分类：教材

电子书

在线购买

京东天猫电子书

内容简介

作者简介

前言序言

资源下载

查看详情查看详情查看详情

本书系统介绍Spark大数据处理框架。全书共8章,内容包括大数据技术概述、Spark大数据处理框架、Spark RDD编程、Spark SQL结构化数据处理、HBase分布式数据库、Spark Streaming流计算、Spark MLlib机器学习、数据可视化。本书可作为高等院校计算机科学与技术、信息管理与信息系统、软件工程、数据科学与大数据技术、人工智能等专业的大数据课程教材，也可供从事大数据开发和研究工作的工程师和科技工作者参考。

前言随着数字经济在全球加速推进以及5G、人工智能、自动驾驶、物联网、社交媒体等相关技术的快速发展，大数据已成为国家基础性战略资源，正日益对全球生产、流通、分配、消费活动，以及经济运行机制、社会生活方式和国家治理能力产生重要影响。2020年4月9日，中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》将数据与土地、劳动力、资本、技术并称为五种要素。海量数据隐含的价值得以发掘的关键是处理大数据的大数据技术，大数据技术涉及的知识点非常多，本书从高校各专业对大数据技术需求的实际情况出发，详解阐述最流行的Spark大数据处理框架。 1. 本书编写特色内容系统全面: 全面介绍Spark 3.2.0的生态组件。原理浅显易懂: 理论实践结合，案例丰富，注释详尽。大数据可视化: 介绍了可视化工具WordCloud、PyeCharts、Plotly。算法代码实现: 使用Python实现书中所有算法。配套资源丰富: 配有教学课件、数据集和源代码。 2. 本书内容组织第1章是大数据技术概述，主要包括大数据的基本概念、代表性大数据技术、大数据编程语言。第2章是Spark大数据处理框架，主要包括Spark概述，Spark运行机制，在VirtualBox上安装Linux集群，Hadoop的安装与配置，Spark的安装及配置，使用PySpark编写Python代码，安装pip工具和一些常用的数据分析库，安装Anaconda和配置Jupyter Notebook。第3章是Spark RDD编程，主要包括RDD的创建方式，RDD转换操作，RDD行...

课件下载

样章下载

暂无网络资源

版权信息

扫描二维码
下载APP了解更多

荐语

查看详情查看详情

第1章大数据技术概述1

1.1大数据的基本概念1

1.1.1大数据的定义1

1.1.2大数据的特征1

1.1.3大数据思维2

1.2代表性大数据技术3

1.2.1Hadoop3

1.2.2Spark5

1.2.3Flink5

1.3大数据编程语言5

1.4在线资源5

1.5拓展阅读——三次信息化浪潮的启示6

1.6习题6

第2章Spark大数据处理框架7

2.1Spark概述7

2.1.1Spark的产生背景7

2.1.2Spark的优点8

2.1.3Spark的应用场景9

2.1.4Spark的生态系统9

2.2Spark运行机制10

2.2.1Spark基本概念10

2.2.2Spark运行架构12

2.3在VirtualBox上安装Linux集群13

2.3.1Master节点的安装13

2.3.2虚拟机克隆安装Slave1节点22

2.4Hadoop安装前的准备工作26

2.4.1创建hadoop用户和更新APT262.4.2安装SSH、配置SSH无密码登录27

2.4.3安装Java环境28

2.4.4Linux系统下Scala版本的Eclipse的安装与配置29

2.4.5Eclipse环境下Java程序开发实例30

2.5Hadoop的安装与配置32

2.5.1下载Hadoop安装文件32

2.5.2Hadoop单机模式配置33

2.5.3Hadoop伪分布式模式配置35

2.5.4Hadoop分布式模式配置40

2.6Spark的安装与配置49

2.6.1下载Spark安装文件4... 查看详情

"内容系统全面：全面介绍Spark3.2.0的生态组件。
原理浅显易懂：理论实践结合案例丰富注释详尽。
大数据可视化：WordCloud、PyeCharts、Plotly。
算法代码实现：使用Python实现书中所有算法。
配套资源丰富：配有教学课件、数据集和源代码。
"

查看详情

同系列产品

查看详情

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

同系列产品