Spark基础编程
从工业、服务行业大数据开发实际需求出发,基于Spark 3.3.x,应用实例丰富,全书提供代码等配套资源

作者:曹如军

丛书名:大数据与人工智能技术丛书

定价:45元

印次:1-1

ISBN:9787302644668

出版日期:2024.02.01

印刷日期:2024.02.02

图书责编:王芳

图书分类:教材

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

主要内容包括,大数据技术概述(或背景知识),Scala基础知识,Spark基础,RDD编程,Spark SQL开发,Spark Streaming / Structured Streaming编程,MLLib 机器学习编程等基础内容。 主要作为本科生数据科学与大数据技术、计算机科学与技术等相关专业必修或选修课程教科书,或作为相关工程技术人员的参考书。 本教材基于Spark 3.3.x等新版本所带来的开发方式、方法的变化,从工业、服务业等行业实际应用开发的角度,介绍Spark开发的基础知识,开发过程中的注意事项,并提供合理建议,从而引导学习过程更贴近大数据开发实际。 除了不同于其他教材所讲解的内容基础未基于新的软件产品或平台外,本教程更是从工业、服务行业大数据开发实际需求出发,引导学习者养成良好的开发习惯,为高效率地解决实际问题打开坚实基础。

曹如军,工学博士,温州大学计算机与人工智能学院副教授。主要研究方向为空间大数据。具有丰富的企业经历,开发或主持开发的项目或系统在业内有较好的口碑。

前言 党的二十大报告中指出: 教育、科技、人才是全面建设社会主义现代化国家的基础性、战略性支撑。必须坚持科技是第一生产力、人才是第一资源、创新是第一动力,深入实施科教兴国战略、人才强国战略、创新驱动发展战略,这三大战略共同服务于创新型国家的建设。高等教育与经济社会发展紧密相连,对促进就业创业、助力经济社会发展、增进人民福祉具有重要意义。 当前正处于大数据时代。数据已经渗透到当今的各个行业、各个领域,成为重要的生产要素。大数据已成为近年来最热门的技术趋势之一。大数据技术相关领域获得的投资呈爆炸式增长,一些与大数据有关的项目也成为最活跃的开源项目。Apache Spark就是其中的优秀代表之一。 本书作为Spark应用开发的基础指导书,尽力将一些复杂的、难以理解的概念、原理直观化、简单化,让刚刚接触大数据开发的读者能够轻松理解并快速掌握。针对Spark应用开发中最常用、最重要的知识点,本书从工程实践的角度进行深入分析,引导读者结合实际,从解决大数据应用场景实际问题的角度,用简单、直接、高效的(思想)方法或工具解决具体问题。另外,结合作者多年的程序开发经验,本书也对Spark应用开发中的注意事项给出了合理的建议。这些内容主要以提示、建议或注意等形式呈现。这些中肯建议不仅对Spark应用开发有一定参考价值,对其他类似项目的实际开发也有借鉴意义。 由于大数据相关技术、软件平台等更新迭代较快,因此本书在介绍相关内容时,尽量选择较新的软件版本。本书所介绍的Spark API基于Spark 3.3.x,相较于Spark 2.x或其他更早版本,部分API有更...

暂无课件

样章下载

暂无网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情

目录

第1章大数据概述

1.1大数据的概念

1.2大数据的关键技术

1.3大数据计算模式

1.4本书内容介绍

1.5Linux虚拟机的安装与使用

1.5.1安装环境

1.5.2安装VirtualBox

1.5.3安装虚拟机系统Ubuntu

1.5.4Linux命令

1.5.5主机与虚拟机交互

第2章Scala基础

2.1Scala概述

2.1.1Scala简介

2.1.2Scala安装

2.1.3Scala使用基础

2.2Scala初步

2.2.1初识Scala REPL

2.2.2变量定义

2.2.3Scala REPL中的多行输入

2.2.4函数定义

2.3Scala基本数据类型与操作

2.3.1基本数据类型

2.3.2操作符

2.3.3运算的优先级与结合性

2.3.4富操作(Rich Operations)

2.4控制结构

2.4.1if表达式

2.4.2while循环

2.4.3for表达式

2.4.4match表达式

2.4.5try表达式(异常处理)

2.5Scala常用数据结构

2.5.1序列数

2.5.2数组

2.5.3列表

2.5.4元组

2.5.5集合

2.5.6映射

2.6函数式编程

2.7Scala类与对象

2.7.1类、字段及方法

2.7.2单例对象

2.7.3样例类

2.8S...

"(1)作为Spark开发提供编程指导书,介绍Spark开发基础知识、RDD编程、SQL编程、Streaming开发以及机器学习开发等内容。
(2)全书内容讲解循序渐进,深入浅出,符合初学者学习的认识规律,易于读者学习和掌握。
(3)从工程实践的角度深入分析,引导读者结合实际,从解决大数据应用场景实际需求的角度出发,用简单、直接、高效的方法或工具解决具体问题。
(4)本书所介绍的Spark API,基于Spark 3.3.x,涉及的其他软件,基本都选择了较新的稳定版本。
(5)全书提供配套的数据、示例代码、阅读材料及练习题。"