首页 > 图书中心 >图书详情

Spark大数据处理技术与实战(Scala版·微课版)

提供全套PPT教学课件、专业培养计划、教案、课程大纲、教学进度表。

作者:曹洁 辛向军
丛书名:面向新工科专业建设计算机系列教材
定价:59
印次:1-2
ISBN:9787302644293
出版日期:2023.11.01
印刷日期:2024.01.22

本书系统介绍了Spark大数据处理框架以及相应的主流开发语言Scala。全书共14章,内容包括Scala基本概念和基本用法,Scala字符串和数组,Scala控制结构,Scala列表、元组、集合和映射,Scala函数,Scala面向对象编程,Spark大数据处理框架、Spark RDD编程,Windows环境下的Spark综合编程,用Spark SQL处理结构化数据,Spark Streaming流处理,Spark Structured Streaming流处理,Spark GraphX图计算,Spark ML机器学习。 本书可作为高等院校计算机科学与技术、信息管理、软件工程、数据科学与大数据、人工智能等相关专业的大数据课程教材,也可供企业中从事大数据开发的工程师和科技工作者参考。

more >

前言 随着数字经济在全球加速推进以及5G通信、人工智能、自动驾驶、物联网、社交媒体等相关技术的快速发展,数据已成为国家基础性战略资源,大数据以从海量数据集合中发现新知识、创造新价值、提升新能力为主要特征,正日益对全球生产、流通、分配、消费活动以及经济运行机制、国家安全、科学研究、社会生活方式和国家治理能力产生重要影响。大数据技术涉及的知识点非常多,本书从高校各专业对大数据技术需求的实际情况出发,详细阐述最流行的Spark大数据处理框架以及相应的主流开发语言Scala。 本书共14章。 第1章为Scala基本概念和基本用法,主要介绍Scala的特性、安装、基础语法。 第2章为Scala字符串和数组,主要介绍创建不可变字符串对象、编写及运行Scala脚本、不可变字符串对象的常用方法、可变字符串对象的创建及其常用方法、Scala数组。 第3章为Scala控制结构,主要介绍布尔表达式、选择结构、条件表达式、while循环、for循环、for推导式、块表达式的赋值、循环中的break和continue语句。 第4章为Scala列表、元组、集合和映射,主要介绍列表、元组、集合和映射4种数据类型及其用法。 第5章为Scala函数,主要介绍定义函数、匿名函数和高阶函数的方法。 第6章为Scala面向对象编程,主要介绍类与对象、构造器、Scala的value与“value_=”方法、object单例对象、App特性、样例类、模式匹配。 第7章为Spark大数据处理框架,主要内容包括Spark概述、Spark的运行机制、Spark的安装及配置、基于Scala的Spark交互式编程模式、基于Python的Spark交互式编程模式。 第8章为Spark RDD编程,主要介绍创建RDD的方式、RDD的转换操作、RDD的行动操作、RDD之间的依赖关系、RDD的持久化,项目实战为用Spark RDD实现词频统计和分析学生考试成绩。 第9章为Windows环境下的Spark综合编程,主要介绍Windows环境下安装Spark与Hadoop、用IntelliJ IDEA搭建Spark开发环境、从MySQL数据库中读取数据,项目实战为分析商品订单并将分析结果保存至数据库。第10章为用Spark SQL处理结构化数据,主要内容包括Spark SQL概述、创建DataFrame对象的方式、将DataFrame对象保存为不同格式的文件、DataFrame对象的常用操作、Dataset对象,项目实战为分析新型冠状病毒感染数据。 第11章为Spark Streaming流处理,主要介绍流处理概述、Spark Streaming的工作原理、Spark Streaming编程模型、创建DStream对象、DStream对象的常用操作,项目实战为实时统计“文件流”的词频。 第12章为Spark Structured Streaming流处理,主要内容包括Structured Streaming流处理概述、Structured Streaming编程模型。 第13章为Spark GraphX图计算,主要介绍GraphX图计算模型、GraphX属性图的创建、属性图的操作、GraphX中的Pregel计算模型,项目实战为分析《平凡的世界》中孙家人物关系图。 第14章为Spark ML机器学习,主要内容包括Spark机器学习库概述、Spark ML的数据类型、管道的主要概念、基本统计、TFIDF特征提取、特征变换转换器、分类和回归算法、聚类算法、推荐算法,项目实战为识别垃圾邮件。 本书由曹洁、辛向军编著,参与本书编写的还有杨许、陈明、李朝阳、郭延哺、马红娟、刘永文、王浩翔。 在本书的编写和出版过程中得到了郑州轻工业大学、清华大学出版社的大力支持和帮助,在此表示感谢。同时,在撰写过程中,参考了大量专业书籍和网络资料,在此向这些作者表示感谢。 由于编写时间仓促,编者水平有限,书中难免有缺点和不足,热切期望得到专家和读者的批评指正,在此表示感谢。您如果遇到任何问题或有宝贵意见,欢迎将其发送邮件至bailj@tup.tsinghua.edu.cn,期待能够收到您的真诚反馈。 编者2023年6月

more >
扫描二维码
下载APP了解更多

同系列产品more >

并行程序设计

刘轶、杨海龙
定 价:69元

查看详情
Linux操作系统基础——面向人工智...

曹洁,张志锋,冯柳
定 价:59元

查看详情
人工智能应用的数学基础(微课版)

刘帅 付维娜 代建华
定 价:69元

查看详情
信息检索与搜索引擎(微课版)

闫琰、班晓娟、刘煜豪
定 价:49元

查看详情
算法设计与问题求解(第2版·微课版)...

邓泽林、李峰
定 价:59元

查看详情
图书分类全部图书
more >
  • "l 内容系统全面:全面阐明Spark3.2生态组件
    l 理论实践结合:配丰富案例实践每章知识点
    l 原理浅显易懂:对操作给出示例代码和注解
    l 入门门槛较低:零基础轻松快速掌握Spark
    l 教材配套资源:教学课件、源代码、教学视频
    "

more >
  • 目录

    第1章Scala基本概念和基本用法1

    1.1Scala概述1

    1.1.1Scala的特性1

    1.1.2安装Scala2

    1.2Scala的基础语法4

    1.2.1声明常量和变量4

    1.2.2输出6

    1.2.3输入7

    1.2.4数据类型7

    1.2.5运算符9

    1.3拓展阅读——三次信息化浪潮的启示11

    1.4习题11

    第2章Scala字符串和数组12

    2.1创建不可变字符串对象12

    2.2编写及运行Scala脚本12

    2.3不可变字符串对象的常用方法13

    2.3.1字符串的基本操作13

    2.3.2匹配与替换字符串15

    2.3.3分割字符串16

    2.3.4变换字符串16

    2.4可变字符串对象的创建及其常用方法17

    2.4.1创建可变字符串对象17

    2.4.2可变字符串对象的常用方法18

    2.5Scala数组18

    2.5.1定长数组18

    2.5.2变长数组19

    2.5.3数组的转换19〖3〗Spark大数据处理技术与实战(Scala版·微课版)目录〖3〗2.5.4数组对象的常用方法20

    2.6拓展阅读——两弹一星精神23

    2.7习题23

    第3章Scala控制结构24

    3.1布尔表达式24

    3.2选择结构24

    3.2.1单向if选择语句24

    3.2.2双向if…else选择语句25

    3.2.3嵌套if…else选择语句25

    3.3条件表达式26

    3.4while循环26

    3.5for循环27

    3.6for推导式29

    3.7块表达式的赋值30

    3.8循环中的break和continue语句31 ...

精彩书评more >

标题

评论

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘