首页 > 图书中心 > Spark大数据处理技术与实战(Scala版·微课版)

前言

前言

随着数字经济在全球加速推进以及5G通信、人工智能、自动驾驶、物联网、社交媒体等相关技术的快速发展,数据已成为国家基础性战略资源,大数据以从海量数据集合中发现新知识、创造新价值、提升新能力为主要特征,正日益对全球生产、流通、分配、消费活动以及经济运行机制、国家安全、科学研究、社会生活方式和国家治理能力产生重要影响。大数据技术涉及的知识点非常多,本书从高校各专业对大数据技术需求的实际情况出发,详细阐述最流行的Spark大数据处理框架以及相应的主流开发语言Scala。

本书共14章。

第1章为Scala基本概念和基本用法,主要介绍Scala的特性、安装、基础语法。

第2章为Scala字符串和数组,主要介绍创建不可变字符串对象、编写及运行Scala脚本、不可变字符串对象的常用方法、可变字符串对象的创建及其常用方法、Scala数组。

第3章为Scala控制结构,主要介绍布尔表达式、选择结构、条件表达式、while循环、for循环、for推导式、块表达式的赋值、循环中的break和continue语句。

第4章为Scala列表、元组、集合和映射,主要介绍列表、元组、集合和映射4种数据类型及其用法。

第5章为Scala函数,主要介绍定义函数、匿名函数和高阶函数的方法。

第6章为Scala面向对象编程,主要介绍类与对象、构造器、Scala的value与“value_=”方法、object单例对象、App特性、样例类、模式匹配。

第7章为Spark大数据处理框架,主要内容包括Spark概述、Spark的运行机制、Spark的安装及配置、基于Scala的Spark交互式编程模式、基于Python的Spark交互式编程模式。

第8章为Spark RDD编程,主要介绍创建RDD的方式、RDD的转换操作、RDD的行动操作、RDD之间的依赖关系、RDD的持久化,项目实战为用Spark RDD实现词频统计和分析学生考试成绩。

第9章为Windows环境下的Spark综合编程,主要介绍Windows环境下安装Spark与Hadoop、用IntelliJ IDEA搭建Spark开发环境、从MySQL数据库中读取数据,项目实战为分析商品订单并将分析结果保存至数据库。第10章为用Spark SQL处理结构化数据,主要内容包括Spark SQL概述、创建DataFrame对象的方式、将DataFrame对象保存为不同格式的文件、DataFrame对象的常用操作、Dataset对象,项目实战为分析新型冠状病毒感染数据。

第11章为Spark Streaming流处理,主要介绍流处理概述、Spark Streaming的工作原理、Spark Streaming编程模型、创建DStream对象、DStream对象的常用操作,项目实战为实时统计“文件流”的词频。

第12章为Spark Structured Streaming流处理,主要内容包括Structured Streaming流处理概述、Structured Streaming编程模型。

第13章为Spark GraphX图计算,主要介绍GraphX图计算模型、GraphX属性图的创建、属性图的操作、GraphX中的Pregel计算模型,项目实战为分析《平凡的世界》中孙家人物关系图。

第14章为Spark ML机器学习,主要内容包括Spark机器学习库概述、Spark ML的数据类型、管道的主要概念、基本统计、TFIDF特征提取、特征变换转换器、分类和回归算法、聚类算法、推荐算法,项目实战为识别垃圾邮件。

本书由曹洁、辛向军编著,参与本书编写的还有杨许、陈明、李朝阳、郭延哺、马红娟、刘永文、王浩翔。

在本书的编写和出版过程中得到了郑州轻工业大学、清华大学出版社的大力支持和帮助,在此表示感谢。同时,在撰写过程中,参考了大量专业书籍和网络资料,在此向这些作者表示感谢。

由于编写时间仓促,编者水平有限,书中难免有缺点和不足,热切期望得到专家和读者的批评指正,在此表示感谢。您如果遇到任何问题或有宝贵意见,欢迎将其发送邮件至bailj@tup.tsinghua.edu.cn,期待能够收到您的真诚反馈。

编者2023年6月

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘