首页 > 图书中心 >图书详情
Spark大数据处理技术与实战(Scala版·微课版)
作者:曹洁 辛向军
丛书名:面向新工科专业建设计算机系列教材
定价:59元
印次:1-2
ISBN:9787302644293
出版日期:2023.11.01
印刷日期:2024.01.22
本书系统介绍了Spark大数据处理框架以及相应的主流开发语言Scala。全书共14章,内容包括Scala基本概念和基本用法,Scala字符串和数组,Scala控制结构,Scala列表、元组、集合和映射,Scala函数,Scala面向对象编程,Spark大数据处理框架、Spark RDD编程,Windows环境下的Spark综合编程,用Spark SQL处理结构化数据,Spark Streaming流处理,Spark Structured Streaming流处理,Spark GraphX图计算,Spark ML机器学习。 本书可作为高等院校计算机科学与技术、信息管理、软件工程、数据科学与大数据、人工智能等相关专业的大数据课程教材,也可供企业中从事大数据开发的工程师和科技工作者参考。
more >前言 随着数字经济在全球加速推进以及5G通信、人工智能、自动驾驶、物联网、社交媒体等相关技术的快速发展,数据已成为国家基础性战略资源,大数据以从海量数据集合中发现新知识、创造新价值、提升新能力为主要特征,正日益对全球生产、流通、分配、消费活动以及经济运行机制、国家安全、科学研究、社会生活方式和国家治理能力产生重要影响。大数据技术涉及的知识点非常多,本书从高校各专业对大数据技术需求的实际情况出发,详细阐述最流行的Spark大数据处理框架以及相应的主流开发语言Scala。 本书共14章。 第1章为Scala基本概念和基本用法,主要介绍Scala的特性、安装、基础语法。 第2章为Scala字符串和数组,主要介绍创建不可变字符串对象、编写及运行Scala脚本、不可变字符串对象的常用方法、可变字符串对象的创建及其常用方法、Scala数组。 第3章为Scala控制结构,主要介绍布尔表达式、选择结构、条件表达式、while循环、for循环、for推导式、块表达式的赋值、循环中的break和continue语句。 第4章为Scala列表、元组、集合和映射,主要介绍列表、元组、集合和映射4种数据类型及其用法。 第5章为Scala函数,主要介绍定义函数、匿名函数和高阶函数的方法。 第6章为Scala面向对象编程,主要介绍类与对象、构造器、Scala的value与“value_=”方法、object单例对象、App特性、样例类、模式匹配。 第7章为Spark大数据处理框架,主要内容包括Spark概述、Spark的运行机制、Spark的安装及配置、基于Scala的Spark交互式编程模式、基于Python的Spark交互式编程模式。 第8章为Spark RDD编程,主要介绍创建RDD的方式、RDD的转换操作、RDD的行动操作、RDD之间的依赖关系、RDD的持久化,项目实战为用Spark RDD实现词频统计和分析学生考试成绩。 第9章为Windows环境下的Spark综合编程,主要介绍Windows环境下安装Spark与Hadoop、用IntelliJ IDEA搭建Spark开发环境、从MySQL数据库中读取数据,项目实战为分析商品订单并将分析结果保存至数据库。第10章为用Spark SQL处理结构化数据,主要内容包括Spark SQL概述、创建DataFrame对象的方式、将DataFrame对象保存为不同格式的文件、DataFrame对象的常用操作、Dataset对象,项目实战为分析新型冠状病毒感染数据。 第11章为Spark Streaming流处理,主要介绍流处理概述、Spark Streaming的工作原理、Spark Streaming编程模型、创建DStream对象、DStream对象的常用操作,项目实战为实时统计“文件流”的词频。 第12章为Spark Structured Streaming流处理,主要内容包括Structured Streaming流处理概述、Structured Streaming编程模型。 第13章为Spark GraphX图计算,主要介绍GraphX图计算模型、GraphX属性图的创建、属性图的操作、GraphX中的Pregel计算模型,项目实战为分析《平凡的世界》中孙家人物关系图。 第14章为Spark ML机器学习,主要内容包括Spark机器学习库概述、Spark ML的数据类型、管道的主要概念、基本统计、TFIDF特征提取、特征变换转换器、分类和回归算法、聚类算法、推荐算法,项目实战为识别垃圾邮件。 本书由曹洁、辛向军编著,参与本书编写的还有杨许、陈明、李朝阳、郭延哺、马红娟、刘永文、王浩翔。 在本书的编写和出版过程中得到了郑州轻工业大学、清华大学出版社的大力支持和帮助,在此表示感谢。同时,在撰写过程中,参考了大量专业书籍和网络资料,在此向这些作者表示感谢。 由于编写时间仓促,编者水平有限,书中难免有缺点和不足,热切期望得到专家和读者的批评指正,在此表示感谢。您如果遇到任何问题或有宝贵意见,欢迎将其发送邮件至bailj@tup.tsinghua.edu.cn,期待能够收到您的真诚反馈。 编者2023年6月
more >