





定价:69.8元
印次:1-5
ISBN:9787302583677
出版日期:2021.09.01
印刷日期:2025.01.02
图书责编:杨帆
图书分类:教材
本书以Scala作为开发Flink应用程序的编程语言,系统地介绍了Flink编程的基础知识。全书共8章,内容包括大数据技术概述、Scala语言基础、Flink的设计与运行原理、Flink环境搭建和使用方法、DataStream API、DataSet API、Table API&SQL、FlinkCEP。本书主要章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Flink编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。 本书可作为高等院校大数据、计算机、软件工程等专业的进阶级“大数据”课程教材,用于指导Flink编程实践,也可供相关技术人员参考。
林子雨(1978-),男,博士,国内高校知名大数据教师,厦门大学计算机科学系副教授,中国计算机学会数据库专委会委员,中国计算机学会信息系统专委会委员,中国高校**“数字教师”提出者和建设者。2013年开始在厦门大学开设大数据课程,建设了国内高校**大数据课程公共服务平台,平台累计网络访问量超过1000万次,成为全国高校大数据教学知名品牌,并荣获“2018年福建省教学成果二等奖”,主持的课程《大数据技术原理与应用》获评“2018年国家精品在线开放课程”。
前言 大数据技术正处于快速发展之中,不断有新的技术涌现,Hadoop和Spark等技术成为其中的佼佼者。在Spark流行之前,Hadoop俨然已成为大数据技术的事实标准,在企业中得到了广泛的应用,但其本身还存在诸多缺陷,最主要的缺陷是MapReduce计算模型延迟过高,无法胜任实时、快速计算的需求,因而只适用离线批处理的应用场景。Spark在设计上充分吸收和借鉴了MapReduce的精髓并加以改进,同时,采用了先进的DAG执行引擎,以支持循环数据流与内存计算,因此,在性能上比MapReduce有了大幅度的提升,迅速获得了学界和业界的广泛关注。作为大数据计算平台的后起之秀,Spark在2014年打破了Hadoop保持的基准排序纪录,此后逐渐发展成为大数据领域最热门的大数据计算平台之一。 但是,Spark的短板在于无法满足毫秒级别的企业实时数据分析需求。Spark的流计算组件Spark Streaming的核心思路是将流数据分解成一系列短小的批处理作业,每个短小的批处理作业都可以使用Spark Core进行快速处理。但是,Spark Streaming在实现高吞吐和容错性的同时,却牺牲了低延迟和实时处理能力,最快只能满足秒级的实时计算需求,无法满足毫秒级的实时计算需求。由于Spark Streaming组件的延迟较高,最快响应时间都要在秒级,无法满足一些需要更快响应时间的企业应用的需求,所以,Spark社区又推出了Structured Streaming。Structured Streaming是一种基于Spark SQL引擎构建的、可扩展且容错的流处理引擎。Struc...
第1章大数据技术概述1
1.1大数据概念与关键技术1
1.1.1大数据概念1
1.1.2大数据关键技术2
1.2代表性大数据技术3
1.2.1Hadoop4
1.2.2Spark8
1.2.3Flink10
1.2.4Beam13
1.3编程语言的选择14
1.4在线资源15
1.5本章小结16
1.6习题16
实验1Linux系统的安装和常用命令17
第2章Scala语言基础19
2.1Scala语言概述19
2.1.1计算机的缘起19
2.1.2编程范式20
2.1.3Scala简介22
2.1.4Scala的安装22
2.1.5HelloWorld23
2.2Scala的基础编程知识25
2.2.1基本数据类型和变量25
2.2.2输入输出28
2.2.3控制结构31
2.2.4数据结构35
2.3面向对象编程基础42
2.3.1类42
2.3.2对象48
2.3.3继承53
2.3.4参数化类型57
2.3.5特质59
2.3.6模式匹配64
2.3.7包67
2.4函数式编程基础68
2.4.1函数的定义与使用69
2.4.2高阶函数71
2.4.3闭包72
2.4.4偏应用函数和Curry化72
2.4.5针对容器的操作74
2.4.6函数式编程实例80
2.5本章小结81
2.6习题82
实验2Scala编程初级实践83
第3章Flink的设计与运行原理88
3.1Flink简介88
3.2选择Flink的原因89
3.2.1传统数据处理架构89
3.2...