首页 > 图书中心 >图书详情
大数据技术入门——Hadoop+Spark
作者:于海浩 刘志坤 主编 韩咏 孙栩 副主编
定价:49.90元
印次:1-5
ISBN:9787302591818
出版日期:2022.01.01
印刷日期:2024.01.23
本书基础理论、应用开发以及实际案例相结合,围绕Hadoop、Spark生态圈循序渐进地介绍关于大数据技术领域中的基础知识、应用开发技术和基于Spark的常见机器学习算法,最后以两个实战案例全面、系统地应用了本书介绍的基础知识和应用开发方法。全书共14章,分别为大数据概述、Hadoop简介及安装部署、HDFS、MapReduce计算框架、Hive数据仓库、HBase分布式数据库、Spark基础、Spark RDD弹性分布式数据集、Spark SQL、Spark Streaming实时计算框架、Spark Streaming与Flume、Kafka的整合、Spark MLlib 机器学习、实战案例——分布式优惠券后台应用系统和实战案例——新闻话题实时统计分析系统,书中的每个知识点都有相应的实现代码和实例。 本书主要面向广大从事大数据分析、应用开发、机器学习、数据挖掘的专业人员以及从事高校信息技术专业的教师和高等院校的在读学生及相关领域的广大科研人员。
more >前言 近年来,随着大数据底层设施的逐渐成熟,大数据技术开始结合具体行业,向行业应用延伸。围绕数据资源、基础硬件、通用软件等方面的大数据产业正在逐渐形成。各行各业对大数据人才的需求也日益增强。 鉴于此,国内外一些高校先后开设“数据科学与大数据”专业,旨在培养具备大数据技术的高级人才。 为满足相关技术人员和高校师生学习大数据技术基础知识,我们在总结近几年大数据技术基础知识和应用案例的基础上,以理论结合实践的方式将大数据基本概念、大数据开发技术与实际应用相结合,精心组织并完成了本书的编写。 本书主要内容 本书为一本夯实大数据基础知识,以实际应用为导向的书籍,非常适合初、中级学习大数据技术的读者。读者可以在短时间内学习本书中介绍的所有知识,掌握大数据技术的开发方法。 作为一本关于大数据技术的入门书籍,本书共有14章。 第1章主要介绍了大数据的研究背景、大数据的定义及其技术特点以及大数据处理的主要技术特点与难点,最后阐述了研究大数据的意义。 第2章主要介绍了Hadoop的起源、生态体系和集群架构,对Hadoop的安装配置进行了详细的讲解。 第3章主要介绍了Hadoop中非常重要的分布式存储文件系统——HDFS,分析了HDFS的存储架构以及常用Shell命令和Java API,并且通过一个具体案例实现了HDFS的Java API的编程。 第4章主要介绍了Hadoop的分布式计算框架MapReduce,分析了MapReduce的核心思想、工作原理、运行机制以及MapReduce的核心过程Shuffle,最后通过单词计数和倒排索引两个案例详细分析MapReduce的编写过程和思路。 第5章主要介绍了Hive的架构、安装和相关操作,重点介绍Hive的DDL、DML、DQL操作。 第6章首先介绍了HBase的架构、寻址机制以及HBase的安装,然后介绍了HBase的Shell操作,包括新建表、插入数据、删除等操作,最后介绍了HBase常用的Java API,并且进行了案例实现。 第7章主要介绍了Spark的基本概念和主要特点、Spark的安装、运行架构和运行基本流程,是为学习Spark RDD和 Spark SQL做基础知识储备。 第8章主要介绍了RDD的运行原理和运行流程,并对RDD的基本操作进行了详细的介绍,最后用一个Scala编程案例实现对RDD的操作。 第9章主要介绍了Spark SQL的原理和运行流程,并对DataFrame的基本操作进行了详细的介绍,最后通过三个Scala编程案例实现了Spark SQL的DataFrame操作、Spark SQL 读写MySQL数据库和Spark SQL读写Hive。 第10章主要介绍了Spark Streaming的一些基本概念和原理,介绍了DStream编程模型,最后通过三个Scala编程案例实现了DStream的有状态状态操作、无状态状态操作、输出操作。 第11章主要介绍了Spark Streaming与Flume、Kafka的整合,介绍了Flume和Kafka的安装过程,最后通过一个Scala编程案例实现Spark Streaming与Flume、Kafka的整合与开发。 第12章介绍了机器学习的定义和分类,重点介绍了Spark MLlib目前包含的算法和组件,通过四个具体实例TFIDF、线性回归、逻辑回归、协同过滤展示了利用Spark MLlib进行机器学习的方法和步骤。 第13章介绍了分布式优惠券后台应用系统的开发核心思路,优惠券后台应用系统包括商户投放子系统和用户消费子系统,分别介绍了两个子系统的核心代码以及测试调用过程。 第14章介绍了新闻话题实时统计分析系统的开发核心思路和核心代码以及启动调用过程。 本书特色 (1)以实战开发为导向,对基础理论知识点与开发过程进行详细讲解。 (2)实战案例丰富,涵盖16 个完整项目案例和两个综合案例,综合案例可以加深对本书所学的知识点的理解和掌握。 (3)代码详尽,避免对 API 的形式展示,规避重复代码。 (4)语言简明易懂,由浅入深带领读者学会以 Hadoop生态圈为核心的开发技术和大数据常见的机器学习算法。 配套资源 为便于教学,本书配有源代码、数据集、安装程序、教学大纲。 (1) 获取源代码、数据集方式: 先扫描本书封底的文泉云盘防盗码,再扫描下方二维码,即可获取。 源代码 数据集 (2) 其他配套资源可以扫描本书封底的“书圈”二维码下载。 读者对象 本书主要面向广大从事大数据分析、应用开发、机器学习、数据挖掘的专业人员以及从事高校信息技术专业的教师和高等院校的在读学生及相关领域的广大科研人员。 本书在编写过程中参考了诸多相关资料,在此对原作者表示衷心的感谢。限于作者水平和时间仓促,书中难免存在疏漏之处,欢迎读者批评指正。 作者 2022年1月
more >