Hadoop+Spark大数据分析实战
详解Hadoop+Spark大数据分析技术 剖析影评分析、旅游酒店评价分析实战项目

作者:迟殿委

丛书名:大数据技术丛书

定价:69元

印次:1-3

ISBN:9787302608844

出版日期:2022.07.01

印刷日期:2025.01.06

图书责编:夏毓彦

图书分类:零售

电子书
在线购买
分享
内容简介
作者简介
前言序言
资源下载
查看详情 查看详情 查看详情

本书是Hadoop + Spark大数据分析技术入门书,基于Hadoop和Spark两大框架体系的3.2版本,以通俗易懂的方式介绍Hadoop + Spark原生态组件的原理、集群搭建、实战操作,以及整个Hadoop生态系统主流的大数据分析技术。 本书共分14章。第1章讲解Hadoop框架及新版本特性,并详细讲解大数据分析环境的搭建工作,包括Linux操作系统的安装、SSH工具使用和配置等;第2章讲解Hadoop伪分布式的安装和开发体验,使读者熟悉Hadoop大数据开发两大核心组件,即HDFS和MapReduce;第3~12章讲解Hadoop生态系统各框架HDFS、MapReduce、输入输出、Hadoop集群配置、高可用集群、HBase、Hive、数据实时处理系统Flume,以及Spark框架数据处理、机器学习等实战技术,并通过实际案例加深对各个框架的理解与应用;第13~14章分别通过影评分析、旅游酒店评价分析实战项目来贯穿大数据分析的完整流程。 本书可以作为大数据分析初学者的入门指导书,也可以作为大数据开发人员的参考手册,同时也适合作为高等院校大数据相关专业的教材或教学参考书。

迟殿委,计算机软件与理论专业硕士,系统架构设计师。有多年企业软件研发经验和丰富的JavaEE培训经验,熟练掌握JavaEE全栈技术框架,对Java核心编程技术有深刻理解。主要擅长JavaEE系统架构设计、大数据分析与挖掘。著有图书《Hadoop+Spark大数据分析实战》《Spring Boot企业级开发实战(视频教学版)》《Spring Boot+Spring Cloud微服务开发》《深入浅出Java编程》。

前 言 如今大数据技术已广泛应用于金融、医疗、教育、电信、政府等领域。各个行业都积累了大量的历史数据,并不断产生大量新数据,数据的种类不断增多,数据体量也急剧增长,数据计量单位已经发展到PB、EB、ZB、YB级甚至BB、NB、DB级,传统的数据存储、管理、分析技术已经无法满足大数据的处理要求。大数据分析不同于传统的数据处理方式,需要通过分布式存储和分布式运算来实现,这也催生了优秀的大数据处理框架和生态组件的出现,Hadoop便是最具代表性的大数据处理生态系统框架,Spark则是更为高效的数据处理框架,二者的结合可以为大数据分析和机器学习提供可靠且高效的解决方案。许多大型互联网公司,如谷歌、阿里巴巴、百度、京东等都急需掌握大数据技术人才,大数据技术人才出现了供不应求的状况。 写作思路 本书从大数据开发和大数据分析岗位需求出发,力求从Hadoop生态圈和Spark生态系统全面解析每个组件。Hadoop框架方面,包括大数据平台搭建、Hadoop各典型组件的实战应用、新版本的集群配置和高可用特性、Hive和HBase的搭建与实战等。Spark框架方面,包括Spark框架数据处理等的基础知识、机器学习实战应用、集群环境搭建,同时包括常用的Shell命令、API操作。本书最后安排了两个综合项目实战案例,一方面用来对Hadoop+Spark框架进行大数据开发和大数据分析的基础内容进行巩固和提高,另一方面,结合电影评论分析和旅游评论分析这样的实际场景,使读者能够把握真实的大数据开发或大数据分析应用项目的技术内容,从而对大数据分析的典型流程有清晰的理解,完成从数据采集、数据分析到数据...

暂无课件

暂无样章

暂无网络资源

扫描二维码
下载APP了解更多

目录
荐语
查看详情 查看详情
目    录

第1章  大数据与Hadoop 1

1.1  什么是大数据 1

1.2  大数据的来源 2

1.3  如何处理大数据 3

1.3.1  数据分析与挖掘 3

1.3.2  基于云平台的分布式处理 4

1.4  Hadoop 3新特性 6

1.5  虚拟机与Linux操作系统的安装 7

1.5.1  VirtualBox虚拟机的安装 7

1.5.2  Linux操作系统的安装 8

1.6  SSH工具与使用 14

1.7  Linux统一设置 16

1.8  本章小结 17

第2章  Hadoop伪分布式集群 18

2.1  安装独立运行的Hadoop 19

2.2  Hadoop伪分布式环境准备 21

2.3  Hadoop伪分布式安装 25

2.4  HDFS操作命令 31

2.5  Java项目访问HDFS 33

2.6  winutils 38

2.7  快速MapReduce程序示例 39

2.8  本章小结 42

第3章  HDFS分布式文件系统 43

3.1  HDFS的体系结构 43

3.2  NameNode的工作 44

3.3  SecondaryNameNode 49

3.4  DataNode 50

3.5  HDFS的命令 51

3.6  RPC远程过程调用 52

3.7  本章小结 53

第4章  分布式运算框架MapReduce 55

4.1  MapReduce的运算过程 55

4.2  WordCount示例 57

4.3  自定义Writable 60

4.4  ... 查看详情

本书全面讲解Hadoop生态圈各组件的核心知识、操作和分析技术,系统介绍Spark框架搭建、操作和典型的机器学习分析技术。最后通过两个综合实战项目——影评分析、旅游酒店评价分析,来贯穿大数据分析的完整流程。 查看详情