首页 > 图书中心 >图书详情

Hadoop大数据技术原理与编程(微课版)

提供全套PPT教学课件、专业培养计划、教案、教学大纲、教学进度表。

作者:曹洁,齐平,陈明,王福成
丛书名:面向新工科专业建设计算机系列教材
定价:69
印次:1-1
ISBN:9787302666790
出版日期:2024.07.01
印刷日期:2024.07.11

"本书系统介绍了大数据技术的相关知识,全书共13章,内容包括Hadoop大数据处理架构、HDFS分布式文件系统、YARN资源管理、MapReduce分布式计算框架、HBase分布式数据库、流数据采集、典型非关系数据库的安装与使用、分布式数据分析工具Pig、Spark大数据处理框架、基于Python语言的Spark RDD编程、基于Python语言的Spark SQL结构化数据处理、Hive分布式数据仓库、典型数据可视化工具的使用。本书对大数据相关技术给出详细的编程示例,并给出详细的注解。 本书可作为高等院校计算机、信息管理、软件工程、人工智能、数据科学与大数据技术等相关专业的大数据技术课程教材,也可供相关技术人员参考。 "

more >

前言 大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。大数据技术涉及的知识点非常多,一本书根本无法覆盖所有的知识点。本书从各专业对大数据技术需求的实际情况出发,从大数据技术涉及的基本知识开始,层层推进大数据相关技术的讲解,让初学者能够轻松理解并快速掌握。本书对每个知识点都进行了深入分析,并针对每个知识点精心设计了相关案例。 全书共13章。 第1章 Hadoop大数据处理架构。主要介绍大数据的基本概念、大数据计算模式与典型系统、Hadoop发展历程、Hadoop优缺点、Hadoop生态圈、在VirtualBox上搭建Linux操作系统、Hadoop安装前的准备工作与Hadoop的安装与配置。 第2章 HDFS分布式文件系统。主要介绍HDFS基本特征、HDFS存储架构及组件功能、HDFS读写文件流程、HDFS的Shell操作、HDFS编程实战。 第3章 YARN资源管理。主要介绍YARN基础架构和YARN常用命令。 第4章 MapReduce分布式计算框架。主要介绍MapReduce工作原理、MapReduce工作机制、MapReduce编程类、MapReduce编程实现词频统计。 第5章 HBase分布式数据库。主要介绍HBase系统架构和数据访问流程、HBase数据表、HBase安装与配置、HBase的Shell操作、HBase的Java API操作、HBase案例实战和利用Python语言操作HBase。 第6章 流数据采集。主要介绍Flume和Kafka两种流数据采集工具。 第7章 典型非关系数据库的安装与使用。主要介绍“键值”数据库、列族数据库、文档数据库和图数据库。 第8章 分布式数据分析工具Pig。主要介绍Pig安装与配置和Pig Latin语言。 第9章 Spark大数据处理框架。主要介绍Spark运行机制、Spark的安装及配置、使用PySpark编写Python语言代码、安装pip工具和常用的数据分析库、安装Anaconda和配置Jupyter Notebook。 第10章 基于Python语言的Spark RDD编程。主要介绍RDD的创建方式、RDD转换操作、RDD行动操作、RDD之间的依赖关系、RDD的持久化以及利用Spark RDD实现词频统计的案例实战。 第11章 基于Python语言的Spark SQL结构化数据处理。主要介绍创建DataFrame对象的方法、将DataFrame对象保存为不同格式的文件、DataFrame的常用操作、使用Spark SQL读写MySQL数据库。 第12章 Hive分布式数据仓库。主要介绍Hive的安装、MySQL数据库常用操作、Hive的数据类型和Hive基本操作。 第13章 典型数据可视化工具的使用。主要介绍用基于Python语言编程的WordCloud绘制词云图库、PyeCharts数据可视化库和Tableau绘图软件。 本书可作为高等院校计算机、信息管理、软件工程、人工智能、智能科学与技术、数据科学与大数据技术等相关专业的大数据技术课程教材,也可供相关技术人员参考。 本书由曹洁、齐平、陈明、王福成著,参与撰写的还有崔念杰、周开来、范乃梅、胡春晖。 在本书撰写和出版过程中得到了铜陵学院、清华大学出版社的大力支持和帮助,在此表示感谢。 本书在撰写过程中,参考了大量专业书籍和网络资料,在此向这些作者表示感谢。 由于编写时间仓促,作者水平有限,书中肯定会有不少缺点和不足,热切期望得到专家和读者的批评指正。您如果遇到任何问题,或有更多的宝贵意见,欢迎发送邮件至邮箱bailj@tup.tsinghua.edu.cn,期待能够收到您的真挚反馈。 作者2024年3月

more >
扫描二维码
下载APP了解更多

同系列产品more >

数据库原理与应用(微课版)

邹先霞、王传胜
定 价:69.80元

查看详情
程序设计的计算思维与方法(翻转课...

杨鑫
定 价:69.80元

查看详情
计算机科学基础(第2版·微课版)

刘小丽、杜宝荣、胡彦、
定 价:59元

查看详情
程序设计与问题求解(C语言版·微课...

邓泽林、李峰
定 价:59元

查看详情
并行程序设计

刘轶、杨海龙
定 价:69元

查看详情
图书分类全部图书
more >
  • "内容系统全面:涵盖Hadoop大部分生态组件。
    理论实践结合:每章知识点配丰富实例实践。
    原理浅显易懂:对操作给出示例代码和注解。
    入门门槛较低:零基础轻松快速掌握Hadoop。
    配套资源丰富:有教学课件、教学大纲、源代码、教学视频。
    "

more >
  • 目录

    第1章Hadoop大数据处理架构1

    1.1大数据的基本概念1

    1.1.1大数据时代1

    1.1.2大数据定义1

    1.1.3大数据的特征2

    1.1.4大数据思维2

    1.2大数据计算模式与典型系统3

    1.2.1批处理计算模式与典型系统3

    1.2.2流式计算模式与典型系统4

    1.2.3迭代计算模式与典型系统4

    1.2.4图计算模式与典型系统4

    1.2.5内存计算模式与典型系统5

    1.3Hadoop发展历程5

    1.4Hadoop优缺点6

    1.5Hadoop生态圈6

    1.6在VirtualBox上搭建Linux操作系统8

    1.6.1创建Master节点9

    1.6.2克隆虚拟电脑17

    1.7Hadoop安装前的准备工作21

    1.7.1创建hadoop用户22

    1.7.2安装SSH、配置SSH无密码登录23

    1.7.3安装Java环境23

    1.7.4Linux操作系统下Scala版本的Eclipse的安装与配置… 24

    1.7.5Eclipse环境下Java语言程序开发实例25

    1.8Hadoop的安装与配置28

    1.8.1下载Hadoop安装文件28

    1.8.2Hadoop单机模式配置28

    1.8.3Hadoop伪分布式模式配置30

    1.8.4Hadoop分布式模式配置34

    1.9习题43

    第2章HDFS分布式文件系统44

    2.1HDFS基本特征44

    2.2HDFS存储架构及组件功能45

    2.2.1HDFS存储架构45

    2.2.2数据块45

    2.2.3数据节点46

    2.2.4名称节点46

    2.2.5第二...

精彩书评more >

标题

评论

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘