首页 > 图书中心 > Hadoop大数据技术基础(Python版)微课视频版

前言

前言

1. 为什么要学习本书

随着5G、工业互联网、人工智能等前沿科技的发展,工业大数据将从探索起步阶段迈入纵深发展阶段,迎来快速发展的机遇期,全球工业大数据行业的竞争也将变得更为激烈。随着市场数据增长的加剧,国家对数据服务的要求也越来越多样化、专业化、快速化,大数据的存储和分析无疑对所有数据企业是一个挑战。

Apache Hadoop是用于大规模数据存储及处理的分析引擎,具有高可靠性、高效性、高扩展性、高容错性、低成本等特点,并且在Hadoop生态体系中,包含了分布式文件存储系统、分布式计算系统、分布式列存储数据库、分布式协作服务、数据仓库等多方面的解决方案,深受广大软件开发工程师的喜爱。对于想从事大数据行业的开发人员来说,学好Hadoop尤为重要。

Hadoop技术功能强大,涉及知识面较广,没有基础的读者很难深入Hadoop体系架构之中,因此本书采用理论和案例相结合的讲解方式,将知识点由浅入深、由易到难地进行解析,让初学者能够在逐渐深入的学习过程中掌握Hadoop的生态体系。

2. 本书内容

本书共分10章,各章内容简介如下。

第1章主要介绍大数据的产生与发展,以及大数据技术的生态工具。通过本章的学习,读者应了解为什么要学习大数据、大数据生态系统有哪些成员。

第2章主要介绍Linux系统的安装、基本命令操作、权限与目录管理、文件操作及网络配置。通过本章的学习,读者应掌握Linux系统的常用操作。

第3章主要介绍Python 3语言的基础语法。通过本章的学习,读者应掌握Python 3环境的安装与配置,熟悉Python 3的基础语法。

第4章主要介绍Hadoop生态圈常用工具和Hadoop大数据集群环境的搭建。通过本章的学习,读者应掌握Hadoop大数据集群环境的搭建及Hadoop大数据集群常见问题的处理。

第5章主要介绍HDFS的工作原理及HDFS的操作。通过本章的学习,读者应掌握HDFS的工作原理、HDFS命令与HDFS API的常用操作,并且能够使用API解决实际问题。

第6章主要介绍MapReduce的工作原理及API的操作。通过本章的学习,读者应掌握MapReduce的工作原理和API的常用操作,并且能够使用MRJob模型编程解决实际问题。

第7章主要介绍Hive数据仓库的工作原理、Hive环境的搭建和HiveQL的使用。通过本章的学习,读者应掌握Hive环境的安装与配置,熟悉HiveQL的基础语法,并且能够使用HiveQL解决实际问题。

第8章主要介绍HBase分布式数据库的数据模型以及操作方式。通过本章的学习,读者应掌握部署HBase集群的方法,了解HBase存储数据的架构原理,并且能够使用HBase分布式数据库解决实际问题。

第9章主要介绍Sqoop工具的环境搭建及Sqoop工具的使用。通过本章的学习,读者应掌握Sqoop工具的安装和操作,并且能够使用Sqoop工具实现ETL操作。

第10章主要介绍货运车分布分析平台的构建、开发和部署,该平台是基于HDFS的离线分析项目,使用Python语言对分析结果进行了可视化展示。通过本章的学习,读者应掌握如何基于Python语言开发Hadoop程序。

3. 作者与致谢

本书由刘彬斌著,参与本书的编写、资料整理、书稿校对、课件制作等工作的有周磊、廖云华、胡涵等。感谢清华大学出版社专业严谨的工作态度,为本书的顺利出版提供了宝贵的意见,并付出了辛勤的劳动。

4. 配套资源

读者在学习本书时,可以配合与本书配套的讲解视频、教学大纲、PPT课件、习题和实例源码等资源,快速提升编程水平和解决实际问题的能力。

读者扫描本书封底“文泉云盘”涂层下的二维码,绑定微信后,即可扫描书中的二维码观看对应视频来进行学习(配有视频的章节已在目录中标出)。

教学大纲、PPT课件、习题答案和实例源码等资源可以从清华大学出版社官方微信公众号“书圈”(见封底)下载。关于本书及资源使用中的问题,请联系404905510@qq.com。

编者2022年1月

版权所有(C)2022 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802013248号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘