清华大学出版社--图书前言

图书前言

前言

　　如今各个行业都积累了海量的历史数据，并不断产生大量的新数据，数据计量已经发展到PB、EB、ZB、YB，甚至BB、NB、DB级别。由此催生了一门全新的技术—Hive离线计算。Hive是Hadoop生态体系的关键组件之一，它的出现使得海量数据可以继续使用传统的数据分析方法SQL语句来处理，降低了数据分析人员的学习成本。数据分析人员不需要学习新的脚本语言，可以继续使用熟悉的SQL结构化查询语句来分析大规模数据。但是，Hive的SQL语句不再运行在传统的数据库或者数据仓库中，而是运行在大数据分布式并行计算处理平台上。

本书内容

　　本书内容按照从易到难、理论与实战相结合的思路来组织。俗话说“工欲善其事，必先利其器”，本书在介绍数据仓库和Hive的基本概念之后，马上开始讲解从创建虚拟机、安装Linux操作系统到逐步完成Hive部署的详细过程；然后在部署完成的Hive环境基础上，学习Hive语法基础、Hive数据定义语言、Hive数据操纵语言、Hive数据基本查询等相关操作；接下来深入介绍Hive的其他功能，包括Hive函数、Hive数据压缩、Hive调优等；最后，本书通过网站流量分析项目实战、旅游酒店评价大数据分析项目实战这两个开发案例，帮助读者提升大数据分析的综合实战能力。这两个实战项目都给出了SQL实现和Java编程实现这两种解决方法，为读者做大数据开发起到抛砖引玉的作用。

本书目的

　　本书目的是带领读者系统掌握Hive大数据分析工具的使用与开发方法，并通过两个综合项目案例帮助读者提高Hive大数据分析的实战能力。

配套示例源码、PPT课件

　　本书配套示例源码、PPT课件、教学大纲，需要用微信扫描右边二维码获取。如果阅读中发现问题或疑问，请联系booksaga@163.com，邮件主题写“Hive入门与大数据分析实战”。

本书适合的读者

　　本书可作为Hive数据仓库初学者的入门书、Hive离线大数据分析人员的参考手册，也可作为高校开设大数据平台搭建、数据仓库技术或大数据开发课程的参考教材。

　　学习本书要求读者有一定的Java编程基础并了解Linux系统的基础知识。本书每一个章节的实践操作都有详细清晰的步骤讲解，即使读者没有任何大数据基础，也可以对照书中的步骤成功搭建属于自己的大数据分析平台；可以说本书是一本真正能提高读者动手能力、以实操为主的Hive入门书。通过本书的学习，结合每章的示例源代码，读者能够迅速理解和掌握Hive技术框架，并能熟练使用Hive数据仓库进行大数据分析和大数据应用开发。

　　笔者

　　2023年3月

关于我们

新闻资讯

服务支持

关于我们

新闻资讯

服务支持

图书前言