图书前言

前    言

  如今各个行业都积累了海量的历史数据,并不断产生大量的新数据,数据计量已经发展到PB、EB、ZB、YB,甚至BB、NB、DB级别。由此催生了一门全新的技术—Hive离线计算。Hive是Hadoop生态体系的关键组件之一,它的出现使得海量数据可以继续使用传统的数据分析方法SQL语句来处理,降低了数据分析人员的学习成本。数据分析人员不需要学习新的脚本语言,可以继续使用熟悉的SQL结构化查询语句来分析大规模数据。但是,Hive的SQL语句不再运行在传统的数据库或者数据仓库中,而是运行在大数据分布式并行计算处理平台上。

本书内容

  本书内容按照从易到难、理论与实战相结合的思路来组织。俗话说“工欲善其事,必先利其器”,本书在介绍数据仓库和Hive的基本概念之后,马上开始讲解从创建虚拟机、安装Linux操作系统到逐步完成Hive部署的详细过程;然后在部署完成的Hive环境基础上,学习Hive语法基础、Hive数据定义语言、Hive数据操纵语言、Hive数据基本查询等相关操作;接下来深入介绍Hive的其他功能,包括Hive函数、Hive数据压缩、Hive调优等;最后,本书通过网站流量分析项目实战、旅游酒店评价大数据分析项目实战这两个开发案例,帮助读者提升大数据分析的综合实战能力。这两个实战项目都给出了SQL实现和Java编程实现这两种解决方法,为读者做大数据开发起到抛砖引玉的作用。

本书目的

  本书目的是带领读者系统掌握Hive大数据分析工具的使用与开发方法,并通过两个综合项目案例帮助读者提高Hive大数据分析的实战能力。

配套示例源码、PPT课件

  本书配套示例源码、PPT课件、教学大纲,需要用微信扫描右边二维码获取。如果阅读中发现问题或疑问,请联系booksaga@163.com,邮件主题写“Hive入门与大数据分析实战”。

  

本书适合的读者

  本书可作为Hive数据仓库初学者的入门书、Hive离线大数据分析人员的参考手册,也可作为高校开设大数据平台搭建、数据仓库技术或大数据开发课程的参考教材。

  学习本书要求读者有一定的Java编程基础并了解Linux系统的基础知识。本书每一个章节的实践操作都有详细清晰的步骤讲解,即使读者没有任何大数据基础,也可以对照书中的步骤成功搭建属于自己的大数据分析平台;可以说本书是一本真正能提高读者动手能力、以实操为主的Hive入门书。通过本书的学习,结合每章的示例源代码,读者能够迅速理解和掌握Hive技术框架,并能熟练使用Hive数据仓库进行大数据分析和大数据应用开发。

  

  

  笔  者  

  2023年3月