首页 > 图书中心 >图书详情
Cloudera Hadoop大数据平台实战指南
作者:宋立桓、陈建平
定价:59元
印次:1-7
ISBN:9787302517535
出版日期:2019.02.01
印刷日期:2024.01.17
对于入门和学习大数据技术的读者来说,大数据技术的生态圈和知识体系过于庞大,可能还没有开始学习就已经陷入众多的陌生名词和泛泛的概念中。本书的切入点明确而清晰,从Hadoop 生态系统的明星 Cloudera 入手,逐步引出各类大数据基础和核心应用框架。 本书分为18章,系统介绍Hadoop 生态系统大数据相关的知识,包括大数据概述、Cloudera Hadoop平台的安装部署、HDFS分布式文件系统、MapReduce计算框架、资源管理调度框架YARN 、Hive数据仓库、数据迁移工具Sqoop、分布式数据库HBase、ZooKeeper分布式协调服务、准实时分析系统Impala、日志采集工具Flume、分布式消息系统Kafka、ETL工具Kettle、Spark计算框架等内容,最后给出两个综合实操案例,以巩固前面所学的知识点。 本书既适合Hadoop初学者、大数据技术工程师和大数据技术爱好者自学使用,亦可作为高等院校和培训机构大数据相关课程的培训用书。
more >前 言 大数据这个词也许几年前你听着还有点陌生,但我相信你现在听到Hadoop这个词时会觉得“熟悉”!你会发现身边从事Hadoop开发或者正在学习Hadoop的人越来越多。 最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。互联网技术发展到现今阶段,大量日常、工作等事务产生的数据比以前有了爆炸式的增长,以前的传统数据处理技术已经无法胜任,需求催生技术——一套用来处理海量数据的软件技术框架Hadoop应运而生! 我本人一直从事云计算、大数据方面的咨询和培训工作。大数据产业高速发展促使Hadoop人才的需求井喷式增长,但Hadoop大数据工程师培养数量远远无法满足市场的需求。为了不被淹没在大数据技术的浪潮中,我们只有坚持学习,通过增加知识来实现对自我价值的挖掘和体现。 关于本书 Hadoop的发行版除了社区的Apache Hadoop外,Cloudera、Hortonworks、华为等公司都提供了自己的商业版本。因为企业通常使用的是Hadoop商业版本,所以本书实操的运行环境采用Cloudera的CDH。本书定位是大数据从入门到应用的简明系统教程,特色是理论联系实践、实战实用为主、内容全面系统、讲解深入浅出,是大数据技术爱好者入门的最佳图书。 本书分为18章(宋立桓老师撰写第1~12章、陈建平撰写第13~18章),分别从大数据概述、Cloudera Hadoop平台的安装部署、大数据Hadoop组件三方面进行介绍,内容包括HDFS分布式文件系统、MapReduce计算框架、资源管理框架YARN 、Hive数据仓库、数据迁移工具Sqoop、分布式数据库HBase、ZooKeeper分布式协调服务、准实时分析系统Impala、日志采集工具Flume、分布式消息系统Kafka、ETL工具Kettle、Spark计算框架等知识,最后用两个综合实操案例把所有知识点串起来。 本书使用的操作环境是Hadoop商业发行版的Cloudera Express(Express是免费版本,企业版需付费)。全书秉承“实践为主、理论够用”的原则,将演示实验融入各个知识点讲解中。 本书另提供丰富的案例源文件和大数据工具软件下载,供读者亲自操作练习,在作者博客http://blog.51cto.com/lihuansong中有下载地址。 学习本书之前,希望大家应该具有如下基础:有一定计算机网络基础知识,熟悉常用Linux操作命令,对Java语言和数据库理论有基本的了解。 资源下载与技术支持 本书提供详细的案例资源文件,在作者博客置顶文章中提供下载地址,便于读者动手实践: http://blog.51cto.com/lihuansong/2317021 欢迎读者来信互动,宋立桓的邮箱是songlihuan@hotmail.com,陈建平的邮箱是daxia1520@163.com。 致谢 感谢我的妻子,她是我完成此书的坚强后盾。 感谢我的朋友和同事,他们让我学会知识的增值和变现。 感谢清华大学出版社的编辑夏毓彦和其他工作人员帮助我出版了这本有意义的著作。 阿基米德有一句名言:“给我一个支点,我就能撬起地球。”谨以此书献给那些为大数据与商业智能分析铺路的人,让更多的人享受到大数据时代到来的红利。 宋立桓 云计算架构师、大数据咨询顾问 2018年11月
more >