首页 > 图书中心 >图书详情

Cloudera Hadoop大数据平台实战指南

通过实战案例讲解,轻松入门大数据平台

作者:宋立桓、陈建平
定价:59
印次:1-7
ISBN:9787302517535
出版日期:2019.02.01
印刷日期:2024.01.17

对于入门和学习大数据技术的读者来说,大数据技术的生态圈和知识体系过于庞大,可能还没有开始学习就已经陷入众多的陌生名词和泛泛的概念中。本书的切入点明确而清晰,从Hadoop 生态系统的明星 Cloudera 入手,逐步引出各类大数据基础和核心应用框架。 本书分为18章,系统介绍Hadoop 生态系统大数据相关的知识,包括大数据概述、Cloudera Hadoop平台的安装部署、HDFS分布式文件系统、MapReduce计算框架、资源管理调度框架YARN 、Hive数据仓库、数据迁移工具Sqoop、分布式数据库HBase、ZooKeeper分布式协调服务、准实时分析系统Impala、日志采集工具Flume、分布式消息系统Kafka、ETL工具Kettle、Spark计算框架等内容,最后给出两个综合实操案例,以巩固前面所学的知识点。 本书既适合Hadoop初学者、大数据技术工程师和大数据技术爱好者自学使用,亦可作为高等院校和培训机构大数据相关课程的培训用书。

more >

前 言 大数据这个词也许几年前你听着还有点陌生,但我相信你现在听到Hadoop这个词时会觉得“熟悉”!你会发现身边从事Hadoop开发或者正在学习Hadoop的人越来越多。 最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。互联网技术发展到现今阶段,大量日常、工作等事务产生的数据比以前有了爆炸式的增长,以前的传统数据处理技术已经无法胜任,需求催生技术——一套用来处理海量数据的软件技术框架Hadoop应运而生! 我本人一直从事云计算、大数据方面的咨询和培训工作。大数据产业高速发展促使Hadoop人才的需求井喷式增长,但Hadoop大数据工程师培养数量远远无法满足市场的需求。为了不被淹没在大数据技术的浪潮中,我们只有坚持学习,通过增加知识来实现对自我价值的挖掘和体现。 关于本书 Hadoop的发行版除了社区的Apache Hadoop外,Cloudera、Hortonworks、华为等公司都提供了自己的商业版本。因为企业通常使用的是Hadoop商业版本,所以本书实操的运行环境采用Cloudera的CDH。本书定位是大数据从入门到应用的简明系统教程,特色是理论联系实践、实战实用为主、内容全面系统、讲解深入浅出,是大数据技术爱好者入门的最佳图书。 本书分为18章(宋立桓老师撰写第1~12章、陈建平撰写第13~18章),分别从大数据概述、Cloudera Hadoop平台的安装部署、大数据Hadoop组件三方面进行介绍,内容包括HDFS分布式文件系统、MapReduce计算框架、资源管理框架YARN 、Hive数据仓库、数据迁移工具Sqoop、分布式数据库HBase、ZooKeeper分布式协调服务、准实时分析系统Impala、日志采集工具Flume、分布式消息系统Kafka、ETL工具Kettle、Spark计算框架等知识,最后用两个综合实操案例把所有知识点串起来。 本书使用的操作环境是Hadoop商业发行版的Cloudera Express(Express是免费版本,企业版需付费)。全书秉承“实践为主、理论够用”的原则,将演示实验融入各个知识点讲解中。 本书另提供丰富的案例源文件和大数据工具软件下载,供读者亲自操作练习,在作者博客http://blog.51cto.com/lihuansong中有下载地址。 学习本书之前,希望大家应该具有如下基础:有一定计算机网络基础知识,熟悉常用Linux操作命令,对Java语言和数据库理论有基本的了解。 资源下载与技术支持 本书提供详细的案例资源文件,在作者博客置顶文章中提供下载地址,便于读者动手实践: http://blog.51cto.com/lihuansong/2317021 欢迎读者来信互动,宋立桓的邮箱是songlihuan@hotmail.com,陈建平的邮箱是daxia1520@163.com。 致谢 感谢我的妻子,她是我完成此书的坚强后盾。 感谢我的朋友和同事,他们让我学会知识的增值和变现。 感谢清华大学出版社的编辑夏毓彦和其他工作人员帮助我出版了这本有意义的著作。 阿基米德有一句名言:“给我一个支点,我就能撬起地球。”谨以此书献给那些为大数据与商业智能分析铺路的人,让更多的人享受到大数据时代到来的红利。 宋立桓 云计算架构师、大数据咨询顾问 2018年11月

more >
扫描二维码
下载APP了解更多
图书分类全部图书
more >
  • 宋立桓,连续十届微软最有价值专家MVP、系统集成高级项目经理、大数据与云计算培训讲师、微软技术大会动手实验讲师,有20年的工作经验,曾服务于微软担任合作伙伴技术顾问。目前在腾讯,担任腾讯云解决方案架构师。

    陈建平,曾担任IBM(上海)高级数据分析经理,资深技术讲师,10年相关项目经历,长期从事大数据相关研究分析工作。
  • 本书的定位是大数据从入门到应用的简明系统教程。对于Hadoop生态体系,企业通常使用的是Hadoop商业版本,因此本书实操的运行环境采用Cloudera的CDH。本书的特色是理论联系实践、实用性强、内容全面、讲解详细、深入浅出,是大数据技术爱好者入门的最佳图书。本书最后给出的两个实战案例极有价值,方便读者对所学的知识融会贯通。 
more >
  • 目   录

    第1章  大数据概述 1

    1.1  大数据时代的数据特点 1

    1.2  大数据时代的发展趋势——数据将成为资产 2

    1.3  大数据时代处理数据理念的改变 3

    1.3.1  要全体不要抽样 3

    1.3.2  要效率不要绝对精确 3

    1.3.3  要相关不要因果 4

    1.4  大数据时代的关键技术 5

    1.5  大数据时代的典型应用案例 5

    1.5.1  塔吉特超市精准营销案例 5

    1.5.2  谷歌流感趋势案例 6

    1.5.3  证券行业案例 6

    1.5.4  某运营商大数据平台案例 7

    1.6  Hadoop概述和介绍 7

    1.6.1  Hadoop 发展历史和应用现状 7

    1.6.2  Hadoop 的特点 8

    1.6.3  Hadoop 的生态系统 8

    第2章  Cloudera大数据平台介绍 10

    2.1  Cloudera简介 10

    2.2  Cloudera的Hadoop发行版CDH简介 11

    2.2.1  CDH概述 11

    2.2.2  CDH和Apache Hadoop对比 12

    2.3  Cloudera Manager大数据管理平台介绍 12

    2.3.1  Cloudera Manager概述和整体架构 12

    2.3.2  Cloudera Manager的基本核心功能 14

    2.3.3  Cloudera Manager的高级功能 18

    2.4  Cloudera平台参考部署架构 19

    2.4.1  Cloudera的软件体系结构 19

    2.4.2  群集硬件规划配置 19

    2.4.3...

精彩书评more >

标题

评论

版权所有(C)2023 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802042911号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘