首页 > 图书中心 >图书详情
Hadoop高级数据分析 使用Hadoop生态系统设计和构建大数据系统
作者:[美] Kerry Koitzsch 著 王建峰 王瑛琦 于金峰 译
定价:59.80元
印次:1-1
ISBN:9787302487302
出版日期:2018.01.01
印刷日期:2017.11.23
掌握Hadoop高级数据分析技术 学习高级分析技术,并利用现有工具包使分析应用更加强大、精确和高效!《Hadoop高级数据分析 使用Hadoop生态系统设计和构建大数据系统》将架构、设计及实现信息恰当地融为一体,将指导你创建超越基础方法(SF分类、聚类、推荐)的分析系统。 在《Hadoop 高级数据分析 使用Hadoop 生态系统设计和构建大数据系统》中,最佳实践强调“确保连贯、高效的开发”。将使用包含工具箱、库、可视化组件和报表代码在内的标准第三方组件,借助集成“组合件”开发一个可运行的、可扩展的、端到端的完整示例系统。 《Hadoop 高级数据分析 使用Hadoop 生态系统设计和构建大数据系统》强调以下四点: ● 具有分析组件及合理可视化结果的完整、灵活、可配置、高性能数据管道系统的重要性。深入探讨的主题包括Spark、H2O、Vopal Wabbit(NLP)、Stanford NLP、Apache Mahout,以及其他适用的工具包、库和插件。 ● 最佳实践和结构化设计原则。包括重要主题及示例部分。 ● 用混合搭配或混合系统实现应用目标的重要性。你在学习深度示例时可体会到混合方法的重要性。 ● 使用现有第三方库是有效开发的关键。在开发示例系统时,深度示例将展示一些第三方工具包的功能。
more >前 言 Apache Hadoop软件库逐渐受到重视。它是许多公司、政府机构、科研设施进行高级分布式开发的基础。Hadoop生态系统现在包含几十个组件用于搜索引擎、数据库和数据仓库进行图像处理、深度学习及自然语言处理。随着Hadoop2的出现,不同的资源管理器可用于提供更高级别的复杂性和控制力。竞争对手、替代品以及Hadoop技术和架构的继承/变种比比皆是,包括Apache Flink、Apache Spark等。软件专家和评论员多次宣布“Hadoop的死亡”。 我们必须正视一个问题:Hadoop死了吗?这取决于Hadoop本身的感知界限。我们是否认为Apache Spark是Hadoop批处理文件方法的内存继承者,是Hadoop家族的一部分,仅仅因为Apache Spark也使用了Hadoop文件系统HDFS?存在很多“灰色区域”的其他例子,其中较新的技术取代或增强了原有的“Hadoop经典”功能。分布式计算是一个不断移动的目标,是Hadoop和Hadoop生态系统的分界线,在短短几年间已经发生了显著变化。在本书中,我们试图展示Hadoop及其相关生态系统的一些多样的、动态的方面,并试图说服你,尽管Hadoop发生变化,但它依然非常活跃、与当前的软件开发相关并且使数据分析程序员特别感兴趣。
more >