首页 > 图书中心 >图书详情
微软大数据解决方案
作者:[美]Adam Jorgensen,James Rowland-Jones,John Welch,Dan Clark,Christopher Price,Brian Mi
定价:58元
印次:1-1
ISBN:9787302396529
出版日期:2015.05.01
印刷日期:2015.04.27
Microsoft强大的大数据平台Windows Azure HDInsight 和Hortonworks Data Platform for Windows改变了企业处 理、存储和管理数据的方式。Microsoft的大数据解决方 案套件被设计用于与公司现有的数据基础设施以及SQL Server、Hadoop等产品进行无缝集成,使客户不必中断工 作流或关键流程即可实施这些方案。假如需要设计和实施 全面部署的大数据解决方案的详明规划蓝图,《微软大数 据解决方案》一书无疑是最佳选择。
more >前 言 如果你正在寻找并渴望知道大数据将对数据世界带来什么样的影响,那么本书就为你而著。与那些动辄几百页让人头疼的长篇累牍的叙述不同,我们通过一种不同方式来阐明你需要大数据,每个人都在做这件事情,而你一定要做得更“酷”一些。 作者团队希望创造出一些东西,它能成为你想脱离现有的关系型世界时的首选资源,不仅为你提供了前进的发展蓝图,还提供了实践经验而不需要你再去四处查找操作条款。大数据的新颖性和复杂性决定了在阐述细节时必须更详尽,而本书做到了! 我们的重点是确保你可以轻松过渡到使用这些工具和技术,因为你需要做的事情我们都曾经历过。也许你的老板参加完一个会议后走到你面前说:“我们需要大数据解决方案。”当你问他想要解决什么问题时,他回答不了,但他却非常清楚大数据解决方案对企业的重要性。此时,你就得承担起让这些大数据由梦想变为现实的责任。 通常,当有数据仓库或数据立方体(cube)需求时,需要通过培训课程和花费很长时间在网上搜寻相关信息,同时这些信息令你感到如此陌生。你将了解到大数据真的是很大——这绝不是双关语。它可以做大事,解决大问题,是一个庞大的含有工具和平台的生态系统。尽管如此,也像其他多数生态系统一样(RDBMS、编程语言、移动化和云),最基本的也只有那么几样东西。一旦能掌握这些最基本的东西,当需要使用更高级的工具或自动化操作时,你会深深被这些基础知识所带来的结果而震惊。 我们的团队 我们组建了一支强大的国际作家团队以确保在正确的主题上传播卓越的观点和知识(稍后将讨论这些内容)。这些主题包括: (1) 大数据、Hadoop、NoSQL和关键行业知识的快捷概述 (2) 人们正试图解决的关键问题以及如何识别这些问题 (3) 在Microsoft环境中交付大数据 (4) 选择工具和平台 (5) 安装、配置和管理 (6) 存储和管理大数据 (7) 使用数据、添加数据结构和清理数据 (8) 大数据与SQL Server结合 (9) 大数据分析 (10) 云端的工作方式 (11) 案例学习以及现实世界的应用 (12) 在崭新的世界中让你的机构取得进步 这支团队的成员来自以下不同的机构:Pragmatic Works公司,它是一家全球领先的信息服务、软件和培训机构;微软研究院;微软咨询服务部;Azure客户咨询团队;以及其他一些在这个不断扩展的领域中产生着巨大影响的行业厂商。 不开玩笑 大数据如潮水般汹涌而至,在24个月之内你的环境就将拥有这些解决方案,而你应该提前准备好。本书旨在帮助你完成从关系型数据到更“进化的”数据世界视野的实用技巧的过渡。这包括处理那些并不非常适合表状结构的数据的解决方案,某些情况下,这些数据与你小心翼翼地维护了许多年的数据一样重要,或许更加重要。 同样,你将学到许多新的术语,作为一门技术课程,它简直就像一门词汇课程一样。 本书读者对象 本书面向数据开发人员、超级用户以及希望理解大数据技术将如何影响他们的世界以及如何在新的生态系统中恰当地采用解决方案的管理人员。读者需要对数据系统有基本的理解,并且拥有学习新技术和新技巧的热情。一些数据库或应用程序解决方案的开发经验将有助于理解一些高级领域的内容。 使用本书的先决条件 我们已将本书设计为广泛使用云资源,因此作为读者,需要有一台能可靠访问互联网的新型电脑,PC或Mac都可以。此外,你将希望能够安装作者建议的额外的程序和工具,因此请确保你对正在使用的机器有恰当的权限。不同的章节将用到不同的工具和数据集,因此请按这些章节中的作者指示来得到最大化的操作体验。某些章节要求拥有对SQL Server数据库的访问权限,假如你希望建立内部环境,那么推荐使用Hyper-V、VMWare或VirtualBox之类的虚拟化技术。 章节内容概述 现在我们将浏览一下本书中的所有章节,并探讨你将在每一章中学到哪些内容。 第1章:行业需求与解决方案 没有涵盖生态系统的历史、起源和使用案例的大数据书籍是不完整的。本书同样需要探讨行业参与者和平台,其他著作会占用5或6章的篇幅来烦琐地讲述这些信息,但是我们更高效地完成了这部分内容,让你有更多时间接触那些更有趣的内容。 第2章:Microsoft大数据解决方法 Microsoft环境下的部署和传统的UNIX或Linux环境下的部署有些许区别。当我们感觉这种方法能让数百万Window管理员、开发人员和超级用户更容易理解时,我们就选择了这种方法。在著书之前就对许多人做过调查,最终发现压倒性地需要一个偏重于Windows的解决方案来帮助拥有最多人数的企业用户接触这门新技术。 第3章:配置首个大数据环境 在该章中将开始配置大数据环境。 第4章: HDFS、Hive、HBase和HCatalog 这些是一些关键的数据和元数据技术,我们将确保你理解使用每一个的正确时机以及如何发挥其最大性能。 第5章:HDFS的数据存储与管理 分布式文件系统对于大部分读者而言可能是一个新概念,因此我们将完整地介绍Hadoop的这个核心组件并确保你准备好使用这个不可思议的功能来进行设计。 第6章:添加Hive结构 由于将经常使用Hive,因此我们需要更深入地钻研它。在该章中让我们一起来一探究竟,确保你理解了有效地使用Hive所需的命令和逻辑。 第7章:使用HBase和HCatalog来扩展功能 处理大型表和元数据需要用到一些新的工具和技术。HBase和HCatalog将有助于你控制这些类型的挑战,我们将让你明白如何使用它们。准备好迎接“大”数据吧! 第8章:使用SSIS、Pig和Sqoop进行有效的大数据ETL 我们不得不加载数据,没有人能提出比我们的ETL专家作者更好的方法了。和他们一起使用熟悉和喜欢的工具以及一些新工具,快速有效地加载数据。 第9章:使用Pig和Hive进行数据研究和高级数据清理 现在我们已经安装、配置、管理并加载过一些数据,让我们使用新的工具和平台来研究和清理数据。 第10章:数据仓库与Hadoop整合 SQL Server和商业智能能在很大程度上适应大数据。大部分时间它们是一前一后地工作。我们将展示使用每种解决方案的时机以及它们在扩大和扩展的解决方案中是如何协同工作的。 第11章:使用Windows BI呈现大数据 现在我们已经有了分析结果,那么要如何将它们形象化地展示给我们的用户?我们有相关的新工具吗?我们会使用我们熟悉的工具吗?当然!让我们一起来做,这样我们可以明白如何将这些解决方案结合起来为我们的用户和客户实现最好的结果。 第12章:大数据分析 你已经听说过分析,这一章包括高级统计学分析、社会情绪分析、预测、建模以及其他很多内容! 第13章:大数据与云 你需要在数据中心拥有大量的服务器才能完成本书中的事项吗?当然不是!我们可使用灵活的、可伸缩的方式在云端完成这些事项。 第14章:现实生活中的大数据 其他公司在这个生态环境中是如何取得成功或遭遇失败的。我们将看看一些最有代表意义的成功和失败案例,并理解为什么会产生这种结果,那样我们就可以复制成功的经验或避免失败的结果。 第15章:创建和执行大数据计划 我们应该如何利用已经完成的东西并将其变为现实?该章将帮助你制订大数据规划。 第16章:运营的大数据管理 好像其他关键系统一样,管理这些技术并将它们整合进现有的基础架构中需要进行规划并仔细执行。让我们一起来完成这个规划吧! 本书特色 本书使用的以下特色段落和图标有助于将你的注意力转移到本书中一些最重要或最有用的信息上。 警告: 看到这个时一定要警觉,当因一些特定步骤没有被正确执行而造成损害时,就会看到这样一个旁白。 提示: 这些旁白包含一些快速提示,讲述如何简单地执行手头的任务。 注意: 这些旁白包含可能很重要的额外信息,包括能让特定项目开发更简单的视频链接和在线材料。 示例标题 这些旁白是关于当前话题或相关话题的一些更深入介绍。 微软大数据解决方案 前 言 XII XIII
more >