首页 > 图书中心 >图书详情

Hadoop + Spark 大数据巨量分析与机器学习整合开发实战

手把手教你学习Hadoop + Spark免费赠送范例程序下载 提供微博交流学习及技术支持

作者:林大贵
定价:79
印次:1-1
ISBN:9787302453758
出版日期:2017.01.01
印刷日期:2016.11.10

《Hadoop + Spark大数据巨量分析与机器学习整合开发实战》从浅显易懂的“大数据和机器学习”原理介绍和说明入手,讲述大数据和机器学习的基本概念,如:分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应用。为降低读者学习大数据技术的门槛,书中提供了丰富的上机实践操作和范例程序详解,展示了如何在单台Windows系统上通过Virtual Box虚拟机安装多台Linux虚拟机,如何建立Hadoop集群,再建立Spark开发环境。书中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校,参照书中介绍的搭建过程,同样可以将实践平台搭建在多台实体计算机上,以便更加接近于大数据和机器学习真实的运行环境。 《Hadoop + Spark大数据巨量分析与机器学习整合开发实战》非常适合于学习大数据基础知识的初学者阅读,更适合正在学习大数据理论和技术的人员作为上机实践用的教材。

more >

大数据的影响力正深入到各个领域和行业中。特别在商业、经济以及其他领域,将大量数据进行分析后,便可得到许多数据的关联性。这些关联性可用于预测商业趋势、营销研究、金融财务、疾病研究、打击犯罪等。大数据对每一个企业的决策方式将发生变革——决策方式将基于数据和分析的结果,而不是依靠经验和直觉。 信息科技(Information Technology,IT)浪潮的第一波是大型计算机,第二波是个人计算机(PC机),第三波是网络,第四波是社交媒体,第五波则是“大数据”。每一波的信息科技浪潮都会带来工作与生活方式的改变,创造大量商机、新的产业、大量的工作机会。例如,在网络时代,创造了淘宝、百度、Google(谷歌)、Amazon(亚马逊)等大公司,以及无数.com公司。 每一波浪潮开始时,相关人才的需求激增,从而造成相关人才的紧缺。因此对个人而言,如果能在浪潮兴起时就投入,往往成果很丰硕,并且有机会占有重要职位。例如,网络刚兴起时,每个公司都需要建立网站,但是这方面的人才当时相对不够,能掌握编写网页相关应用程序设计语言的工程师就能够获得高薪。之后,投入的人越来越多,这方面的工程师就没有当初那么吃香了。 之前的科技浪潮,也许你没有机会躬逢其盛,或是没有机会在浪潮初期进入。而目前大数据的浪潮方兴未艾,正是进入的好时机。根据IBM公司调查预估,大数据在2014年的市场规模为71亿美元,2015年则达到了180亿美元,并将以每年增长20%的速度持续成长。机会是给有准备的人的,学会了大数据分析的相关技能,让你有机会获得更好的薪资与职业发展前景。根据美国调查机构Robert Half Technology 2016年趋势报告,在美国,大数据工程师的薪水年增长8.9%,年薪大约13万至18万美金(约合人民币85万元~120万元)。因为人才短缺,企业不惜重金挖角。(搜索Robert Half Technology 2016 就可以下载此调查报告。) 《Hadoop + Spark大数据巨量分析与机器学习整合开发实战》的主题是Hadoop+Spark大数据分析与机器学习。众所周知,Hadoop是运用最多的大数据平台,然而Spark异军突起,与Hadoop兼容而且运行速度更快,各大公司也开始加入Spark的开发。例如,IBM公司加入Apache Spark社区,打算培育百万名数据科学家。谷歌(Google)公司与微软公司也分别应用了Spark的功能来构建服务、发展大数据分析云与机器学习平台。这些大公司的加入,也意味着未来更多公司会采用Hadoop+Spark进行大数据的数据分析。 然而,目前市面上虽然很多大数据的书,但是多半偏向理论或应用层面的介绍,网络上的信息虽然很多,但是也很杂乱。本书希望能够用浅显易懂的原理介绍和说明,再加上上机实践操作、范例程序,来降低大数据技术的学习门槛,带领读者进入大数据与机器学习的领域。当然整个大数据的生态系非常庞大,需要学习的东西太多。希望读者通过《Hadoop + Spark大数据巨量分析与机器学习整合开发实战》的学习,有了基本的概念后,能比较容易踏入这个领域,以便继续深入与研究其他大数据的相关技术。 林大贵

more >
扫描二维码
下载APP了解更多
图书分类全部图书
more >
  • 林大贵,作者从事IT产业多年,包括系统设计、网站开发等诸多领域,具备丰富实战开发经验,多版多部具有影响力的作品。
  • 《Hadoop + Spark大数据巨量分析与机器学习整合开发实战》的博客已开通,作者会在博客里为大家提供服务与交流。
    博客网址:http://blog.sina.com.cn/hadoopsparkbook

    《Hadoop + Spark大数据巨量分析与机器学习整合开发实战》书中的范例程序免费送给读者:
    网址:http://pan.baidu.com/s/1qYMtjNQ

    我们建立了本书的Facebook粉丝团,欢迎读者们加入。粉丝团会不定期贴文,分享最新的Hadoop或Spark信息,你也可以提问并参与交流。
    粉丝团网址:http://www.weibo.com/hadoopsparkbook


    在《Hadoop + Spark大数据巨量分析与机器学习整合开发实战》中,不是对这些原理进行纯理论的阐述,而是提供了丰富的上机实践操作和范例程序,这样极大地降低了读者学习大数据技术的门槛,对于需要直接上机实践的学习者而言,本书更像是一本大数据学习的实践上机手册。书中首先展示了如何在单台 Windows 系统上通过 Virtual Box 虚拟机安装多台Linux虚拟机,而后建立 Hadoop 集群,再建立 Spark 开发环境。搭建这个上机实践的平台并不限制于单台实体计算机,主要是考虑个人读者上机实践的实际条件和环境。对于有条件的公司和学校,参照这个搭建过程,同样可以将实践平台搭建在多台实体计算机上。
    在搭建好大数据上机实践的软硬件环境之后,就可以在各个章节的学习中结合本书提供的范例程序逐一设置、修改、调试和运行,从中学到大数据实践应用中核心技术的真谛——对大数据进行高效的“加工”,萃取大数据中蕴含的“智能和知识”,实现数据的“增值”,并最终将其应用于实际工作或者商业中。
    大数据与云计算的关系密不可分,涉及众多关键技术,如分布式处理、分布式数据库和云存储、虚拟化技术等,本书并未在这些方面深入讲解,因为它们不是本书的重点,建议需要深入学习这方面内容的读者去寻找相关出版物,结合《Hadoop + Spark大数据巨量分析与机器学习整合开发实战》的实践来丰富和完善自己的大数据知识体系。
more >
  • 第1章 大数据与机器学习 1

    1.1 大数据定义 2

    1.2 Hadoop简介 2

    1.3 Hadoop HDFS分布式文件系统 3

    1.4 Hadoop MapReduce的介绍 5

    1.5 Spark的介绍 6

    1.6 机器学习的介绍 8

    第2章 VirtualBox虚拟机软件的安装 11

    2.1 VirtualBox的下载和安装 12

    2.2 设置VirtualBox语言版本 16

    2.3 设置VirtualBox存储文件夹 17

    2.4 在VirtualBox创建虚拟机 18

    第3章 Ubuntu Linux操作系统的安装 23

    3.1 下载安装Ubuntu的光盘文件 24

    3.2 在Virtual设置Ubuntu虚拟光盘文件 26

    3.3 开始安装Ubuntu 28

    3.4 启动Ubuntu 33

    3.5 安装增强功能 34

    3.6 设置默认输入法 38

    3.7 设置“终端”程序 40

    3.8 设置“终端”程序为白底黑字 42

    3.9 设置共享剪贴板 43

    第4章 Hadoop Single Node Cluster的安装 46

    4.1 安装JDK 47

    4.2 设置SSH无密码登录 50

    4.3 下载安装Hadoop 53

    4.4 设置Hadoop环境变量 56

    4.5 修改Hadoop配置设置文件 58

    4.6 创建并格式化HDFS目录 62

    4.7 启动Hadoop 63

    4.8 打开Hadoop ResourceManager Web界...

精彩书评more >

标题

评论

版权所有(C)2014 清华大学出版社有限公司 京ICP备05029640号 京公网安备11010802013248号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘