首页 > 图书中心 > 分布式机器学习实战

前言

前言

互联网技术的发展催生了大数据平台,尤其公司大数据部门基本是以Hadoop大数据平台为基础,在这之上通过机器学习建模、算法工程落地成产品,通过数据分析进行大数据可视化展示来影响管理层决策。另外,以数据和机器学习来科学地驱动产品设计也成为主流。随着海量用户数据的积累,传统单机版机器学习框架已经不能满足数据日益增长的需求,于是分布式机器学习应运而生。本书以分布式机器学习为主线,对目前主流的分布式机器学习框架和算法进行重点讲解,侧重实战,最后是几个工业级的系统实战项目。

全书共分为8章,分别介绍互联网公司大数据和人工智能、大数据算法系统架构、大数据基础、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习实战、完整工业级系统实战(推荐算法系统实战、人脸识别实战、对话机器人实战)等内容。

第1章介绍了大数据常用框架及人工智能的常用算法,并且对公司实际的大数据部门组织架构,以及每个职位的技能要求、发展方向、市场薪资水平等都做了介绍,这一章可以帮助读者从整体上认识大数据和人工智能的常用技术框架和算法,以及公司的实际工作场景。第2章介绍应用场景,并且对个性化推荐系统、个性化搜索、用户画像系统的架构原理做了深入的讲解,方便从整体上把握一个完整的系统,提高系统架构设计能力,并指导读者针对某个系统模块应该掌握哪些核心技术。第3章讲解大数据基础,为后面的分布式机器学习平台打基础。第4章讲解Docker容器,可以帮读者快速构建标准化运行环境,以便节省时间和简化部署。第5章讲解的Mahout分布式机器学习是基于Hadoop的MapReduce计算引擎来分布式训练的。第6章介绍Spark如何读取Hadoop分布式存储文件系统HDFS上的数据在内存里做迭代计算,以此提高训练性能。第7章介绍基于TensorFlow和MXNet框架基础上的神经网络算法如何读取Hadoop的HDFS数据,如何使用Kubernetes管理集群进行分布式训练。第5~7章是本书分布式机器学习的主线。第8章突出本书的实战性,尤其是推荐系统的实战,能让读者完整地认识实际工作中的系统产品是怎样来做的,以便快速地投入到实际工作中去。

陈敬雷

2020年5月

版权所有(C)2019 清华大学出版社有限公司 京ICP备10035462号 京公网安备11010802013248号

联系我们 | 网站地图 | 法律声明 | 友情链接 | 盗版举报 | 人才招聘