图书前言

前言

当前,随着信息时代的快速发展,银行、投资、零售、互联网甚至传统的制造业都产生大量数据。各行各业开始逐步应用机器学习算法分析数据,以便在海量数据中总结出规律,辅助决策。这种发展趋势使得就业市场对数据科学、机器学习人才的需求不断增加,同时对人才的多元化、综合实践能力提出了要求。

随着数据分析相关行业的快速发展,数据分析在各个领域都得到了很多成功的应用,企业和政府部门都期望在各个业务方面的工作由数据分析能力强的人承担,更期望员工能够探索有效的数据分析方法,并根据实际数据场景分析结果做出决策,将分析和处理数据作为日常工作流程的一个环节,而不是将数据分析作为一项专业技能。同时,随着数据种类的繁多和数量的爆炸式增长,市场对毕业生的数据分析和处理能力提出了更高的要求,需要有数据分析技能的人才去预测行业前景,及时抓住发展机会,形成独有的竞争优势。高校的基本职能是培养人才,为了使学生更好地适应现代工作场所和终身发展,需要认真思考如何培养应用型人才,以适应当前的就业环境。机器学习相关专业以培养数据分析师、算法工程师、大数据工程师等数据分析、应用型人才为目标,这不仅要求学生理解算法本身,更需要学生具备跨学科的实践能力,将算法逻辑应用到实际生产、生活场景以解决现实问题。

企业对数据分析人才的数量和质量的高要求导致了大数据技术、人工智能人才的大缺口,而目前高校的机器学习教学偏向理论化,更多地注重算法本身,缺乏完善的实践教学体系和教学资源。学生的课堂学习只是面对多种专业理论知识的组合,缺少真实项目的实践过程,学生不能有效地将学习内容应用到实践过程中,这与应用型人才的培养目标存在一定的差距,毕业生不足以适应竞争激烈的就业市场。因此,高校需要更多地考虑就业环境与学生的真实需求,对传统的教学模式进行变革,掌握数据科学时代的新技术和新应用,在遵循教育规律的基础上,将实际项目实践与理论教学融为一体,逐步调整课程内容,培养学生自主思考与解决实际问题的能力,从而提高他们的竞争优势。

如何在教学过程中结合项目实践,已经成为各高校关注的话题。传统的机器学习教学在技能培养、数据与实际案例的选择上仍存在很大的提高空间,这与新时代机器学习人才发展的需求存在一定距离,有必要对人才培养与项目实践相结合进行探索,尝试新的满足社会发展需要的教学模式,为培养具有专业素质和创新能力的机器学习人才奠定坚实的基础。

在学生理解算法原理的基础上,可采用灵活的模块化教学方法来培养学生对实际应用场景的认知。结合案例程序展示其应用,然后结合教学进度提出一些问题,学生通过模仿实现一个类似的验证型实验项目,该项目作为实验项目的原型,学生可访问、分析其功能、代码并测试其效果。随后,以此为基础做扩展实践,学生可以模仿教师提供的案例,通过自主设计并实现一个相对完整的项目,深化并巩固所学的知识,锻炼整体考虑问题的能力,提高灵活应用知识的能力和创新能力。

由于企业面对的很多问题并不能直接交由机器处理,数据的筛选、特征提取以及算法的整合与取舍是需要技巧的。同时,企业实践项目真实灵活并且与当前研究热点紧密相关,在项目解决方案的探讨中学生会面临很多瓶颈,例如样本的不平衡、算法存在的某些缺陷等,这些瓶颈不能直接地从课堂或其他途径上获取到有效的解决方案,更多地需要学生自身总结经验,在现有的思路上进行调优,从而帮助学生掌握算法缺陷,自主发现一些原有教学中被忽略的难点。

企业实践项目不同于常规教学实验,在大多数传统教学方法中,学生按照已有步骤进行规范化的实验,往往可以获得满意的结果。本书正是基于以上的现实需求,结合作者最近几年与企业合作的实战项目,通过一定的抽象和简化,精选了十个比较实用的实训案例,可以作为高校机器学习课程的实验教材,也可以作为学习Python课程的实训教材。

学习本书之前,读者需要掌握基本的机器学习理论,附录有测试题,可以在学习前检验。

在本书的写作过程中,研究生蒲实、于召鑫和本科生高名扬在资料收集方面做了很多工作,特此表示感谢。

赵卫东

2019年6月