图书前言

前    言  

  

  商务数据分析又称商业分析,是一门新兴交叉学科。它是统计学、数学、信息和计算机科学与商业经济管理学的融合,既注重对经济管理专业知识的理论掌握和实践应用,又注重大数据、人工智能、机器学习的方法和技能,旨在提高管理决策效率。从理论角度来讲,商务数据分析通过把数据映射到镜像世界,用结构化描述的方式和机器学习洞悉数据中的奥秘,找到可行的线索。从实践角度来讲,商务数据分析把案例或实际的数据规律概括成模型,借助模型和数据处理方法(包括分类、聚类、判别、预测等)实现描述、预测或决策的目的,将模型及处理过程部署到社会生产实践中,以改善生产方式、提高生产效益。

  商务数据分析是学习在社会生产实践中如何采集数据并把数据转换成可行的决策。机器学习可以构建基于多种算法的建模方式,理解理论基础,探索、评估和判定可行方案,从而精准洞悉数据的价值。然而,凡事都有两面性,数据挖掘既有正面作用又有负面效应。一方面,用好数据分析可以提升运营绩效、社会治理水平、经济发展水平(例如安防、疫情防控、精准扶贫、地震或海啸等灾害预测);另一方面,滥用数据分析会导致触碰伦理道德底线、法律红线,最终难逃法律的制裁。因此,学习者需要保持谨慎的态度,避免现实生活中数据采集及数据挖掘(例如机器学习)的滥用,注重对数据的管理,包含数据获取、处理、分析、应用过程的合规管理,以及对特定隐私数据的保护。然而,解决数据使用合规性的难题,也是合理使用数据的复杂性问题。这主要体现在以下三个方面。

  (1) 法律对种族、民族、宗教或受保护类型的数据的商业用途有特殊限定。但是,在实际使用数据分析时,排除此类信息远远不够,因为通过机器学习可以推算受保护者的信息,潜在识别特定人群的数据。

  (2) 数据使用不当触碰道德底线问题。比如个人隐私受法律保护,对隐私的界定因内容、年龄层、地点、场景或文化差异等而存在差异。

  (3) 应用程序的服务协议条款问题。服务条款获取数据使用权限涉及侵犯隐私,而不获取数据又无法有效开展服务。

  数字时代最优的制度环境需要在探索过程中逐步形成,对数据分析的应用,一方面坚持底线思维,另一方面强调专业理性、注重包容审慎的态度。在经济发展中完善数字经济治理方案,充分激发产业和企业活力,推动开拓性创新是实现经济高质量变革的有效机制。

  本书的特色主要表现在以下五个方面。

  (1) 价值引领。本书融合数据伦理道德、法律法规、社会准则等主题,普及数据合规认识。

  (2) 问题驱动、目标导向、方法指引。以实践应用为主线,将理论知识应用到实际情境中,并洞察有价值的信息,转化为可行的决策。

  (3) 方法多样、案例丰富。本书介绍多种数据分析方法及其在商务预测和决策中的应用,包括垃圾邮件的识别、信用评估、识别欺诈性消费、精准营销、精益库存管理、商品陈列、企业选址等,但方法和工具本身不局限于该领域的应用。

  (4) 适合拓展学习、终身学习。本书配套自编学习资源,并引荐其他优质学习资源,例如大学慕课平台、软件实验平台及其社群开放的学习资源。

  (5) 融合机器学习,却不止于机器学习。机器学习侧重执行一个已知的任务,而数据挖掘侧重寻找有价值的信息。例如,机器学习方法可以教会机器人送快递,而利用数据挖掘可以了解哪种类型的包裹是被频繁配送的。 

  商务数据分析主要涵盖四个方面的内容:知识表达抽象化,学习过程透明化(收集数据、探索数据、归纳数据、发现规律),问题及方法泛化、评估及检验成效客观化。

  (1) 知识表达抽象化。观点和现实之间的联系可以用雷内·玛格丽特(Rene Magritte)的著名画作《图像的背叛》(The Treachery of Images)说明,一个表现出来的烟斗其实并不是真实的烟斗。抽象化即将客观现实和观念里的知识结构进行关联,把原始感官信息转变成有意义的逻辑结构。数据分析是将原始数据通过一个数据间的结构模型实现知识表达的过程,而抽象的过程中有无数种表达内在关系的可能,因此模型的表达是多样化的。例如,结构方程、线性、曲线、树状、逻辑结构、判别规则、数据分组分类。模型的选择不是由机器完成的,而是由学习的任务和所分析数据的类型决定的。

  (2) 学习过程透明化。数据分析的全过程是透明的,因为对数据进行处理和分析的过程可以被清晰地记录,一方面可以用于广泛交流,另一方面也有助于随时更新或迭代过程。数据分析的内容包括但不限于收集、提取和清洗数据,探索数据的分布和变化趋势,归纳数据的特征,发现数据的变化规律和数据之间的联系与区别等。

  (3) 问题及方法泛化。数据的抽象化过程是理论的搜寻过程,包含所有可能的模型,而泛化或一般化就是把可能的模型减少到可行的数量,便于应用到实际中。通过逐一实验观察结果的传统做法可行性不高,但通过机器学习既可以方便快捷地找到有用的信息和可行的方案,又可以减少误差。

  (4) 评估及检验成效客观化。偏差是数据分析过程中不可避免的,因为每个模型在抽象化和一般化过程中都会出现偏差。在初始的数据集上训练模型之后,要被一个新的数据集检验,并且判断从训练数据得到的特征推广到新数据的好坏程度。在某种程度上,数据中的噪声或无法解释的波动导致模型不能完美地一般化,比如缺失值、极端值、测量误差、错误编码等,模型拟合噪声即过度拟合问题。

  尽管数据抽象化的结构模型及数据一般化过程中可能出现偏差,但是数据分析在商务预测和决策中的作用不可否认。不容置疑的是学习数据分析有助于提升数据素养,拓展知识和技能。重要的是学习数据分析可以学会对潜在问题的感知,对数据信息的探索,对商务应用场景的认知,对数据分析、检验、评估的洞见,对数据处理工具的掌握。

  近年来,机器学习能力、计算机算法和算力不断升级,对现实世界的数据处理能力大幅提升,对数据探索、分析、预测能力增强,而Python、R等开源软件,适合众多企业(中小微企业)、社群及个体学习使用,且有丰富的拓展包。虽然数据分析工具、算法多元化,但是鉴于数据分析方法存在共性,本书以Python为例,从理论到实践,结合案例分析,借助多种机器学习算法实现数据价值挖掘,深入浅出地介绍数据分析在商务领域的应用。

  学习者可基于森林学习法,先系统学习再从不同问题和不同角度探索个性化学习。本书主要学习的数据处理流程可分为三个阶段。

  第一个阶段:数据准备和探索。数据处理的初期核心都与管理和理解所搜集的数据相关,任何学习算法的好坏都取决于输入数据的质量。大多数情况下,输入的数据错综复杂,取自不同的渠道和格式,所以进行数据分析之前需要先进行数据准备和数据探索。

  第二个阶段:基于数据训练模型。基于目标问题,结合初始数据特征,选择数据挖掘方法和机器学习算法进行模型训练。

  第三个阶段:评价和改进模型。针对初始数据训练的模型和算法,利用验证集对模型进行评估和选择,最后对测试集数据进行一般化评价,改进模型及算法。

  本书是上海杉达学院胜祥商学院教师团队在商科传统教学及科研中拓展交叉学科建设与科学研究,挖掘学术研究方法和技能创新,深化教学及科研改革的探索与实践的重要成果之一。在信息技术变革的新时代,数据的获取、存储、传输成本不断降低,数据的有用信息被越来越多地挖掘和利用,在商业、经济及其他社会领域中,数据的价值被越来越多地发挥,而高速变革的社会对传统经济管理专业人才培养及从事科学研究的学者提出了新挑战。洞悉并应对变化,拓展知识、能力、素养的综合发展能力,已是当前高校人才培养调整的趋势,也成为科研人员的必备技能。与此同时,学习商务数据分析也是职场人士提升职业竞争力的有效路径。商务数据分析项目建设在本校支持下,结合了兄弟院校、大数据企业、商业企业及行业机构的力量,开展了大量调研与材料搜集整理工作。在撰写本书及建设资源过程中,笔者借鉴了国内外优秀的著作及期刊文献等阅读资料和国内外精品在线公开课,学习了社群的开放学习资源并收获诸多启示,在此一并表示感谢。此外,笔者对本书中所结合的开源软件Python及其发行版Anaconda的开发人员、各拓展功能包的编程人员及科研学者也表示由衷的感谢。最后,感谢商务数据分析项目团队的老师们、大数据实验平台开发方及大数据工程师们对商务数据分析课程教学和技术的支持。

  本书涉及的内容为交叉学科领域,有别于传统经济管理学科,且相关领域的知识、技能、方法变化更新较快,具有前沿性和挑战性。笔者及其团队也在不断地学习、交流和探索,书中难免会有疏漏之处,敬请读者在阅读后不吝指正并多提宝贵建议,以便后续改进并提升,不胜感谢。

  

  

  编  者