1 第1章 以 价 值 为 中 心 的分析方法 1.1 概述 在本章,我们将通过对利润驱动的商业分析进行更宽泛的介绍,从而为后面的内 容做好准备。本书所提出的以价值为中心的分析,其定位与传统统计角度形成对照。 要采纳以价值为中心的分析并应用在业务中,意义重大:需要来自管理者和数据科学 家在开发、实施及运营分析模型中的观念的改变。然而,这也要求对高级分析方法内 在原理的更深入的洞察。提供这样的洞察是我们写下本书的总体目标,更特别的是: ■ 我们的目标是,对于商业应用的最新分析技术,为读者提供一个体系 化概览。 ■ 我们想要从实践者的角度,帮助读者获取这些方法的内部工作和内在 原理的更深入的操作性理解。 ■ 通过展示利用这些高级分析方法所提供的洞察如何产生巨大增值,或 如何通过提升商业流程降低运营成本,以此希望促进读者理解高级分 析的管理作用。 ■ 我们力图推进针对商业情境中需求和需要而定制的分析方法的应用的 繁荣和便捷。 2 大数据分析与变现: 利润驱动 因此,我们希望本书,能够促进企业通过接受在本书后面章节中将要介绍的高 级方法,在决策中能够对分析的使用再上一个台阶。要做到这个,需要企业在获取 和发展相应知识和技能方面的投资,当然,这也将产生新增利润。本书讨论的方法 有一个有趣的特点,它们通常是在学术和商业的交集处发展出来,通过学术和实践 者共同投入力量,将大量不同方法调整为能够针对在不同商业场景中遇到的共同的 具体需求和问题特征。 很多方法的出现只是在千禧年之后,这也不足为奇。自千禧年以来,我们已经 见证了信息、网络和数据库技术的持续且不断获得进步的发展及其使用范围的不断 扩展。关键技术演进包括万维网和互联网服务的高速增长和扩大、智能手机的采 用、企业资源规划 (ERP)系统的标准化及信息技术其他的大量应用。这些巨大的 变化促进了分析的商业应用的繁荣,并成为一个科学和产业的迅速发展和欣欣向荣 的分支。 为了达到既定目标,我们选择采用一个实用主义的方法来对技术和概念进行解 释。我们没有将重点放在提供更宽泛的数学证明或更细节的算法之上,而是聚焦于 与所探讨方法在相应商业情境中实践应用相关的关键洞察和内在推理及优劣势上。 因此,我们将我们的探讨扎根于坚实的学术研究专业知识和多年来与数据科学专家 紧密合作并鼎力完成的产业内分析项目的实践经验之上。贯穿全书,以例证说明方 式探讨了大量示例和案例研究。在本书的同步网站 (www.profit-analytics.com), 为进一步支撑对所探讨方法的采用,还提供了示例数据集、编码和执行。 在本章,我们首先介绍商业分析;接着,会介绍将在本书要详细探讨的利润驱 动的商业分析观点;然后,我们会介绍本书后面的章节及在这些章节所介绍的方法 将如何支撑我们采用以价值为中心的方法,以将利润最大化,并因此提升大数据和 分析的投资回报;接下来,要探讨分析流程模型,对一个企业内部的一个分析项目 经细分的各个步骤按顺序进行介绍;最后,对商业数据科学家的理想的背景特征刻 画进行总结。 1.1.1 商业分析 数据是新的石油,这是一句准确点明数据价值不断增长的最流行引述———正合 我意———这也准确地表达了数据作为原材料的特征。数据被看作在真正被使用之前 第1章 以价值为中心的分析方法 3 需要进一步处理的输入信息或基础资源。本章的后面部分,我们会介绍分析流程模 型,内容有将数据转化为信息或决策的处理步骤的迭代链的描述,这个过程确实类 似于石油提炼的过程。请注意上述句子中数据与信息之间细微但显著的差异。尽管 数据从根本上可以被定义为0和1的序列,信息本质上一样,但对于最终用户和接 收者来说还包含一定的用途或价值。所以,数据是否成为信息依赖于数据对于接收 者来说是否有用。通常来说,原始数据要成为信息,数据首先需要处理、整合、汇 总和对比。总之,数据通常需要被分析,添加洞察、理解和知识到数据中,这样数 据才变得有价值。 对数据集进行基本操作的运算,可能已经能够对最终用户或接收者的决策提供 有用的洞察和支撑。这些基本操作主要包括选择和整合,选择和整合两种操作都可 以用很多种方式执行,以致能够从原始数据中提取出大量的指标或统计值。以下举 例说明在一个销售情境中,如何生成一些销售指标的过程。 举例 出于管理目的,一家零售商需要开发实时销售报表。这种报表可能包 括原始销售数据的各种各样的指标。事实上,原始销售数据,涉及交易数 据的可以从零售商运营的在线交易处理 (OLTP)系统抽取。一些示例指标 及计算这些统计值所需要的选择和整合运算如下所述。 ■ 过去24小时生成的收入总量:选择过去24小时的全部交易并对付 款数额进行加总,付款指的是促销优惠后的净价格。 ■ 过去7天线上商店的平均支付金额:选择过去7天全部线上交易并 计算平均支付金额。 ■ 1个月内回头客率:选择过去1个月的全部交易,选择出现超过一 次以上的客户ID,并计算ID的数量。 注:计算这些指标包括对相应特征或存储在数据库中交易维度的选择 的基本操作,也包括加总、计数和平均等的基本整合运算。 通过定制报表提供洞察是商业智能 (BI)相关的领域。通常来说,也通过用可 视化以比较容易解释的方式来呈现指标及其随时间发生的变化。可视化所提供的支 撑,充分促进了用户瞬间就能获取理解和洞察的能力。例如,个性化仪表盘被产业 4 大数据分析与变现: 利润驱动 界广泛采用,管理者借此监测和跟踪业务绩效也就非常普及。由 Gartner所提供的 有关 BI的正式定义如下 (http://www.gartner.com/it-glossary): 商业智能是一个伞形术语①,包括应用、平台和工具,以及支撑信息访问和分 析从而提升和优化决策和绩效的最佳实践。 注意,这个定义很明显地提到需要平台和最佳实践作为 BI的基本构成部分, 这些通常也由 BI厂商和顾问作为整体打包的解决方案的一个构成部分而提供。更 高级的数据分析才能进一步支撑用户并优化决策,而这也正是分析所能发挥作用的 地方。分析是一个涵盖各种各样基本数据处理技术的无所不包的笼统术语。最广义 来说,分析与数据科学、统计和诸如人工智能 (AI)和机器学习等相关领域发生 重度重叠。而对于我们来说,分析是包含了各种各样工具和方法论的工具箱,它支 撑用户能够针对不同范畴的明确目标进行数据分析。表1.1列出了一些分析工具的 类别,能够覆盖不同目标用户,即使得用户能完成不同范畴的任务。 表1.1 从任务导向角度进行分析类别的划分 预测性分析 描述性分析 分类 聚类 回归 关联分析 生存分析 顺序分析 预测 表1.1中所列的第一类主要任务组是有关预测。基于可观察变量,目标是准确 估计或预测不可观察变量。预测分析的子类型的适用性依赖于目标变量的类型,因 此我们试图通过一组预测因子变量函数作为模型进行建模。当目标变量是以特征分 类时,意味着变量可能的取值 (如流失者或非流失者、欺诈者或非欺诈者、违约者 或非违约者)数量有限,而我们要解决的就是一个分类问题。当任务涉及的是对一 个连续目标变量 (如销售量、客户终生价值、欠费损失)的估计时,可能取值在一 定范围内,我们就可用回归来处理。生存分析和预测很显然是通过对事件 (如流 失、欺诈和欠费)所发生的时间预测或目标变量在一定时间内的发展 (如流失率、 欺诈率和欠费率)来对时间维度问题做出解释。表1.2所示为针对表1.2所示目标 的每一类预测性分析的简化版的数据集和预测型分析模型。 ① 译者注:涵盖多个紧密相关事物的术语。 第1章 以价值为中心的分析方法 5 表1.2 数据集和预测型分析模型 示例数据集 预测型分析模型 分类 ID 最近期 频率 金额 流失 C1 26 4.2 126 是 C2 37 2.1 59 否 C3 2 8.5 256 否 C4 18 6.2 89 否 C5 46 1.1 37 是 … … … … … 决策树分类模型: 回归 ID 最近期 频率 金额 CLV C1 26 4.2 126 3817 C2 37 2.1 59 431① C3 2 8.5 256 2187 C4 18 6.2 89 543 C5 46 1.1 37 1548 … … … … … 线性回归模型: CLV=260+11·最近期+6.1·频率+3.4· 金额 生存分析 ID 最近期 流失或删失 流失或删失时间 C1 26 流失 181 C2 37 删失 253 C3 2 删失 37 C4 18 删失 172 C5 46 流失 98 … … … … 一般参数化生存分析模型: log(T)=13+5.3·最近期 预测 时间戳 需求 1月 513 2月 652 3月 435 4月 578 5月 601 … … 加权移动平均预测模型: 需求t=0.4·需求t-1+0.3·需求t-2+0.2· 需求t-3+0.1·需求t-4 ① 译者注:疑原书有错。 6 大数据分析与变现: 利润驱动 第二类主要分析任务组是有关描述性分析,它们不是要对一个目标变量进行预 测,而是意在确定具体的模式类型。聚类和细分的目标在于对特征相似的实体 (如 客户、交易、员工等)进行分组。关联分析的目标,是发现经常同时发生因此表现 出具有关联关系的事件组。在本问题场景中所分析的基本观察对象包括事件变量 组,如在某一特定时刻由同一客户所购买的不同产品的交易。顺序分析的目标与关 联分析类似,但还涉及对经常按顺序发生事件的监测,而不是跟关联分析中所要求 的事同时发生。因此,顺序分析很明确的是对时间维度的解释。表1.3是对每类描 述性分析提供的简化版的数据集和描述型分析模型。 表1.3 数据集和描述型分析模型 示例数据集 描述型分析模型 聚类 ID 最近期 频率 C1 26 4.2 C2 37 2.1 C3 2 8.5 C4 18 6.2 C5 46 1.1 … … … K-means聚类,K=3: 关联分析 ID 商品 T1 啤酒、比萨、尿布、婴儿食品 T2 可乐、啤酒、尿布 T3 薯片、尿布、婴儿食品 T4 巧克力、尿布、比萨、苹果 T5 番茄、水、橙子、啤酒 … … 关联规则: 如果婴儿食品和尿布,那么啤酒 如果可乐和比萨,那么薯片 顺序分析 ID 商品 C1 < {3},{9}> C2 < {12},{3},{467}> C3 < {357}> C4 < {3},{47},{9}> C5 < {9}> … … 顺序规则: 第1章 以价值为中心的分析方法 7 请注意,表1.1~表1.3所列的用来完成每项特定任务的方法类别,是立足于 技术而非应用的角度。这些不同的分析类型可被应用在不同的商业和非商业场景 中,并进而引发了很多特定的应用。例如,预测分析,更确切地说,分类技术可被 用于监测信用卡的欺诈交易、预测客户流失、评估贷款申请等。从应用角度说,这 又分别导致各种各样的分析,如欺诈分析、客户或营销分析及信用风险分析。贯穿 产业和商业界的更大范围的商业分析应用具体将在第3章讨论。 至于表1.1,需要注意的是,这些不同类型的分析适用于结构化数据。结构化 数据的例子如表1.4所示。表1.4中的行通常称为观察对象、实例、记录或线路, 表示或收集的是客户、交易、账户或公民等基本实体的信息;表1.4中的列通常指 的是 (解释性或预测因子)变量、特征、属性、预测因子、输入数据、维度、效果 或功能。对于一个特定实体来说,列所包含的信息是通过数据表中的行来表示的。 如表1.4中,第二列表示客户的年龄,第三列是收入,等等。本书统一使用术语观 察对象 (observation)和变量 (variable) (更特别的时候,会用解释性变量、预测 因子变量或目标变量)。 表1.4 结构化数据集 客户 年龄 收入 性别 持续时间 流失 John 30 1800 男 620 是 Sarah 25 1400 女 12 否 Sophie 52 2600 女 830 否 David 42 2200 男 90 是 因为在表1.4中所展示的数据表结构,加上对于行和列已设定好的含义,所以 相对于分析如文本、视频或者网络之类的非结构化数据来说,分析这种结构化的数 据集就容易得多。应用于非结构化数据分析的特定技术———如应用于情感分析的文 本分析,应用于人脸识别和事件监测的视频分析,应用于社群挖掘和关系学习的网 络分析 (见第2章)。假设粗略估计全部数据中超过90%是非结构化数据,那么很 显然将这些类型的分析应用到商业中,将具有很大的潜力。 然而,由于非结构化数据分析本来就很复杂,再加上通常存在非常重要的开发 成本问题,企业看起来只愿意在易于应用的结构化分析情境中叠加运用这些技术, 所以,当前我们几乎看不到 (非结构化数据)商业应用的开发和应用。因此,本书 主要着重在结构化数据的分析方法,更为特别的是,聚焦在表1.1所示的数据子集 8 大数据分析与变现: 利润驱动 上。至于 非 结 构 化 数 据 分 析,可 以 参 考 具 体 文 献 (ElderIV,Thomas,2012; Chakraborty, Murali, Satish, 2013; Coussement, 2014; Verbek, Martens, Baesens,2014;Baesens,VanVlasselaer,Verbeke,2015)。 1.2 利润驱动的商业分析 本书的前提是,在商业中运用分析是为了支撑更好的决策——— “更好”意味着 通过分析应用来从数据获得洞察,基于洞察进行决策而导致的净利润、收入、报酬 或价值等实现最大化结果意义上的优化。所获收入可能来自效率升高、成本或损失 降低及新增销售等。分析通常所采用的决策层面是运营层,在这个层面要制定的个 性化决策本质上细致而且相似。在更高层面,可在企业战略和策略层面制定专题性 决策,也可从分析获益,但是预期收益所达程度要小得多。 商业战略发展涉及的决策本质上非常复杂,并不能与表1.1所列的基本任务相 匹配。为此目的,需要更高级的 AI,而这超出了我们的能力范围。然而,在运营 层面,需要制定很多简单决策,这些决策则与表1.1中所列任务恰好匹配。这不足 为奇,因为这些方法通过对具体应用的思考已经被开发出来。如表1.5所示,我们 选择提供了一些应用示例,其中大部分会在第3章中加以详细阐述。 表1.5 与分析相匹配的分析示例 利用预测分析进行决策 分类 信贷部门需要筛选贷款申请,基于所隐含风险决定是接受还是拒绝申请。根据过去贷 款申请的绩效历史数据,通过分类模型,利用申请及申请者的一些选定特征,可以从 坏的贷款申请中学习如何筛选出好的申请。分析,更确切地说,分类技术通过更精准 的风险估算及降低坏账损失,使得我们能够优化贷款批准流程 (VanGestel,Baesens, 2009;Verbraken,etal.,2014)。基于分类技术的类似决策应用,包括客户流失预测、 响应建模和欺诈监测,将在本书第3章进行更详细的探讨 回归 回归模型支撑我们对连续性目标值进行估算,通过对回归的应用实践,如估算客户终 生价值。对于一个客户将产生的收入或利润等方面的未来价值有相应的预期指引,对 于围绕定价进行的营销能力个性化支撑非常重要。正如在第3章将详细探讨的,分析 客户历史数据,利用回归模型可以对当前客户的未来净价值进行估算。 类似应用还包括将在第3章讨论的违约损失建模,以及软件开发成本估算 (Dejaeger, etal.,2012) 第1章 以价值为中心的分析方法 9 续表 利用预测分析进行决策 生存 分析 生存分析应用于预测性维护应用中,用来估算机器组件失灵的时间。这类认知支撑我 们对机器维护相关决策进行优化———如以最优方式计划什么时候替换基本组件。这个 决定需要对机器运行中失灵成本和组件成本两个成本之间进行平衡,因为大家都希望 组件在替换之前运行尽可能长时间 (Widodo,Yang,2011)。 生存分析其他的商业应用包括流失和欠费时间预测,与分类相比,重点在于预测事件 什么时候发生而不是事件是否会发生 预测 预测的一个典型应用是需求预测,支撑我们优化产品规划和供应链管理决策。例如, 一个电力供应商需要能够平衡电力产品和消费者需求,因此需要采用预测或时间序列 建模技术。 这些方式支撑基于 历 史 需 求 模 式 对 短 期 需 求 容 量 能 够 进 行 准 确 预 测 (Hyndman,et al.,2008) 利用描述性分析进行决策 聚类 聚类应用于信用卡欺诈监测,以实时阻止可疑交易,或以准实时方式选定可疑交易以 供调查。聚类促成自动决策,通过将一个新的交易与历史无欺诈交易的聚类或集群进 行对比,若它与这些群体差别太大,则被贴上可疑标签 (Baesens,etal.,2015)。 聚类还可被用于对相似客户群体的区分,这能够完善营销活动的定制 关联分 析、顺 序分析 关联分析通常应用于对经常购买产品的交易数据的模式监测。另外,顺序分析则支撑 对于哪些产品经常按顺序购买的监测。这类关于关联关系的知识支撑更聪明决策的制 定,如哪些产品要做广告、哪些产品要做捆绑及要在店中摆放在一起等 (Agrawal, Srikant,1994) 分析促进了对表1.5中所列的精准决策行动的优化,导致更低成本或损失及更 高收益和利润。优化程度取决于预测、估算及从数据中所获得模式的准确性和有效 性。另外,正如我们在本书所强调的,数据驱动决策的质量依赖于预测、估算或模 式所真正应用的程度,而这又取决于分析方法的开发和运用程度。我们认为,在商 业环境中产生利润应该成为真正的目标,而当运用分析以进一步提升分析的回报时, 这个目标应该是中心。因此,需要采用利润驱动的分析 (profit-drivenanalytics),尤 其在商业情境下,应该采用这些技术并进行相应配置。 举例 以下例子 表 现 的 是 统 计 分 析 方 法 与 利 润 驱 动 方 法 之 间 的 本 质 不 同。 表1.5已经表明如何运用分析,更具体地说,如运用分类技术对哪些客户会 流失进行预测。有了这些知识,我们就能够决定在存量保持活动中要把目标定 1 0 大数据分析与变现: 利润驱动 位在那些客户,与随机或随意选择的客户对比,并因此提升活动所带来的 效率和收益。通过对那些可能离开的客户提供财务激励———如临时的月费 减免———他们可能就被留下来了。积极的客户保持策略已经被很多研究表 明,替换那些 不 忠 诚 客 户 较 获 取 新 客 户 的 成 本 更 低 廉 (Athanassopoulos, 2000;Bhattacharya,1998)。 然而,需要注意的是,并不是每个客户所产生的收益都是一样的,因 而他们对于公司代表的价值也不同。因此,对于最高价值的客户监测其流 失也就更重要得多。在一个基本的客户流失设置中,采用我们称为一种统 计的视角,当对分类模型进行学习以监测未来流失可能时,对于高价值客 户和低价值客户之间的差别并不进行区分。然而,当分析数据并对分类模 型进行学习时,应该考虑到,损失一个高价值流失者的代价高过一个低价 值流失者的离开。所以,目标要定在对最终预测模型进行控制或调整,这 样它考虑进了价值因素,因此才能最终真正应用在商业情境下。 对于分类和回归建模方法的运用,统计和商业视角之间的另外一个差别还包括 解释和预测之间的差别 (Breiman,2001;Shmueli,Koppius,2011)。模型估算的 目标可能包括以下两个目标之一: ①建立特征变量或自变量与可观察的目标因变量或结果值之间的关系,或监测 两者之间的依赖性; ②估算或预测作为自变量函数的目标变量的不可观察值或未来值。 例如,在一个医学情境设置中,数据分析的目的可能是建立抽烟行为对于个体 预期寿命的影响关系。经回归模型的可能估算,对所观察的一些对象的死亡年龄特 征方面的解释是,如性别和抽烟的年限多少。这样通过模型可创建并量化每个特征 和观察结果之间的影响或关系,并支撑对影响的统计显著性的测试和结果的非确定 性的测算 (Cao,2016;Peto,Whitlock,Jha,2010)。 如表1.5所示,在诸如对软件能力预测时,对回归模型的评估存在明显差别。 在一个主要目标在预测的应用中,对于要开发新的软件将付出多少能力,其所能提 供解释的驱动力到底是什么,基本上我们并不感兴趣,虽然这方面的结果可能是有 用的。相反,我们主要希望对完成项目所需要的能力进行尽可能准确的预测。既然 第1章 以价值为中心的分析方法 1 1 模型的主要作用是生成支撑成本规划和计划的估算,那么起作用的是预测的正确性 或准确性及误差的大小,而不是项目特性和投入能力之间的确切关系。 通常来说,在一个商业环境中,为了促进决策提升或自动化能力,目标是落在 预测上的。就像对于软件能力预测情况中所指出的,解释性即使有用,也是因为可 获得有用的洞察。例如,从预测模型可以发现依照完成项目所需能力,项目团队中 包括或多或少或高级或低级程序员的确切影响会是什么,因此可对作为项目特征函 数的团队构成进行优化。 在本书中,要讨论一些通用的强大的利润驱动方法。这些方法推动分析采用以 价值为中心的业务视角,以提高回报。表1.6提供了本书的结构全视图。首先,我 们在第2章提供分析的总体介绍,奠定基础,并在第3章详细探讨最重要和最流行 的商业应用。 表1.6 本书概览 本书结构 第1章:以价值为中心的分析方法 第2章:分析技术 第3章:商业应用 第4章:建立提升模型 第5章:利润驱动的分析技术 第6章:利润驱动的模型评估和实施 第7章:经济影响 第4章探讨提升模型建立的方法,本质上这是关于对决策净效果 (neteffect) 的获取和估算,然后与替代方案的预期结果进行对比。例如,这就使得通过对接触 渠道和营销响应激励形式的定制,优化营销能力,从而生成最大回报。也许可采用 标准分析方法建立提升模型。然而,围绕提升模型的具体问题特征进行调整的专业 方法也已经被开发,这些将在第4章进行讨论。 如上,第4章构成了通向本书第5章的桥梁,其重点在于可采用各种高级分析 方法开发利润驱动模型,因此使得我们在学习或应用预测性或描述性模型时考虑利 润因素。用于分类和回归的利润驱动的预测分析将在第5章的第一部分进行探讨, 接下来的第二部分会聚焦在描述性分析,介绍利润导向的细分和关联分析。 接下来第6章着重介绍对预测模型的业务导向评估进行调整的方法———如就利 润来说。需要注意的是,传统统计测算,如当运用于客户流失预测模型时,并不对 1 2 大数据分析与变现: 利润驱动 不准确的预测或客户错误分类进行区分,尽管从商业角度来看,当对模型进行评估 时考虑客户价值显然很有意义。例如,对一个将要流失的较高价值客户的错误预测 相对于一个将要流失的较低价值客户的错误预测,则意味着更大的损失或代价。然 而,更确切地说,非商业性的、非利润导向的评估测算方法对两者是不加区分的同 等考虑。第4章和第6章使得在第2章探讨的标准分析方法,通过采用以利润为中 心的设定,或者利润驱动评估法,实现利润最大化目标。对于利润最大化目标来 说,模型具体的商业应用将成为一个重要因素。 最后,在第7章通过考察分析的经济影响及将分析放大到一些包括与企业分析 研发、实现和运营相关的实践方面,将在企业的应用分析采用一个更宽广的视角来 对全书进行总结。 1.3 分析流程模型 图1.1对分析流程模型进行了一个高度概括 (Hand,Mannila,Smyth,2001; Tan,Steinbach,Kumar,2005;Han,Kamber,2011;Baesens,2014)。该模型分 别定义了一个企业内部分析的研发、部署和运营的各个步骤。 图1.1 分析过程模型 (Baesens,2014) 第一步,需要解决的是对商业问题进行一个全面定义。分析应用的目标需要被 明确定义,如贷款产品组合的客户细分、后付费电信业务订购模型的建立或信用卡 欺诈监测。要对分析建模实践范围进行界定,需要数据科学家和业务专家之间的紧 密合作。双方需要对一系列的关键概念达成一致,其中包括我们如何界定客户、交 第1章 以价值为中心的分析方法 1 3 易、流失或欺诈。尽管这可能看起来是不言自明的,但可确保所有相关参与方对目 标和一些关键概念达成共同理解,这似乎才是成功的关键因素。 接下来,需要确定所有可能具有潜在作用的源数据。因为数据是任何分析实践 的关键构成要素,数据的选择对于将依次按步骤建立的分析模型具有决定性影响, 所以这是一个非常重要的步骤。这里的黄金准则是:数据多多益善! 分析模型本身 稍后会决定,对于手头任务而言,哪些数据是相关的,哪些不是。所有数据被采集 整理和暂存在数据仓库、数据集市,甚或只是一个简单电子表格文件中。然后可以 考虑用诸如多维分析的 OLAP工具进行一些基本的探索性分析 (如汇总、钻取、 切片和切块)。接下来要做的是数据清洗步骤,消除如缺失值、异常值和重复数据 等所有的不一致性。还要考虑另外的转换,如数据预处理、字母数字转为数字编 码、地理信息整合、对一些特征及从原始数据派生出的通常称为特性的附加特征进 行命名。举一个简单的例子,如从出生日期获得年龄;还有更复杂的例子,见第3章。 在分析过程中,分析模型基于已预处理和已经转换过的数据进行评估。根据商业目 标和手头的确切任务,数据科学家将选择和执行具体分析技术。如表1.1所示,提供的 是不同任务和各种类型的分析概览。另外,数据科学家要解决手头问题时,可以考虑将 表1.1中的不同分析类型作为基本的建构模块或解决方案组件。换言之,商业问题需要 根据表1.1所列举的现有工具重新进行表达。 最后,一旦得到结果,结果就要被业务专家进行解释和评估。结果可能是聚类、规 则、模式或关系等,所有这些结果都可被称为来自分析应用的分析模型结果。分析模型 可以监测到不太重要的模式 (如从关联规则发现,表明意粉和意粉酱经常被一起购买), 当该模式有助于论证模型的有效性时,该模式就是有意义的。但是当然,关键问题是发 现有意义和可执行的未知模式 (有时也被称为知识钻石),这些模式因对数据提供新的 洞察而被转换成新的利润机会。在将最终模型或模式付诸运营之前,需要有重要评估步 骤,以考虑真正收入或利润的生成,并将其与不做任何行动的决策或不做任何改变的决 策等相关基准场景进行比较。接下来的部分,会提供对不同评估标准的概述,探讨这些 以论证分析模型的有效性。 分析模型一经证明其有效性和正确性,就可作为一个分析应用 [如决策支撑系统、 计分引擎 (scoringengine)]投入生产。这里,重点考虑的是如何将模型输出并以用户 友好的方式呈现出来,如何与其他应用 (如营销活动管理工具、风险引擎)进行整合, 如何确保分析模型被正确监测并被持续性地进行反向测试。 1 4 大数据分析与变现: 利润驱动 需要特别注意的是,表1.1中所列的程序模型本质上是迭代的,即在操作过程中不 得不返回到之前的步骤。例如,在分析步骤中,如果另外的数据选择、清洗和转换有必 要,就需要对另外的数据进行界定。通常最耗时间的步骤是数据选择和预处理过程,这 需要花费整个分析模型创建的全部精力的80%左右。 1.4 分析模型评估 在基于所获的聚类、规则、模式、相关或预测等结果采用分析模型和制定运营决策 之前,需要对模型进行全面评估。根据输出结果的具体类型、情境或商业环境,以及具 体的使用特征,评估过程中需要对不同方面进行估算,以确保模型具备实现的可接受性。 表1.7是对成功分析模型所具备关键特征的相应界定和解释。根据确切的应用 情境,这些宽泛定义的评估标准可能被运用,也可能不被运用,要在具体实践中进 一步确定。 表1.7 成功商业分析模型的关键特征 准确性 准确性指的是分析模型的预测能力或准确性。一些统计评估标准可用于对这方面进行 评估,如命中率、提升曲线或 AUC,第6章会详细探讨一些利润-驱动评估指标。准 确性也可能指统计显著性,意思是在数据中找到的模式必须是真实的、稳固的而不是 碰巧的结果。换言之,我们需要确保模型通用性好 (推广到其他实体、推广到未来 等)并且对用于生成并评估模型的历史数据集不会出现过拟合 解释性 当需要对回溯模式有一个更深入理解———如在模型采用之前论证其有效性———模型就 需要可解释性。这方面包括一定程度的主观性,因为解释性一般依靠用户的知识或技 能。模型的解释性依赖其形式,即由所采用的分析技术来决定。使用户能够理解模型 为什么能达到一定结果的内在原因的模型称为白盒子模型,而更复杂的不可解释的数 学模型通 常 被 称 为 黑 盒 子 模 型。例 如,白 盒 子 方 法 包 括 决 策 树 和 线 性 回 归 模 型, 表1.2中已经提供相关举例。典型的黑盒子方法包括神经网络,这将在第2章进行探讨。 在一些商业情境中,黑盒子模型是可接受的,也挺好,虽然在大多数情况下,要对模型 有信心才允许模型的有效运行,所以管理需要一定程度的理解以及由可解释性所促成的 实际有效性 运营 效率 运营效率指的是评估模型所需要的时间,换言之,就是根据模型输出结果进行决策所需 要的时间。当决策需要实时或准实时制定时,如对信用卡可能存在的欺诈进行提示,或 对网站广告的费率或横幅的决策,运营效率很关键,在模型性能评估中是一个主要考虑 因素。运营效率也包含需要用来采集和预处理数据、评估模型、监测和反向测试模型及 当有必要时重新评估模型的能力 第1章 以价值为中心的分析方法 1 5 续表 合规性 根据具体情况,对于模型的开发和应用来说,可能有些内部的或企业特定的及外部的规 范和法律需要遵守。显然,模型需要遵照和符合所有适用的规范和法律———如在网络浏 览器的个人隐私或Cookie的使用方面 经济 成本 对于企业来说,要开发和实施一个分析模型,涉及很高的成本。全部成本包括数据采 集、预处理和分析成本、最终分析模型投产的成本。另外,还要考虑软件成本及人力和 计算资源。可能的话,需要购买外部数据,以丰富现有的内部数据。另外,作为模型采 用的结果,收益也是可以预期的。显然,在项目之初要执行一个全面的成本收益分析, 对于建立一个更高级系统的投资回报的构成因素,要获得相关洞察。运用分析所带来的 好处是本书的中心主题。在最后一章,通过详述分析的经济效果而进行全书总结 在模型开发和实施中会出现各种挑战,因此可能导致在满足表1.7中所列成功 分析模型所具关键特征的目标时而表现出困难。这样的一个挑战可能涉及从数据所 回溯的相关关系或模式的动态特征本身,这影响到模型的可用性和生命周期。例 如,在欺诈监测场景中,可观察到欺诈者经常通过开发新的策略和方法,试图破解 监测和预防系统 (Baesens,etal.,2015)。因此,需要自适应式分析模型和监测及 预防系统,以尽可能快地监测和解决欺诈问题。在这样一种情况下,密切监测模型 性能是完全有必要的。 另外一个常见的挑战是,客户流失预测的二元分类中涉及类别分布不平衡的问 题,也就意味着,一种分类或类型的实体较另一种分布更广泛得多。当创建一个客 户流失预测模型时,在历史数据集中,通常表现出非流失者较流失者多得多。因 此,监测或错判任何一个类别相关的成本和利益,通常都会导致不平衡的加剧,所 以需要在具体商业情境中考虑决策优化的问题。本书中,会探讨各种不同方法以处 理这些具体的挑战。也会出现其他问题,通常需要足够的智慧和创造力方可解决。 因此,两者均是数据科学家必须具备的关键特征,正如将在下面所要探讨的内容。 1.5 分析团队 1.5.1 人员背景 分析过程基本上是一个需要很多不同工作背景紧密合作的多个专业的实践。首 1 6 大数据分析与变现: 利润驱动 先,要有一个数据库或数据仓库的管理员 (DBA)。最理想的 DBA是对企业内部现 有的所有数据都了解,包括存储细节和数据定义。因此,数据作为分析模型建立实 践中的重要输入成分,DBA则扮演着一个关键角色。既然分析是一个迭代的过程, DBA在建模的过程中也就持续扮演着一个重要角色。 另外一个非常重要的人物是业务专家。例如,这可能是一个信用产品组合经 理、品牌经理、欺诈调研员或电子商务经理。业务专家具备深厚的业务经验和业务 常识,这被证明对于成功来说可能极具价值且十分关键。这些业务知识显然有助于 引导和控制分析建模实践,并对其关键发现予以解释。这里的一个关键挑战是,大 量的专业知识是不可言喻的,可能在建模之初很难加以表达。 因为诸如隐私和歧视等因素,所以不是所有的数据都可用在分析模型中,法律 专家的地位也更为重要。例如,在信用风险建模中,通常不能基于性别、信仰、原 属种族或宗教区分好客户和坏客户。网络分析中,通常通过 Cookie的手段采集信 息,Cookie是存储在用户浏览器计算机端的文件。然而,当使用 Cookie采集信息 时,用户应该被适当告知。这在不同层面 (区域的和国家的,以及超越国家的,如 在欧洲层面)要受相应规范的管制。这里的关键挑战是,隐私及其他规范问题会因 不同的地域而存在很大不同,因此,法律专家应该具备相应良好的知识,即法律专 家要知道哪些数据什么时候能用,以及哪些法律适用在哪些地方。 作为分析团队的重要构成,软件工具厂商也应该被考虑。不同类型的工具厂商在 这里应该有所区分,一些厂商只对分析建模过程特定步骤的自动化提供工具 (如数据 预处理),一些厂商销售的软件覆盖了整个分析建模过程;还有一些厂商对于特定应 用领域也提供基于分析的解决方案,如风险管理、营销分析或营销活动管理。 数据科学家、建模人员或分析人员是负责真正做分析的人。数据科学家应该对 所有有关的大数据和分析技术都要有一个全面了解,知道在商业场景中如何利用合 适的技术完成分析。接下来的部分,我们将探讨一个数据科学家的理想背景。 1.5.2 数据科学家 我们在前面探讨了一个好的分析模型所需具备的特征,在这部分我们详细阐述从 雇主角度看,一个好的数据科学家所应具备的关键特征。这些都基于我们就大数据和 分析这个主题而与全球许多公司所进行合作的有关咨询和研究经验之上总结而成。 第1章 以价值为中心的分析方法 1 7 1.一个数据科学家应该具备坚实的量化技能 显然,一个数据科学家应该在统计、机器学习和/或数据挖掘方面具备全面了解的 背景。这些不同专业之间的区别已经越来越模糊,所以确实也没多大关系。它们都能提 供一系列量化技术分析数据,并在诸如欺诈或信用风险管理的具体情境中发现业务相关 模式。一个数据科学家应该了解什么技术什么时候可以如何使用,不应该太过聚焦于内 在的数学细节 (如优化),而要对一项技术能够解决什么分析问题及它的结果应该 如何解释要有良好的理解能力。在这种情况下,在计算机科学和/或商业/产业工程 等方面的工程师教育应该放眼于一个综合的多学科视野上,培养既懂技术运用又具 商业头脑的并致力于产生新成果的毕业生。同样重要的是投入足够的时间对所获分 析结果进行证实,以避 免 出 现 通 常 被 称 为 数 据 篡 改 (datamassage)或 数 据 扭 曲 (datatorture)的情况,也即数据被 (故意)曲解和/或花太多时间耗费在伪相关关 系等的问题探讨上。在选择最优量化技术时,数据科学家应该考虑到情况的特殊性 和手头的商业问题。对于业务模型的关键需求,在前面部分已经探讨过,数据科学 家应该对这些有一个基本了解,并具有一定的直觉力。在综合这些需求的基础上, 数据科学家应该能够选择最好的分析技术以解决特定的商业问题。 2.一个数据科学家应该是一个好的程序员 根据定义,数据科学家是和数据打交道的人,包括抽样和数据预处理、模型评 估和后处理 [如敏感性分析、模型部署、反向测试 (backtesting)、模型验证]等大 量活动。虽然当前市面上很多用户界面友好的软件工具都有,可用来对上述任务进 行自动化支撑,但每个分析实践仍需要定制步骤,以处理具体商业问题和所处情境 的特异性。为了这些步骤能够执行成功,需要编写相应程序。因此,一个好的数据 科学家应该对SAS、R或 Python等诸如此类的软件具备良好的编程能力。编程语 言本身倒不是那么重要,只需数据科学家对编程的基本概念熟悉,知道如何利用这 些程序对重复任务实现自动化或执行特定的例程。 3.一个数据科学家应该在沟通和可视化技能方面表现出色 无论喜不喜欢,分析都是一项技术性工作。当前,分析模型和业务用户之间还 存在巨大的鸿沟。因此沟通和可视化能力非常关键。因此,数据科学家应该知道如 何以用户友好的方式呈现分析模型及其相应的统计数据和报告,如可以通过使用交 通灯方法、OLAP (在线分析程序)能力或 “如果—那么”(if-then)业务规则等进 1 8 大数据分析与变现: 利润驱动 行结果呈现。一个数据科学家应该能对适量的信息进行沟通,而不至于丢失复杂的 (如统计的)细节,否则这将阻碍一个模型的成功实施。只有做到这些,业务用户 才能更好地理解他们的 (大)数据中的特征和行为,因此将提升他们对最终分析模 型的认可和接受程度。教育研究机构必须学习如何实现对理论和实践之间的平衡, 因为据说很多获得相应学位的典范学生要么太偏分析,要么太偏实务知识。 4.一个数据科学家应该具备坚实的商业理解 虽然这看起来显而易见,但我们依然见过很多 (太多)的数据科学项目因其数 据科学家不理解手头商业问题而导致失败。对于商业来说,我们指的是专门的应用 领域。表1.5中我们已经介绍了这些应用领域的一些示例。这种领域中的每一个都 有其特殊性,为了能够设计和实施一个定制化的解决方案,数据科学家知道并理解 这些特殊性非常重要。根据表1.7中所探讨的每个维度或标准所进行的评估,解决 方案越符合商业情境,其表现效果也就越好。 5.一个数据科学家应该具备创造力 数据科学家需要至少在两个层面具备创造力。第一,技术层面,对于特征选 择、数据转换和清洗,具备创造力很重要。这些标准分析流程的步骤需要针对每个 具体的应用进行调整,而正确的猜想经常表现出很大的不同。第二,大数据和分析 是一个快速发展的领域,新的问题、技术和相应的挑战不断涌现。因此,一个数据 科学家应该跟上这些新的发展和技术并具备足够的创造力以发现他们可以如何创造 新的机会。图1.2总结了构成理想数据科学家背景的关键特征和优势。 图1.2 数据科学家的背景特征 第1章 以价值为中心的分析方法 1 9 总  结 利润驱动的商业分析,指的是分析数据以支撑商业运营决策的更优制定。在本 章中,我们探讨了如何区别于纯粹的技术或统计视角,采用商业视角的分析工作。 采用这样的商业视角,数据科学家能够考虑到商业情境的特定性,从而落实到方法 的真正需求上。因此,本书的目的为对所选定的这类方法系列提供一个深入的概 览,使其能够服务到不同的范围更广的商业目标。本书采取的是立足分析实践者的 角度,通过数据集实例、编码和与本书同步网站 www.profit-analytics.com 提供的 操作,详细阐述如何在具体实践中应用并实施这些方法。 复 习 题 一、多项选择题 1.以下 ( )不是进行分析模型评估时的可能评估标准。 A.可解释性 B.经济成本 C.运营效率 D.以上都是可能的评估标准 2.以下说法 ( )是错误的。 A.聚类是一种预测模型 B.预测本质上是关于时间的回归函数 C.关联分析是一种描述性分析 D.生存分析本质上是关于对一件事件预测其发生时间 3.以下说法 ( )是正确的。 A.客户终生价值评估是分类法的例子 B.需求估算是分类法的例子 C.客户流失预测涉及回归 D.信用卡交易欺诈监测涉及分类法 2 0 大数据分析与变现: 利润驱动 4.以下 ( )不是一个好的数据科学家应该具备的特征。 A.具备坚实的商业理解 B.具备创造力 C.对于分析应用具备全面的法律方面的知识 D.在沟通和对结果可视化方面表现出色 5.以下说法 ( )是正确的。 A.当被应用于商业情境中,所有分析模型都是利润驱动的 B.只有预测模型是利润驱动的,而描述性分析并不是 C.分析数据在解释性或预测性两种目的之间存在区别 D.描述性分析意在解释所观察到的,而预测性分析意在尽可能预测准确 二、开放性问题 1.讨论就分析来说,统计视角和商业视角之间的不同。 2.讨论解释建立模型和预测建立模型的不同。 3.列举并讨论一个分析模型的关键特征。 4.列举并讨论一个数据科学家应该具备的理想特征和技能。 5.画出分析流程模型并依次简要讨论其步骤。 参 考 文 献 Agrawal,R.,andR.Srikant.1994,September. “Fastalgorithmsforminingassociationrules.”In Proceedingsofthe 20thinternationalconferenceonverylargedatabases,VLDB (Volume 1215,pp.487-499). Athanassopoulos,A.2000. “CustomerSatisfactionCuestoSupportMarketSegmentationandExplain SwitchingBehavior.”JournalofBusinessResearch,47(3):191-207. Baesens,B.2014.AnalyticsinaBig Data World:TheEssentialGuideto DataScienceandIts Applications. Hoboken,NJ:JohnWileyandSons. Baesens,B.,V. Van Vlasselaer, W. Verbeke. 2015.Fraud Analytics Using Descriptive, Predictive,andSocialNetwork Techniques:A Guideto DataScienceforFraud Detection. Hoboken,NJ:JohnWileyandSons. Bhattacharya,C.B.1998. “WhenCustomersAreMembers:CustomerRetentioninPaidMembership 第1章 以价值为中心的分析方法 2 1 Contexts.”JournaloftheAcademyofMarketingScience,26(1):31-44. Breiman,L.2001. “StatisticalModeling:TheTwoCultures.”StatisticalScience,16(3):199-215. Cao,B.2016. “FutureHealthyLifeExpectancyamongOlderAdultsintheUS:AForecastBased onCohortSmokingandObesityHistory.”PopulationHealthMetrics,14(1):1-14. Chakraborty,G.,P. Murali,andG.Satish.2013.TextMiningandAnalysis:PracticalMethods, Examples,andCaseStudiesUsingSAS.SASInstitute. Coussement,K. 2014. “Improving Customer Retention Management through Cost-Sensitive Learning.”EuropeanJournalofMarketing,48(3/4):477-495. Dejaeger,K.,W. Verbeke,D.Martens,andB. Baesens.2012. “Data MiningTechniquesfor Software Effort Estimation:A Comparative Study.”IEEE Transactions on Software Engineering,38:375-397. ElderIV,J.,andH. Thomas.2012.PracticalTextMiningandStatisticalAnalysisfor Non- StructuredTextDataApplications.Cambridge,MA:AcademicPress. Han,J.,andM.Kamber.2011.DataMining:ConceptsandTechniques.Amsterdam:Elsevier. Hand,D.J.,H. Mannila,andP.Smyth.2001.Principlesof Data Mining.Cambridge,MA: MITPress. Hyndman,R.J.,A. B. Koehler,J. K. Ord,and R. D. Snyder. 2008. “Forecasting with ExponentialSmoothing.”SpringerSeriesinStatistics,pp:1-356. Peto,R.,G. Whitlock,andP. Jha. 2010. “EffectsofObesityandSmokingon U.S. Life Expectancy.”TheNewEnglandJournalofMedicine,362(9):855-857. Shmueli,G.,andO.R.Koppius.2011. “PredictiveAnalyticsinInformationSystemsResearch.” MISQuarterly,35(3):553-572. Tan,P.-N.,M.Steinbach,andV. Kumar.2005.IntroductiontoData Mining. Reading,MA: Addison Wesley.Van Gestel,T.,and B. Baesens. 2009.CreditRisk Management:Basic Concepts:FinancialRiskComponents,RatingAnalysis,Models,Economicand Regulatory Capital.Oxford:OxfordUniversityPress. Verbeke,W.,D. Martens,andB.Baesens.2014. “SocialNetworkAnalysisforCustomerChurn Prediction.”AppliedSoftComputing,14:431-446. Verbraken,T.,C.Bravo,R. Weber,andB.Baesens.2014. “DevelopmentandApplicationof ConsumerCreditScoringModelsUsingProfit-BasedClassificationMeasures.”EuropeanJournal ofOperationalResearch,238(2):505-513. Widodo,A.,andB.S.Yang.2011. “MachineHealthPrognosticsUsingSurvivalProbabilityand SupportVectorMachine.”ExpertSystemswithApplications,38 (7):8430-8437.