。活实践中11.
机器学习概述
机器学习的目的是让机器通过经验积累来学习知识和掌握技能。通过学习 ,机器可以获得类似人类的能力 ,如感知、记忆、推理、决策等。近年来 ,机器学习技术飞速发展 ,取得了一系列令人瞩目的研究成果。这些成就的取得一方面得益于移动互联网的发展所提供的大量廉价数据 ;另一方面得益于计算资源的极大丰富。这两者结合使得以前难以实现的算法和模型得以推广 ,并快速应用到社会生产生
本章将向读者简述机器学习的历史与发展现状 ,探讨机器学习技术飞速发展的动力、方向以及对人类社会的影响。另外 ,本章将给出机器学习技术的基本概念、基本研究方法及一些基础模型 ,并讨论面对一个机器学习任务的基本思路。 
什么是机器学习 
1959年,ArthurSamule[575]在IBM Journalof Researchand Development上发表了一篇名为 SomeStdisin MahieLig UingtheGameof Checkers的文章。该文提出一种u会学e习的西洋c棋n计算e机r程n序,s人们只需告诉该程序游戏规则和一些常用知识 ,经过 8~10小时的学习后 ,该程序即可学到足以战胜

不可分。[437]
。程序作者的棋艺这款西洋棋游戏是世界上第一个会自主学习的计算机程序 宣,。告了机器学习的诞生半个多世纪后 机器学习飞速发展 给人类带来前所未有的,,“”AhrSlt深刻变革 这一切成就与 当初 让机器自主学习 的启蒙性思想密ruamue,?(SlMahi什么是机器学习 在上述奠基性论文中提出 机器学习amuecne,)“Li的目的是 让计算机拥有自主学习的能力 而无须对其进行事无巨细的earnng,”。TomM.Mihel
t编程 另一位机器学习领域的大师 则用更形式化的语言来定c。“ET义机器学习他认为 计算机程序如果通过某种方法 利用经验 提高在任务,,,(),”。[]PE458Nil上的性能 以为评价标准 则可认为该程序从经验 中进行了学习 s“、、J.Nils
则认为机器学习是 机器在结构程序数据等方面发生了基于外部信息on”。[]485的某种改变 而这种改变可以提高该机器在未来工作中的预期性能 上述这些,(、定义本质上是一致的 即认为机器学习是通过接收外界信息 包括观察样例外来,、)、、。监督交互反馈等 获得一系列知识规则方法和技能的过程这一过程对人类和“”“”。其他生物而言称为 生物学习 对计算机而言称为 机器学习 之所以特别强调,。学习这一特性 是因为这是机器学习技术能在今天取得巨大成就的根本原因传,统意义上的计算机算法是以人类逻辑为基础的 人们需要对所用到的数据结构作,“”明确的定义 对所有可能遇到的流程和分支作细致的设定 这种 固化逻辑 有明显,,。特定任务的处理能力这种通过学习取得知识的方法与传统方法相比具有明显优:;势第一 机器可以通过学习得到适合它自身的细节 减轻了人为设计的压力 第,,12.
的局限性。一方面,很多需要完成的任务的内部细节并不完全可知(如大气运动、人类感知等),对这些任务的过程进行清楚的定义非常困难;另一方面,即使已经知道了系统和过程的细节,也很难穷尽各种复杂的可能性。特别是当外部环境发生改变时,基于旧有经验定义的过程很难被修正。机器学习的一个巨大优势在于,设计者不必定义具体的流程细节,只需告诉机器一些通用知识,定义一些足够灵活的通用结构(如图模型定义的概率关系、神经网络定义的拓扑结构),机器即可通过观察和体验积累实际经验,对所定义的结构及其参数进行调整、改进,从而获得面向
二,当环境发生变化时,机器可以通过学习对现有知识进行自动更新;第三,如果外部信息足够丰富,机器可以获得比人为设计更丰富的细节,获得超过设计者想象的能力。毫不夸张地说,只有当计算机拥有了学习能力以后,它才开始由机器变成人类的助手和伙伴。 

机器学习的基本框架
研究者对机器学习有各种各样的表述,这些表述的侧重点不同,相应研究内容和思路也略有差异。本书将着重从知识和经验两个概念来理解机器学习。所谓知
2
....

识,可以理解为人类已经获得的可形式化的某种理性表达。这些表达可以是确定的,也可以是概率的 ;可以是全局的 ,也可以是局部的。在很多情况下 ,这些知识也被称为先验知识。所谓经验 ,是指机器在运行环境中得到的反馈。这些反馈并不具有条理性 ,有些是事实 ,有些是假象 ,有些是系统的 ,有些是随机的。不论如何 ,这些经验里都包含大量有用信息 ,只是掩盖在复杂的表象之下 ,很难被直接利用。 
“知识 ”和“经验 ”是构造机器学习系统时常用的两个基本信息源 ,基于这两个信息源中的任何一个都可以构造有效的智能系统 :基于知识可构造一个基于推理的智能系统 ,基于经验可以构造一个基于归纳的智能系统。但是 ,基于单一信息源的系统存在明显缺陷 ,一种很自然的想法是将两者结合起来 ,用先验知识设计一个合理的结构 ,再用实际经验对这一结构的细节进行修正和优化。这类似一个新生儿,从诞生的那一刻起父母已经通过遗传基因为他构造了一个合理的神经结构。这一结构可以认为是一个基于知识的 “设计 ”,可以做些呼吸、哭闹等基础动作 ,但更高级的能力 ,如语言、推理等 ,则需要通过学习一点一点地建立。和单纯依赖知识的系统相比 ,这种学习系统具有开放性 ,可根据新的经验对旧有知识进行更新 ;和单纯依赖经验的系统相比 ,这种学习系统具有更好的抽象能力 ,经验不再是记忆的简单罗列 ,而是基于已存在的知识架构重新抽象出的新知识。这一学习框架实现了知识和经验的融合 :新的经验不断出现 ,并逐渐被抽象成新的知识 ,这样既保证了知识框架的稳定性 ,也保证了知识内容的新颖性。我们认为这种先验知识和实际经验相结合的信息处理方式是现代机器学习的基本特征之一。
图1-1给出基于知识 —经验的机器学习基础框架。该框架将机器学习表达为一个将人类知识 (HumanKnowledge)和实践经验 (EmpiricalEvidence)结合在一起的计算模式 ,该模式依赖知识设计合理的学习结构 ,利用实际经验对学习结构进行调整 ,实现既定学习目标最优化。下面从学习目标、学习结构、训练数据、学习方法四个方面展开讨论。

图1-1基于知识 —经验的机器学习基础框架
注:利用先验知识设计一个合理的学习结构 ,学习算法从数据中归纳出新的经验,并利用这些经验对学习结构进行调节、优化和更新 ,这些修正使得系统得以更好地完成目标任务。
3
....

(1)
学习目标。机器学习任务可从不同角度进行分类,不同学习任务的目标不同。从应用角度看,学习任务可分为感知任务 (Perception)、归纳任务 InductioGeneratio

(n)、生成任务(n)等。从技术角度看,学习任务可分为预测任务 (Prediction)和描述任务 (Description),其中预测任务包括回归 (Regres
ion)和分类(Clas
ification)等,描述任务包括聚类 (Clustering)和概率估计 (DensityEstimation)等。对每个学习任务,通常会定义一个目标函数,将模糊的“任务最优化”量化为精确的“目标函数最大化”(或“损失函数最小化”)。不同任务的目标函数差别很大,如在回归任务中一般采用均方误差(MeanSquaredEr
or,MSE),分类任务中一般采用交叉熵 (Cros
Entropy,CE)。其他常用的目标函数包
括在

Fisher准则、稀疏性、信息量等。另外,一些任务相关的目标函数也经常被相应领域的研究者使用,如语音识别中的最小音素错误准则 (MinimumPhoneEr
or, MPE)。 
(2)学习结构。学习结构定义学习任务如何进行,一般称为模型。一些可能的学习结构包括函数、神经网络、概率图、规则集 (RuleSet)、有限状态自动机 (FiniteStateMachine,FSM)。
定义学习结构,本身即是对先验知识进行形式化的过程,如贝叶斯网络里的相关性和条件概率,神经网络里的节点大小和激发函数等,都是基于先验知识所做的设计。定义了学习目标和学习结构,一个机器学习系统的主体就成形了。 
(3)
训练数据。数据是经验的累积,利用数据对系统进行学习可以更新先验知识、提高系统的可用性。数据的质量、数量和对实际场景的覆盖程度都会直接影响学习的结果,因此数据积累是机器学习研究的基础,“数据是最宝贵的财富”已经成为机器学习从业者的共识。数据的形式多种多样。从取值类型看,包括二值、多值、连续数据等;从复杂度看,包括单值、向量、图、自然物等。在收集和整理数据时,我们通常会关注数据是否完整,是否有动态性,不同数据间的相关性如何。另外,我们一般不会直接使用原始数据,而是通过数据选择、特征提取、预处理等,抽取最有价值的数据进行学习。 

(4)
学习方法。学习方法是学习过程的具体实现,即算法。一般将算法根据是否需要人为标注分为有监督学习 (SupervisedLearning)、无监督学习 (UnsupervisedLearning)、半监督学习 (Semi-SupervisedLearning)和增强学习 (ReinforcementLearning)。根据优化方法分类,可分为直接求解(如 PCA模型中求解数据协方差矩阵的特征向量)、数值优化(如神经网络中的梯度下降算法)和遗传进化(如群体学习中的蚁群算法)等。特别注意的是学习方法的选择是由学习结构、学习目标及数据特性等几方面因素共同决定的,目前还不存在一种普适的学习方法可在任何模型、目标和数据上通用,也不存在一种学习方法在所有任务中全面胜出。


4
....

总之,我们认为机器学习是一种将人类先验知识和实际经验相结合,以提高计算机处理某种特定任务能力的计算框架。这一框架包括学习目标、学习结构、训练数据和训练方法四个组成部分。基于这一框架,我们依赖先验知识设计合理的学习结构,设计相应的学习算法,从经验数据中得到知识并对现有学习结构进行更新,使得既定的学习目标最优化。 

机器学习发展简史
机器学习的历史充满了曲折。我们回顾这段历史,以期从中得到一些启发,对机器学习这门学科的发展有一个清醒的认识,并获得继续前行的经验和教训。表1-1列出了机器学习发展历史上的一些标志性事件。
13.
表1
1
-
机器学习发展简史
时间 事件  
1763年  ThomasBayes提出贝叶斯定理[41]  
1805年  Adrien-MarieLegendre提出最小二乘法[390]  
1912年  RonaldFisher提出最大似然准则[515]  
1913年  AndreyMarkov定义马尔可夫链[431]  
1950年  AlanTuring提出图灵学习机[680]  
1951年  MarvinMinsky和 DeanEdmonds构造第一个可学习的神经网络模型 SNARC[454]  
1954年  Bar
icel
i等人提出遗传算法[34]  
1957年  FrankRosenblat
在康奈尔发明感知器[565]  
1958年  DavidCox提出 Logistic回归[130]  
1959年  ArthurSamuel发表自动学习的下棋程序[575]  
1962年  Hunt提出概念学习,为决策树模型打下基础[293]  
1966年 1969年  Baum等人提出隐马尔可夫模型[38] MarvinMinsky和 SeymourPapert发表《感知器》,讨论感知器模型的局限性。人工神经网络的研究陷入低谷[455]  
1977年  Dempster等人提出 EM算法[148]  
1979年  Quinlan提出ID3决策树[540]  
1980年  KunihikoFukushima发表 Neocognitron,成为卷积神经网络的前趋[197]  
1980年  Kindermann提出马尔可夫随机场[341]  
1982年  JohnHopfield提出 Hopfield网络,成为递归神经网络的前趋[287]  
1984年  LeslieValiant提出 PAC学习理论[685]  
1985年  Pearl提出贝叶斯网络[511]  

5
....

续表
时间 事件  
1986年  DavidRumelhart、Geof
reyHinton和 RonaldJ.Wil
iams提出 BP算法[569]  
1986年  MichaelJordan提出循环神经网络[313]  
1988年  JudeaPearl,S.L.Lauritzen和 DJ.
Spiegelhalter提出图模型[512]  
1989年  ChristopherWatkins提出 Q-learning,增强学习开始受到重视[715]  
1990年  YannLeCun等提出多层卷积神经网络[382]  
1995年  CorinnaCortes和 VladimirVapnik提出支持向量机 (SupportVectorMachine, SVM)[127]  
1995年  VladimirVapnik提出统计学习理论[688]  
1997年  SeppHochreiter和JürgenSchmidhuber提出长短时记忆网络 (Long-ShortTerm Memory,LSTM)[283]  
2001年  JohnLaf
erty等提出条件随机场模型[369]  
2006年  Geof
reyHinton给出第一个训练深度神经网络的有效方法[280]  
2011年  IBMWatson系统在Jeopardy!中战胜人类[430]  
2014年  AlexGraves提出神经图灵机[239]  
2014年  Facebook发布 De
pFace,人脸识别率超过人类水平[645]  
2016年  GoogleDe
pMind团队利用深度学习在围棋中战胜人类顶级棋手[609]  
2016年 微软公司宣布基于深度学习的语音识别系统超过人类[735] 

机器学习是人工智能 (ArtifcialIntel
igence,AI)的一个分支,并受到统计学 (statistics)的深刻影响。人工智能是研究怎样使机器拥有人类智能的学科。一个理想的智能机器能够通过感知外界环境,采取合理动作,使得完成目标任务的可能性最大化。[570]机器学习很早就被认为是实现人工智能的方法之一,并被纳入到其研究范围。同时,机器学习注重从观察样本中学习规律,因此本身就具有概率统计的基因,从统计学研究中借鉴了大量理论和工具。经过几十年的发展,机器学习已经成长为一门具有鲜明特色的新兴学科,对人工智能的发展产生了深远影响,并直接推动了人工智能的第三次高潮。 
1956年的达特茅斯会议通常被认为是人工智能的起始元年。[132,438,296]三年后, ArthurSamule设计出第一个可学习的西洋棋程序,机器学习技术开始萌芽。当时人工智能的主要研究内容是符号演算系统的推理方法,而机器学习的主要任务则是通过经验样本对该演算系统进行优化。同一时期,起源于认知学 (Cognitive Science)研究的人工神经网络 (ArtificialNeuralNetwork,ANN)开始在机器学习领域受到重视。人工神经网络结构简单而同质,必须通过学习才能获得完成某种
6
....

任务的能力 ,这给机器学习提供了更大的自由空间。和神经网络同时萌芽的另一个研究方向是概率学习和推理方法 (ProbabilisticLearningandInference),这一方法源于统计学和概率论 (特别是贝叶斯理论 ),后来发展成现代统计学习方法和图模型理论。早期机器学习研究的第三种方法是遗传算法 (GeneticAlgorithms),模拟生物界的自然选择理论对计算系统进行学习。由此可见 ,当代机器学习的几种主要技术早在 20世纪 60年代就已经出现萌芽。然而 ,归因于符号演算方法在人工智能中的统治地位 ,当时的机器学习研究也多集中在符号方法 ,其余方法的影响极为有限。到了 80年代 ,人工智能全面进入专家系统时代 ,统计学习和神经网络受到冷落。MahineLearning杂志在最初的征稿说明中明确提出 “欢迎在符号表达和知识学习 (c如产生式规则、决策树等 )方面的研究 ,不欢迎神经网络及其他非符
号方法的论文 ”,[374]由此可见 ,当时机器学习研究所面临的困境。尽管如此 ,机器学习的研究者们依旧坚持自己的信仰 ,直到 20世纪 90年代 ,逐渐发展出一个独立的研究领域 ,研究内容不再是模拟人类智能的空泛口号 ,而是对现实问题的解决 ;研究方法更侧重统计模型 ;评价指标也从追求整体智能转变为对某一具体任务的定量评价。方法论上的改变使得机器学习的研究者更严格、更专注 ,而统计模型的引入也给学习本身提供了更自由的空间。
进入 21世纪以后 ,互联网的发展积累了大量数据 ,计算机的性能比以前有了大幅提高 ,这为以统计学习为特征的机器学习方法提供了广阔的发展空间。今天 ,机器学习在信号处理、自然语言理解、图像处理、生物与医学等各方面取得了前所未有的成功 ,远远超出了传统人工智能的研究范畴。今天当我们谈论人工智能的时候 ,大多谈论的是机器学习。关于机器学习和人工智能的发展历史 ,有兴趣的读者可参考最近出版的一些科普著作。[1,158] 

机器学习的流派
14.
前面我们提到 ,机器学习早期起源于人工智能。事实上在演化和发展过程中 ,机器学习与众多学科发生交叉融合 ,既从其他学科吸收营养 ,也启发其他学科发展出新的思路和方法 ,最终形成一个包容共生的新兴领域。从总体上看 ,当前机器学习的研究主要受四门基础学科的启发 :传统人工智能、概率与统计理论、生理学与神经学、仿生学与进化论。这些学科的研究对象和研究方法各有不同 ,启发了机器学习从不同方向思考学习问题 ,形成了四个不同流派 ,即符号学派、贝叶斯学派、连接学派和进化仿生学派。① 
①	不同学者对机器学习的流派有不同的意见。如在《大演算》一书中 ,作者认为基于相似度的学习方法 (特别是支持向量机等核方法 )应自成一派 ,称为类比推理学派。[158] 
7
....

1.4.1符号学派
符号学派的研究者认为所有智能行为都可以被简化成在一个逻辑系统中的符号操作过程。这有点像数学中的定理证明 :设定一个要证明的目标 ,在系统中寻找假设、定理 ,基于推理规则组合成一个推理过程 ,即可得到对目标的证明。事实上符号学派最大的成就之一即是在自动定理证明中的应用。
符号学派依赖严格的知识结构和推理规则。在受限领域中 ,这一方法表现出明显优势 ,如定理证明、专家系统等。然而 ,在通用领域 ,符号方法的局限性十分明显。首先 ,符号方法需要人们手动对知识进行整理加工 ,成本很高 ,容易出错。当知识越来越复杂时 ,知识的顺序、适用层次和范围也越来越难以判断 ,人工整理变得越来越不现实。其次 ,不同领域、不同任务的知识差别很大 ,通过一个任务积累的知识很难在其他任务中被复用。特别严重的是 ,符号方法很难通过学习进行自我完善。这是因为当知识增多时 ,知识之间发生矛盾的可能性会显著增加 ,很难得到一个合法的逻辑系统。因此 ,传统符号学派里的学习多是有限学习 ,仅对既有知识做排序或组合上的调整 ,较少引入全新的带有高风险的知识。
当然 ,新符号学派的研究者们 (如知识图谱的研究者 )对传统符号方法做了大量拓展和改进 ,引入了概率模型、神经模型等计算工具 ,极大地提高了符号系统的容错性和可学习性。符号系统的学习不仅是当前机器学习研究的重点 ,也是由感知智能走向认知智能的基础。 

1.4.2贝叶斯学派
传统符号方法的一个基本缺陷是对不确定性的描述能力不足。“不确定性 ”植根于我们对世界认知的局限性。事实上 ,在几乎所有现实场景中 ,现有数学和物理学定理都不可能穷尽一切因素 ,那些无法确切知晓的因素总会产生观察数据的不确定性。例如飞机的飞行轨迹、键盘的每一次敲击、人的每一次呼吸 ,这些看似非常确定的事情 ,由于有大气流动、击键错误、呼吸深浅等细节上的差异 ,每次发生时都会有所不同 ,更不用提股市价格、未来天气、地震海啸这种极为不确定的事件。
引入概率工具来描述事件的不确定性是贝叶斯学派的基本理念。在贝叶斯学派的学者们看来 ,所有事件都是不确定的 ,因此要用随机变量来描述 ;同时 ,不同事件之间的关系是不确定的 ,也应该用概率形式来描述。在贝叶斯学派看来 ,只需将表达事件的两个随机变量之间的条件概率关系确定 ,所有事件将组成一个相互连接的网络 ,则任何两个事件之间的关系即可通过这一网络推理得到。后面我们会看到 ,对于一个包含众多随机变量的网络 ,我们甚至可以将其表达为一个有向图 (贝叶斯网络或信任网络 )或无向图 (马尔可夫场 ),利用图论方法使推理过程简单化、形象化 ,因而可处理非常复杂的事件集合及其相互关系。
8
....

和传统符号方法相比 ,贝叶斯方法引入的概念是革命性的 :它引入了随机变量,对事件的随机性有了基本描述手段 ;它用条件概率来描述事件之间的关系 ,对规则上的不确定性具有天然描述能力 ;它将复杂事件之间的关系统一到概率框架中,将推理过程归结为后验概率 (PosteriorDistribution)计算 ,简洁而自洽 ;它将人工智能里的推理请求转化成概率理论里的计算请求 ,事实上为人工智能找到了一个严谨统一的计算体系进行演绎、推理与学习。
有了贝叶斯方法 ,我们再也不用编写繁杂而难以协调的规则了 ,我们要做的只是定义好表达事件的随机变量和事件之间的条件概率。特别需要指出的是 ,我们只需定义这些概率的函数形式 ,将具体参数的取值留给机器完成 ,让它们从经验中自己学习。这为机器学习提供了广阔的空间 :我们可以为这些参数设定一个合理的初始值 ,如果有新的经验 (数据 ),就可以通过学习使模型更适合当前环境。更重要的一点是 ,对这些参数的学习基于严格的概率理论 ,具有坚实的理论基础 ,避免了符号方法里规则排序等方法的次优问题。
贝叶斯方法具有一定局限性 ,特别是在推理过程中计算会比较复杂 ,虽然有抽样(Sampling)和变分 (Variational)等近似计算方法 ,但在大规模问题上计算量依然很大。另一个可能出现的问题是 ,为了推理上的简单 ,先验概率和条件概率一般会采用比较基础的函数形式 ,如高斯分布、多类分布等。这些简单的概率结构显然会降低模型对实际问题的描述能力。最后 ,在复杂问题上 ,两个变量之间是否存在关系、存在何种关系 ,通常只有领域专家才能确定 ,这给应用带来某种局限性。总之,贝叶斯方法在很大程度上依然是一个以知识为驱动的方法 ,只不过需要指定的知识比符号方法要抽象很多 (仅为变量和变量间的条件概率 ),因此也需要更多数据对系统进行优化 ,这意味着学习方法在贝叶斯学派里更重要、更灵活。直到今天,贝叶斯方法依然是机器学习领域最重要的研究内容之一 ,很多实际系统也基于这一方法。图1-2给出了贝叶斯方法中的概率图模型的一个例子。

图1-2贝叶斯学派的概率图模型
注:随机变量 A ~D定义了四个事件 ,每个事件间的有向连接代表事件间的关系。对这些关系定义某种形式的条件概率 ,通过训练数据对这些概率函数的参数进行优化 ,从而实现模型学习。推理时 ,给定某些观察变量 ,可通过计算后验概率实现对其他变量的估计。
9
....


1.4.3连接学派
连接学派也称为神经网络学派,其基本思想是基于大量同质节点的连接网络来模拟智能行为。这一方法可能源于对人类大脑神经结构的模拟:人脑的神经结构是由众多同质的神经细胞通过强弱不同的连接组成的网络,其功能主要取决于连接模式而非神经元本身。连接学派基于这一思路,设计人工神经网络来模拟人脑功能。人工神经网络的结构多种多样,一般常用的结构是层次结构,有时会加入空间结构限制或时序递归连接。神经网络的连接权重一般采用随机初始化,并基于训练数据进行优化。对预测任务,训练准则是使网络预测值与实际观值之间的误差最小,训练方法一般采用反向传播算法(BackPropagation)。对记忆任务,训练准则为使网络生成训练数据的概率最大。一般来说,神经网络的结构越复杂,学习越困难。
一方面,连接学派和贝叶斯学派都依赖一个节点网络,不同的是在贝叶斯学派中,网络中的每个节点都有清晰的定义,而连接学派网络中的节点模仿神经元,是同质的,不代表具体事件;另一方面,贝叶斯学派中的节点都是随机变量,具有概率意义,而连接学派中的节点更像计算节点,较少具有概率意义。缺少概率意义使得神经网络对不确定性的抵抗能力较弱,容易产生过拟合现象(本章后面会有详述);另外,不考虑概率使得神经网络的演绎和推理变得更简单,计算更容易(仅包括一些基础矩阵运算)。
如果我们把节点的同质性和随机性作为两个重要特征来考虑不同学派的区别,会发现一个很有趣的现象:当节点不随机亦不同质,则更接近符号方法;当节点随机且非同质,则得到典型的贝叶斯方法;当节点同质且非随机,则得到典型的神经网络方法;当节点既同质又随机,则得到兼具贝叶斯和神经网络的概率模型。事实上,有些网络,如玻尔兹曼机正是这种兼具概率属性和神经属性的网络模型。最近发展起来的随机神经网络,如变分自编码器(VariationalAuto-Encoder,VAE),通过在神经网络中引入随机节点来增强神经网络对复杂概率分布的表征能力。
值得注意的是,现代机器学习中很多方法已经被统一到概率模型中,神经网络也不例外。对大多数神经网络而言,依学习准则不同,输出具有不同的概率意义。例如,基于最小平方误差 (MinimumSquareEr
or,MSE)准则训练的线性输出网络,其输出节点可认为是目标变量在单高斯分布假设下的均值(见第2章)。同时,某些神经网络与贝叶斯网络可以联合训练,如混合密度网络 (MixtureDensityNetwork,MDN),其训练目标是使得以神经网络输出为参数的贝叶斯网络生成训练数据的概率最大。这从另一个侧面反映了贝叶斯方法和神经网络方法在现代机器学习体系下互相融合、互相促进的共生状态。
从学习角度来看,连接学派是最注重学习的学派。符号学派定义好了一系列知识,即便不通过学习也能在特定领域里取得较好的结果;贝叶斯学派引入了事件之间的概率相关性及其函数形式,需要通过少量学习来确定概率函数的具体参数
10
....