1.1人工神经网络概述
人工神经网络（artificial neural networks，ANN）的研究在度过了20世纪70年代的相对平静期以后，又常常在学术界引起广泛而浓厚的兴趣。人工神经网络技术、模糊信息处理技术和进化计算等构成了计算智能的主流技术。本章在简要回顾人工神经网络的发展历史以后，将简要介绍人工神经网络的结构、学习算法等问题。
1.1.1人工神经网络的发展
1943年，心理学家W．S．McCulloch和数理逻辑学家W．Pitts提出了MP模型，这是第一个人工神经网络数学模型。1949年，心理学家D．O．Hebb提出突触联系可变的假设，根据这一假设而提出的学习规律为神经网络的学习算法奠定了基础。1957年，计算机科学家Rosenblatt提出了著名的感知器模型。1960年，B．Windrow和E．Hoff提出了自适应线性单元，它可用于自适应滤波、预测和模式识别，自此人工神经网络的研究工作进入了第一个高潮。美国MIT的著名人工智能学者M．Minsky和S．Papert于1969年编写了《Perceptron》一书，从理论上证明了单层感知器只能解决线性可分问题。在这之后的近10年里，神经网络的研究进入了一个缓慢发展期。虽然如此，在人工神经网络低潮期，芬兰学者T．Kohonen提出了自组织映射理论、美国学者S．A．Grossberg提出了自适应共振理论（ART）、日本学者K．Fukushima提出了认知器模型等，对以后的神经网络理论的发展产生了重要影响。美国物理学家J．Hopfield于1982年提出了反馈网络，1984年，他又设计研制了后来被人们称为Hopfield网的电路，解决了著名的TSP问题，引起了较大的轰动。1986年，D．E．Rumelhart提出了多层网络的学习算法——BP算法，成为至今为止影响很大的一种网络学习方法，较好地解决了多层网络的学习问题。神经网络的研究又一次迎来高潮。20世纪90年代中后期，神经网络研究步入了一个新的发展时期，主要表现在三个方面： （1）已有理论不断被深化并且得到进一步的推广； （2）新的理论和方法不断涌现，学科交叉体现得淋漓尽致； （3）国际期刊和系列国际会议不断发展，在神经网络方面的著名国际期刊有《Neural Computation》、《IEEE Transaction on Neural Networks》、《Neural Networks》和《Neurocomputing》等。
1.1.2人工神经网络的结构
图11表示作为人工神经网络（Artificial neural Networks，ANN）基本单元的神经元模型，它有三个基本要素。


图11神经元模型

（1） 一组连接权（对应于生物神经元的突触），连接强度由各连接上的权值表示，权值为正表示激励，为负表示抑制。
（2） 一个求和单元，用于求取各输入信息的加权和（线性组合）。
（3） 一个非线性激励函数，起非线性映射作用并限制神经元输出幅度在一定的范围之内（一般限制在［0，1］或［-1，+1］之间）。
图中的ft（·） 为激励函数或称为激活函数。其中x1,x2，…，xn表示各输入信息； w1，w2，…，wn表示各输入信息的权值。
激励函数可以有以下几种形式。
（1） 阈值函数


φ（v）=1，v≥0

0，v<0



（2） 分段线性函数


φ（v）=1，v≥1
v，-1<v<1
0，v≤-1


它类似于一个带限幅的线性放大器，当工作于线性区时，它的放大倍数为1。
（3） Sigmoid函数
该函数具有平滑和渐进性，并保持单调性，最常用的函数形式为


φ（v）=11+exp（-αv） 


α 参数可控制其斜率。另一种常用的是双曲正切函数： 


φ（v）=tanhv2=1-exp（-v）1+exp（-v） 


除单元特性外，网络的拓扑结构也是ANN的一个重要特征，从连接方式看ANN主要有以下两种:
（1） 前馈型网络
各神经元接受前一层的输入，并输出给下一层，没有反馈。节点分为两类，即输入单元和计算单元，每一计算单元可以有任意多个输入，但只有一个输出（它可以耦合到任意多个其他节点作为其输入）。前馈网络可分为不同的层，


图12前馈神经网络的结构

第i 层的输入只与第i-1层输出相连，输入和输出节点与外界相连，而其他中间层则称为隐层。图12给出了前馈神经网络的结构，从图中我们可以看出信息的流向。
（2） 反馈型网络
所有节点都是计算单元，同时也可以接受输入，并向外界输出。它可以画成一个无向图，其中每一个连接线都是双向的，若总单元数为n，则每一节点有n-1个输入和1个输出。
人工神经网络的工作过程主要分为两个阶段： 一个阶段是学习期，此时各个计算单元状态不变，各连线上的权值通过学习来修改； 另一个阶段是工作期，此时连接权固定，计算单元状态变化，以达到某种稳定状态。
从作用效果看，前馈网络主要是函数映射，可以用于模式识别和函数逼近。按对能量函数的所有极小点的利用情况划分，可将反馈网络分为两类： 一类是能量函数的所有极小点都起作用，主要用作各种联想存储器； 另一类只利用全局极小点，它主要用于求解优化问题。
1.1.3人工神经网络的学习算法
1. 学习方式
通过向环境学习获取知识并改进自身性能是神经网络的一个重要特点。在一般情况下，性能的改善是按某种预定的度量通过调节自身参数（如权值）随时间逐步达到的。学习方式（按环境提供信息量的多少）有四种：
（1） 监督学习（有教师学习）。
（2） 非监督学习（无教师学习）。
（3） 再励学习（强化学习）。这种学习介于上述两种情况之间，外部环境对系统输出结果只给出评价信息（奖或惩）而不是给出正确答案。学习系统通过强化那些受奖的动作来改善自身的性能。
（4） 半监督学习。这是近年来比较热门的一种机器学习方法，值得关注。它又分为两种情况： 一种情况是给定一小部分有标记的学习样本（即监督信息）和一大部分没有标记的学习样本，这种学习方式被称为LU学习（LU learning）; 另一种情况是给定属于P类的学习样本，以及另一个没有标记的学习样本集合，其中可能有属于P类的样本和不属于P类的样本； 这种学习方式被称为PU学习（PU learning）。不难看出，半监督学习方式中仅给出了部分监督信息。
2. 学习算法（学习规则）
（1） 误差纠正学习

输入 xk（n） 时，令神经元k在n时刻的实际输出为 yk（n），dk（n） 表示希望输出（可由训练样本给出），则误差信号可写为


ek（n）=dk（n）-yk（n） 


误差纠正学习的最终目标是使某一个基于 ek（n） 的目标函数达到最小，以使网络中每一个输出单元的实际输出在某种统计意义上逼近应有输出。一旦选定了目标函数形式，误差纠正学习就变成了一个典型的最优化问题，最常用的目标函数是均方差判据，定义为误差平方和的均值


J=E12∑ke2k（n）


其中，E为求期望算子，上式的前提是被学习的过程是宽平稳的，可以用最优梯度下降法来求解。直接用J作为目标函数时需要知道整个过程的统计特性，为解决这一问题，通常用J在时刻n的瞬时值 ξ（n） 代替J，即


ξ（n）=12∑ke2k（n）


问题变为求 ξ（n） 对权值w的极小值，根据梯度下降法可得


Δwkj=ηek（n）xj（n） 


其中，η 为学习步长，这就是通常所说的误差纠正学习规则（或称delta学习规则）。在自适应滤波器理论中，对这种学习的收敛性及其统计特性有较深入的分析。
（2） Hebb学习
由神经心理学家Hebb提出的学习规则可归纳为“当某一个突触（连接）两端的神经元同步激活（同为激活或同为抑制）时，该连接的强度应增强，反之应减弱”。用数学方式可描述为


 Δwkj（n）=F（yk（n），xj（n））


式中，yk（n），xj（n） 分别为 wkj两端神经元的状态，其中最常用的一种情况是


 Δwkj=ηyk（n）xj（n） 


由于Δwkj 与 yk（n），xj（n） 的相关程度成比例，所以有时也称为相关学习规则。
（3） 竞争（competitive）学习
顾名思义，在竞争学习时，网络各输出单元互相竞争，最后达到只有一个最强者激活的目的，最常见的一种情况是输出神经元之间有侧向抑制连接，这样原来输出单元中如有某一单元较强，则它终将获胜并抑制其他单元，最后只有此强者处于激活状态。竞争学习规则可描述为


Δwji=η（xi-wji），若神经元j竞争获胜

0，若神经元j竞争失败


这种学习方式就是常见的WTA学习（winnertakeall）。
1.2前馈网络及其应用
1.2.1感知器学习算法

单层感知器可实现线性可分函数，对某个具体函数来说，可以通过调整各权系数值大小来达到，具体过程用有监督的学习算法来实现。采用如下符号：
x（n）（p+1） 维输入向量 =［-1，x1（n），x2（n），…，xp（n）］T
w（n）（p+1） 维权向量 =［θ（n），w1（n），w2（n），…，wp（n）］T
y（n）实际输出
d（n）应有输出（目标输出）
η学习步长，小于1的正数。
算法（感知器学习算法）： 训练感知器模型
输入：
（1） 输入向量。
（2） 权值的初始值。
输出： 网络的实际输出。
步骤：
（1） 初始化： w（0）=0；
（2） 在第n步（n=0，1，2，…） 加输入x（n），计算感知器实际输出y（n）=sgn ［wT（n）x（n）］。
（3） 按下式调节权系数


w（n+1）=w（n）+η［d（n）-y（n）］x（n）


（4） n=n+1，返回第（2）步。
可以证明当输入样本来自线性可分的模式时，上述学习算法在有限步内收敛，这时所得到的权系数能对所有样本正确分类，这一结论称为感知器收敛定理。
1.2.2反向传播算法及其改进算法
多层网络可以解决非线性可分问题，但由于隐层的学习比较困难，因此限制了多层网络的发展。反向传播（Back Propagation，BP）算法的出现解决了这一困难，促使多层网络的研究重新得到重视。
BP算法的步骤可归纳如下。
（1） 初始化，选定合理的网络结构，置所有可调参数（权和阈值）为均匀分布的较小数值。
（2） 对每个输入样本作如下计算。
① 前向计算： 对第l层的j单元，


 v（l）j（n）=∑pi=0w（l）ji（n）y（l-1）i（n）


其中，y（l-1）i（n） 为前一层（（l-1）层）的单元i送来的工作信号（i=0时置 y（l-1）0（n）=-1，w（l）j0（n）=θ（l）j（n）），若单元j的激励函数为Sigmoid函数，则


 y（l）j（n）=11+exp（-v（l）j（n））
φ′j（vj（n））=y（l）j（n）vlj（n）=exp（-v（l）j（n））［1+exp（-v（l）j（n））］2=y（l）j（n）（1-y（l）j（n）） 


若神经元j属于第一隐层（即l=1），则有


y（0）j（n）=xj（n）


若神经元j属于输出层（l=L），则有


y（L）j（n）=Oj（n），且 ej（n）=dj（n）-Oj（n） 


② 反向计算 δ：
对输出单元

δ（L）j（n）=e（L）j（n）Oj（n）（1-Oj（n））
对隐单元

δ（l）j（n）=y（l）j（n）［1-y（l）j（n）］∑kδ（l+1）k（n）w（l+1）kj（n）
③ 按下式修正权值： 


w（l）ji（n+1）=w（l）ji（n）+ηδ（l）j（n）y（l-1）i（n） 


④ n=n+1，输入新的样本（或新一周期样本）直至δAV达到预定要求。训练时各周期中样本的输入顺序需要重新随机排序。
但是，在实用中，BP算法存在两个重要问题： 收敛速度慢，目标函数存在局部极小。
在提高收敛速度方面，已有许多人做了研究并提出了很多方法，现介绍一些主要的方法如下。
（1） 加动量项，工作中学习步长 η 的选择是很重要的，η 大收敛就快，但过大则可能引起不稳定（振荡）；  η 小可避免不稳定，但收敛速度就慢了。解决这一矛盾的最简单方法是加“动量项”，即


Δwji（n）=αΔwji（n-1）+ηδj（n）yj（n）0<α<1 


式中，第二项是常规BP算法的修正量，第一项称之为动量项，α 为某一正数，其作用简单分析如下。
当顺序加入训练样本时上式可写成以t为变量的时间序列，t由0到n，因此上式可看做Δwji的一阶差分方程，对Δwji（n）求解可得


Δwji（n）=η∑nt=0αn-1δj（t）yi（t）=-η∑nt=0αn-1ξ（t）wji（t）

 
当本次的ξ（t）wji（t）与前次正负同号时，其加权求和值增大，使 Δwji（n） 较大，结果在稳定调节时加速了w的调节速度。当 ξ（t）wji（t） 与前次符号相反时说明有一定振荡，此时指数加权求和结果使 Δwji（n） 减小，起到稳定作用。
（2） 对于Sigmoid函数，反对称函数（即φ（-v）=-φ（v））比不对称函数更好，其中最常用的反对称函数是双曲正切，即


φ（v）=atanh（bv）=a1-exp（-bv）1+exp（-bv）=2a1+exp（-bv）-a


一般选 a=1.716，b=2/3。
（3） 应使目标值 dj 在输出单元j的作用函数的值域内，若输出单元的Sigmoid函数的渐进值分别为 -a，+a，则应使 dj=a-ε，例如 a=1.716 时可令 ε=0.716，这样 dj 的范围刚好是 ［-1，+1］。
（4） 各权值及阈值的起始值应选为均匀分布的小数经验值，约为
（-2.4/F，2.4/F） 之间（也有人建议在（-3/F，3/F） 之间）


其中，F为所连单元的输入端个数。
（5） 最好使网络中各种神经元的学习速度差不多，例如，一般说来输出单元的局部梯度比输入端的大，可使前者的步长η小些。还有，有较多输入端的单元的η可比较少输入端的单元的η小些。
（6） 每一周期的训练样本输入顺序都要随机排序。
常规的BP算法收敛速度慢的一个主要原因是采用了瞬时梯度来修正权值，因而利用的信息很少，这样还可以从其他方面来提高收敛速度。一方面，学习过程实际上是一个最优化问题，用瞬时梯度相当于爬山法，如果采用共轭梯度法或牛顿法虽然计算复杂些但可改善收敛过程。另一方面可以把监督学习过程看做一个线性自适应滤波器，如果放弃简单的LMS法而采用递推最小二乘法（RLS）或扩展的卡尔曼滤波算法（EKA）也可改进收敛过程。这方面可参阅专门文献。
对BP网的目标函数存在局部极小的问题，目前主要的方法是： 将一些全局优化算法（如遗传算法GA、模拟退火算法SA、禁忌搜索算法和其他一些进化算法）和BP算法相结合，以克服其局部极小的问题。
1.2.3SVM模型
Vapnik提出的支持向量机（Support Vector Machine,SVM）的方法是基于结构风险最小化（Structural Risk Minimization，SRM）原理的统计学习方法。SRM使VC维的上限最小化，这使SVM方法比基于经验风险最小化（Empirical Risk Minimization，ERM）原理的ANN等方法具有更好的泛化能力。
1. 最优分类面
SVM是从线性可分情况下的最优分类面发展而来的，基本思想可由图13的二维情况说明。图中，实心点和空心点代表两类样本， H为分类线，H1，H2 分别为过各类中离分类线最近的样本且平行于分类线的直线，


图13线性可分情况下的

最优分类面

它们之间的距离叫做分类间隔（margin）。所谓最优分类线就是要求分类线不但能将两类样本正确分开，而且使分类间隔最大。
设样本集为（xi，yi），i=1，2，…，n，x∈Rd，y ∈ {+1，-1}，满足



yi［（w·xi）+b］-1≥0，i=1，2，…，n（1.2.1）



此时分类间隔等于 2‖w‖，使间隔最大等价于使 ‖w‖2 最小。满足条件（1.2.1）且 12‖w‖2 最小的分类面就叫做最优分类面，H1，H2 上的训练样本点就称为支持向量。使分类间隔最大实际上就是对推广能力的控制，这是SVM的核心思想之一。
要找到这个超平面，需要求解下面的二次规划问题，即最小化泛函


Φ（w）=12（w·w）


约束条件为不等式类型： yi［（xi·w）+b］≥1，i=1，2，…，n
这个优化问题的解是由下面的拉格朗日泛函的鞍点给出的： 


L（w，b，α）=12（w·w）-∑ni=1αi{［（xi·w）+b］yi-1}


其中，αi 为拉格朗日乘子。
由KuhnTucker条件可得最优超平面必须满足下列特性：
（1） L（w，b，α）b=0∑ni=1αiyi=0，αi≥0，i=1，2，…，n（1.2.2）
（2）  L（w，b，α）w=0w=∑ni=1yiαixi，αi≥0，i=1，2，…，n
（3） 只有所谓的支持向量可以在 w0 的展开中具有非零的系数 αi，因此可得


w=∑支持向量yiαixi，αi≥0


最优超平面的充分必要条件是分类超平面满足条件： 


αi{［（xi·w）+b］yi-1}=0，i=1，2，…，n 


把w的表达式代入拉格朗日函数中，得到泛函


W（α）=∑ni=1αi-12∑ni，j=1αiαjyiyj（xi·xj）（1.2.3）


在约束条件 αi≥0，i=1，2，…，n 和式（1.2.2）下最大化式（1.2.3）的二次型，可得


α-=arg minα12∑ni=1∑nj=1αiαjyiyj（xi·xj）-∑ni=1αi


由此可得最优超平面的w0，b0 ： 


w0=∑ni=1αiyixi
b0=-12w0·［xr+xs］  


w0 为一个 n 维向量，b0 为一个数值。其中，xr 表示属于第一类的某个（任意一个）支持向量，xs 表示属于第二类的任意一个支持向量。
分类函数如下。
（1） 硬分类函数： f（x）=sign（w0·x+b0）
（2） 软分类函数： f（x）=h（w0·x+b0）

其中，h（x）=-1，x<-1
x，-1≤x≤1
1，x>1
由上可知，欲求 w0，b0 关键在于求出 α=（α1，α2，…，αn），而求解 α 则要涉及二次规划问题，然而二次规划问题的求解过程是相当复杂的。
2. 广义最优分类面
最优分类面是在线性可分的前提下讨论的，在线性不可分的情况下，我们引入松弛变量（ξ1，ξ2，…，ξn），其中 ξi≥0。使


yi（w·xi+b）≥1-ξi，i=1，2，…，n（1.2.4）


引入松弛变量 ξi 的目的是允许那些错分的点，这些点相应的 ξi>1。于是广义最优分类面可以通过解决下述问题得到： 


min12w·w+C∑ni=1ξi


约束条件为式（1.2.4）和 ξi≥0。最小化第一项是为了控制学习能力，与线性可分时的情况相同。而第二项则是用来控制错分的样本点个数。参数 C 由用户选择，C 值越大表示对误差的惩罚越重，即它实际上起控制对错分样本惩罚的程度的作用，实现在错分样本的比例与算法复杂度之间的折中。因此，该优化问题的解法由拉格朗日函数表示为


L（w，b，ξ，α，β）=12（w·w）+C∑ni=1ξi-∑ni=1αi{［（xi·w）+b］yi-1+ξi}-∑ni=1βiξi


其中，αi，βi 是拉格朗日二乘算子。同前，二次规划问题为


max α，βW（α，β）=max α，β{min w，b，ξL（w，b，ξ，α，β）}


对w，b，ξi 进行相应地最小化，可得


Lb=0∑ni=1αiyi=0
Lw=0w=∑ni=1αixiyi
Lξi=0αi+βi=C


因此从上述几个式子，二次规划问题可变为


max αW（α）=max α-12∑ni=1∑nj=1αiαjyiyj（xi·xj）+∑ni=1αi


从而可得解


α-=arg min α12∑ni=1∑nj=1αiαjyiyj（xi·xj）-∑ni=1αi


其中约束条件为


0≤αi≤C，
∑ni=1αiyi=0


这个最小化问题的解法同线性可分情况是一致的，只是对拉格朗日二乘算子的界做了一些修改。
3. 非线性支持向量机
以上讨论的是线性可分和线性不可分问题，对于非线性问题，可以通过非线性变换转化为某个高维空间中的线性问题，在变换空间中求最优分类面。在高维空间实际上也只需进行内积运算，而这种内积运算是可以用原空间中的核函数实现的。根据泛函的有关理论，只要一种核函数 K（xi，xj） 满足Mercer条件，


图14将输入空间映射到一个

高维特征空间




它就对应某一变换空间中的内积。如图14所示。