1.1人工神经网络概述 人工神经网络(artificial neural networks,ANN)的研究在度过了20世纪70年代的相对平静期以后,又常常在学术界引起广泛而浓厚的兴趣。人工神经网络技术、模糊信息处理技术和进化计算等构成了计算智能的主流技术。本章在简要回顾人工神经网络的发展历史以后,将简要介绍人工神经网络的结构、学习算法等问题。 1.1.1人工神经网络的发展 1943年,心理学家W.S.McCulloch和数理逻辑学家W.Pitts提出了MP模型,这是第一个人工神经网络数学模型。1949年,心理学家D.O.Hebb提出突触联系可变的假设,根据这一假设而提出的学习规律为神经网络的学习算法奠定了基础。1957年,计算机科学家Rosenblatt提出了著名的感知器模型。1960年,B.Windrow和E.Hoff提出了自适应线性单元,它可用于自适应滤波、预测和模式识别,自此人工神经网络的研究工作进入了第一个高潮。美国MIT的著名人工智能学者M.Minsky和S.Papert于1969年编写了《Perceptron》一书,从理论上证明了单层感知器只能解决线性可分问题。在这之后的近10年里,神经网络的研究进入了一个缓慢发展期。虽然如此,在人工神经网络低潮期,芬兰学者T.Kohonen提出了自组织映射理论、美国学者S.A.Grossberg提出了自适应共振理论(ART)、日本学者K.Fukushima提出了认知器模型等,对以后的神经网络理论的发展产生了重要影响。美国物理学家J.Hopfield于1982年提出了反馈网络,1984年,他又设计研制了后来被人们称为Hopfield网的电路,解决了著名的TSP问题,引起了较大的轰动。1986年,D.E.Rumelhart提出了多层网络的学习算法——BP算法,成为至今为止影响很大的一种网络学习方法,较好地解决了多层网络的学习问题。神经网络的研究又一次迎来高潮。20世纪90年代中后期,神经网络研究步入了一个新的发展时期,主要表现在三个方面: (1)已有理论不断被深化并且得到进一步的推广; (2)新的理论和方法不断涌现,学科交叉体现得淋漓尽致; (3)国际期刊和系列国际会议不断发展,在神经网络方面的著名国际期刊有《Neural Computation》、《IEEE Transaction on Neural Networks》、《Neural Networks》和《Neurocomputing》等。 1.1.2人工神经网络的结构 图11表示作为人工神经网络(Artificial neural Networks,ANN)基本单元的神经元模型,它有三个基本要素。 图11神经元模型 (1) 一组连接权(对应于生物神经元的突触),连接强度由各连接上的权值表示,权值为正表示激励,为负表示抑制。 (2) 一个求和单元,用于求取各输入信息的加权和(线性组合)。 (3) 一个非线性激励函数,起非线性映射作用并限制神经元输出幅度在一定的范围之内(一般限制在[0,1]或[-1,+1]之间)。 图中的ft(·) 为激励函数或称为激活函数。其中x1,x2,…,xn表示各输入信息; w1,w2,…,wn表示各输入信息的权值。 激励函数可以有以下几种形式。 (1) 阈值函数 φ(v)=1,v≥0 0,v<0 (2) 分段线性函数 φ(v)=1,v≥1 v,-11 由上可知,欲求 w0,b0 关键在于求出 α=(α1,α2,…,αn),而求解 α 则要涉及二次规划问题,然而二次规划问题的求解过程是相当复杂的。 2. 广义最优分类面 最优分类面是在线性可分的前提下讨论的,在线性不可分的情况下,我们引入松弛变量(ξ1,ξ2,…,ξn),其中 ξi≥0。使 yi(w·xi+b)≥1-ξi,i=1,2,…,n(1.2.4) 引入松弛变量 ξi 的目的是允许那些错分的点,这些点相应的 ξi>1。于是广义最优分类面可以通过解决下述问题得到: min12w·w+C∑ni=1ξi 约束条件为式(1.2.4)和 ξi≥0。最小化第一项是为了控制学习能力,与线性可分时的情况相同。而第二项则是用来控制错分的样本点个数。参数 C 由用户选择,C 值越大表示对误差的惩罚越重,即它实际上起控制对错分样本惩罚的程度的作用,实现在错分样本的比例与算法复杂度之间的折中。因此,该优化问题的解法由拉格朗日函数表示为 L(w,b,ξ,α,β)=12(w·w)+C∑ni=1ξi-∑ni=1αi{[(xi·w)+b]yi-1+ξi}-∑ni=1βiξi 其中,αi,βi 是拉格朗日二乘算子。同前,二次规划问题为 max α,βW(α,β)=max α,β{min w,b,ξL(w,b,ξ,α,β)} 对w,b,ξi 进行相应地最小化,可得 Lb=0∑ni=1αiyi=0 Lw=0w=∑ni=1αixiyi Lξi=0αi+βi=C 因此从上述几个式子,二次规划问题可变为 max αW(α)=max α-12∑ni=1∑nj=1αiαjyiyj(xi·xj)+∑ni=1αi 从而可得解 α-=arg min α12∑ni=1∑nj=1αiαjyiyj(xi·xj)-∑ni=1αi 其中约束条件为 0≤αi≤C, ∑ni=1αiyi=0 这个最小化问题的解法同线性可分情况是一致的,只是对拉格朗日二乘算子的界做了一些修改。 3. 非线性支持向量机 以上讨论的是线性可分和线性不可分问题,对于非线性问题,可以通过非线性变换转化为某个高维空间中的线性问题,在变换空间中求最优分类面。在高维空间实际上也只需进行内积运算,而这种内积运算是可以用原空间中的核函数实现的。根据泛函的有关理论,只要一种核函数 K(xi,xj) 满足Mercer条件, 图14将输入空间映射到一个 高维特征空间 它就对应某一变换空间中的内积。如图14所示。