第5章非线性方程(组)
非线性方程(组)是科学技术与工程计算中的重要问题之一，求解方法远比线性方程(组)复杂，通常都要使用数值迭代技术。本章主要介绍二分法、牛顿法、拟牛顿法和不动点法，并讨论它们的收敛性和计算复杂性。这些迭代技术在实践中非常重要，应用十分广泛。阅读本章的数学基础是初等微分学。
5.1非线性方程
5.1.1二分法

定义5.1.1如果f(ξ)=0，则称ξ是方程f(x)=0的一个根(解)，或者说是函数y=f(x)的一个零点。若f(x)是非线性函数，则称f(x)=0为非线性方程。
二分法是求解非线性方程最简单的实用方法，其理论基础源于微分学中的介值定理和实数连续性的闭区间套定理。
介值定理： 如果f(x)在闭区间［a，b］上连续，则对f(a)和f(b)之间的任何一个数y，都存在ξ∈［a，b］使得f(ξ)=y，即f(x)能取到f(a)和f(b)之间的所有数。

闭区间套定理： 设［an，bn］［an+1，bn+1］，n=1，2，…，是一个闭区间套，若limn→∞(bn-an)=0，则存在唯一ξ∈［an，bn］，n=1，2，…，即长度趋于零的闭区间套的交是单点集，{ξ}=∩∞n=1［an，bn］。

若f(x)是闭区间［a，b］上的连续函数，且在端点异号f(a)·f(b)<0，则0必在f(a)和f(b)之间，根据介值定理存在ξ∈［a，b］使得f(ξ)=0，即方程f(x)=0在［a，b］上有根。

在［a，b］上找根： 首先取中点c=(a+b)/2，如果f(c)=0则找到一个根c； 否则比较f(c)和f(a)的符号： 若f(a)·f(c)<0，令a1=a，b1=c，否则a1=c，b1=b。于是，得到一个新区间［a1，b1］［a，b］，且


b1-a1=b-a2，f(a1)·f(b1)<0


在［a1，b1］上重复前面的操作，并将这个过程继续下去，要么得到一个根c； 要么得到一个区间套


［a，b］［a1，b1］…［an，bn］…

bn-an=b-a2n→0(n→∞)

f(an)·f(bn)<0


在第二种情况下，由闭区间套定理存在ξ∈［an，bn］，且f(ξ)在f(an)和f(bn)之间，因此必有f(ξ)=0。不难看出



an+bn2-ξ≤b-a2n+1(5.1)


因此，根是闭区间套中点的极限


ξ= limn→∞an+bn2


这就是二分法的寻根过程，首先找有根区间，然后二分区间将寻根范围缩小到原区间的二分之一，继续这个过程直至达到期望精度，得到近似根ξ≈(an+bn)/2。在寻根过程中，不需要观察函数曲线的性态，只须计算函数值yn=f((an+bn)/2)，算法极为简单。以下是二分法的概述。


二分法



给定初始区间［a，b］，f(a)·f(b)<0； 控制误差δ
(1)  (b-a)/2>δ，置c=(a+b)/2。若f(c)=0，输出根c； 否则

若f(a)·f(c)<0，令b=c，否则a=c；
(2) (b-a)/2≤δ，输出近似根c=(a+b)/2，否则返回(1)。

例5.1.1利用二分法求方程f(x)=x3-x-1=0在［1，2］上的根。
解f(1)·f(2)=-5<0，因此在［1，2］上方程有根，表5.1给出了二分法前9次迭代的计算结果，图5.1是函数f(x)=x3-x-1曲线和最初4次迭代区间端点的图示。


表5.1二分法寻方程x3-x-1=0的根： 前9次迭代



nanbncn=(an+bn)/2f(cn)

01.02.01.50.125
11.0 1.51.25-0.609375
21.251.51.375-0.291016
31.3751.51.4375-0.0959473
41.43751.51.468750.0112
51.43751.468751.45313-0.0431938
61.453131.468751.46094-0.0162034
71.460941.468751.46484-0.00255352
81.464841.468751.46680.00431024
91.464841.46681.465820.00087512



图5.1曲线f(x)=x3-x-1和二分法前4次迭代的区间端点



二分法第n次迭代的近似根cn=(an+bn)/2，与真值之间的误差为


|cn-ξ|≤(b-a)/2n+1(5.2)


迭代过程中只需计算(n+1)次函数值，因而计算量极小。每次迭代都以常数因子1/2减小误差，因此二分法是线性收敛的，或者说二分法线性收敛。

如果取控制误差δ=0.5×10-p，即期望根精确到小数点后p位，则从(b-a)/2n+1<0.5×10-p估算出所需要的迭代次数


n>plog210+log2(b-a)≈3.3219p+log2(b-a)(5.3)


实际迭代次数要小于这个估计数。例如： 在例5.1.1中，如果期望根精确到小数点后3位，则迭代次数n>3.3219p+log21=9.99657，即迭代10次后可以使根精确到小数点后3位。事实上，这个方程的根是1.46557(精确到小

图5.2二分法失效
数点后5位)，从表5.1可以看出第9次迭代根就已经精确到小数点后3位。
二分法的困难部分也许是确定端点异号的初始区间，一旦这种区间被找到二分法就保证迭代一定收敛到根。值得指出的是，二分法不适合重根的情况，对图像如y=x2m的一类问题失效，如图5.2所示。下面介绍的牛顿法可解决这类问题，收敛速度也比二分法快。
5.1.2牛顿法
牛顿法，也称牛顿拉夫逊(NewtonRaphson)方法，它的收敛速度比二分法快，求根的迭代过程有明显的几何意义，其原理是用一系列线性方程的根逼近非线性方程的根。
为求方程f(x)=0的根，先给定一个初始猜测值(简称初始值)x0，然后过点(x0，f(x0))作曲线y=f(x)的切线


y=f(x0)+f′(x0)(x-x0)


它与x轴的交点x1，如图5.3所示，是线性方程f(x0)+f′(x0)(x-x0)=0的解


x1=x0-f(x0)f′(x0)




图5.3牛顿迭代几何


再以x1代替x0重复上面的操作，得到


x2=x1-f(x1)f′(x1)


将这个过程继续下去，就得到牛顿迭代点列


xk+1=xk-f(xk)f′(xk)，k=0，1，2，…


可见，它是一系列线性方程f(xk)+f′(xk)(x-xk)=0，k=0，1，2，…的解。


牛顿法



解方程f(x)=0



给定初始值： x0

迭代： xk+1=xk-
f(xk)f′(xk),k=0，1，2，…



由Taylor公式也可导出牛顿法。由Taylor定理，在x和x0之间存在ηx使得


f(x)=f(x0)+f′(x0)(x-x0)+f″(ηx)2(x-x0)2


当x在x0附近时，二次项很小可忽略不计，即


f(x)≈f(x0)+f′(x0)(x-x0)


当x0在方程f(x)=0的根附近时，自然希望下次迭代x1更靠近方程的根，因此希望x1满足


f(x0)+f′(x0)(x1-x0)=0(5.4)


于是


x1=x0-f(x0)f′(x0)


满足式(5.4)的x1只是比x0更接近于根ξ，但未必有f(x1)=0。为了找到更精确的解，需要继续这个过程，因此就产生了逐渐趋近于根ξ的牛顿迭代，xk+1=xk-f(xk)/f′(xk)，k=0，1，2，…。

和二分法一样，牛顿法也是通过迭代逼近方程的根，不同的是牛顿法将导数用在迭代过程中，从而充分利用了函数的局部变化信息(导数是函数的瞬时变化率)，因此收敛速度比二分法更快。很可惜，牛顿迭代不总是收敛的。
例5.1.2从给定的初始值开始对下述方程作8次牛顿迭代，并观察收敛性： 
(i) x2-2=0，x0=2.5
(ii) sinx=0，x0=0.8
(iii) x3-x-3=0，x0=0.0
(iv) x1/3=0，x0=1.0
解这四个方程的牛顿迭代分别为
(i) xk+1=xk-2x2k-12xk，x0=2.5
(ii) xk+1=xk-sinxkcosxk，x0=0.8 
(iii) xk+1=xk-x3k-xk-33x2k-1，x0=0.0
(iv)  xk+1=xk-x1/3kx-2/3k/3，x0=1.0
表5.2给出了8次迭代结果，可以看出： 对于x2-2=0和sinx=0牛顿法收敛，且第4次迭代就分别给出精确到小数点后8位和24位的根。对于方程x3-x-3=0，从初始值x0=0.0开始，迭代3次后进入循环状态，因此对给定的初始值牛顿迭代不收敛。对于x1/3=0，牛顿迭代对给定的初始值是发散的。


表5.2牛顿迭代



x2-2=0sinx=0x3-x-3=0x1/3=0

2.50.80.000001.00000
1.65-0.2296385570503640-3.00000-2.00000
1.4310606060606060.00412357916974798-1.961534.00000
1.414312727593564-0.0000000233724753-0.0065716.0000
1.4142135658496033.308722450212×10-24-3.00038-32.0000
1.4142135623730950.-1.9618164.0000
1.4142135623730950.-1.14743-128.000
1.4142135623730950.-0.00725256.000
1.4142135623730950.-3.00047-512.000


方程x3-x-3=0精确到小数点后10位的根是ξ=1.6716998816，选择充分靠近根ξ的点作为初始值，比如x0=1.0，你会发现牛顿迭代收敛到根ξ，即从初始值x0=1.0开始牛顿法收敛。这说明牛顿法的收敛性依赖于初始值的选择，有时在充分靠近根的情况下才收敛，也就是说牛顿法局部收敛。最特别的是方程x1/3=0，不管如何选取初始值，无论多么靠近方程的根(只要不等于根ξ)，经过若干次迭代后将逐渐偏离方程的根，也就是说牛顿法对这类方程失效。
1. 二阶收敛性
牛顿法何时收敛，收敛速度如何？这是下面要讨论的问题，先给出收敛速度的定义。

定义5.1.2假定ξ是方程f(x)=0的一个根，{xk: k=1，2，…}是收敛到ξ的迭代点列。如果存在常数c使得


limk→∞|xk+1-ξ||xk-ξ|p=c(5.5)


则称迭代最终收敛速度是p阶的，或者说迭代p阶收敛。特别地，p=1，称为线性收敛； p=2，称为平方收敛； 1<p<2，称为超线性收敛。p越大收敛速度就越快。
关于牛顿迭代的收敛性与收敛速度有下述结论： 
定理5.1.1假定f(x)有连续的二阶导数。若x0充分接近方程f(x)=0的根ξ，且f′(ξ)≠0，则牛顿迭代二阶收敛于ξ。
证明记cξ=f″(ξ)2f′(ξ)(f′(ξ)≠0)，由f″(x)的连续性，当c>cξ时必存在δ使得，


x，η∈(ξ-δ，ξ+δ)，f″(η)2f′(x)<c(5.6)


根据Taylor定理，f(xk)+f′(xk)(ξ-xk)+f″(ηk)(ξ-xk)2/2=f(ξ)=0，其中ηk位于xk和ξ之间，于是


ξ= xk-f(xk)f′(xk)xk+1-f″(ηk)2f′(xk)(ξ-xk)2


即


xk+1-ξ=f″(ηk)2f′(xk)(xk-ξ)2(5.7)


因x0充分接近ξ，不妨假定|x0-ξ|<min{δ，1/c}。由式(5.6)和式(5.7)，


|xk+1-ξ|=f″(ηk)2f′(xk)(xk-ξ)2<c|xk-ξ|2


于是


|xk+1-ξ|<(c|x0-ξ|)k+1|x0-ξ|


由于c|x0-ξ|<1，必有xk+1-ξ→0(k→∞)，故牛顿迭代收敛。
因ηk在xk，ξ之间，所以ηk也收敛到ξ。由式(5.7)，


limk→∞|xk+1-ξ||xk-ξ|2= limk→∞f″(ηk)2f′(xk)=cξ


按定义5.1.2，牛顿法最终收敛速度是二阶的。证毕。
应该指出的是，定理中的条件“x0充分接近ξ”一般不可检验，因为事先不知道根ξ的位置，我们正想找到根的位置。另外，“充分接近”也很模糊，根据定理的证明过程可认为x0在ξ的某个邻域，比如|x0-ξ|<min{δ，1/c}，当然这也不可检验。最后，定理只是说最终收敛速度是二阶的，未指出达到这个速度之前需要多少次迭代。因此，人们常说牛顿法的收敛性和收敛速度依赖于给定的初始值。尽管如此，定理5.1.1仍有十分重要的理论意义，因为它给出了牛顿迭代局部收敛的充分条件和最终收敛速度。
继续考虑例5.1.2中的方程x2-2=0，它的精确解


ξ=2，cξ=f″22f′2≈0.353553


记ekΔxk-2，它是第k次迭代误差，从表5.2得到最初几次的迭代误差



e1=0.235786

e2=0.016847e2/e21=0.30303

e3=0.000099e3/e22=0.34939

e4=3.47651*10-9e4/e25=0.35352≈cξ


注意，对于这个方程，初始取x0=0，牛顿法失败； 取x0>0，收敛到2； 取x0<0，收敛到-2。
牛顿法不像二分法那样，可以通过估计绝对误差来终止迭代，在实际问题中需要设置终止条件。给定容差ε，常用的终止条件有
绝对终止条件： |xk+1-xk|≤ε。
相对终止条件： |xk+1-xk|xk+1≤ε (根不在0附近)。
绝对/相对终止条件： |xk+1-xk|max{|xk+1|，θ}≤ε，其中θ>0，常用于根在0附近。
2.  线性收敛性
在定理5.1.1中，f′(ξ)≠0是牛顿法收敛的充分条件，但不是必要条件。例如方程xp=0，零是它的p重根，即f(0)=f′(0)=…=f(p-1)(0)=0，f(p)(0)=p≠0，牛顿迭代


xk+1=xk-xpkpxp-1k=p-1pxk


以(p-1)/p的因子减小，因此收敛到方程的根。从(xk+1-0)/(xk-0)=(p-1)/p知，此时牛顿法的收敛速度是线性的，不再有二阶收敛性。下述定理概括了这类问题。
定理5.1.2假定f(x)有连续的p+1阶导数，ξ是f(x)=0的p+1重根，即


f(ξ)=f′(ξ)=…=f(p)(ξ)=0，f(p+1)(ξ)≠0


若x0充分接近ξ，则牛顿迭代收敛于ξ，且


limk→∞xk+1-ξxk-ξ=pp+1(5.8)


即牛顿迭代的收敛速度是线性的。
证明在牛顿迭代xk+1=xk-f(xk)f′(x1)的两边同减去ξ，得到


xk+1-ξ=xk-ξ-f(xk)f′(xk)(5.9)


由重根条件，对f(xk)和f′(xk)在点ξ作Taylor展开


f(xk)=f(p+1)(ηk)(p+1)!(xk-ξ)(p+1)，f′(xk)=f(p+1)(η′k)p!(xk-ξ)p


其中ηk，η′k位于ξ，xk之间。将上式代入式(5.9)，得到


xk+1-ξ=(xk-ξ)1-1p+1·f(p+1)(ηk)f(p+1)(η′k)(5.10)


由于f(x)是连续p+1阶可导的，且f(p+1)(ξ)≠0，所以取0<ε<1/(p+1)，一定存在δ>0使得当η，η′∈(ξ-δ，ξ+δ)时，


1-1p+1·f(p+1)(η)f(p+1)(η′)<1-ε(5.11)


其中0<1-ε<1。因x0充分接近ξ，不妨假定x0∈(ξ-δ，ξ+δ)，根据式(5.10)和式(5.11)得到


|x1-ξ|=(x0-ξ)1-1p+1·f(p+1)(ηk)f(p+1)(η′k)<(1-ε)|x0-ξ|<δ


从而x1∈(ξ-δ，ξ+δ)，同理可推知所有xk∈(ξ-δ，ξ+δ)，因此


|xk+1-ξ|<(1-ε)|xk-ξ|<…<(1-ε)k+1|x0-ξ|


因(1-ε)k+1→0(k→∞)，必有xk+1-ξ→0。再由式(5.10)，


limk→∞xk+1-ξxk-ξ= limk→∞1-1p+1·f(p+1)(ηk)f(p+1)(η′k)=pp+1


证毕。
注释对于p+1重根牛顿法线性收敛，如果利用下面的迭代


xk+1=xk-(p+1)f(xk)f′(xk)，k=1，2，…


则恢复到牛顿法的二阶收敛性。因事先难以确定根的重数，这种迭代方式仅有理论意义而无实用价值，对此不作详细讨论。
5.1.3拟牛顿法
牛顿法对单根二阶收敛，对重根线性收敛，但在迭代过程中必须计算导数。实际问题的函数可能非常复杂，或者根本没有解析表达式，此时牛顿法需要花费很大代价来计算导数，自然希望有不需计算导数的迭代方法来解决此类问题。拟牛顿法是避免计算导数的一类方法，它的一般迭代形式为


xk+1=xk-f(xk)Tk


这里Tk是f′(xk)的近似Tk≈f′(xk)。选择不同的Tk导致不同的拟牛顿法，其中最著名的是下面将要介绍的割线法，其收敛速度介于线性与二阶之间。
1.  割线法
众所周知，导数是切线的斜率，而切线在几何上是割线的极限，因此导数可用割线的斜率来近似。通过(xk-1，f(xk-1))和(xk，f(xk))两点的割线斜率


图5.4割线法迭代几何



Tk=f(xk)-f(xk-1)xk-xk-1=f［xk-1，xk］


替代牛顿法中f′(xk)，得到割线法的迭代


xk+1=xk-f(xk)f［xk-1，xk］(5.12)


事实上，xk+1是割线与x轴的交点，如图5.4所示。与牛顿法不同，实施割线法需要两个初始值。


割线法



解方程f(x)=0

给定初始值： x0，x1

迭代：  xk+1=xk-f(xk)f［xk-1,xk］,k=1,2,…


在讨论割线法的收敛性和收敛速度之前，先看一个例子。继续考察方程x2-2=0，此次使用割线法，初始值取x0=2.5，x1=1.5。按迭代公式(5.12)，最初6次迭代的近似值及其误差如下： 



x2=1.4375e2=0.0232864

x3=1.41489361e3=0.0006800

x4=1.41429114e4=5.551×10-6

x5=1.41421356e5=1.334×10-9

x6=1.41421356e6=2.664×10-15


观察误差可以发现，割线法的收敛速度快于线性收敛速度，但比二阶收敛速度慢。根据下面的定理，准确收敛阶p=(1+5)/2 ≈1.618，位于线性与二阶中间偏上一些。
定理5.1.3假定f(x)有连续的二阶导数，ξ是方程f(x)=0的根，f′(ξ)≠0。若x0，x1充分接近ξ，则割线法收敛到ξ，且


limk→∞ek+1ekek-1=cξcξΔf″(ξ)2f′(ξ)(5.13)


证明由式(5.12)，得到


xk+1-ξ=xk-ξ-f(xk)(xk-ξ)-(xk-1-ξ)f(xk)-f(xk-1)


因此


ek+1=ek-f(xk)ek-f(xk)ek-1f(xk)-f(xk-1)=ekek-11ek-1-f(xk)ek-1-f(xk)ekf(xk)-f(xk-1)

=ekek-1·f(xk)/(xk-ξ)-f(xk-1)/(xk-1-ξ)xk-xk-1A(xk-1，xk)·xk-xk-1f(xk)-f(xk-1)B(xk-1，xk)(5.14)


当xk，xk-1→ξ时


B(xk，xk-1)→1f′(ξ)(5.15)


考虑A(xk，xk-1)在xk，xk-1→ξ时的极限： 定义h(x)=f(x)x-ξ，则


A(xk，xk-1)=h(xk)-h(xk-1)xk-xk-1


当xk，xk-1→ξ时，A(xk，xk-1)→h′(ξ)。下面计算h′(ξ)： 


h′(x)=f′(x)(x-ξ)-f(x)(x-ξ)2


根据求极限的洛必达法则


h′(ξ)= limx→ξf′(x)(x-ξ)-f(x)(x-ξ)2= limx→ξf″(x)(x-ξ)2(x-ξ)=f″(ξ)2


因此


A(xk，xk-1)→f″(ξ)2(5.16)


由式(5.15)和式(5.16)，


A(xk，xk-1)·B(xk，xk-1)→f″(ξ)2f′(ξ)=cξ(5.17)


于是，给定ε>0必存在δ>0使得当xk，xk-1∈(ξ-δ，ξ+δ)时，


A(xk，xk-1)·B(xk，xk-1)<cξ+ε

|ek+1|<(cξ+ε)|ekek-1|


由于x0，x1充分接近ξ，不妨假定x0，x1∈(ξ-δ′，ξ+δ′)，其中δ′=minδ，12(cξ+ε)，于是


|e2|<(cξ+ε)|ekek-1|<12|e0|<δ′


一般，


|ek+1|<12|ek-1|<δ′


因此，所有xk都落在(ξ-δ′，ξ+δ′)内，且|ek+1|<12k|e0|→0，故割线法收敛到ξ，从而由式(5.14)和式(5.17)得到


limk→∞ek+1ekek-1=cξ


证毕。
根据定理5.1.3，可推知割线法的收敛阶p=1+52≈1.618： 由式(5.13)，对充分大的k


|ek+1|≈cξ|ek|·|ek-1|(5.18)


假定存在常数c，p使得对充分大的k，|ek|≈c|ek-1|p，即


|ek-1|≈ekc1/p


将上式和|ek+1|≈c|ek|p代入式(5.18)，得到


c|ek|p≈cξ|ek|·|ek|c1/p=cξc-1/p|ek|1+1/p

c-1ξc1+1/p≈|ek|1-p+1/p


上式左端是无关k的常数，因此右端指数必须为零，即


1-p+1p=0




图5.5抛物线法迭代几何


于是p=(1±5)/2。阶是正值，故割线法的收敛阶p=(1+5)/2≈1.618。
2.  抛物线法
不难看出，割线法是用一系列线性插值函数(割线)的零点逼近方程的根，它的直接推广是以二次插值函数的零点逼近方程的根，如图5.5所示，由此产生解方程的抛物线法，也称为密勒(Müller)法。


抛物线法



解方程f(x)=0

给定初始值：  x0，x1，x2

迭代： 

xk+1=xk-
2f(xk)
b(xk,xk-1,xk-2)+sign(b)
b2(xk,xk-1,xk-2)-4f(xk)f［xk,xk-1,xk-2］
，k=2，3,…


假定xk，xk-1，xk-2是当前迭代的三个近似根，以它们为节点的二次多项式插值


p(x)=f(xk)+f［xk，xk-1］(x-xk)+f［xk，xk-1，xk-2］(x-xk)(x-xk-1)


有两个零点


x±=xk-2f(xk)b(xk，xk-1，xk-2)±b2(xk，xk-1，xk-2)-4f(xk)f［xk，xk-1，xk-2］
(5.19)


其中


b(xk，xk-1，xk-2)=f［xk，xk-1］+f［xk，xk-1，xk-2］(xk-xk-1)


为了确定第k+1次迭代xk+1，需要选择根式前的正负号。在三个近似根xk，xk-1，xk-2中，自然假定xk更接近方程的精确解，因而选择最接近于xk的零点作为xk+1，此时根式前符号与b的符号相同。这样就得到了抛物线法的第k+1次迭代。
例5.1.3用割线法和抛物线法求方程xex=1的前6次迭代的近似根，其中割线法的两个初始值x0=2，x1=1.5； 抛物线法初始值x2=1.144809是割线法的第一次迭代。

解计算结果见表5.3，可以看出割线法第6次迭代才达到小数点后4位的精度； 抛物线法以x0，x1和x2=1.144809为初始值时，首次迭代就达到了小数点后14位的精度，抛物线法比割线法收敛更快。


表5.3割线法和抛物线法解方程xex=1



迭 代 次 数割线法抛 物 线 法

11.144809274721835
20.8497215106134370.567143290409784
30.6686522037459260.567143290409783
40.5877552249261280.567143290409783
50.5687848190138260.567143290409783
60.5671707846697730.567143290409783


事实上，在一定的条件下，可以证明抛物线法的迭代误差有如下渐近关系： 


limk→∞ek+1|ek|1.840=f(ξ)2f′(ξ)0.42(5.20)


也就是说，抛物线法的收敛阶p=1.840(α3-α2-α-1=0的根)，因此也是超线性收敛的，与割线法收敛阶p=1.618相比，抛物线法收敛更快，几乎接近牛顿法的二阶收敛性。
注释抛物线法在迭代过程中，二次插值多项式可能与x轴不相交，即得到的迭代xk+1可能是复数，

图5.6逆二次插值法迭代几何
此时可得到方程的近似复根。也就是说，抛物线法也适用于求多项式的复根。若问题只关心实根，可以应用逆二次插值法使每次迭代xk+1都是实数。所谓逆二次插值法是指，用y的二次多项式x=ay2+by+c而不是用x的二次多项式，进行插值，如图5.6所示。它与x轴有唯一交点x=c(y=0)，因此xk+1=c，读者可自行写出逆插值二次法的迭代公式。
5.1.4不动点法
定义5.1.3如果ξ使得(ξ)=ξ，则称ξ为函数y=(x)的不动点。在几何上，不动点是曲线y=(x)与直线y=x交点的x坐标。

不动点常用来分析动力系统的性态。动力系统的行为在不动点处达到平衡状态，既不增长也不衰减。非线性方程f(x)=0的求解也可归结为求一个函数的不动点，比如： 令


(x)=x-f(x)f′(x)(f′(x)≠0)


定义迭代xk+1=(xk)，k=0，1，2，…。如果迭代收敛于ξ，则它是(x)的不动点ξ=(ξ)，同时ξ也是方程f(x)=0的根，因为从ξ=(ξ)得到


ξ=ξ-f(ξ)f′(ξ)f′(ξ)≠0


故f(ξ)=0。事实上，此处xk+1=(xk)就是牛顿迭代。

一般，将方程f(x)=0化为同解方程x=(x)后，就可以从给定初值开始迭代


xk+1=(xk)，k=0，1，2，…


称为迭代函数。若迭代收敛于ξ且迭代函数连续，则ξ是迭代函数的不动点，同时也是方程f(x)=0的根。这就是解方程的不动点法。


不动点法



解方程f(x)=0

构造同解方程：  x=(x)

给定初始值：  x0

迭代：  xk+1=(xk)，k=0，1，2，…


同解方程(x)=x有多种多样的形式，不同形式会有不同的性态，因此相应迭代的收敛性也不相同。
例5.1.4考虑方程x3+x-1=0的四种同解方程： 
(i) x=1-x3
(ii) x=(1-x)1/3
(iii) x=11+x2
(iv)  x=1+2x31+3x2

其中(iv)是在(i)两边同时加3x3得到的。它们相应的迭代函数分别为


1(x)=1-x3

2(x)=(1-x)1/3

3(x)=11+x2

4(x)=1+2x31+3x2


从初始值x0=0.75开始迭代，表5.4给出了最初16次的迭代结果。方程x3+x-1=0的精确解


ξ=32(9+93)2-23333639+93≈0.682327803828019




表5.4不动点迭代



xk+1=1(xk)xk+1=2(xk)xk+1=3(xk)xk+1=4(xk)

0.5781250.6299605249474360.640.686046511627907
0.8067741394042960.7179309652491870.7094211123723040.682339582597314
0.4748832079703000.6558207257480320.6652128153748840.682327803946512
0.8929071591691560.7008013097503980.6932370134443740.682327803828019
0.2881001273925190.6688363929029010.6754121021225350.682327803828019
0.9760872044376330.6918535942020330.6867275780640010.682327803828019
0.0700365951698780.6754383295070260.6795348983173390.682327803828019
0.9996564617697200.6872252004950860.6841032368063380.682327803828019
0.0010302606758350.6788032580367430.6812001914578600.682327803828019
0.9999999989064430.6848419845888950.6830443858121040.682327803828019
3.2806707350×10-90.6805229652127630.6818725923115100.682327803828019
1. 0.6836175680334200.6826170459970940.682327803828019
0. 0.6814031235169690.6821440459888900.682327803828019
1. 0.6829892024921960.6824445575941720.682327803828019
0. 0.6818539356242740.6822536266958130.682327803828019
1. 0.6826669089566690.6823749325462970.682327803828019



从表5.4可以看出，1迭代若干次后进入周期状态，循环取0，1两个值，因此不收敛； 2收敛但收敛速度缓慢，迭代到16次才达到小数点后3位的精度； 3收敛速度稍快； 4收敛速度非常快，迭代4次就达到小数点后15位的精度。
同解方程为什么会表现出如此不同的性质？为此，分析迭代函数在不动点局部邻域Δ=［0.5，0.8］的性态。考虑迭代函数在Δ上的最小、最大值，以及导数在Δ上的最大值： 


1(Δ)=［0.488，0.875］Δ，maxx∈Δ|′1(x)|=1.92>1

2(Δ)=［0.5848，0.7937］Δ，maxx∈Δ|′2(x)|=0.9746<1

3(Δ)=［0.6097，0.8］Δ，maxx∈Δ|′3(x)|=0.6495<1

4(Δ)=［0.6823，0.7142］Δ，maxx∈Δ|′3(x)|=0.1756<1



可见，收敛的迭代函数都有共同的质性(Δ)Δ，max|′(x)|<1，发散的迭代函数没有这个特性； max|′(x)|越小收敛越快。这一现象可由后面的定理得到进一步证实。
1. 整体收敛性
定义5.1.4如果存在常数ρ<1使得


|(x)-(y)|≤ρ|x-y|，x，y∈［a，b］


则称(x)是［a，b］上压缩映射。
如果MΔmaxa≤x≤b|′(x)|<1，则(x)必是［a，b］上压缩映射。压缩映射缩小任意两点间的距离，因此在［a，b］上一致连续。
定理5.1.4(整体收敛的充分条件)如果(x)是［a，b］上的压缩映射，且(［a，b］)［a，b］，则
(i) 在［a，b］上(x)存在唯一的不动点ξ
(ii) 对任意x0∈［a，b］为初始值的迭代xk+1=(xk)∈［a，b］，且


|xk+1-ξ|≤ρk+11-ρ|x1-x0|(5.21)


(iii) xk→ξ(k→∞)
证明令Φ(x)=x-(x)。因(［a，b］)［a，b］，即x∈［a，b］，a≤(x)≤b，所以Φ(a)≤0，Φ(b)≥0。由压缩映射的连续性和介值定理，在［a，b］上存在ξ使Φ(ξ)=0，即ξ是(x)的不动点ξ。如果还存在一个不动点η≠ξ，则



|ξ-η|=|(ξ)-(η)|≤ρ|ξ-η|ρ≥1


与ρ<1矛盾，故不动点是唯一的。


|xk+1-ξ|=|(xk)-(ξ)|≤ρ|xk-ξ|≤ρ(|xk+1-xk|+|xk+1-ξ|)


由此可推知，


|xk+1-ξ|≤ρ1-ρ|xk+1-xk|(5.22)


此外


|xk+1-xk|=|(xk)-(xk-1)|≤ρ|xk-xk-1||xk+1-xk|≤ρk|x1-x0|


代入式(5.22)，


|xk+1-ξ|≤ρk+11-ρ|x1-x0|


最后，因ρ<1，得到limk→∞|xk+1-ξ|=0。证毕。
称式(5.21)和式(5.22)为迭代误差的事先估计和事后估计。事先估计是迭代开始时对第k+1迭代误差的一个粗略估计，以便为终止迭代提供信息； 事后估计是当前迭代的误差估计，比事先估计准确。给定精度ε，由事先估计



ρk+11-ρ|x1-x0|=εk+1=ρ-1ln1-ρ|x1-x0|


得到需要迭代的次数。当然，这必须以已知ρ为前提，在ρ未知情况下仍使用5.1.2节介绍的终止条件。
定理5.1.5(整体发散的充分条件)假定存在常数ρ>1使得|(x)-(y)|≥ρ|x-y|(x，y∈［a，b］)，或者mina≤x≤b|′(x)|>1。若初始点x0不是不动点，则迭代发散。
证明略，留给读者。
例5.1.5下述三个方程在［2，3］上都与方程x3-2x-5=0同解，试分析不动点迭代的收敛性： 
(i) x=x3-x-5
(ii) x=(2x+5)1/3
(iii) x=(2+5/x)1/2
解
(i)  (x)=x3-x-5，′(x)=3x2-1，min2≤x≤3|′(x)|=|′(2)|=11>1，由定理5.1.5，迭代发散。
(ii) (x)=(2x+5)1/3，′(x)=2(2x+5)-2/3/3

min2≤x≤3(x)=(2)=91/3>2，max2≤x≤3(x)=(3)=111/3<3



(［2，3］)［2，3］

max2≤x≤3|′(x)|=′(2)=2·9-2/3/3≈0.15408<1

根据定理5.1.4，在区间［2，3］上迭代整体收敛。
(iii) (x)=(2+5/x)1/2，′(x)=-5(2+5/x)-1/2/2x

min2≤x≤3(x)=(3)=(11/2)1/2<2，max2≤x≤3(x)=(2)=(9/2)1/2<3



(［2，3］)［2，3］

因此，不满足定理5.1.4条件。如果将区间缩小到［2，2.5］，就有


 (［2，2.5］)［2，2.5］

max2≤x≤2.5|′(x)|=′(2)=5·2-1/2/12<1



由定理5.1.4，迭代在区间［2，2.5］上整体收敛。事实上，在区间［2，3］上迭代也是整体收敛的，这与定理5.1.4不矛盾，因它给出的仅是收敛性的充分条件。
2.  局部收敛性
如果初始值充分靠近不动点，则迭代的收敛性仅依赖于迭代函数的局部性质，对此有如下定理： 
定理5.1.6(局部收敛的充分条件)若(x)在不动点 ξ的某个邻域有连续的导数，且|′(ξ)|<1，则迭代局部收敛于 ξ，也就是说当x0充分靠近不动点时，迭代xk+1=(xk)必收敛到 ξ。

证明因′(x)在包含 ξ的邻域内连续且′(ξ)<1，所以存在δ>0使得


′(x)<1，x∈［ξ-δ，ξ+δ］


记


ρ=max{|′(x)|:x∈［ξ-δ，ξ+δ］}<1


由微分中值定理，x，y∈［ξ-δ，ξ+δ］，


(x)-(y)=′(η)(x-y)|(x)-(y)|≤ρ|x-y|


因此



|(x)-ξ|=|(x)-(ξ)|≤ρ|x-ξ|<δ(［ξ-δ，ξ+δ］)［ξ-δ，ξ+δ］


根据定理5.1.4，迭代xk+1=(xk)在［ξ-δ，ξ+δ］上收敛到 ξ。证毕。

定理5.1.7(局部发散的充分条件)假定(x)在不动点 ξ的某个邻域有连续的导数且|′(ξ)|>1，则若x1≠x0(即x0不是不动点)，则迭代局部发散。

例5.1.6不难验证： 迭代函数1(x)=x2-1，2(x)=2x-(1+5)/2，3(x)=1+x有同一个不动点


ξ=(1+5)/2≈1.61803


由于′1(ξ)=1+5>1，′2(ξ)=2>1，|′3(ξ)|=1/2<1，根据定理5.1.7，对于1(x)，2(x)迭代都是局部发散的； 根据定理5.1.6对于3(x)迭代收敛。两个发散迭代的性态不相同，对于1(x)迭代最终进入周期状态； 而对于2(x)随着迭代次数的增加离不动点越来越远。表5.5给出了最初15次的迭代结果。


表5.5不动点局部迭代(初始值： 1.60)



xk+1=1(xk)xk+1=2(xk)xk+1=3(xk)

1.5600000000000001.5819660112501051.612451549659710
1.4336000000000011.5458980337503151.616307999627456
1.0552089600000041.4737620787507361.617500540843018
0.1134659492642901.3294901687515771.617869135883066
-0.9871254783575531.0409463487532601.617983045610511
-0.0255832899773710.4638587087566261.618018246377497
-0.999345495273933-0.6903165712366411.618029124081979
-0.001308581075696-2.9986671312231771.618032485484138
-0.999998287615568-7.6153682511962501.618033524215162
-3.4247659311814×10-6-16.848770491142391.618033845200761
-0.999999999988270-35.315574971034681.618033944390772
-2.3458124331909×10-11-72.249183930819271.618033975042172
-1.-146.11640185038841.618033984513975
0. -293.85083768952671.618033987440923
-1.-589.31970936780341.618033988345400



最后，以不动点迭代的收敛阶定理结束本节。
定理5.1.8如果(x)在不动点 ξ的某个邻域有连续的p阶导数，且


′(ξ)=″(ξ)=…=(p-1)(ξ)=0，p(ξ)≠0


则迭代p阶局部收敛于 ξ。
证明由′(ξ)=0，迭代必局部收敛于 ξ。对(x)在点 ξ应用Taylor定理： 


xk=(xk-1)=(ξ)+′(ξ)2(xk-1-ξ)+…+(p-1)(ξ)(p-1)!(xk-1-ξ)p-1+

(p)(ηk-1)p!(xk-1-ξ)p


于是


xk=ξ+(p)(ηk-1)p!(xk-1-ξ)p


因此


|xk-ξ||xk-1-ξ|p=(p)(ηk-1)p!→(p)(ξ)p!(k→∞)


故迭代p阶收敛。证毕。
5.2非线性方程组
非线性方程组是指由n个n元非线性方程构成的方程组，一般形式为



f1(x1，x2，…，xn)=0

f2(x1，x2，…，xn)=0

︙

fn(x1，x2，…，xn)=0
(5.23)



记


f(x)=（f1(x)，f2(x)，…，fn(x)）T，x=(x1，x2，…，xn)T


它是Rn到Rn的映射，称为向量值函数。利用这个记号，将非线性方程组写成简洁的向量形式


f(x)=0(5.24)


求解非线性方程组远比求解一元非线性方程困难，本节的主要目的是将上节中的牛顿法、拟牛顿法和不动点迭代法拓广到非线性方程组。
5.2.1多元牛顿法
1. 向量函数的微分

为了将牛顿法推广到非线性方程组，需要类似一元函数导数的向量值函数的导数概念，尤其是向量值函数的一阶Taylor展开。
如果对每个1≤i≤n，函数fi(x)在点x0可微，则称向量值函数f(x)在点x0可微。矩阵


Df(x0)=f1x1(x0)f1x2(x0)…f1xn(x0)

f2x1(x0)f2x2(x0)…f2xn(x0)

︙︙︙

fnx1(x0)fnx2(x0)…fnxn(x0)


称为f(x)在点x0的Jacobi矩阵，在向量值函数分析中它相当于一元函数的导数。由Jacobi矩阵定义的线性映射


L(d)=Df(x0)d(5.25)


称为f(x)在点x0的微分，它是f(x0+d)-f(x0)的局部线性近似。也就是说，在x0的邻域内



f(x0+d)-f(x0)≈L(d)=Df(x0)d


即


f(x0+d)≈f(x0)+Df(x0)d(5.26)


例如： 令f(x)=x21+4x22-4

4x21+x22-4，(f1(x)=x21+4x22-4，f2(x)=4x21+x22-4)，它在点x的Jacobi矩阵是



Df(x)=f1x1(x)f1x2(x)

f2x1(x)f2x2(x)=2x18x2

8x12x2


在点x0=(1，1)T的微分


L(d)=Df(1，1)d=28

82d1

d2


由式(5.26)，得到f(1.1，1.1)的近似值


f(1.1，1.1)≈f(1，1)+28

820.1

0.1=2

2


而精确值f(1.1，1.1)=(2.05，2.05)T。可见，f(x)在点x0邻域内可由该点微分得到很好的线性近似。
回忆n元函数在点x0的一阶Taylor展开



fi(x)=fi(x0)+Tfi(x0)(x-x0)+ri(x0，x)


其中


fi(x0)=fix1(x0)，fix2(x0)，…，fixn(x0)T


是fi(x)在点x0的梯度； 


ri(x0，x)=o(‖x0-x‖2)


是‖x0-x‖2的无穷小量，即


lim‖x-x0‖2→0ri(x0，x)‖x-x0‖2=0


因此


f(x)=f(x0)+
Tf1(x0)

Tf2(x0)

︙

Tfn(x0)(x-x0)+r1(x0，x)

r2(x0，x)

︙

rn(x0，x)

=f(x0)+Df(x0)(x-x0)+r(x0，x)(5.27)


其中r(x0，x)=o(‖x0-x‖2)是‖x0-x‖2的无穷小向量，即


lim‖x-x0‖2→0‖r(x0，x)‖2‖x-x0‖2=0


公式(5.27)称为向量值函数的一阶Taylor展开式。
2. 多元牛顿法

求解非线性方程组的牛顿法是一元方程牛顿思想的自然推广。用Jacobi矩阵Df(xk)替代一元牛顿法中的导数f′(xk)，得到多元牛顿迭代


xk+1=xk-D-1f(xk)f(xk)，k=0，1，2，…(5.28)




多元牛顿法



解方程f(x)=0

给定初始值：  x0

迭代：  Df(xk)dk=-f(xk)

xk+1=xk+dk，k=0，1，2,…


已知第k次迭代xk，自然希望下次迭代xk+1更靠近方程组f(x)=0的解。由一阶Taylor展开式



0≈f(xk+1)=f(xk)+Df(xk)(xk+1-xk)+r(xk+1，xk)

≈f(xk)+Df(xk)(xk+1-xk)



于是，我们希望


f(xk)+Df(xk)(xk+1-xk)=0


故，第k+1次迭代


xk+1=xk-D-1f(xk)f(xk)


在求解大型方程组中，为避免计算Jacobi矩阵的逆，可先解线性方程组(称为牛顿方程)


Df(xk)dk=-f(xk)（dk=xk+1-xk）


得到dk，再实现牛顿迭代xk+1=xk+dk。牛顿法在每步迭代的计算量是： 计算n个分量函数的值，n2个偏导数(Jacobi矩阵)和解一次牛顿方程，因此有O(n3)次运算。
例5.2.1用牛顿法解方程组


f(x)=x21+4x22-4

4x21+x22-4=0

0(5.29)


解计算f(x)在点x的Jacobi矩阵



Df(x)=2x18x2

8x12x2


初始值取x0=6.5

5.5，Df(x0)=1344

5211，f(x0)=159.25

195.25。从牛顿方程Df(x0)d0=-f(x0)得到


d0=-829/260

-101/110


因此


x1=x0+d0=6.5

5.5+-829/260

-101/110=3.311538461538461

2.822727272727272


表5.6给出了最初10次迭代结果。这个方程组有四个解x1=±2/5，x2=±2/5，分别以初始值x0=(-6.5，5.5)、(-6.5，-5.5)和(6.5，-5.5)进行迭代可得到另外三个解，但这样做没有必要，因为根据方程组的平方项特性，从一个解就可确定其他三个解。



表5.6多元牛顿迭代



kxk

0{6.5，5.5}
1{3.3115384615384613， 2.8227272727272723}
2{1.7765590100955955， 1.5530705606792563}
3{1.1134338611524544， 1.0340895796272630}
4{0.9159659295118101， 0.9038584739280965}
5{0.8946804303627222， 0.8944763962130312}
6{0.8944272268396262， 0.8944271923533070}
7{0.8944271909999166， 0.8944271909999160}
8{0.8944271909999159， 0.8944271909999159}
9{0.8944271909999159， 0.8944271909999159}
10{0.8944271909999159， 0.8944271909999159}


从表5.6可以看出，第6次迭代得到精确到小数点后6位的解。此后，收敛速加快，第8次迭代精度准确到小数点后16位，呈现出局部二阶收敛性特征。

事实上，如果f(x)可微且在解处的Jacobi矩阵Df(x*)可逆，则牛顿法超线性收敛； 如果Df(x)在解的局部邻域内还满足李普希兹条件‖Df(x)-Df(y)‖2<L‖x-y‖2，则牛顿法二阶收敛，证明请参考［9］。
3. 不精确牛顿法
在每次迭代中，牛顿法需要求解牛顿方程Df(xk)dk=-f(xk)。对于大规模问题，求此方程精确解的代价十分高昂。为了节省计算量，通常采用迭代法解牛顿方程获得近似解，这样就产生了不精确牛顿法。这里的不精确是相对牛顿方程的，并非说原始非线性方程组的解不精确。事实上，在每步迭代中没有必要获得牛顿方程的精确解，只要将精度控制在某个范围内就可以。具体地说，在不精确牛顿法的每步迭代中，先将求解线性方程组的某种迭代法用于牛顿方程，得到满足下述条件的迭代解dk： 


‖Df(xk)dk+f(xk)‖2≤ηk‖f(xk)‖2


其中ηk∈(0，1)是强制项，用来控制近似解dk的精度。


牛顿雅可比法



解方程f(x)=0

给定初始值：  x0

迭代内迭代： 应用雅可比法迭代求解牛顿方程Df(xk)dk=-f(xk)使得


‖Df(xk)dk+f(xk)‖2≤ηk‖f(xk)‖2


外迭代：  xk+1=xk+dk，k=0，1，2,…


可以看出，不精确牛顿法是一种内外迭代法。外层迭代是牛顿迭代； 内层迭代是求解线性方程组的某种迭代，比如Jacobi、
GaussSeidel和逐步松弛(SOR)等迭代法，使用不同的线性迭代法导致不同版本的不精确牛顿法。
5.2.2多元拟牛顿法
拟牛顿法是对牛顿法修正所得到的，其目的一是为了避免牛顿法每迭代步都要计算Jacobi矩阵和求解牛顿方程，二是为了适应向量值函数不可微的一类方程组。主要思想是以矩阵Ak简单近似(或替代)Jacobi矩阵Df(xk)，一般迭代格式为





xk+1=xk-A-1kf(xk)，k=0，1，2，…

Ak+1dk=Dk

Ak+1=Ak+ΔAk，rank(ΔAk)=m
(5.30)


其中dk=xk+1-xk，
Dk=f(xk+1)-f(xk)； 第二个方程称为拟牛顿方程，它相当于Jacobi矩阵要满足的方程； ΔAk称为Ak的秩为m的修正矩阵，在实践中常见的是m=1，2两种情形，分别称为秩1拟牛顿法和秩2拟牛顿法。
1. 布洛伊登法
布洛伊登法(Broyden)是秩1拟牛顿法。布洛伊登注意到拟牛顿方程Ak+1dk=Dk没有利用dk的正交补空间Ok={u:dTku=0}的任何信息，于是要求Ak+1对任意u∈Ok有Ak+1u=Aku。也就是说，要求Ak+1满足




Ak+1dk=Dk


Ak+1u=Aku，u∈Ok
(5.31)


且



rankΔAk=rank(Ak+1-Ak)=1(5.32)


根据式(5.32)和式(5.31)的第二式


Ak+1-Ak=wdTk(其中w为待定向量)


由式(5.31)的第一式


wdTkdk=(Ak+1-Ak)dk=Dk-Akdkw=Dk-AkdkdTkdk


因此


Ak+1=Ak+(Dk-Akdk)dTkdTkdk(5.33)


这是布洛伊登法Ak的更新公式。


布洛伊登法Ⅰ



解方程f(x)=0

给定初始值：  x0； A0

迭代：  解拟牛顿方程Akdk=-f(xk)，k=0，1，2，…


xk+1=xk+dk

Dk=f(xk+1)-f(xk)

Ak+1=Ak+
(Dk-Akdk)dTkdTkdk

 


布洛伊登法需要从一个近似的Jacobi矩阵A0开始。若无法获得初值x0的Jacobi矩阵，通常取A0是单位矩阵。布洛伊登法的计算比牛顿法简单，在每步迭代中计算n个分量函数在点xk的值，然后解一次拟牛顿方程Akdk+1=-f(xk)得到xk+1，再计算n个分量函数在点xk+1的值，最后计算Ak+1。从表面上看，需要O(n3)次运算，若利用下面ShermanMorrison求逆引理，计算量可降低到O(n2)。
ShermanMorrison求逆引理
若A为非奇异矩阵，则A=A+uvT也是非奇异的，当sΔ1+vTA-1u≠0时，



(A+uvT)-1=A-1-s-1A-1uvTA-1(5.34)


证明留给读者做练习。
由此引理，


Bk+1=A-1k+1=Ak+(Dk-Akdk)dTkdTkdk-1

=Bk-1+dTkBk(Dk-Akdk)dTkdk-1Bk(Dk-Akdk)dTkBkdTkdk

=Bk+(dk-BkDk)dTkBkdTkBkDk


这样就得到一种不用解拟牛顿方程的布洛伊登法，称为第二种布洛伊登法。与布洛伊登法Ⅰ不同，这里的初始矩阵B0=D-1f(x0)，若Jacobi矩阵不可计算也可取单位矩阵。


布洛伊登法Ⅱ



解方程f(x)=0

给定初始值：  x0； B0

迭代：   xk+1=xk-Bkf(xk)，k=0，1，2，…

Dk=f(xk+1)-f(xk)

Bk+1=Bk+
(dk-BkDk)dTkBk
dTkBkDk


例5.2.2用布洛伊登法Ⅰ和Ⅱ解方程组




x3-y3+x=0


x2+y2-1=0
(x0，y0)=(1，1);A0=B0=I


解考虑布洛伊登法Ⅰ，由



A0=1

1，f(x0)=(1，1)T



从A0d0=-f(x0)得到d0=(-1，-1)T，因此


x1=x0+d0=(0，0)T

f(x1)=(0，-1)T，D0=f(x1)-f(x0)=(-1，-2)T

A1=A0+(D0-A0d0)dT0dT0d0=10

0.51.5


重复上面的过程得到x2=x0+d0=(0，0.666667)T。表5.7给出了布洛伊登法Ⅰ和Ⅱ的最初15次迭代结果。可以看出两种方法，每次迭代结果一致，具有很快的收敛速度。事实上，在一定的条件下布洛伊登法是超线性收敛的。


表5.7布洛伊登迭代



布洛伊登法Ⅰ布洛伊登法Ⅱ

0{1.，1.}{1.，1.}
1{0.，0.}{0.， 0.}
2{0.，0.6666666666666666}{0.， 0.666666666666666}
3{0.5，1.125}{0.5，  1.125}
4{0.706278271598889，0.502845255939402}{0.706278271598889， 0.502845255939402}
5{0.468495884132446，0.809419903629634}{0.468495884132446， 0.809419903629634}
6{0.542857470718812，0.841055958859420}{0.542857470718812， 0.841055958859420}
7{0.511338131697325，0.867764710168130}{0.511338131697325， 0.867764710168130}
8{0.507607106104817，0.860440707336289}{0.507607106104817， 0.860440707336289}
9{0.507993931920313，0.861355824683596}{0.507993931920313， 0.861355824683596}
10{0.507992049859365，0.861361723650724}{0.507992049859365， 0.861361723650724}
11{0.507992000676276，0.861361786301928}{0.507992000676276， 0.861361786301928}

续表



布洛伊登法Ⅰ布洛伊登法Ⅱ

12{0.507992000407849，0.861361786662122}{0.507992000407849， 0.861361786662122}
13{0.507992000407952，0.861361786661985}{0.507992000407952， 0.861361786661985}
14{0.507992000407951，0.861361786661985}{0.507992000407951， 0.861361786661985}
15{0.507992000407951，0.861361786661985}{0.507992000407951， 0.861361786661985}


2.  秩2拟牛顿法
在理解了布洛伊登法的基础上，不难构造秩2拟牛顿法。仿照布洛伊登法Ⅱ，由于任何一个秩2矩阵可表示为
u(1)(v(1))T+u(2)(v(2))T，其中u(i)，v(i)是n维向量，因此要使Bk+1-Bk的秩等于2，则它必为下述形式


Bk+1-Bk=u(1)k(v(1)k)T+u(2)k(v(2)k)T，u(i)k，v(i)k∈Rn


此外，在布洛伊登法Ⅱ中，Bk+1Dk=dk，这是拟牛顿方程的逆形式，在这里当然也要求成立： 


(Bk+u(1)k(v(1)k)T+u(2)k(v(2)k)T)Dk=dk


即


u(1)k(v(1)k)TDk+u(2)k(v(2)k)TDk=dk-BkDk(5.35)


若(v(1)k)TDk≠0，(v(2)k)TDk≠0，取


u(1)k=dk(v(1)k)TDk，u(2)k=-BkDk(v(2)k)TDk


则(5.35)成立。于是


Bk+1=Bk+dk(v(1)k)T(v(1)k)TDk-BkDk(v(2)k)T(v(2)k)TDk(5.36)


在式(5.36)中，若v(1)k，v(2)k线性相关，则修正矩阵是秩1的。在式(5.36)中选择不同的线性无关向量v(1)k，v(2)k就得到不同的秩2拟牛顿法的更新矩阵
Bk+1。两个较著名的算法是
DFP(DavidonFletcherPowell)和BFS(BroydenFletcherShanno)法。

在DFP法中，取v(1)k=dk，v(2)k=BTkDk，DFP的更新公式



Bk+1=Bk+dkdTkdTkDk-BkDk(BkDk)T(BkDk)TDk，k=0，1，2，…




DFP法



解方程f(x)=0

给定初始值：  x0； B0

迭代：   xk+1=xk-Bkf(xk)，k=0，1，2，…

Dk=f(xk+1 )-f(xk)

Bk+1 =Bk+
dkdTkdTkDk-
BkDk(BkDk)T(BkDk)TDk


DFP法不仅可以解方程组也可用求解无约束最优化问题，是一个较为成功的算法，但在实际问题中稳定性稍逊下面的BFS法。
取v(1)k=skdk-BTkDk(sk=1+DTkBkDk/dTkDk)，v(2)k=dk，代入式(5.36)得到BFS的更新公式



Bk+1=Bk+skdkdTk-dkDTkBk-BkDkdTkdTkDk，k=0，1，2，…





BFS法



解方程组f(x)=0

给定初始值：  x0； B0

迭代：   xk+1=xk-Bkf(xk)，k=0，1，2，…

Dk=f(xk+1)-f(xk)

sk=1+DTkBkDk/dTkDk

Bk+1=Bk+
skdkdTk-dkDTkBk-BkDkdTkdTkDk


5.2.3多元不动点法

解方程组f(x)=0的不动点法与解方程的不动点法类似，也是先将它化为不动点形式的同解方程组x=g(x)，其中g(x)称为迭代映射，然后从初始点x0开始迭代



xk+1=g(xk)，k=0，1，2，…


若迭代收敛于x*且g(x)连续，则x*是g(x)不动点，同时是f(x)=0的解。


不动点法



解方程组f(x)=0

构造同解方程组x=g(x)

给定初始值： x0

迭代：  xk+1=g(xk)，k=0，1，2，…


例5.2.3利用不动点迭代解方程组


f(x)=x21+x22/4-1

x21/8+x22-1=0x0=1.5

1.5(5.37)


解构造不动点形式的方程组


x=(1-x22/4)1/2

(1-x21/8)1/2Δg(x)


然后，开始迭代


x1=g(x0)=0.661438

0.847791，x2=g(x1)=0.905711

0.972272，…


表5.8给出了最初20次的迭代结果。方程组(5.37)在点x0附近的精确解是


x1=26/31≈0.8798826901281201，x2=26/31≈0.9503819266229829


从表5.8中可以看出，第19次迭代得到精确到小数点后13位的解。从方程组(5.37)的平方项特性，容易得到另外三个解。


表5.8不动点迭代



kxk

0{1.5，  1.5}
1{0.661437827766147， 0.847791247890658}
2{0.905711046636839， 0.972271824131502}
3{0.873883215881847， 0.947344149451507}
4{0.880701291940122， 0.951073612095825}
5{0.879695825893103， 0.950287143076699}
6{0.879908282962367，  0.950403549413764}
7{0.879876851221481， 0.950378964780248}
8{0.879883489915457，  0.950382602342641}
9{0.879882507662873， 0.950381834065537}
10{0.879882715121485， 0.950381947739229}
11{0.879882684426081， 0.950381923730562}
12{0.879882690909162， 0.950381927282865}
13{0.879882689949931， 0.950381926532594}
14{0.879882690152527，  0.950381926643604}
15{0.879882690122551， 0.950381926620158}
16{0.879882690128882， 0.950381926623627}
17{0.879882690127945， 0.950381926622894}
18{0.879882690128143， 0.950381926623003}
19{0.879882690128114， 0.950381926622980}
20{0.879882690128120， 0.950381926622983}


关于不动点迭代的收敛性，有下述定理： 
定理5.2.1如果映射g(x)在闭集D上满足： 存在ρ<1使得x，y∈D有


‖g(x)-g(y)‖2≤ρ‖x-y‖2(5.38)


且g(D)D，则g(x)在D上有唯一不动点x*∈D，且对任意x0∈D迭代都收敛于x*，即在D上整体收敛于x*。
证明因g(D)D，所以xk+1∈D，k=0，1，2，…。由式(5.38)，



‖xk+1-xk‖2=‖g(xk)-g(xk-1)‖2

≤ρ‖xk-xk-1‖2≤…≤ρk‖x1-x0‖2


于是


‖xk+N-xk‖2≤∑Ni=1‖xk+i-xk+i-1‖2≤∑Ni=1ρi-1·‖xk+1-xk‖2

=1-ρN1-ρ‖xk+1-xk‖2≤(1-ρN)ρk1-ρ‖x1-x0‖2


由ρ<1，xk是闭集D上的Cauchy点列，因而存在x*∈D使得xk→x*(k→∞)。式(5.38)表明映射g(x)在D上连续，因此x*是g(x)的不动点。若还存在一个不动点y*≠x*，则



‖x*-y*‖2=‖g(x*)-g(y*)‖2≤ρ‖x*-y*‖2ρ≥1


与ρ<1矛盾，故不动点是唯一的。证毕。
不难看出，不动点迭代误差的事先估计和事后估计分别为


‖xk+1-x*‖2≤ρk+11-ρ‖x1-x0‖2(5.39)

‖xk+1-x*‖2≤ρ1-ρ‖xk+1-xk‖2(5.40)


习题
以下习题必要时可上机作业。
1. 用二分法求下列方程的根，精确到小数点后8位： 
（i） x3=9
（ii） x5+x=0
（iii） sinx-6x-5=0
2. 用下列方法求方程x3-3x-1=0在x0=2.0附近的根，精确到小数点后6位： 
(i) 牛顿法；  
(ii) 割线法，初始值： x0=2.0，x1=1.9；
(iii) 抛物线法，初始值： x0=1.0，x1=3.0，x2=2.0。
3. 求下列函数的所有不动点： 
(i) φ(x)=3/x
(ii) φ(x)=x2-2x+2
(iii) φ(x)=(6+x)/(3x-2)
4. 下列哪个不动点迭代收敛到2？依收敛速度从慢到快进行排序。
(i) xn+1=12xn+1xn
(ii) xn+1=23xn+1xn
(iii) xn+1=34xn+12xn
5. 用不动点法解下列方程，精确到小数点后8位： 
(i) x5+x=0
(ii) sinx-6x-5=0
(iii) lnx+x2-3=0
6. 令φ(x)=x-p(x)f(x)-q(x)f2(x)，试确定函数p(x)和q(x)，使得求解方程f(x)=0以φ(x)为迭代函数的不动点法至少三阶收敛。

7. 证明ShermanMorrison求逆引理： 若A为非奇异矩阵，则A=A+uvT也是非奇异的，当sΔ1+vTA-1u≠0时，


(A+uvT)-1=A-1-s-1A-1uvTA-1



8. 用牛顿法找下述方程组的所有解


x2+y2=4


x2-y2=1


9. 用布洛伊登法Ⅰ和Ⅱ求下列方程组的解，初始值x0=y0=1： 
(i) x2+y2=1


(x-1)2+y2=1
(ii) 
x2+4y2=4


4x2+y2=4

(iii) 
x2-y2=4


(x-1)2+y2=4

10. DFP法和BFS法解习题9中的方程组。