绪论 第1章绪论 可靠性与维修性工程概论 产品故障无处不在。在过去两年里,作者亲身经历了割草机套管破裂、洗衣机停止运转、汽车电池耗尽、烤炉插头燃烧、热水器漏水、软盘驱动器损坏、电视机遥控器工作不正常、立体声放大器不出声、汽车引擎启动机不工作以及屋顶漏水等各种类型的故障。割草机套管破裂是由于所受外力超出铝结构框架所能承受的范围; 汽车电池、引擎启动机和洗衣机电机工作不正常可能是在经历正常状态之后进入了耗损期; 烤炉电器插头的设计是个薄弱环节,这可以通过它的插拔次数得知; 受腐蚀的热水器会漏水,腐蚀的部分原因是由于缺少预防性维修,没有按要求将容器底部的水定期释放; 软盘驱动器故障属于早期机械故障; 电视机遥控器故障是由某个电子元器件故障引起的; 立体声放大器故障是由于外露的焊点引起的; 低劣的施工会导致毗邻天窗的屋顶漏水。这些故障不但造成了经济损失,而且还带来了许多的不便。尽管这些故障没有对人造成损伤,但也引起人们对自身安全的关注。 许多故障在经济和安全领域有重大影响。比如,1946年洛克希德C69飞机着陆时坠地导致5名机组成员中4人死亡,坠地原因是由于电路设计缺陷引发机身起火所致。1979年一架DC10飞机在起飞时左侧发动机脱离机体,导致271人丧生,不合理的维修规程和失败的设计是这次坠机的罪魁祸首。福特汽车公司在1971年投放市场的Pinto汽车由于燃料箱漏油和追尾容易起火等原因被迫在1978年将其召回,众多的死亡报道、诉讼案件及负面的公众影响最终使得福特公司中止了Pinto的生产。凡士通公司在1972年投放市场的钢丝子午线轮胎,在异常速率下将导致外部轮胎面从整个轮胎上分离脱落,由于此类故障过多,凡士通公司被迫召回了750万条轮胎。1940年11月8日,建成仅5个月的塔克马大桥便由于大风沉入普吉特河底,几个月来的摆动使得桥体金属疲劳,最终导致大桥垮塌。1983年,美国康涅狄格州格林威治的玛瑙斯河大桥垮塌,导致3人死亡3人受伤,尽管对事故原因没有达成一致意见,但更多的矛头还是指向大桥的原始设计方案、未被发现的由于腐蚀造成的螺栓杆移位以及不合理的维修规程和不充分的检查工作。1978年,美国康涅狄格州的哈特福德市中心体育场的顶部结构由于设计缺陷被积雪压跨,其主要设计缺陷就是当某些结构失效时剩余结构缺少承担其载荷的设计冗余。细小的不完善有可能酿成严重的后果。1979年,三哩岛核反应堆事故造成一台核反应堆部分垮塌,人和机器的过失共同造成了这次灾难,而危险警告就隐藏在维修记录当中,当备用冷却系统由于常规维护处于不工作状态时,空气便会切断注入反应堆的冷却水,而紧急安全阀没有关闭导致冷却系统失去更多的水,事故发生时操作员要么正在读取故障仪表的数据,要么进行了不恰当的操作。1986年,挑战者号航天飞机发生爆炸的原因是由于用来密封四节助推火箭的橡胶密封圈出现故障,发射前温度低于结冰点致使橡胶脆化是导致故障发生的原因有关上述灾难或其他灾难的细节可以参见When Technology Fails[Schlager, 1994]。。 从上述事例可以得出这样的结论: 产品和系统故障不仅会造成一些小麻烦和人身伤害,还可能导致重大的经济损失和人员死亡。导致这些故障发生的原因包括工程设计方案中存在的缺陷、制造过程或实施过程中的错误、人为错误、保养不善、缺乏测试和检验、使用不当、缺乏应对环境影响的手段等。根据现行法律,制造商对其产品的安全性和可靠性负有全部责任,工程师的设计应当包含产品的可靠性和维修性设计。本书的主要内容就是向技术管理人员和工程师介绍一些基础的可靠性与维修性工程概念、模型和分析技术。 本书主要研究系统、产品和部件的故障和维修特性。可靠性与维修性工程致力于研究、描述、度量以及分析系统的故障和维修,目的是通过增加设计寿命,消除或减少出现故障的可能性和安全风险,减少停机时间,进而增加可用时间。可用性是与故障后能通过维修恢复到工作状态的系统或部件的可靠性和维修性相关的理论,可用性评价故障和维修过程的综合影响,这是此类系统的一个重要特点。 1.1可靠性与维修性研究 在工程领域,可靠性与维修性是比较新的学科,多种因素促进了该学科的发展,包括日益增加的系统复杂性、公众对产品质量的逐步重视、新法律法规对产品的责任要求、政府针对产品制定的可靠性和维修性要求,以及由于产生故障带来的高昂维修费用。 1985年盖洛普民意调查就美国社会对质量控制的看法抽取了1000个人的样本,调研的目的是为了确定大众选择产品时最看重的几个方面。表1.1列举了10种最重要的因素,并给出了各种因素的平均分数。1分是最不重要的,10分是最重要的。显然,消费者对产品的可靠性与维修性是最重视的。 表1.110种最重要的因素 因素平均分数 因素平均分数 性能 9.5容易使用 8.3 持续时间长(可靠性) 9.0外表 7.7 服务 8.9品牌名称 6.3 易修理(维修性) 8.8包装 5.8 保修 8.4 最新的款式 5.4 来源: Quality Progress,1985,18(Nov):12~17。 可靠性与维修性不仅是工程设计过程的重要组成部分,也是寿命周期费用和费效分析、使用能力研究、修理设施和备件库存需求及更换策略的确定、制定预防性维修规划的必要基础。 1.1.1可靠性改进 产品价值是由其性能满足我们需要或要求的程度来决定的。提高产品附加值的因素包括产品的功能多样性、易用性、安全性、美观性和可靠性。对于可靠性和维修性工程来说,其主要目的就是要提高在研产品或系统的可靠性和可用性,从而增加其价值。在产品设计中,这种改进可以在以下几方面实现: 对于重要的和故障率高的部件可以采取冗余设计,提高部件承受应力的能力或对原材料和零部件进行精心挑选以减少故障发生的概率。降额设计(即系统运行时所受应力水平低于其额定应力水平)提供了一种实现可靠性要求的备选方案。例如,某电子元器件的额定运行电压是200V,而使用时的工作电压为120V。选择不同的设计方案,如机械开关与电子开关或晶体管与集成电路,会对系统的可靠性产生重大影响。简化系统的复杂程度,尤其是在部件或组件的设计方面,也可以降低故障率。正如本书后文所述,随着系统中的部件越来越多,提高系统可靠性必须通过提高部件的可靠性来实现。一旦可靠性改进达到了极限程度,通过改进维修性设计可以进一步减少停机时间、增加产品的可用性。进行设计时必须考虑系统的可靠性和维修性设计,在很大程度上可以认为可靠性和维修性是系统的固有设计特性。 可靠性改进并不仅限于产品设计本身。例如,在产品设计初期制定积极的可靠性增长计划,可以在可靠性改进方面发挥重要作用; 在产品生产过程中,有效的质量控制规划能够通过维持产品规格和容差的一致性、减少生产工艺的波动来保持产品的设计可靠性; 抽样检查和验收程序能够保证供应的原材料和零部件符合规定标准; 产品投入使用前,通过预防性维修、合理的零部件更换策略、设计更改、认真观察作业环境和负载,能够减少故障发生次数; 系统一旦投入使用,通过合理配置维修资源,包括维修技术人员,测试设备、备件,能够降低停机时间(维修性改进); 考虑其他因素,如技能水平、再供货时间、维修培训、提高技术手册的易用性等,也能提高产品的维修性。因此,可靠性和维修性工程必须贯穿整个产品寿命周期。 1.1.2随机性与确定性故障现象 在工程中为保证安全,传统做法是针对产品设计一个安全范围或安全系数。这是一种确定性的方法,可以将产品实际能够承受的载荷或应力水平设计为预期载荷的4~10倍。在设计中考虑安全系数会导致超安全标准设计(增加了成本)或欠安全设计(非预期载荷或材料问题导致的故障)。另一方面,在可靠性发展过程中经典理论认为系统或部件故障是随机发生的或具有一定发生概率的事件。从理论上讲,如果我们能够清楚了解产品故障过程的物理和化学特征,那么就可以准确预测部件内部的许多故障。然而,在实践中由于掌握的部件物理状态数据有限、对造成部件故障的物理和化学(也许是生物学)过程了解不够深入等,都将导致故障的随机发生。即使出现的故障是由外部原因造成的,例如飓风、地震、过高的温度或者振动等,而且这些外因都是随机出现的,但如果我们能够充分了解导致发生这些物理或化学过程的原因以及这些事件将如何影响部件,那么就可以准确预测出故障发生时刻。然而,由于故障过程的不确定性或信息的不完备性,使我们很难精确测量相关物理量,也不能确定某些事件未来是否会发生。 符合特定模式的随机过程可以用一些概率分布来刻画,这种现象在实践中是可以观察到的,尤其是进行大量试验的时候。通过统计分析能够预测出系统的故障(或无故障)规律。 当前一种比较流行的可靠性理论是通过分析产品的故障物理过程并借助数学模型来确定故障发生的时刻,但运用这种方法需要知道部件的故障机理和故障原因,平均故障前时间由已知或预测获得的应力、环境因素、使用条件、材料性能和形状决定。本书中对可靠性的定义及相关理论的阐述都基于概率和统计观点,作者将在后续研究中对故障物理进行介绍。 1.2概念、术语和定义 可靠性是指产品在规定条件下和规定时间内完成规定功能的能力,表示在一定时间内产品无故障发生的概率。如果想确定系统的可靠性,那么必须对以下几方面进行精确定义。首先,必须能够清晰、明确地描述故障,故障定义应与系统功能相关。其次,必须确定时间单位,例如,时间间隔可以以日历时间或时钟时间、工作时间或多个周期为单位。一个周期可以指飞机起降一次的时间、装卸一次的时间、电机开关一次的时间等。在某些情况下可靠性无法用时间定义,而要用其他度量单位定义,如行驶里程。生产系统的可靠性是以产出量或产出批量数来定义的。第三,必须观测系统正常工作时的状态。观测参数包括设计载荷(例如重量、工作电压、压力)、环境(例如温度、湿度、振动、高度)和使用条件(例如消耗、储存、维修、运输)。 维修性是指故障部件或系统在规定的条件下和规定的时间内,按照规定的程序和方法进行维修时,恢复或修复到指定状态的概率,表示故障部件在一特定时间内被修复的概率。通常情况下用时钟时间来计算维修性(当然也可以用其他时间,如服务时间和轮班时间)。维修时间可以包含也可以不包含如下时间量: 等待维修人员和部件的时间、运输时间和管理时间。一般情况下,维修性是指固有维修时间,它只包括故障单元的手动修复时间,而不包括管理或资源延误时间。 规定的维修程序不仅包括维修方式,还包括维修资源(人、备件、工具和技术手册)、预防性维修计划、人员技术水平和维修人员数量。 可用性是指部件或系统在规定时间点,在规定条件下完成规定功能的概率。可用性也可以解释为部件或系统在规定的时间段内能工作时间的百分比,或是给定时间点仍能工作部件数量的百分比。正如后文所述,用运行时间或停机时间度量可用性可以有很多种不同的表示方法。可用性与可靠性不同,它表示部件现在处于非故障状态的概率,而不管此前部件是否发生故障,因此系统的可用性不小于可靠性。当系统或部件可以修复时可用性是一个比较好的度量指标,因为它考虑了系统故障(可靠性)和维修(维修性)。在后续章节中将用数学方法对上述概念进行定义。 可靠性与质量 可靠性与产品质量的概念很接近,前者经常被认为是质量概念的一个子集。质量可以定性定义为产品满足使用者(顾客)需求的程度。产品质量是功能设计的一部分并与设计规范相一致,它与生产系统相关,依赖制造过程和制造公差。质量要求可以通过制定健全的质量保证计划来实现,质量保证计划是完成高质量产品所必需的过程或步骤的集合。 另一方面,可靠性关心的是只要产品开始工作,它能连续正常工作多长时间。低质量产品的可靠性可能很低,高质量产品的可靠性可能很高,但可靠性不仅受产品本身质量的影响,还受外界因素的影响。可靠性可以认为是产品的工作性能在时间上的延伸,这种定义也同时将质量的概念扩展到了时间范畴。 1.3应用示例 本节用几个例子阐述如何利用可靠性与维修性来解决实际问题。例1.1B.A.Miller公司主要生产家用电器的小型电机,应用对象包括洗衣机、干衣机、冰箱、吸尘器。该公司最近设计了一种新型电机,但新电机故障率很高。在生产的前1000个产品中有43个发生了故障,其中一些故障是厂商在作最终测试时发现的。在对电机检查的过程中发现故障原因主要是由于轴承引起的,但看起来密封的轴承应该是没有问题的。可导致轴承故障的原因包括设计缺陷、原材料问题和制造过程(公差)中出现的问题。该公司采取了一种积极的办法,即随机选择生产线上的电机进行加速寿命试验。从试验结果可以看出,在流水线后期生产的电机要比前期生产的电机故障率高。表1.2总结了图1.1中的试验结果。 图1.1电机故障率 表1.2可靠性试验数据汇总 电 机 编 号 1~100101~200201~300301~400401~500 总计 试验数 12 11 12 12 15 62 试验时间/h 2540 2714 2291 1890 2438 11873 故障数 1 0 1 5 7 14 故障率 0.000394 0 0.000436 0.002646 0.002871 0.001179 故障率的计算方法是用总故障数除以总试验小时数,用总试验时间除以总故障数可以得到平均故障前时间(MTTF) MTTF的定义见第2章。。前300个产品的MTTF为3772.5h(7545/2),后200个产品的MTTF为360.7h(4328/12)。从结果可以看出,该公司在生产过程中对质量失去了控制,导致设计误差没有达到要求。因此公司应该把重点放在质量控制规划上,以便剔除电机的早期故障。 例1.2大多数电子产品都有一个保修期,规定如果产品在规定时间内(例如购买1年之内)发生故障,那么售后人员或厂家要免费对故障产品进行更换或维修。为了估算保质期内产品发生故障的次数以及质保项目产生的费用,必须建立产品故障前时间概率分布函数。XYZ公司生产的新录像机故障前时间分布函数可由可靠性试验得到,如图1.2所示。 图1.2录像机的故障前时间分布 依据上述数据及本书第Ⅱ部分介绍的方法可以得到录像机在时间t(工作时间)内发生故障的概率F(t)=1-e-t/8750。这个公式是根据指数分布建立的,详细介绍见第3章,式中常数8750是MTTF。假设典型用户平均每天使用3h录像机,那么1年使用1095h(3×365)。因此,录像机发生故障的概率就是 F(1095)=1-e-1095/8750=1-0.8824=0.1176 也就是说,已售录像机中第1年约有10%会发生故障。为了提高产品可靠性,公司决定开展可靠性增长计划,以减少保修费用、提高顾客满意度。 例1.3连续运转的生产线要求产品在10台不同的机器上进行加工。当一台机器出现故障时,整个生产线就要停下来,需要等到故障修复后才能重新工作。生产线的平均修复时间是12h,包括等待备件和维修人员的时间、故障定位及修理时间。机器的设计指标要求其能够正常工作8h的可靠度为0.99,因此生产线能够正常运行8h的可靠度为0.9910=90%串联单元组成的系统可靠度计算将在第5章讨论。。假设机器故障率为常数(故障间隔时间服从指数分布),那么平均故障间隔时间为75.9h,R(8)=e-8/MTBF=0.90,其中R(8)就是生产线正常工作8h的可靠度。生产线的稳态可用度为 A=MTBFMTBF+MTTR=75.975.9+12=0.86 式中,MTTR为平均修复时间。为了满足生产配额要求,生产线的可用度必须达到0.92,因为不可能将机器可靠度提高到0.99,所以公司决定通过提高维修性来提高可用度(减少MTTR)。 满足要求的最大MTTR可由图1.3或者求解可用度计算公式75.9/(75.9+x)=0.92中的x得到,即x=6.6h。 图1.3生产线的可用度 通过额外增加一个维修人员、增加备件库存量、重新布置备件库存地点使其尽量与生产线接近、改进诊断程序、方便高故障率部件的拆卸和更换等方式,公司能够将MTTR减少到6h以内,从而达到期望的可用性目标值。 1.4可靠性简史 可靠性的概念最早对可靠性发展历史细节有兴趣的同学可阅读Barlow.Mathematical Theory of Reliability: A Historical Perspective,1984。出现在保险业的精算业务中,特别是对人类生存概率方面的研究。19世纪30年代末到40年代,威布尔(Weibull)分析了材料的疲劳寿命并用他的名字命名了这个概率分布函数。结构可靠性和疲劳故障的研究始于19世纪30年代末,在此之后不断得到发展。虽然排队论和更新过程理论的早期(19世纪30—40年代)发展,尤其是指数分布的应用,给可靠性提供了一些数学基础,但是直到第二次世界大战后它才成为一门学科。可靠性的产生是由于“二战”期间使用了相对复杂的电子设备,并且这些设备暴露出相当高的故障率,尤其是电子管,它的可靠性非常低。“二战”之后,商业航空公司成立了航空无线电设备有限公司用来提高航空电子设备(军方称为avionics)的可靠性。1950年,美国空军成立了一个特别小组用于提高设备可靠性,1952年美国国防部成立了电子设备可靠性咨询小组,提出了新系统的可靠性试验与验证要求。 尽管到19世纪50年代末人们对于威布尔分布的兴趣与重视程度都有所增加,但是这期间出版的书籍都围绕用指数分布表示故障间隔时间这一思路展开。最早的可靠性教材包括Bazovsky [1961],Barlow和Proschan[1967],以后又出现了Smith[1967],Kapur和Lamberson [1977],后者至今还很流行。19世纪70年代,由于核反应堆安全越来越引起人们的注意,可靠性研究的重点转移到了故障树分析。伴随着美国空军可靠性与维修性(R&M)2000计划的推广,可靠性和维修性在19世纪80年代又再次兴起。R&M 2000计划的目标是到2000年,通过增加系统的可靠性和维修性提高系统的可用性,降低维修人员要求和寿命周期成本。 目前与可靠性和维修性相关的期刊和会议如下: IEEE Transactions on Reliability Proceedings Annual Reliability and Maintainability Symposium Technometrics Applied Statistics Operations Research IIE Transactions Journal of the American Statistical Association Reliability Review Naval Research Logistics International Journal of Reliability, Quality and Safety Engineering Microelectronics and Reliability Reliability Engineering Journal of Applied Reliability 1.5本书范围 图1.4给出了本书的结构,共分为3部分。第Ⅰ部分是“可靠性模型基础”,介绍可用于分析部件与系统可靠性、维修性及可用性的数学模型。第2~4章介绍了故障间隔时间服从指数分布、威布尔分布、正态分布以及对数正态分布时的规律特点。故障分布给出了3种最常用的形式: 密度函数、可靠度函数以及故障率函数。除此之外,本书还给出了条件可靠度和平均故障前时间的计算方法。第5章和第6章介绍了在已知复杂系统内部部件结构及其可靠度时可用于分析系统可靠度的数学方法,第5章假设各部件互相独立,第6章假定部件故障判据依赖于系统的工作状态。上述相关性(如备用系统和均分载荷系统)可以用马尔可夫过程进行分析。第7章与前6章的可靠性基础知识有所区别,主要介绍了基于物理过程的可靠性模型。第8章主要介绍了如何将可靠性融入到工程设计过程中,并在接下来的3章逐步深入,在此3章中定义了维修性和可用性,因此需要在工程设计过程中对可靠性与维修性进行权衡。第9章定义了维修时间分布函数,依此定义可以对维修性进行量化,第11章给出了点可用性、区间可用性和稳态可用性的定义,第10章从设计角度对维修性进行了讨论。 图1.4本书结构 第Ⅱ部分是“故障数据分析”,侧重介绍了如何基于故障数据或维修数据运用统计方法得到适用的可靠性模型和维修性模型。第12章给出了基于经验(非参数)的可靠性分布函数。第13章给出了几种不同的可靠性试验方法,可靠性试验是故障数据的两种主要来源之一,另一来源就是外场数据或使用数据,第13章中的可靠性试验包含老练试验、验收试验、序贯试验以及加速寿命试验。第14章介绍了可靠性增长试验,给出了两个较为常用的数学模型: 杜安模型和AMSAA可靠性增长模型。一旦收集到故障数据,就需要从第Ⅰ部分中介绍的模型中挑选适合的模型作为故障间隔时间或维修时间的分布函数,进行这项工作需要运用第15章介绍的分布函数参数估计方法,并运用第16章中介绍的拟合优度检验知识对分布函数的适合度进行检验,决定接受或拒绝这一分布函数。根据第Ⅱ部分的技术资料,可靠性工程师可以建立一个试验计划,收集故障或维修数据并完成数据的统计分析,从而得到一个可接受的可靠性或维修性模型。接着就可以利用第1章给出的技术处理这些模型。 第Ⅲ部分是“应用”,结合在第17章中给出的示例和在第18章中与贯彻可靠性计划相关的政策、程序、问题给出了开展可靠性工程的方法,后两章内容也试图将第Ⅰ部分内容和第Ⅱ部分内容合为一整体。 其他有关可靠性方面的概述性文献包括: Bain和Engelhardt [1991],Blanks [1992],Bunday [1991],Crowder等[1991],Dai和Wang [1992],Grosh [1989],Kececioglu [1991],Leemis [1995],Ramakumar [1993],Rao [1992],Sundararajan [1991]以及Zacks [1992]。 附录1A基础概率知识 运用概率知识对不确定性事件建模通常有两种方法。较为常用的方法借用样本空间和样本空间中事件的定义,然后定义这些事件的发生概率,并由这些基本事件的交与并计算复杂事件的发生概率。第二种方法建立在随机变量概念及与随机变量相关概率分布的基础上。随机变量是指符合值概率对应关系的变量,给出随机变量的概率分布就可以完全刻画随机过程。本节将介绍这两种方法,例如,定义部件故障是一个事件而部件的故障前时间是随机变量。 1A.1随机事件 在可靠性工程中,一次故障可以被描述成一个事件。一个随机事件E 将以一定的概率发生可记为P(E),其中0≤P(E)≤1。P(E)=0表示不可能事件,P(E)=1表示一定发生的事件。P(E)越接近1,事件(故障)发生的可能性就越大。 与随机过程有关的所有可能结果(事件)的集合叫做样本空间S,其中S={E1,E2,…,Ek},P(S)=1。 每一事件都有一个与之相关的逆事件Ec,它是事件E的对立事件。例如,如果E表示出现故障,那么Ec就表示不出现故障。因为事件和它的逆事件必定有一个会发生,所以 P(E)+P(Ec)=1 或者