谈谈可靠性

本文选自《中国统计》2022年第1期文章，原文已获出版社和作者授权。

我们生活在一个快速变化的时代，大众今天所享受的引以为豪的很多科技成果，以前都不曾存在过。像智能手机，智能机器，网络购物，视频直播，扫码支付等等。而癌症治愈疗法，机器战士，脑机接口等这些将极大影响人类未来生活和观念的科技成果已经呼之欲出，即将出现在不远的未来。在这个快速变化的时代，人们特别希望一切都是可靠的，因为一旦发生哪怕微小故障，都可能造成巨大损失。比如，一旦网络支付无法完成，则商场无法交易，车辆无法进出停车场，人们无法乘坐地铁和公共汽车，银行无法结算等等。

可靠性涉及的对象小到一个产品，大到一个系统。产品可以是一个纸杯，可以是一辆汽车，也可以是一座桥梁。系统可以是航空母舰和宇宙飞船等这些复杂的物理系统，也可以是医疗体系和社会机制等这些庞杂的社会系统。可靠性是一个产品或者一个系统的重要属性。人们把一个系统或者一个产品能够完成它既定功能的概率称为可靠度。我们下面谈谈与产品可靠性有关的几个问题。

一、合格与可靠的关系

我们购买的商品往往都会有一张产品合格证。大家容易明白，具有合格证的产品未必就是可靠的产品。消费者使用的产品基本都是具有合格证的产品，但出故障的产品也往往带有合格证。我们可以把可靠的产品定义为能够达到一定使用时间或者使用次数都满足规定功能的产品。不可靠的产品就是未达到一定时间或者一定次数就不能满足规定功能的产品。具有合格证的产品，就是在出厂前通过检验指标要求的产品。但在卖给消费者使用时，面临的情况往往会比较复杂，出厂前的检测指标覆盖不了复杂的实际情况。遇到这种状况，厂家应该尽量修改检测方法，使得检测指标能够真实反映实际状况，其中的统计问题是比较广义的一致性检验问题。这是一个不断进步的过程，需要反复改进才可能达到一定的要求，不过永远覆盖不了实际中千变万化的现象，检测的时间成本和价值成本限制了这种可能性。

二、为什么会有不可靠的机会

俗话说百密一疏，即使是管理最好的企业次品总是会出现。由于产品的质量通常会受到很多因素的影响，这些因素中有些是可以控制的因素，有些是不可以控制的因素。对于那些不可以控制的因素，要采取措施尽量减少它们的影响，对于那些可以控制的因素，则需要准确把控。尽管产品的生产厂家已经设计好了生产工艺和生产流程，进行了生产管理，但总会有一些因素影响了产品质量。无论可控因素和不可控因素，本质上它们都是随机变量，只是有些方差比较大，有些方差比较小。由于它们是随机变量，总有一个大于零的概率跑出允许的范围之外，这就给不合格品的出现创造了机会。就像我们记笔记的时候，无论如何认真总有写错字的时候，这也是人们发明橡皮和涂改液的原因。现在电脑打字已经很普遍了，即使在对照手稿打字的时候，也非常可能会修改很多次。当一个产品生产工艺复杂，包含很多生产流程，由很多部件组成，则就容易出现不合格产品。对于一个复杂的物理系统来说，它们由成千上万的部件组成，这些部件的质量以及它们之间的连接质量，都会影响到这个系统的质量。对于医疗体系或者社会机制这样复杂的社会系统来说，影响它们的因素是多方面的，很多因素之间也具有耦合性，当这些因素达到了某个特定的阈值，则系统就有可能会崩溃或者出现问题。比如近两年新冠疫情突然爆发，许多国家医疗体系和社会机制暴露出了很多的问题。

三、怎么样才算可靠

人们总是希望消费者使用的产品百分百可靠，这是生产者和消费者共同的美好愿望。我们使用手机时，希望它能够在我们使用的时候不会死机，通话的时候语音清晰，充电的时候能正常充电，更不要发生在充电或者通话时起火爆炸的情况。但要达到几亿部手机都不出故障这是一个非常难的世界难题。既然做不到百分百，那么可靠度多大才是可靠的呐？这与不可靠产品的事故等级及其造成的损失有关。一般的事故只要万无一失就好了，像手机爆炸起火这种事故最好做到百万无一失或者千万无一失。对日常用品来说，这些指标是生产者追求的目标，是比较高的，目前很多产品达不到这样的目标。各行各业都会鉴于目前的生产水平和成本控制，制定自己行业的标准。无论标准怎么高，都不可能达到百分百可靠，因为那样意味着成本无限大。

四、如何度量可靠性

前面我们说过，产品满足规定功能的概率称为可靠度。可靠性可以用可靠度来衡量，对于可以多次使用的产品也可以用平均寿命来描述。如何判断产品可靠度是否满足行业标准，产品的可靠度或者平均寿命到底是多少？这时要根据搜集到的试验数据或实际使用数据，再利用统计方法来评估。以往大多根据实验室的试验数据来评估，样本是经过精心设计进行抽样得到的，以便在有限的时间成本和费用成本下，达到最大的评估精度。目前随着物联网的实现，很多厂家可以搜集到产品的实时使用数据，这相当于其每一个产品都在进行着试验。这为验证和评估产品的可靠性提供了更多的依据，使得验证和评估更加准确。验证产品可靠性是否达到行业标准的方法是要利用统计学中假设检验的思想，评估产品可靠度或者平均寿命的方法是要利用统计学中的估计理论。统计学为验证评估工作提供了科学方法和有根据的结论。

五、如何不断提高可靠性

任何产品在设计阶段一般都要经过初样、试样、正样和成品的阶段。在初样阶段不断探索，努力实现产品的功能。在试样和正样阶段，则要在控制好成本的前提下努力提高产品的可靠性。提高可靠性有时是和提高产品性能指标联系在一起的。在这个过程中，往往要用到统计学中的试验设计与分析方法。通过试验设计可以用尽量少的试验次数获得最够准确的统计推断结论。根据试验设计获得的数据，用来识别影响产品性能指标和可靠性的重要因素，找到这些因素的最优取值，使得产品质量和可靠性达到要求。不仅如此，还要求这些因素的取值，能够使得产品质量稳定。即这些控制因素在这些取值点有些微的变动不至于严重影响产品质量。

对于生产者来说，提高产品可靠性是一个永不停止的过程。在产品生产的初期，确定那些主要影响因素，并使之改进到合理的取值，从而可以提高产品质量与可靠性。有些影响因素的改变成本较高，有些影响因素改变成本较低，在开始的时候，一定是改变那些成本较低且容易改变的因素。随着整个行业产品质量的不断提高，在一定的成本下不断提高产品质量才能立于不败之地。初期的挖潜能力已经用尽，要想进一步提高产品质量，这就需要扩大搜寻范围，寻找那些可能被忽略的因素。质量管理领域经常说的头脑风暴方法，可用来集思广益搜集出可能的影响因素。可供考虑的因素有些是技术条件，有些是管理因素，有些是人的因素，有所谓的人、机、物、法、环五要素。在更大的范围中分析因素的重要性和影响关系，就可以获得更优的生产工艺和生产计划，从而可以生产出更加可靠更加质优的产品。

六、可靠性与统计学的关系

可靠性是统计学的重要研究领域和应用领域。统计学为可靠性提供了重要的思想方法和理论基础。可靠性领域产生的多种数据类型和众多的实际问题为统计学研究提供了广阔的发展空间，推动了统计学本身理论的进步和发展。像可靠性增长试验，加速寿命试验，定时截尾试验，定数截尾试验，定时定数混合截尾试验，定总时截尾试验等等都是常用的产品可靠性试验方法。与这些不同的试验方法和数据类型相关的统计模型和方法成为了统计学中的有机组成部分。随着新的物联网数据的增多，基于大数据的可靠性评估、验证和预计等方法必将应运而生，也必将推动统计学的再次大发展。

作者简介

房祥忠教授 在北京大学数学科学学院曾任概率统计系主任，中国现场统计研究会理事长，IMS-China主席。现兼任教育部统计学类教学指导委员会主任委员，中国统计学会副会长，全国应用统计专业学位研究生教育指导委员会委员，北京企业评价协会理事长等职。研究兴趣包括:生存分析，可靠性，纵向数据，基尼系数，时空统计，人工智能中的统计方法等。在《中国科学》《JRSP》《Reliability on IEEE》等期刊发表论文50余篇。曾获国防科技奖二等奖（2011）、北京市科技进步二等奖（2002）和教育部第六届高等教育国家级教学成果二等奖（2012）。

敬告各位友媒，如需转载，请与统计之都小编联系（直接留言或发至邮箱：[email protected]），获准转载的请在显著位置注明作者和出处（转载自：统计之都），并在文章结尾处附上统计之都微信二维码。

统计之都：专业、人本、正直的中国统计学社区。

关注方式：扫描下图二维码。或查找公众号，搜索统计之都或 CapStat 即可。

往期推送：进入统计之都会话窗口，点击右上角小人图标，查看历史消息即可。

编辑|李萧纹

继续阅读

阅读原文

关键词

方法

数据

问题

系统

产品