准确的电话号码和 WhatsApp 号码提供商。 如果您想要电子邮件营销活动列表或短信营销活动,那么您可以联系我们的团队。 电报: @latestdbs

为什么 MTTR 不适合衡量软件可靠性和安全性以及替代方案

有人认为,平均解决时间 (MTTR) 并不是衡量复杂软件系统稳定性或安全性的合适指标,应该用其他更可靠的方法来取代。

安全公司Verica在其最近发布的年度报告Verica开放事件数据库(VOID)中表示,使用MTTR来衡量软件网络故障和中断并不是一个合适的方法。这是因为此类系统中的周期数据和故障的分布在很长一段时间内并不是均匀发生的。报告撰写团队强调,站点可靠性工程(SRE)团队应取消 MTTR 作为关键指标,并探索其他策略,包括服务级别目标(SLO)和事件后数据审查。

ⓒ 盖蒂图片银行

MTTR 指标不显示系统稳定性

“MTTR 最初是由制造公司创建的,用于衡量修复故障物理组件或设备所需的平均时间,”Burika 的报告撰写团队表示。当时的设备 土耳其 WhatsApp 号码数据 比现在更简单,并且以可预测的方式磨损,从而可以进行某种程度标准且一致的 MTTR 估计。“随着时间的推移,随着 MTTR 扩展到软件系统,软件公司接受它作为系统稳定性和团队敏捷性/有效性的指标。

Burika 研究人员表示,MTTR 并不是衡量复杂软件系统的合适指标。“与物理制造设备问题不同,每次故障本质上都是不同的。“现代软件系统的运营商不断投资以提高系统可靠性,但他们也会遇到意外和不寻常的故障。

Burika 首席研究员考特尼·纳什 (Courtney Nash) 告诉 CSO:MTTR 很有吸引力

WhatsApp 号码数据

因为它让人们对棘手和突 销售线索 发的情况有了清晰、具体的了解,而这些情况本质上是无法简单概括的。” 然而,MTTR 所依据的数据波动性太大,不适合用作系统稳定性的衡量标准。此外,事件在许多方面因具体情况而异,包括涉及的人员和团队数量、压力水平、解决事件所需的技术和组织要素,以及团队从中学到了什么(MTTR 告诉我们)小的。他补充说:“即使技术情况相同,情况也可能以非常不同的方式展开,具体取决于对事件做出反应的人员、他们知道和不知道的事情、他们的风险偏好和内部压力。”

报告撰写团队的研究结果SRE 中的事件指标:批判性评估 MTTR 和朋友》中发表的研究成果, 基于 Google 高级站点可靠性工程师 Stefan Davidovich 在《实验结果表明,无论样本大小(即事故总数)如何,将事故周期减少 10% 并不会导致计算出的 MTTR 稳定下降。“结果还表明,周期数据的剧烈波动程度如何?影响 MTTR 变化的计算。“你可以看到它,”他解释道。

MTTR 指标的替代方案
报告称,从一开始,单一的平均数就不适合衡量复杂软件系统的稳定性,“无论MTTR提供什么,都是不可靠的,必须对事件进行调查,才能真正了解系统中发生了什么。”他指出。

取代 MTTR 并不是用一种措施替代另一种措施的简单过程,而是一种思维方式的改变。纳什说:“就像早期的 DevOps 不仅关注技术一样,也关注文化变革,公司拥抱数据驱动的决策,并让人们能够在需要了解无用指标的时间和地点进行变革。”将能够做出适当的反应,”他说。

Burika 的报告建议将以下指标作为值得考虑的指标,而不是 MTTR:其中大部分是基于事故分析的指标。

SLO/客户反馈:SLO 是服务提供商向用户提供足够服务并为此投资所需的稳定性的承诺。SLO 将技术系统指标与业务目标保持一致,以创建更有用的可靠性框架。然而,SLO 可能具有与 MTTR 相同的弱点,包括它只关注过去,不包括有关已知风险的信息,并且不捕获不影响 SLO 的未遂事件。
社会技术思维数据:根据报告,现代复杂系统是社会技术的,由代码、机器以及创建和维护它们的人员组成。然而,团队倾向于仅收集技术数据来了解系统。然而,“社会技术数据的一个代表性来源是劳拉·马奎尔博士研究的协调成本概念。” 此类数据包括事件涉及的人数、使用的工具、独特的团队和并发事件。报告指出:“在我们收集此类数据之前,我们无法知道公司实际上是如何应对事件的。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注