No.182# 故障相关内容提点

引言
基本上每个公司都有一个NOC团队,负责整个公司技术保障的值班与运营。NOC(Network Operation Center)网络运营中心,这篇捋下NOC负责主要内容。
故障关联的概念 复盘中常见问题 故障复盘主要点 故障治理数字化
1、发现与恢复
目标:持续提升平均故障间隔时间,持续降平均低故障修复时间。
- MTBF(Mean Time Between Failure)平均故障间隔时间
- MTTR(Mean Time To Repair)平均故障修复时间
故障平均修复时间(MTTR)具体细分
MTTI(Mean Time To Identify)平均故障发现时间 MTTK(Mean Time To Know)平均故障定位时间 MTTF(Mean Time To Fix)平均故障解决时间 MTTV(Mean Time To Verify)平均故障修复和验证时间 MTTR=MTTI+MTTK+MTTF+MTTV
故障响应要求
5-5-10:5分钟发现、5分钟定位、10分钟解决恢复 3-5-10:3分钟发现、5分钟定位、10分钟恢复
2、服务质量
- 服务质量指标(SLI)
是指衡量服务质量的具体量化指标 常见的指标,例如:请求延迟、错误率、系统吞吐量 此外,可用性指标99.99%保障、存储系统的持久性指标 - 服务质量目标(SLO)
服务某个质量指标SLI的目标值或者目标值范围 例如:该系统的平均请求延迟须小于300ms - 服务质量协议(SLA)
描述在达到或者未达到SLO的后果 如果没有明确的后果,需要重新讨论SLO
1、时间线上常见问题
故障发现:负责同学的电话是否及时接听、客诉发现能否转换为系统发现、告警是否有忽略 故障定位:辅助决策/可视化系统根因分析能力的提升、负责同学对系统的熟悉程度 故障恢复:应急预案、止血措施、配置限流/降级预案、强弱依赖以及降级措施 故障解决:定位根因解决、测试验证确认
2、故障类型常见问题
- 变更执行:变更方对受影响方的触达告知、通知是否到位、变更影响是否远超预期
- 服务依赖:上下游依赖是否为强依赖、弱依赖降级措施是否具备、是否能兜底措施
- 场景冲突:本次业务需求变更影响了以前业务场景、测试用例能否覆盖、针对遗落的测试用例该如何增强
- 代码BUG:兼容性测试、性能测试、单元测试、回归测试、代码CR等能否发现、非生产环境停留期是否能进一步发现
- 第三方责任:第三方提供的服务导致、服务是否针对第三方服务具备高可用设计、兜底方案
由NOC组织复盘,一次复盘包含的内容做个整理。将故障复盘过程落入系统,方便以上相关相关指标的统计、分析以、检索。
1、故障内容总览
对故障简要描述,常见内容如下
故障简要描述 影响的业务域 影响业务范围 影响域干系人 故障域责任人 故障注入时间 故障发生时间 故障发现时间 故障上报时间 NOC介入时间 故障定位时间 故障止血时间 故障恢复时间
2、故障处理时间线
故障发现的时间与渠道 故障定位的时间与过程 故障止血的时间与过程 故障直接以及根本原因
3、故障影响范围
详细罗列受影响的域与业务 单量/客诉/资损/舆情等影响
4、故障定级与改进
根据故障定级条例对该故障定级 故障定责、确定该故障的责任域责任人 该故障关联的改进事项
根据重要性、影响范围、持续时间、业务的低/高峰期、不同的业务域等制定故障等级标准。
1、故障等级划分
P级故障:例如将故障划分为P0~P5 事件级别:未达到P级故障的事件 故障责任:明确各个等级需承担的责任人 例如:变更造成单量下跌超过30%被定义为P1级故障 例如:P1级故障需要部门负责人承担
2、故障治理数字化
将每次故障以及复盘系统化 自动计算MTBF、MTTR等指标绘制大盘 故障数量、级别、类型等分布情况 相关指标根据业务域下钻和分析 改进事项的推进跟踪管理 故障的定期复盘和分析
阅读原文
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。