2022年10月29日,第十九届GOPS全球运维大会在上海圆满落下了帷幕。会议上颁布了IT技术领导力年度评选相关奖项,擎创科技荣获2022年度AIOps领域极具影响力产品奖。
此次会议为期两天,共计16个专场,80+演讲嘉宾,擎创科技资深IT运维专家叶瑞于【AIOps最佳实践及解决方案】专场中,带来了由深度实践经验总结而来的《AIOps中统一监控体系的实践分享》
在一个多月之前的乌镇用户大会上,擎创科技创始人兼CEO杨辰提出了智能运维建设发展相关的“三个阶段、五个统一”理念。
即IT运维从传统走向智慧,应分为三个阶段:数字化运维、智能化运维、智慧化运营。在此发展的过程中,需要把核心目标落在以用户为中心上,通过“五个统一”来支撑实现这三个阶段的逐一达成。
其中,统一监控作为建设路径中的先行者,承担着集中采控、收归离散数据并进行管理分析的重要作用,是为后续数据治理做好铺垫的先决条件。
在不断的实践应用中,擎创认为监控体系建设应以用户场景为中心,依据不同场景的需求分层建设。
运维领导需要看到的场景是一体化监控的总览,需要通过总览视角去关注各机构的实时状态,为决策提供依据;
 对于各专业领域的运维人员来说,更需要的是细分领域的监控,包括应用监控、系统监控、设备监控、网络监控、云监控等,依据不同职能专业搭建相应监控功能,在面对问题时可以及时有效的完成故障根因定位、排障等工作;
 而各专业领域的运维管理者主要负责规则的制定,包括关联设定、处置流程设定、指标项管理、各类阈值管理等,依据专业领域监控的总体反馈,对规则进行设定或修订,保障运维的高效平稳。
点击查看大图
同样的,对于监控数据而言也需要分层分域的进行治理,进而能够提供给各类消费场景使用,包括集中告警、运营可视化、统一分析等。擎创在建设监控数据的治理体系时,将其分为三层:贴源层、核心层、应用层。
贴源层:抓牢数据质量管理,确保核心层的数据质量完整性、时效性、正确性、合规性
 核心层:重在数据模型管理,构建运维数据骨架、统一跨域数据统计口径,服务上层场景消费
应用层:关注业务模型管理,统一管理各场景主数据管,可跨场景复用,确保业务场景描述一致
点击查看大图
分层体系建设完成后,在不断的实践应用中需要有合理的模型来评估监控质量。这里使用了监控质量漏斗模型,例如:
  • 以监控指标为视角,第一步要进行指标体系的规划,要求是规划范围要全体系要完整,假设在各个层级和专业领域规划了860项指标
  • 接着需要对指标项进行采集,要求采集的数据质量要高,具备时效性、完整性、一致性,假设通过采集合格的指标有730项
  • 再为这些合格的数据配置详细的监控规则,要有高业务覆盖度、强动态检测能力,并且颗粒度和交易维度要细等要求,配置合格的指标剩余513项
  • 最后这些指标要为告警服务,根据相关告警的处置策略,对指标的等级准确性,误报率、漏报率、事件转化率都有相应要求,最终告警准确的指标仅为230项
该模型能够准确地帮助运维管理者看清监控质量问题来自于哪一个监控管理环节,便于快速定位和准确处理。
实践是维持创新的推动力,擎创科技将持续不断的落地更多智能运维建设方法,通过实践创新理论,希望未来能与更多行业客户携手并肩,共探智能运维发展的康庄大道。
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择
继续阅读
阅读原文