11 月 18 日,我们迎来了首场线上盛会—《RocketMQ 运维经验圆桌交流会》,本次交流会汇聚了 RocketMQ 的作者,腾讯云、移动云的技术专家,《RocketMQ 实战》的作者等技术大咖,共同深度探讨了 RocketMQ 运维中的挑战与解决方案。线上参会者们通过连线提问的方式积极参与,交流了 RocketMQ 运维中的一些疑难问题。技术专家们不仅详细解答了每一个问题,还分享了许多实际案例,为大家揭开了 RocketMQ 运维中的种种谜团。线上探讨氛围热烈,下面就让我们来回顾本次会议的精彩内容。
 RocketMQ 运维中的监控性能
腾讯云 RocketMQ 术专家雷志远老师主要分享了腾讯云基于 RocketMQ 4.0 构建可观测性和监控设施的经验,志远老师首先指出了开源社区 Exporter 组件在大规模场景下的一些不足:
当 Topic 和 Group 元数据规模较大时,Exporter 组件会出现性能瓶颈。
功能上,Exporter 不支持 Topic 和 Group 组合指标,也缺少一些精细化的指标比如 Topic 级的存储用量。
为了解决上述问题,腾讯云针对 RocketMQ 4.0 提出了基于日志异步转 Promethus 的方案来支撑了腾讯云大规模的 RocketMQ 消息业务。
随后,Apache RocketMQ 的 PMC 成员艾阳坤老师表示 RocketMQ 5.0 在原生支持 Promethus 的基础上,还丰富了大量的指标,希望开发者可以进行体验。
RocketMQ 故障排查的导论
移动云消息中间件研发负责人胡宗棠老师分享了他在故障排查和生产场景应用方面的专业经验。他强调了故障源头问题,包括开源用户对 RocketMQ 的不全面监控和在生产环境下使用 RocketMQ 时可能遇到的挑战。胡宗棠还讨论了在云原生场景中的一些考虑,特别是在多租户环境下监控存储容量的方法。他建议在大规模场景下,用户可能需要重新构建消息轨迹集群或通过代理采集数据。最后,他提到了运维工具的选择,强调了消息轨迹在中小规模应用中的优势,但也指出在大规模场景下需要谨慎调整以更好地适应 RocketMQ 的特性。
RocketMQ 运维中的几个排障案例
《RocketMQ 实战》作者梁勇老师给大家带来了 5 个 RocketMQ 排障案例分享:延迟消息失效;从节点、主节点频繁 CPU 飙高;服务在部署容器之后不间断受到积压告警;某个分区卡住不再消费;集群磁盘拉盘 IO 告警。这些案例在 RocketMQ 使用过程中普遍且易踩坑,让线上的同学受益匪浅。
RocketMQ 从人治到自治的思考
RocketMQ 的作者王小瑞老师分享了他对RocketMQ的深刻见解,介绍 RocketMQ 设计的背景和初衷:在双11等高压力场景下的设计考虑,特别是对于在线业务MQ的重新设计。他讨论了服务器选择的难题,建议在今天的弹性云环境中更多地使用小规格机器。王小瑞还提到了测试环境的挑战,介绍了动态创建物理资源隔离环境的新方式。他分享了对集群划分和业务优先级的思考,并强调了持续改进和修复问题的重要性。最后,他鼓励用户升级到较新版本以解决旧版本可能存在的问题。
RocketMQ Copilot 产品演示
RocketMQ PMC Member 艾阳坤老师现场给大家介绍了 RocketMQ Copilot 的设计和其各个模块功能的由来。RocketMQ Copilot 针对 RocketMQ 使用过程中可能出现的消费未消费和消息堆积等功能,设计了自助诊断功能;针对 Broker 上可能出现的消息发送排队,内核参数设置不当以及 Topic 上的路由信息不一致和 ConsumerGroup 订阅关系不一致等功能,推出了巡检和风险治理;SLI/SLO 模块则完成了对 RocketMQ 上的服务级别更好的管理与衡量。他表示:RocketMQ Copilot 会广泛吸收来自众多 RocketMQ 运维人员的想法和建议,并进行持续不断的迭代。
 线上互动交流
线上参会的同学积极参与,与专家深入交流,连线讨论了:主从节点替换、RocketMQ 从 3.6 升级 5.X、消息不丢失问题、RocketMQ 升级共存等问题。专家们不仅对各个问题进行了详尽解答,也通过亲身经验分享了宝贵的见解。活动互动交流环节干货满满!
最后,感谢各位大咖的精彩分享,也感谢每一位参会者的热情参与!“RocketMQ 运维经验圆桌交流会”只是我们技术探讨的开始,未来我们将继续举办更多类似的活动,深度与大家答疑和交流,敬请期待我们未来更多的精彩活动!

继续阅读
阅读原文