概述
业务表征点
- 请求量
- 响应时间
- 数据量
系统表征点
- CPU负载
- 内存压力
- IO压力:网络,硬盘
- 存储压力:数据库,缓存
- 中间件压力:消息队列
- Java:JVM
第三表征点
- 系统监控/报警
- 系统日志
排查方式
排查思路
- 最核心的系统/接口是什么?
- 过去一段时间,bug/故障最多的地方是哪里?
- 门店数/订单量/…翻2/5/10倍之后,最先支撑不住的点在哪里?
排查流程
- 排查范围/排查点
- 排查&发现问题
- 确定问题的影响范围并按优先级排序
- 逐一解决问题
先思考,再动手
- 切忌手太快,发现一个解决一个。但解决的未必是重要问题
- 切忌排查不全面,贸然动手引起联锁反应
思考全面,方案全面
- 灰度策略,回滚策略,分支策略,要全面
逻辑和数据
- 逻辑上是好方案
- 数据上(预评估和后评估)是好结果
- 不断分析badcase迭代优化