今日主题:Prometheustarget 抓取失败排障
故障背景:日志平台索引暴涨时段,推荐与搜索服务出现target 抓取失败,接口 RT 持续升高。
适合带教值班、新人排障训练和项目复盘。排障建议:先确认采集目标健康度、规则评估耗时、TSDB 容量和告警聚合是否同时异常。
一、故障现象与判断思路
故障现象:日志平台索引暴涨时段,推荐与搜索服务出现target 抓取失败,接口 RT 持续升高。
判断思路:排障建议:先确认采集目标健康度、规则评估耗时、TSDB 容量和告警聚合是否同时异常。
根因提示:策略收紧后,Prometheus 配置变更和重载缺少校验,导致采集失败被放大。
二、排障流程图
三、建议优先执行的命令
remote_write' /etc/prometheus/prometheus.yml
curl -s http://127.0.0.1:9090/api/v1/status/runtimeinfo
curl -s http://127.0.0.1:9090/-/ready
curl -s http://127.0.0.1:9090/api/v1/targets
四、修复与优化策略
围绕告警噪声治理和监控成本控制建立完整复盘模板,适合课堂值班训练,并写入回滚和扩容 SOP。
目标:查询与规则评估耗时回落,监控平台不再拖慢故障确认
五、课堂训练清单
1. 先在 日志平台索引暴涨时段 这个时间窗复盘 target 抓取失败 的第一现场,保留时间线、日志和资源快照。
2. 围绕“策略收紧后,Prometheus 配置变更和重载缺少校验,导致采集失败被放大。”核对配置、变更记录、容量水位和依赖链路。
3. 按照“目标:查询与规则评估耗时回落,监控平台不再拖慢故障确认”补齐告警阈值、回滚方案和课堂演练 SOP。
六、官方文档参考
课程延伸:适合带教值班、新人排障训练和项目复盘
咨询方式:苏州育成教育,Linux 运维 / ETL 培训,李老师 18068438616。课程周期 2 个月,苏州姑苏区烽火路 80 号线下脱产学习,不就业不收费,学不会可继续学。