今日主题:K8sCrashLoopBackOff排障
故障背景:夜间离线补数任务窗口,订单与库存服务出现CrashLoopBackOff,业务实例发生大面积重启。
适合 Linux 运维、云原生和 SRE 岗位的课堂演练。排障建议:优先沿着事件、Pod 状态、节点资源和控制面日志四条线索判断故障域。
一、故障现象与判断思路
故障现象:夜间离线补数任务窗口,订单与库存服务出现CrashLoopBackOff,业务实例发生大面积重启。
判断思路:排障建议:优先沿着事件、Pod 状态、节点资源和控制面日志四条线索判断故障域。
根因提示:节点维护窗口中,探针、Secret 与镜像版本没有一起变更。
二、排障流程图
三、建议优先执行的命令
kubectl top pod -A --containers
kubectl top node
kubectl logs deploy/<deploy> -n <namespace> --tail=200
kubectl describe node <node>
四、修复与优化策略
先按 Pod 事件、节点状态和控制器日志拆分根因,再决定扩容、回滚或切流策略,并把容量阈值接入值班告警。
目标:5 分钟内锁定故障域,15 分钟内完成止血,业务错误率回落到 1% 以下
五、课堂训练清单
1. 先在 夜间离线补数任务窗口 这个时间窗复盘 CrashLoopBackOff 的第一现场,保留时间线、日志和资源快照。
2. 围绕“节点维护窗口中,探针、Secret 与镜像版本没有一起变更。”核对配置、变更记录、容量水位和依赖链路。
3. 按照“目标:5 分钟内锁定故障域,15 分钟内完成止血,业务错误率回落到 1% 以下”补齐告警阈值、回滚方案和课堂演练 SOP。
六、官方文档参考
课程延伸:适合 Linux 运维、云原生和 SRE 岗位的课堂演练
咨询方式:苏州育成教育,Linux 运维 / ETL 培训,李老师 18068438616。课程周期 2 个月,苏州姑苏区烽火路 80 号线下脱产学习,不就业不收费,学不会可继续学。