今日主题:Node NotReady 自愈
场景描述:节点异常导致业务 Pod 大量漂移
本篇内容采用生产场景方式组织,覆盖告警识别、根因定位、快速处置、复盘优化四个步骤,适合Linux运维与SRE岗位训练。
一、故障现象与根因
故障现象:节点异常导致业务 Pod 大量漂移
根因分析:节点资源耗尽与内核参数不合理,触发 kubelet 心跳异常
二、定位流程图
三、关键排障命令
kubectl get nodes
kubectl describe node worker-01
kubectl get pod -A -o wide | grep worker-01
kubectl drain worker-01 --ignore-daemonsets --delete-emptydir-data
四、优化策略与指标目标
设置节点保护阈值,提前驱逐低优先级任务,保障核心服务
目标:节点恢复时间 < 10 分钟,核心业务无中断
五、实操训练清单
1. 构建节点级 CPU、内存、磁盘、网络四维看板
2. 提前标注关键工作负载并配置 Pod 优先级
3. 故障后输出根因报告与防复发清单
六、官方文档参考
咨询方式:苏州育成教育 李老师 18068438616(Linux 运维 / ETL 课程咨询)。