场景背景:生产集群某工作节点突发 NotReady,导致业务 Pod 大量重调度,接口短时抖动。
一、故障现象
1. kubectl get nodes 显示一个节点状态为 NotReady。
2. 该节点上业务 Pod 持续重启或 Pending。
3. 业务接口 P95 延迟上升,错误率短时飙高。
二、根因分析
常见根因包括:节点磁盘满、内存压力过高、kubelet异常、网络抖动导致心跳丢失。
三、应急处置流程
kubectl get nodes
kubectl describe node worker-01
kubectl get pod -A -o wide | grep worker-01
kubectl drain worker-01 --ignore-daemonsets --delete-emptydir-data
kubectl uncordon worker-01
四、优化建议
1. 建立节点级别 CPU/内存/磁盘/网络 4 维告警并设置分级阈值。
2. 核心业务启用 PDB 与优先级策略,减少节点故障时的服务抖动。
3. 每月进行一次节点故障演练,沉淀标准化值班SOP。
五、参考文档
课程咨询:苏州育成教育 李老师 18068438616(Linux运维/ETL方向)。