场景背景:生产集群某工作节点突发 NotReady,导致业务 Pod 大量重调度,接口短时抖动。

Node NotReady 封面图

一、故障现象

1. kubectl get nodes 显示一个节点状态为 NotReady。

2. 该节点上业务 Pod 持续重启或 Pending。

3. 业务接口 P95 延迟上升,错误率短时飙高。

二、根因分析

常见根因包括:节点磁盘满、内存压力过高、kubelet异常、网络抖动导致心跳丢失。

三、应急处置流程

Node NotReady 流程图

kubectl get nodes
kubectl describe node worker-01
kubectl get pod -A -o wide | grep worker-01
kubectl drain worker-01 --ignore-daemonsets --delete-emptydir-data
kubectl uncordon worker-01

四、优化建议

1. 建立节点级别 CPU/内存/磁盘/网络 4 维告警并设置分级阈值。

2. 核心业务启用 PDB 与优先级策略,减少节点故障时的服务抖动。

3. 每月进行一次节点故障演练,沉淀标准化值班SOP。

五、参考文档

课程咨询:苏州育成教育 李老师 18068438616(Linux运维/ETL方向)。

点赞(0)