今日主题:K8s HPA 弹性扩缩容
场景描述:API 流量突增导致响应延迟飙升
本篇内容采用生产场景方式组织,覆盖告警识别、根因定位、快速处置、复盘优化四个步骤,适合Linux运维与SRE岗位训练。
一、故障现象与根因
故障现象:API 流量突增导致响应延迟飙升
根因分析:仅配置 CPU 阈值,未纳入 QPS 与响应时间指标,扩容触发滞后
二、定位流程图
三、关键排障命令
kubectl top pod -n prod
kubectl get hpa -n prod
kubectl describe hpa api-server -n prod
kubectl get --raw /apis/custom.metrics.k8s.io/v1beta1
四、优化策略与指标目标
接入自定义指标并设置 30 秒评估 + 3 分钟缩容冷却,避免容量抖动
目标:P95 < 300ms,错误率 < 1%,扩容收敛时间 < 2 分钟
五、实操训练清单
1. 模拟 2000+ QPS 压测,观察扩容曲线与成本变化
2. 将 CPU、QPS、响应时间三个指标组合为门禁条件
3. 复盘告警阈值设置,输出值班应急模板
六、官方文档参考
咨询方式:苏州育成教育 李老师 18068438616(Linux 运维 / ETL 课程咨询)。