今日主题:Kafka磁盘写入打满排障
故障背景:电商促销扩容窗口,订单与库存服务出现磁盘写入打满,核心任务出现超时。
适合带教值班、新人排障训练和项目复盘。排障建议:先确认消费积压、ISR 变化、Broker 负载和磁盘顺序写入是否同时异常。
一、故障现象与判断思路
故障现象:电商促销扩容窗口,订单与库存服务出现磁盘写入打满,核心任务出现超时。
判断思路:排障建议:先确认消费积压、ISR 变化、Broker 负载和磁盘顺序写入是否同时异常。
根因提示:跨机房切流时,ZooKeeper 或 KRaft 控制面抖动导致元数据更新不稳定。
二、排障流程图
三、建议优先执行的命令
kafka-configs.sh --bootstrap-server <broker:9092> --entity-type topics --entity-name <topic> --describe
kafka-topics.sh --bootstrap-server <broker:9092> --describe --topic <topic>
kafka-consumer-groups.sh --bootstrap-server <broker:9092> --describe --group <group>
grep -E 'ERROR
四、修复与优化策略
把 lag、ISR、副本迁移和 JVM 指标纳入统一看板,避免只看单一延迟指标,并把关键命令加入值班手册。
目标:Producer timeout 降到 1% 以下,Broker 切换不再影响核心链路
五、课堂训练清单
1. 先在 电商促销扩容窗口 这个时间窗复盘 磁盘写入打满 的第一现场,保留时间线、日志和资源快照。
2. 围绕“跨机房切流时,ZooKeeper 或 KRaft 控制面抖动导致元数据更新不稳定。”核对配置、变更记录、容量水位和依赖链路。
3. 按照“目标:Producer timeout 降到 1% 以下,Broker 切换不再影响核心链路”补齐告警阈值、回滚方案和课堂演练 SOP。
六、官方文档参考
课程延伸:适合带教值班、新人排障训练和项目复盘
咨询方式:苏州育成教育,Linux 运维 / ETL 培训,李老师 18068438616。课程周期 2 个月,苏州姑苏区烽火路 80 号线下脱产学习,不就业不收费,学不会可继续学。