一个 MutatingAdmissionWebhook 后端挂掉导致整个集群’假死’,排查过程串联起 K8s 所有核心组件的职责与协作:API Server 的请求处理链、etcd 的唯一真相源角色 …
200+ 集群同时断连后重连,固定 RequeueAfter 绕过指数退避导致 API Server 雪崩。排查过程揭开 Controller 核心机制的全部秘密:Informer 的 …
kubectl delete 某个 CR 后一直卡在 Terminating,–force 也无效。排查过程串联 CRD 的设计哲学:自定义资源如何在 API Server 中’活起来 …
管理 200+ 集群时 CR 大量累积触发 etcd space quota,所有写操作报 mvcc: database space exceeded。排查过程揭开 etcd 的全部秘密:Raft 共识如何保证一致性、MVCC 如何实现乐观 …
kubectl describe pod 显示 0/5 nodes available: Insufficient cpu,但 kubectl top nodes 显示 CPU 使用率才 30%。排查过程揭开调度器的全部秘密 …
滚动更新时出现 502/504 错误,旧 Pod 收到 SIGTERM 后立即关闭端口,但 iptables 规则还没更新完。排查过程串联 Pod 的完整生命周期:从 Pending 到 Running 的每一步、三种 Probe 的设计哲 …
curl Service 超时,kubectl get endpoints 返回空列表。排查过程串联 K8s 整个网络模型:Pod 网络的三个基本原则、Service 的四种类型和 kube-proxy 实现、Ingress 的 L7 路由 …
kubectl get pods 正常,但 kubectl exec 报 forbidden: cannot create resource pods/exec。排查过程揭开 RBAC 的全部细节:Role 和 ClusterRole 的作 …
5 年 ACM 多集群管理经验的系统总结:Hub-Spoke vs 联邦架构的本质区别、ManifestWork 资源分发与 Placement 调度的设计、CSR 注册与反向隧道网络互通、以及管理 200+ 集群时遇到的真实性能挑战和优化 …