Zhao Xue
  • Blog
  • Collections
  • About
  • Search
  • Tags
Home Collections

Kubernetes 深度原理实战

从真实的线上事故和多集群管理经验出发,深入剖析 Kubernetes 核心组件和运行时机制的底层原理。每一篇都从一个真实问题切入,结合 5 年 ACM 多集群管理经验,让你真正理解 K8s 架构设计背后的工程智慧。
1.

从一次 Webhook 拖垮集群聊起:彻底搞懂 K8s 架构设计

一个 MutatingAdmissionWebhook 后端挂掉导致整个集群’假死’,排查过程串联起 K8s 所有核心组件的职责与协作:API Server 的请求处理链、etcd 的唯一真相源角色 …

April 24, 2026 · 15 min · Zhao Xue
2.

从一次 Reconcile 风暴聊起:彻底搞懂 K8s Controller 和 Operator 模式

200+ 集群同时断连后重连,固定 RequeueAfter 绕过指数退避导致 API Server 雪崩。排查过程揭开 Controller 核心机制的全部秘密:Informer 的 …

April 24, 2026 · 8 min · Zhao Xue
3.

从一次 CR 删不掉聊起:彻底搞懂 CRD、Finalizer 和 Webhook

kubectl delete 某个 CR 后一直卡在 Terminating,–force 也无效。排查过程串联 CRD 的设计哲学:自定义资源如何在 API Server 中’活起来 …

April 24, 2026 · 13 min · Zhao Xue
4.

从一次 database space exceeded 聊起:彻底搞懂 etcd 在 K8s 中的角色

管理 200+ 集群时 CR 大量累积触发 etcd space quota,所有写操作报 mvcc: database space exceeded。排查过程揭开 etcd 的全部秘密:Raft 共识如何保证一致性、MVCC 如何实现乐观 …

April 24, 2026 · 9 min · Zhao Xue
5.

从一次 Pod Pending 但节点资源充足聊起:彻底搞懂 K8s 调度器原理

kubectl describe pod 显示 0/5 nodes available: Insufficient cpu,但 kubectl top nodes 显示 CPU 使用率才 30%。排查过程揭开调度器的全部秘密 …

April 24, 2026 · 9 min · Zhao Xue
6.

从一次滚动更新 502 聊起:彻底搞懂 Pod 生命周期与容器运行时

滚动更新时出现 502/504 错误,旧 Pod 收到 SIGTERM 后立即关闭端口,但 iptables 规则还没更新完。排查过程串联 Pod 的完整生命周期:从 Pending 到 Running 的每一步、三种 Probe 的设计哲 …

April 24, 2026 · 10 min · Zhao Xue
7.

从一次 Service Endpoints 为空聊起:彻底搞懂 K8s 网络模型

curl Service 超时,kubectl get endpoints 返回空列表。排查过程串联 K8s 整个网络模型:Pod 网络的三个基本原则、Service 的四种类型和 kube-proxy 实现、Ingress 的 L7 路由 …

April 24, 2026 · 8 min · Zhao Xue
8.

从一次 pods/exec forbidden 聊起:彻底搞懂 K8s RBAC 权限模型

kubectl get pods 正常,但 kubectl exec 报 forbidden: cannot create resource pods/exec。排查过程揭开 RBAC 的全部细节:Role 和 ClusterRole 的作 …

April 24, 2026 · 9 min · Zhao Xue
9.

从管理 200+ 集群的实战经验聊起:K8s 多集群架构设计与性能优化

5 年 ACM 多集群管理经验的系统总结:Hub-Spoke vs 联邦架构的本质区别、ManifestWork 资源分发与 Placement 调度的设计、CSR 注册与反向隧道网络互通、以及管理 200+ 集群时遇到的真实性能挑战和优化 …

April 24, 2026 · 12 min · Zhao Xue
© 2026 Zhao Xue · Powered by Hugo & PaperMod