一次看起来像 Cilium Gateway Degraded 和 ArgoCD Sync 异常的故障,最后追到了 CoreDNS stub resolver、ZITADEL backend 缺失和 Vault 密钥问题。记录完整排查链路、修复动作和后续固化方案。
Posts for: #k3s
Cilium ClusterMesh 实战:连接两个 K3s 集群的跨云服务发现
记录在 homelab 和 Oracle Cloud 两个 K3s 集群上启用 Cilium ClusterMesh 的完整过程:从 homelab 集群重建、Cilium Gateway API 切换、Tailscale 组网,到 ClusterMesh 双向连接和跨集群可观测性验证。
Oracle Cloud K3s 迁移到 Cilium:一次把网络、密钥和状态数据都翻出来的升级
记录 oracle-k3s 从 Flannel 迁移到 Cilium 的完整过程:从 K3s 重装、Cloudflare Tunnel 的 QUIC 问题、Vault Secret 恢复,到 PVC 数据回灌和 Timeslot 修复,顺便总结哪些复杂度值得保留,哪些该延后。
K3s 集群 CNI 迁移实战:从 Flannel 到 Cilium 的踩坑记录
记录 homelab K3s 集群从默认 Flannel 迁移到 Cilium CNI 后遇到的三个典型问题:Cloudflared QUIC 握手超时、Pod 无法访问节点物理 IP、ZITADEL 密钥长度错误,以及各自的排查过程和解决方案。
Homelab 备份体系实战:Kopia + CronJob + GitOps 实现零数据丢失
记录在双集群 K3s Homelab 中构建 Kopia 自动备份体系的完整过程:从数据分类、CronJob 设计、跨集群备份传输,到 GitOps 管理和灾难恢复 SOP 的设计思路与踩坑经验。
K8s CPU 配置完全指南:QoS、Throttling 与驱逐策略
深入讲解 Kubernetes 的 CPU requests/limits 机制:CFS Throttling 原理、三种 QoS 类别的区别、节点压力驱逐顺序,以及如何为实际 Homelab 设置合理的资源配置。
Homelab OTel 实践:从日志采集到双集群全链路追踪
在双集群 K3s Homelab 中构建完整的 OpenTelemetry 可观测性体系:从替换 Promtail 实现 OTel 日志采集,到打通双集群 OTLP traces → Tempo 全链路追踪,涵盖架构设计、OTel Collector 配置、Grafana 数据源联动及多语言 SDK 接入指南。
我的Homelab架构全景:双K3s集群的IaC与GitOps实践
一篇全面的 Homelab 架构概览:从 Proxmox 虚拟机到 Oracle Cloud 双集群、从 Terraform+Ansible IaC 到 ArgoCD GitOps、从 Tailscale 跨集群网络到 Cloudflare Tunnel+WAF、从 Vault 密钥管理到 ZITADEL SSO——记录一个完整的自托管平台是如何一步步搭建起来的。
用Cloudflare WAF为双K3s集群添加安全防护
在 Homelab 的 Cloudflare Terraform 配置中添加 WAF 防护:Zone 安全设置、自定义拦截规则、认证端点速率限制——覆盖 homelab 和 oracle-k3s 两个集群的全部子域名。
在K3s上构建信息管道:Miniflux → KaraKeep → Gotify → Telegram
在双集群K3s Homelab中构建一条自动化信息管道:Miniflux RSS保存文章 → Redpanda Connect Webhook → KaraKeep书签存档 → 精选推送到Gotify → Telegram频道。涵盖架构设计、Redpanda Connect双管道配置、跨集群通信及踩坑记录。