一次看起来像 Cilium Gateway Degraded 和 ArgoCD Sync 异常的故障,最后追到了 CoreDNS stub resolver、ZITADEL backend 缺失和 Vault 密钥问题。记录完整排查链路、修复动作和后续固化方案。
Posts for: #troubleshooting
Oracle Cloud K3s 迁移到 Cilium:一次把网络、密钥和状态数据都翻出来的升级
记录 oracle-k3s 从 Flannel 迁移到 Cilium 的完整过程:从 K3s 重装、Cloudflare Tunnel 的 QUIC 问题、Vault Secret 恢复,到 PVC 数据回灌和 Timeslot 修复,顺便总结哪些复杂度值得保留,哪些该延后。
K3s 集群 CNI 迁移实战:从 Flannel 到 Cilium 的踩坑记录
记录 homelab K3s 集群从默认 Flannel 迁移到 Cilium CNI 后遇到的三个典型问题:Cloudflared QUIC 握手超时、Pod 无法访问节点物理 IP、ZITADEL 密钥长度错误,以及各自的排查过程和解决方案。
Spring AI 2.0.0-M2 的 Ollama think 字段污染 Bug:排查过程与 Interceptor 临时方案
记录 Spring AI 2.0.0-M2 中 OllamaChatOptions.disableThinking() 导致 Ollama 返回 HTTP 400 的 bug,分析根因、对比两种绕过方案的 tradeoff,最终选择 ClientHttpRequestInterceptor 作为最小侵入的临时修复。
一次 make coverage 卡死排查:Reactive Redis 与 Lettuce SharedLock 的连锁问题
本文复盘一次集成测试在 make coverage 阶段卡死的问题:先是连接池超时,再是 Lettuce SharedLock 自旋。重点分享排查路径、错误假设、最终根因与可复用修复策略。
How a Performance Optimization Caused Cascading Redis Timeouts in Spring WebFlux
A seemingly harmless removal of publishOn(Schedulers.boundedElastic()) led to cascading Redis timeouts in production. This post explains how Spring’s @Cacheable blocks the Netty event loop when used with RedisCacheManager, and why BlockHound failed to catch it.
postgresql在prometheus stack中没有采集到metrics的排查
我在homelab的k8s集群中使用helm部署了postgresql,但是prometheus stack没有采集到postgresql的指标数据。怎么排查这个问题呢?
Java21虚拟线程-锁在哪里呢?
这是netflix中使用java21的virtual thread碰到的一个故障案例,排查过程很精彩,问题对使用该特性的服务应该也是很容易碰到的。