Qwen3.6 随 KV cache 修复一起引入的 preserve_thinking 开关是 chat template 的 kwarg,不是 vLLM CLI 标志;借助集群两台 DGX Spark 做 A/B 对照,量化出 prompt/completion token 的差异。
Apple M5 上 omlx + Gemma4-26B 性能调优实录
基于一次 M5 本地测试,记录 MoE 模型带宽瓶颈,以及通过内存热缓存把长上下文推理提速到约 6.4 倍的过程。
在 macOS 上本地部署 markitdown:将任意文档转为 Markdown
记录在 macOS 上将 Microsoft markitdown 安装为本地的文档转换工具,支持 Word、PDF、PPT、Excel 等格式一键转 Markdown。同时介绍表格较多的 PDF 如何换用 marker-pdf 获得更好的转换效果。
两台 DGX Spark 跑 Qwen3.6-35B-A3B:直连 vLLM vs 经过 Gateway 的吞吐对比
实测两台 DGX Spark 上 Qwen3.6-35B-A3B-FP8 的 vLLM 吞吐:单机单流 ~50 tok/s,双机经 FastAPI Gateway 并发 N=16 聚合可达 ~485 tok/s。
本地 Kind K8s 开发环境:问题驱动的工具选择与 Tradeoff
记录自己在本地用 Kind 跑一套 Spring Boot 微服务项目时的工具选择:以问题为导向,介绍增量构建、Tilt、mirrord、ArgoCD 等工具如何解决开发痛点。
Bifrost 负载均衡 DGX Spark:从 TP=2 跨节点到双机独立部署
将两台 DGX Spark 从不稳定的 vLLM TP=2 跨节点部署迁移到单节点独立运行 + Bifrost 负载均衡网关的完整实践和 benchmark 结果。
Java 项目怎么做 contract testing:一次 Spring Cloud Contract 实践
基于 java-contract 仓库的工程复盘:REST API 和 Kafka 消息 contract 如何在 Java 25 + Spring Boot 3.5 + Maven 多模块项目里分别落地,producer 验证、consumer stubs 和 CI Quality Gates 如何串起来。
没有 Service Mesh,用 API Gateway 做用户级灰度
没有 Istio/Linkerd 的环境下,Shop Platform 用 Spring Cloud Gateway MVC 的自定义 Predicate + Redis Set + Caffeine 本地缓存,实现按 buyerId 的用户级灰度路由;并讨论配合 OpenFeature 做下游代码路径灰度的演进路径。
Nemotron EP2 vs TP2:两台 DGX Spark 的实际对比
在两台 DGX Spark 上对比 vLLM EP2 和 TP2 跑 NVIDIA Nemotron 3 Super 120B A12B NVFP4 的结果,并分析 EP2 失稳的可能原因。
Compose Multiplatform 跨端实战:一套代码跑 WASM / Android / iOS 的电商应用
Shop Platform 的前端策略采用 Compose Multiplatform 实现买家和卖家两套共享模块,并面向 WASM Web、Android 与 iOS framework targets 编译。本文详解 core/feature*/ui-shared 的分层设计、WASM 前端策略、与后端 BFF 的 JWT 协作,以及当前阶段已经落地与尚未补齐的边界。