基于一次 M5 本地测试,记录 MoE 模型带宽瓶颈,以及通过内存热缓存把长上下文推理提速到约 6.4 倍的过程。
Posts for: #mlx
MLX vs Ollama(GGUF):M2 MBP 32GB 上的性能基准测试
在 M2 MacBook Pro (32GB) 上系统对比 MLX 与 Ollama 的推理性能,附 9B 与 35B 模型的实测数据。
基于一次 M5 本地测试,记录 MoE 模型带宽瓶颈,以及通过内存热缓存把长上下文推理提速到约 6.4 倍的过程。
在 M2 MacBook Pro (32GB) 上系统对比 MLX 与 Ollama 的推理性能,附 9B 与 35B 模型的实测数据。