本地 LLM 与免费模型
本地模型并不只是“参数越大越好”,更重要的是推理速度、量化格式、显存/内存占用、以及自己真实的使用场景。
选型关注点
- 任务类型:代码、总结、问答、翻译、图文理解,对模型侧重点不同
- 运行环境:Apple Silicon、NVIDIA CUDA、纯 CPU,各自适配的推理框架不一样
- 量化格式:GGUF、MLX、AWQ、GPTQ,不同格式会影响速度和占用
- 上下文长度:长上下文对笔记整理、代码仓分析更重要
- 可维护性:模型更新频率、社区活跃度、部署脚本是否成熟,也很关键
Apple Silicon 的常见思路
- 优先看 MLX 生态,部署简单,兼容性好
- 量化模型比全精度更适合本地长期使用
- 真正要稳定日用,往往是“中型模型 + 合适量化”更平衡
- 如果要做知识库检索、批量整理、工作流编排,速度通常比极限能力更重要
实际使用建议
- 先确定自己是“重速度”还是“重能力”
- 先跑通一套最小可用链路,再逐步换模型
- 统一记录:模型名、量化格式、占用、首 token 时间、长会话表现
- 如果是长期工作站,优先选择容易复现、容易迁移的方案