本地 LLM 与免费模型

本地模型并不只是“参数越大越好”，更重要的是推理速度、量化格式、显存/内存占用、以及自己真实的使用场景。

选型关注点

任务类型：代码、总结、问答、翻译、图文理解，对模型侧重点不同
运行环境：Apple Silicon、NVIDIA CUDA、纯 CPU，各自适配的推理框架不一样
量化格式：GGUF、MLX、AWQ、GPTQ，不同格式会影响速度和占用
上下文长度：长上下文对笔记整理、代码仓分析更重要
可维护性：模型更新频率、社区活跃度、部署脚本是否成熟，也很关键

Apple Silicon 的常见思路

优先看 MLX 生态，部署简单，兼容性好
量化模型比全精度更适合本地长期使用
真正要稳定日用，往往是“中型模型 + 合适量化”更平衡
如果要做知识库检索、批量整理、工作流编排，速度通常比极限能力更重要

实际使用建议

先确定自己是“重速度”还是“重能力”
先跑通一套最小可用链路，再逐步换模型
统一记录：模型名、量化格式、占用、首 token 时间、长会话表现
如果是长期工作站，优先选择容易复现、容易迁移的方案