Skip to content

本地 LLM 与免费模型

本地模型并不只是“参数越大越好”,更重要的是推理速度、量化格式、显存/内存占用、以及自己真实的使用场景。

选型关注点

  • 任务类型:代码、总结、问答、翻译、图文理解,对模型侧重点不同
  • 运行环境:Apple Silicon、NVIDIA CUDA、纯 CPU,各自适配的推理框架不一样
  • 量化格式:GGUF、MLX、AWQ、GPTQ,不同格式会影响速度和占用
  • 上下文长度:长上下文对笔记整理、代码仓分析更重要
  • 可维护性:模型更新频率、社区活跃度、部署脚本是否成熟,也很关键

Apple Silicon 的常见思路

  • 优先看 MLX 生态,部署简单,兼容性好
  • 量化模型比全精度更适合本地长期使用
  • 真正要稳定日用,往往是“中型模型 + 合适量化”更平衡
  • 如果要做知识库检索、批量整理、工作流编排,速度通常比极限能力更重要

实际使用建议

  • 先确定自己是“重速度”还是“重能力”
  • 先跑通一套最小可用链路,再逐步换模型
  • 统一记录:模型名、量化格式、占用、首 token 时间、长会话表现
  • 如果是长期工作站,优先选择容易复现、容易迁移的方案

Built for notes, tools, and long-term recall.