参数计数是在 8GB VRAM 上选择模型的最差方法

参数计数是在 8GB VRAM 上选择模型的最差方法

参数计数是在 8GB VRAM 上选择模型的最差方法。

我已经在 RTX 4060 8GB 上运行本地法学硕士六个月了。

5-9B/27B/35B-A3B、BGE-M3 — 全部通过 Q4_K_M 量化进行填充。

在线比较按尺寸对模型进行排名——“32B 具有这种品质”,“7B 具有这种品质”。

MMLU 和 HumanEval 等基准测试按参数计数发布排名。

本文涵盖了我根据实际测量得出的三个规则,以及 8GB VRAM 型号选择的决策框架。

来源:Dev.to