参数计数是在 8GB VRAM 上选择模型的最差方法。
我已经在 RTX 4060 8GB 上运行本地法学硕士六个月了。
5-9B/27B/35B-A3B、BGE-M3 — 全部通过 Q4_K_M 量化进行填充。
在线比较按尺寸对模型进行排名——“32B 具有这种品质”,“7B 具有这种品质”。
MMLU 和 HumanEval 等基准测试按参数计数发布排名。
本文涵盖了我根据实际测量得出的三个规则,以及 8GB VRAM 型号选择的决策框架。
来源:Dev.to

AI技术 · 深度资讯 · 前沿观察
参数计数是在 8GB VRAM 上选择模型的最差方法。
我已经在 RTX 4060 8GB 上运行本地法学硕士六个月了。
5-9B/27B/35B-A3B、BGE-M3 — 全部通过 Q4_K_M 量化进行填充。
在线比较按尺寸对模型进行排名——“32B 具有这种品质”,“7B 具有这种品质”。
MMLU 和 HumanEval 等基准测试按参数计数发布排名。
本文涵盖了我根据实际测量得出的三个规则,以及 8GB VRAM 型号选择的决策框架。
来源:Dev.to
上一篇
下一篇
AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。
Access over the years of investigative journalism and breaking reports