克劳德感觉自己很慢。但将团队转移到开放重量模型真的能解决问题吗?

克劳德感觉自己很慢。但将团队转移到开放重量模型真的能解决问题吗?

Claude 对我们团队来说确实存在速度问题,但主要是 TTFT,而不是原始解码速度。

我测量了我们的实际使用情况,发现了这一点:。

克劳德十四行诗解码 p50:176 tok/s。

这就解释了这种感觉:克劳德一旦开始通常不会那么慢,但有时需要很长时间才能开始,以至于整个事情感觉就像在爬行。

我们应该将团队转移到自托管的开放权重模型吗。

但当我查看了实际的团队设置(10 名工程师共享一份 GPU 预算)后,答案就不再那么明显了。

来源:Dev.to