Claude 对我们团队来说确实存在速度问题,但主要是 TTFT,而不是原始解码速度。
我测量了我们的实际使用情况,发现了这一点:。
克劳德十四行诗解码 p50:176 tok/s。
这就解释了这种感觉:克劳德一旦开始通常不会那么慢,但有时需要很长时间才能开始,以至于整个事情感觉就像在爬行。
我们应该将团队转移到自托管的开放权重模型吗。
但当我查看了实际的团队设置(10 名工程师共享一份 GPU 预算)后,答案就不再那么明显了。
来源:Dev.to

AI技术 · 深度资讯 · 前沿观察
Claude 对我们团队来说确实存在速度问题,但主..
Claude 对我们团队来说确实存在速度问题,但主要是 TTFT,而不是原始解码速度。
我测量了我们的实际使用情况,发现了这一点:。
克劳德十四行诗解码 p50:176 tok/s。
这就解释了这种感觉:克劳德一旦开始通常不会那么慢,但有时需要很长时间才能开始,以至于整个事情感觉就像在爬行。
我们应该将团队转移到自托管的开放权重模型吗。
但当我查看了实际的团队设置(10 名工程师共享一份 GPU 预算)后,答案就不再那么明显了。
来源:Dev.to
上一篇
下一篇
AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。
Access over the years of investigative journalism and breaking reports