推理可观察性:为什么你直到为时已晚才看到成本飙升

因为产生成本的系统不是您正在监控的系统。

推理可观察性不是一个工具问题——而是一个层问题。

您的基础设施监控跟踪 GPU 利用率。

两者都没有跟踪向您最昂贵的模型发送一千个请求的路由决策,也没有跟踪在三周内悄然使您的令牌消耗量翻倍的提示长度漂移。

当您的成本警报触发时,代币已经用完。

推理层是做出路由决策的地方,消耗令牌预算的地方,缓存命中和未命中的地方决定您是为计算付费还是从内存提供服务。

来源:Dev.to