因为产生成本的系统不是您正在监控的系统。
推理可观察性不是一个工具问题——而是一个层问题。
您的基础设施监控跟踪 GPU 利用率。
两者都没有跟踪向您最昂贵的模型发送一千个请求的路由决策,也没有跟踪在三周内悄然使您的令牌消耗量翻倍的提示长度漂移。
当您的成本警报触发时,代币已经用完。
推理层是做出路由决策的地方,消耗令牌预算的地方,缓存命中和未命中的地方决定您是为计算付费还是从内存提供服务。
来源:Dev.to

AI技术 · 深度资讯 · 前沿观察

因为产生成本的系统不是您正在监控的系统。
推理可观察性不是一个工具问题——而是一个层问题。
您的基础设施监控跟踪 GPU 利用率。
两者都没有跟踪向您最昂贵的模型发送一千个请求的路由决策,也没有跟踪在三周内悄然使您的令牌消耗量翻倍的提示长度漂移。
当您的成本警报触发时,代币已经用完。
推理层是做出路由决策的地方,消耗令牌预算的地方,缓存命中和未命中的地方决定您是为计算付费还是从内存提供服务。
来源:Dev.to
上一篇
下一篇
AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。
Access over the years of investigative journalism and breaking reports