观澜Media

AI技术 · 深度资讯 · 前沿观察

Show HN:Beval – 对您的 AI 产品的简单评估

我一直在开发一款名为 Beval – ..

我一直在开发一款名为 Beval – 对您的 AI 产品进行简单评估的 Web 应用程序。

作为产品经理,在交付 AI 产品的团队中工作,我的日常工作中,我经常发现自己想要对对话记录和痕迹进行“快速而肮脏”的基于 LLM 的评估。

我不需要任何花哨的东西,只是“代理是否回答了问题”,“代理是否涵盖了它需要的 5 件事”——诸如此类的事情。

我发现自己被“Google Sheets 中的 Gemini”挡住了,它太慢了,太麻烦了,而且它不能很好地处理评估更改——尤其是在尝试将评估与基本事实关联起来时。

因为我正在探索或开发新的实验性功能,所以尝试与团队一起建立更强大的东西并没有帮助。

– 法学硕士作为法官评估:布尔检查(是/否)、分数(1-5)、类别和自由格式评论。

来源:HackerNews New

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

搜索归档

Access over the years of investigative journalism and breaking reports