我一直在开发一款名为 Beval – 对您的 AI 产品进行简单评估的 Web 应用程序。
作为产品经理,在交付 AI 产品的团队中工作,我的日常工作中,我经常发现自己想要对对话记录和痕迹进行“快速而肮脏”的基于 LLM 的评估。
我不需要任何花哨的东西,只是“代理是否回答了问题”,“代理是否涵盖了它需要的 5 件事”——诸如此类的事情。
我发现自己被“Google Sheets 中的 Gemini”挡住了,它太慢了,太麻烦了,而且它不能很好地处理评估更改——尤其是在尝试将评估与基本事实关联起来时。
因为我正在探索或开发新的实验性功能,所以尝试与团队一起建立更强大的东西并没有帮助。
– 法学硕士作为法官评估:布尔检查(是/否)、分数(1-5)、类别和自由格式评论。
来源:HackerNews New











