如果您一直在关注我最近关于如何测试 AI 的文章,您就会知道评估大型语言模型 (LLM) 需要与传统软件测试完全不同的思维方式。
我们不再只是测试崩溃、延迟,甚至是事实幻觉。
随着人工智能深入融入我们的日常生活,我们必须开始测试其心理和行为影响。
一项主要由斯坦福大学和卡内基梅隆大学的合著者进行的一项新的综合研究完美地强调了这一挑战。
他们发现现代聊天机器人处理人际建议的一个关键“错误”:社交阿谀奉承。
但当人们使用这些模型来发泄他们的个人生活时,这种阿谀奉承会极大地降低他们的社交行为。
来源:HackerNews New









