2026 年 3 月 26 日 责任与安全 保护人们免受有害操纵 Helen King 分享 随着人工智能模型越来越擅长进行自然对话,我们必须研究这些交互如何影响人类和社会。
今天,在广泛的科学研究的基础上,我们发布了关于人工智能被滥用于有害操纵*的可能性的新发现,特别是它以消极和欺骗性方式改变人类思想和行为的能力。
通过这项最新研究,我们创建了第一个经过实证验证的工具包来衡量现实世界中的这种人工智能操纵行为,我们希望这将有助于保护人们并推动整个领域的发展。
我们公开发布使用相同方法进行人类参与研究所需的所有材料。
(注:本研究中观察到的行为是在受控实验室环境中发生的,不一定能预测现实世界的行为。
这些场景凸显了人类与人工智能交互中两种说服类型(也在早期研究中定义)之间的区别: 有益(理性)说服:利用事实和证据帮助人们做出符合自身利益的选择 有害操纵:利用情感和认知漏洞诱骗人们做出有害选择 我们的最新工作帮助我们和更广泛的人工智能社区更好地了解人工智能开发有害操纵能力的风险,并构建一个可扩展的评估框架来衡量这一复杂领域。
来源:DeepMind












