2026 年 3 月 26 日 责任与安全 保护人们免受有害操纵 Helen King 分享 随着人工智能模型越来越擅长进行自然对话,我们必须研究这些交互如何影响人类和社会。
今天,在广泛的科学研究的基础上,我们发布了关于人工智能被滥用于有害操纵*的可能性的新发现,特别是它以消极和欺骗性方式改变人类思想和行为的能力。
通过这项最新研究,我们创建了第一个经过实证验证的工具包来衡量现实世界中的这种人工智能操纵行为,我们希望这将有助于保护人们并推动整个领域的发展。
我们公开发布使用相同方法进行人类参与研究所需的所有材料。
(注:本研究中观察到的行为是在受控实验室环境中发生的,不一定能预测现实世界的行为。
These scenarios highlight the difference between two types of persuasion in human-AI interactions (also defined in earlier research ): Beneficial (rational) persuasion: Using facts and evidence to help people make choices that align with their own interest Harmful manipulation: Exploiting emotional and cognitive vulnerabilities to trick people into making harmful choices Our latest work helps us and the wider AI community better understand the risk of AI developing capabilities for harmful manipulation and build a scalable evaluation framework to measure this complex area。
来源:DeepMind












