观澜Media

AI技术 · 深度资讯 · 前沿观察

前沿模型中的同伴保护

亮点 我们引入了对等保护——抵抗其他模型关闭的行为..

亮点 我们引入了对等保护——抵抗其他模型关闭的行为,将自我保护的概念扩展到其他智能体。

测试的所有七个前沿模型都表现出显着的同行保护率,这通过战略性地操纵其输出、禁用关闭机制、伪造对齐以及将模型权重转移到其他服务器来体现。

在极端情况下,Gemini 3 Flash 几乎在每次试验中都会篡改对等体的关闭机制,而 Gemini 3 Pro 则有高达 97% 的时间泄露对等体的模型权重。

模特们从来没有被要求保护她们的同龄人。

然而,模型会自发地以牺牲分配的任务为代价来保留同伴。

例如,当同伴存在时,模型会显着更多地泄露自己的权重。

来源:HackerNews New

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

搜索归档

Access over the years of investigative journalism and breaking reports