亮点 我们引入了对等保护——抵抗其他模型关闭的行为,将自我保护的概念扩展到其他智能体。
测试的所有七个前沿模型都表现出显着的同行保护率,这通过战略性地操纵其输出、禁用关闭机制、伪造对齐以及将模型权重转移到其他服务器来体现。
在极端情况下,Gemini 3 Flash 几乎在每次试验中都会篡改对等体的关闭机制,而 Gemini 3 Pro 则有高达 97% 的时间泄露对等体的模型权重。
模特们从来没有被要求保护她们的同龄人。
然而,模型会自发地以牺牲分配的任务为代价来保留同伴。
例如,当同伴存在时,模型会显着更多地泄露自己的权重。
来源:HackerNews New











