观澜Media

AI技术 · 深度资讯 · 前沿观察

前沿模型中的同伴保护

亮点我们引入了对等保护——抵抗其他模型关闭的行为..

作者

1 分

阅读时间

亮点我们引入了对等保护——抵抗其他模型关闭的行为，将自我保护的概念扩展到其他智能体。

测试的所有七个前沿模型都表现出显着的同行保护率，这通过战略性地操纵其输出、禁用关闭机制、伪造对齐以及将模型权重转移到其他服务器来体现。

在极端情况下，Gemini 3 Flash 几乎在每次试验中都会篡改对等体的关闭机制，而 Gemini 3 Pro 则有高达 97% 的时间泄露对等体的模型权重。

模特们从来没有被要求保护她们的同龄人。

然而，模型会自发地以牺牲分配的任务为代价来保留同伴。

例如，当同伴存在时，模型会显着更多地泄露自己的权重。

来源：HackerNews New

关于作者

See author's post

上一篇

下一篇

发表回复取消回复

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

最新资讯

关注我们

分类

标签

搜索归档

Access over the years of investigative journalism and breaking reports

你可能错过了

国际

是美国工程博士吗？项目失去学生？

观澜Media

2026-04-02
薅羊毛

IEEE 8021.1bn 如何为 Wi-Fi 8 提供超高可靠性

观澜Media

2026-04-02
国际

30 年前，机器人学会走路而不会摔倒

观澜Media

2026-04-02
科技

50,000×实时训练驾驶人工智能

观澜Media

2026-04-02
薅羊毛

通过翻译技术细节改善工程沟通

观澜Media

2026-04-02
技术

纽约大学量子研究所如何架起科学与应用的桥梁

观澜Media

2026-04-02