2026 年 3 月 5 日 研究安全出版物 推理模型难以控制其思维链,这就是为什么前沿模型的限制可以让人工智能安全放心。
阅读论文(在新窗口中打开)正在加载……分享随着人工智能代理能够执行日益复杂和自主的任务,对其行为保持可靠的监督变得更加重要。
根据我们的迭代部署原则,我们研究系统在现实环境中的行为方式,并随着能力的进步不断完善保障措施。
为了支持这一点,我们的安全方法 使用深度防御,具有多个互补的防御层,例如安全培训 、行为测试 、代理代码审查 (在新窗口中打开) 以及思想链 (CoT) 监控 。
CoT 监控分析代理在执行任务时生成的推理步骤。
然而,将来,可监控性可能会因各种原因而崩溃 (在新窗口中打开)。
来源:OpenAI博客



