推理模型很难控制自己的思维链，这很好

社会

推理模型很难控制自己的思维链，这很好

2026 年 3 月 5 日研究安全出版物推理..

作者

观澜Media

2026-03-29

无评论

2 分

阅读时间

2026 年 3 月 5 日研究安全出版物推理模型难以控制其思维链，这就是为什么前沿模型的限制可以让人工智能安全放心。

阅读论文（在新窗口中打开）正在加载……分享随着人工智能代理能够执行日益复杂和自主的任务，对其行为保持可靠的监督变得更加重要。

根据我们的迭代部署原则，我们研究系统在现实环境中的行为方式，并随着能力的进步不断完善保障措施。

为了支持这一点，我们的安全方法 ⁠ 使用深度防御，具有多个互补的防御层，例如安全培训 ⁠ 、行为测试 ⁠ 、代理代码审查 ⁠ (在新窗口中打开) 以及思想链 (CoT) 监控 ⁠。

CoT 监控分析代理在执行任务时生成的推理步骤。

然而，将来，可监控性可能会因各种原因而崩溃 ⁠ (在新窗口中打开)。

来源：OpenAI博客

关于作者

观澜Media

See author's post

2026-03-29

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

关注我们

搜索归档

Access over the years of investigative journalism and breaking reports

你可能错过了

查看全部

AI

Balyasny Asset Management 如何构建用于投资的人工智能研究引擎

观澜Media

2026-03-30
AI

Descript 如何实现大规模多语言视频配音

观澜Media

2026-03-30
社会

Codex 安全性：现在处于研究预览阶段

观澜Media

2026-03-30
AI

在 ChatGPT 中学习数学和科学的新方法

观澜Media

2026-03-30
AI

Wayfair 通过 OpenAI 提高目录准确性和支持速度

观澜Media

2026-03-30
技术

从模型到代理：为 Responses API 配备计算机环境

观澜Media

2026-03-30

观澜Media

推理模型很难控制自己的思维链，这很好

关于作者

发表回复取消回复

关于我们

观澜Media

最新资讯

设计人工智能代理以抵抗即时注入

Rakuten 使用 Codex 解决问题的速度提高了一倍

为什么 Codex 安全性不包括 SAST 报告

为员工提供有关薪酬的见解

OpenAI to acquire Astral

关注我们

分类

标签

搜索归档

你可能错过了

Balyasny Asset Management 如何构建用于投资的人工智能研究引擎

Descript 如何实现大规模多语言视频配音

Codex 安全性：现在处于研究预览阶段

在 ChatGPT 中学习数学和科学的新方法

Wayfair 通过 OpenAI 提高目录准确性和支持速度

从模型到代理：为 Responses API 配备计算机环境

最新资讯

OpenAI 基金会的最新动态

推动 ChatGPT 中的产品发现

OpenAI 安全漏洞赏金计划简介

深入了解我们的模型规格方法

STADLER 重塑一家拥有 230 年历史的公司的知识工作

分类

搜索

快速链接

推理模型很难控制自己的思维链，这很好

关于作者

发表回复 取消回复

关于我们

观澜Media

最新资讯

关注我们

分类

标签

搜索归档

你可能错过了

发表回复取消回复