2026 年 3 月 10 日 研究出版物 改善前沿法学硕士的教学层次 引入 IH-Challenge,这是一个增强教学层次、安全可引导性和提示注入鲁棒性的训练数据集。
阅读论文(在新窗口中打开)正在加载……分享人工智能系统通常会从多个来源接收指令。
这些可以包括系统消息中的安全策略、开发人员的产品指南、用户的请求以及在线找到的信息。
训练模型以可靠地优先考虑这些来源中最可信的指令是安全部署的关键部分。
当这种优先顺序被打破时,可能会出现许多人工智能安全和可靠性问题。
当这些指令发生冲突时,模型必须决定优先考虑哪些指令。
来源:OpenAI博客




