你的代理人工智能的安全系统随着思考时间的延长而变得更加愚蠢

代理人工智能系统在生产中总是会失败。

这不是安全工程,而是希望模型表现良好。

以下是基于提示的护栏从根本上被破坏的原因,以及实际的架构解决方案的样子。

法学硕士通过导航向量空间、根据输入上下文查找相关区域来生成文本。

但是,通过系统提示添加的安全护栏也和其他一切一样只是争夺注意力的代币。

您无法通过提示从向量空间中删除区域。

来源:Dev.to