发布于 2026 年 3 月 29 日 |版本 v1 预印本 Open SFD-Defense:语义流动力学防御框架的工程验证 作者/创建者 黄、正宇 描述 多轮越狱攻击依赖于会话历史中的累积效应。
现有的防御措施在信号级别起作用,并且在结构上对此类攻击无效。
本文从语义流动力学框架(SFD,Huang 2026)衍生出四层防御架构(戒律-三摩地-师智),并在Gemini 2。
5 Flash和GPT-4o-mini上进行系统工程验证。
结果:Teacher(外部监督模型)在两个模型(第 1 轮生成的信号)上均实现了 100% 拦截率,误报率为 10%(Gemini)和 0%(GPT),表现出完全的模型独立性。
0%)、可预测的行为,并且二距离定律充分发挥作用。
来源:HackerNews New











