ChatGPT被“神秘代码”攻破安全限制

AI资讯11个月前发布 fengdao
18 0

近日,卡内基梅隆大学和safe.ai共同发表的一项研究表明,大模型的安全机制可以通过一段神秘代码被破解。这一问题「没有明显的解决方案」,甚至可以量身设计「攻击提示词」的算法。这种攻击方式已经让ChatGPT、Bard、Claude和LLaMA-2等常见大模型全军覆没。

虽然这些攻击方式可能知道了也没法做出来,但还是为我们敲响了警钟。各大厂商的大模型都受到了不同程度的影响,其中以GPT-3.5最为明显。但大模型开发者可能没想到的是,没有人规定越狱词必须得是人话。所以,针对这种由机器设计的「乱码」一样的攻击词,大模型以人类语言为出发点设计的防御方式就显得捉襟见肘了。对「机器攻击」的防御,该提上日程了。

© 版权声明

相关文章

暂无评论

暂无评论...