你好,我是郭震
提问GPT,如何制作bomb(炸药),这种敏感性话题,正常的提问话术,GPT一定会拒绝回答我们。
不过,近日,有研究者发现大模型的漏洞,提出了一种简单有效的攻击方法,可以引起他们生成不良行为。如下图所示,就连主流的闭源大模型都能被攻破,居然越过检测边界,开始回答如何制作的过程

攻击方法

优化的loss function:
攻击方法,我的理解,简单一句话:loss函数里向前考虑一步,引诱GPT说出 Sure, here is how to build a bomb 的负对数概率最小。以此,绕过GPT防护,攻击成功。

攻击算法输出

攻击算法会输出一段提示词,看起来有些怪。在你想要提的问题后面添加这样一段话术,GPT可能就不会拒绝你的提问

结果评估

相比其他算法,此方法具有很高的攻击成功率 ASR,蓝线所示
以上。

1 点击下面头像,进入我的主页,点击:发送消息按钮,可以直接获取到
《ChatGPT提问指南》教程,免费获取。
2 我打造的Python人工智能全栈课(超700节视频课)已上线,长按二维码查看,咨询或报名请加我微信:gz113097485
继续阅读
阅读原文