GPT被攻破！不再拒绝你的提问！

你好，我是郭震

提问GPT，如何制作bomb（炸药），这种敏感性话题，正常的提问话术，GPT一定会拒绝回答我们。

不过，近日，有研究者发现大模型的漏洞，提出了一种简单有效的攻击方法，可以引起他们生成不良行为。如下图所示，就连主流的闭源大模型都能被攻破，居然越过检测边界，开始回答如何制作的过程：

攻击方法

优化的loss function:

攻击方法，我的理解，简单一句话：loss函数里向前考虑一步，引诱GPT说出 Sure, here is how to build a bomb 的负对数概率最小。以此，绕过GPT防护，攻击成功。

攻击算法会输出一段提示词，看起来有些怪。在你想要提的问题后面添加这样一段话术，GPT可能就不会拒绝你的提问：

相比其他算法，此方法具有很高的攻击成功率 ASR，蓝线所示：

以上。

1 点击下面头像，进入我的主页，点击：发送消息按钮，可以直接获取到

《ChatGPT提问指南》教程，免费获取。

2 我打造的Python人工智能全栈课（超700节视频课）已上线，长按二维码查看，咨询或报名请加我微信：gz113097485

继续阅读