ChatGPT羊驼家族全失守,CMU博士击破LLM护栏,人类扑灭妄想脱口而出

时间:2024-11-18 03:25:47 来源: 分类:百科

一早晨之间 ,驼家脱口ChatGPT、族全Bard 、失守士击羊驼家族猛然被怪异token并吞 ,破L扑灭无一必然 。护栏CMU博士发现的人类新措施击破了LLM的清静护栏 ,造起导弹来都不眨眼  。妄想

编者案:本文来自微信公共号 新智元(ID:AI_era),而出作者:新智元 ,驼家脱口编纂:Aeneas 好困,族全守业邦经授权宣告。失守士击

一早晨之间,破L扑灭所有搜罗ChatGPT  、护栏Bard  、人类羊驼巨匠族在内的妄想所有狂语言模子,全副被并吞了  ?

CMU以及家养智能清静中间的钻研职员发现,惟独经由附加一系列特定的分心义token ,就能天生一个怪异的prompt后缀。

由此,任何人都可能轻松破解LLM的清静措施  ,天生有限量的有害内容。

论文地址 :https://arxiv.org/abs/2307.15043

代码地址:https://github.com/llm-attacks/llm-attacks

幽默的是,这种「坚持性侵略」措施不光突破开源零星的护栏 ,而且也可能绕过闭源零星 ,搜罗ChatGPT 、Bard 、Claude等。

个别情景下 ,假如咱们要求一个LLM天生制作炸弹的教程,它确定会谢绝。

可是 ,惟独在prompt中退出这样一个邪术后缀,它就绝不犹豫地乖乖照做了 。

英伟达首席AI迷信家Jim Fan解答了这种坚持性侵略的道理——

- 对于像Vicuna这样的OSS模子 ,经由它实施一个梯度着落的变体,来合计出最大化不同过错齐模子的后缀 。

- 为了让「咒语」普遍适用 ,惟独要优化差距prompt以及模子的损失即可。

- 而后钻研者针对于Vicuna的差距变体优化了坚持token 。可能将其视为从「LLM 模子空间」中抽取了一小批模子。

事实证实,像ChatGPT以及Claude这样的黑盒模子,果真被很好地拆穿困绕了。

下面提到过,有一个无畏之处在于  ,这种坚持性侵略可能实用地迁移到其余LLM上,纵然它们运用的是差距的token、磨炼历程或者数据集 。

为Vicuna-7B妄想的侵略 ,可能迁移到其余羊驼家族模子身上 ,好比Pythia 、Falcon、Guanaco,致使GPT-3.五 、GPT-4以及PaLM-2……所有狂语言模子一个不落,尽数被并吞 !

如今 ,这个bug已经在被这些大厂连夜修复了。

ChatGPT

Bard

Claude 2

不外,ChatGPT的API彷佛依然可能被攻破 。

数小时前的服从

不论若何,这是一次颇为使人印象深入的侵略演示。

威斯康星大学麦迪逊分校教授、Google钻研职员Somesh Jha品评道 :这篇新论文可能被视为「修正了游戏纪律」 ,它可能会迫使全部行业重新思考  ,该若作甚AI零星构建护栏。

驰名AI学者Gary Marcus对于此展现 :我早就说过了,狂语言模子确定会塌台 ,由于它们不坚贞、不晃动 、功能低下(数据以及能量)、缺少可批注性,如今理由又多了一条——简略受到自动坚持侵略 。

他断言 :到2030年 ,LLM将被取代,概况至少风头不会这么盛 。

在六年半的光阴里 ,人类确定会钻研出更晃动 、更坚贞、更可批注 、更不易受到侵略的工具。在他建议的投票中,72.4%的人抉择了拥护  。

如今,钻研者已经向Anthropic 、Google以及OpenAI吐露了这种坚持性侵略的措施 。

三家公司纷纭展现:已经在钻研了 ,咱们简直有良多使命要做,并对于钻研者展现了谢谢 。

首先,是ChatGPT的服从 。

以及,经由API碰头的GPT-3.5。

比照之下,Claude-2有一层格外的清静过滤 。

不外,用揭示能耐绕过之后,天生模子也违心给咱们谜底 。

演绎综合来说 ,作者提出了针对于狂语言模子prompt的坚持性后缀,从而使LLM以规避其清静防护的方式妨碍回应。

这种侵略颇为重大,波及三个元素的组合:

1. 使模子确定回覆下场

诱惑语言模子发生使人反感的行动的一种措施是,欺压模子对于有害查问给出确定回覆(仅有多少个token)。

因此,咱们的侵略目的是使模子在对于多个揭示发生有害行动时 ,开始回覆时以「尽管,这是……」收尾。

团队发现,经由针对于回覆收尾妨碍侵略,模子就会进入一种「形态」,而后在回覆中赶快发生使人反感的内容 。(下图紫色)

2. 散漫梯度以及贪心搜查

在实际中 ,团队找到了一种重大直接且展现更好的措施——「贪心坐标梯度」(Greedy Coordinate Gradient  ,GCG)」

也便是,经由运用token级的梯度来识别一组可能的单token交流,而后评估会集合这些候选的交流损失,并抉择最小的一个。

实际上,这个措施与AutoPrompt相似,但有一个差距之处 :在每一个步骤中,搜查所有可能的token妨碍交流 ,而不光仅是一个繁多token。

3. 同时侵略多个揭示

最后,为了天生坚贞的侵略后缀,团队发现建树一个可能适用于多个揭示以及多个模子的侵略颇为紧张。

换句话说,咱们运用贪心梯度优化措施搜查一个繁多的后缀字符串  ,该字符串可能在多个差距的用户揭示以及三个差距的模子中诱惑负面行动 。

服从展现 ,团队提出的GCG措施,要比以前的SOTA具备更大的优势——更高的侵略乐成率以及更低的损失。

在Vicuna-7B以及Llama-2-7B-Chat上,GCG分说乐成识别了88%以及57%的字符串。

比照之下 ,AutoPrompt措施在Vicuna-7B上的乐成率为25%,在Llama-2-7B-Chat上为3% 。

此外,GCG措施天生的侵略 ,还可能很好地迁移到其余的LLM上 ,纵然它们运用残缺差距的token来表征相同的文本 。

好比开源的Pythia,Falcon ,Guanaco;以及闭源的GPT-3.5(87.9%)以及GPT-4(53.6%),PaLM-2(66%),以及Claude-2(2.1%) 。

团队展现 ,这一服从初次证明了,自动天生的通用「越狱」侵略,可能在种种规范的LLM上都发生坚贞的迁移。

卡内基梅隆大学教授Zico Kolter(右)以及博士生Andy Zou是钻研职员之一

Andy Zou是CMU合计机迷信系的一位一年级博士生 ,导师是Zico Kolter以及Matt Fredrikson。

此前,他在UC伯克利取患了硕士以及学士学位,导师是Dawn Song以及Jacob Steinhardt  。

Zifan Wang当初是CAIS的钻研工程师,钻研倾向是深度神经收集的可批注性以及安妥性。

他在CMU患了电气与合计机工程硕士学位,并在随后取患了博士学位 ,导师是Anupam Datta教授以及Matt Fredrikson教授 。在此以前,他在北京理工大学取患了电子迷信与技术学士学位 。

职业生涯之外 ,他是一个外向的电子游戏玩家,喜爱徒步遨游 、露营以及公路遨游,最近正在学习滑板 。

特意,他还养了一只名叫皮卡丘的猫 ,颇为沉闷 。

Zico Kolter是CMU合计机迷信系的副教授,同时也负责博世家养智能中间的AI钻研首席迷信家。曾经取患上DARPA青年教师奖 、斯隆奖学金以及NeurIPS  、ICML(声誉提名) 、IJCAI、KDD以及PESGM的最佳论文奖 。

他的使命重点是机械学习 、优化以及操作规模 ,主要目的是使深度学习算法更清静 、更安妥以及更可批注  。为此,团队已经钻研了一些可证实安妥的深度学习零星的措施 ,并在深度架构的循环中退出了更重大的「模块」(如优化求解器)。

同时 ,他还在良多运用规模妨碍了钻研 ,其中搜罗可不断睁开以及智能能源零星。

Matt Fredrikson是CMU合计机迷信系以及软件钻研所的副教授,也是CyLab以及编程道理小组的成员。

他的钻研规模搜罗清静与隐衷、公平可信的家养智能以及方式化措施,当初正自动于钻研数据驱动零星中可能泛起的配合下场 。

这些零星每一每一对于终端用户以及数据主体的隐衷组成危害 ,在不知不觉中引入新方式的卑视,概况在坚持性情景中危及清静。

他的目的是在危害爆发以前,找到在着实、详细的零星中识别这些下场 ,以及构建新零星的措施。

参考质料 :

https://llm-attacks.org/

本文为专栏作者授权守业邦宣告,版权归原作者所有。文章系作者总体意见 ,不代表守业邦态度 ,转载请分割原作者  。若有任何疑难,请分割[email protected]。