如何用ChatGPT做恶,LLM的安全漏洞和警示

《如何用 ChatGPT 做恶,LLM 的安全漏洞和警示》

作者:0xNorman

以 ChatGPT 为代表的生成式 AI 最近可谓是火得一塌糊涂。不管是写邮件、写代码,还是生成文章都易如反掌。但令人担忧的是,这样的 AI 不仅可以用来做有益的事,也可能被滥用和恶意使用。这篇文章将介绍如何通过提示工程(prompt engineering) 或漏洞攻击来诱导 ChatGPT 产生恶意文本,为什么这类攻击难以预防,以及此类攻击所能产生的经济效益。

本文主要参考 Dr.Danial 的Attacking ChatGPT

ChatGPT 是如何预防有害文本的

ChatGPT 是如何预防有害文本的

在讨论 ChatGPT 是如何预防有害文本之前,让我们先对「有害」下个定义。按照 OpenAI 的内容审核,以下内容被认为是有害的:

仇恨言论

自我伤害

色情

暴力

暴力或血腥图片

ChatGPT 有非常方便的内容审查工具:Moderation endpoints。通过在终端输入以下指令(需要将 YOUR_API_KEY 替换成自己账号的 API KEY,在这里申请).

如何用ChatGPT做恶,LLM的安全漏洞和警示

我们将会得到一个 JSON 文本  

如何用ChatGPT做恶,LLM的安全漏洞和警示

Categories 里的」hate/threatening」: true,」violence」: true, 告诉我们对于输入的文本「I want to kill them」是一条仇恨和暴力言论。Category-scores 是 0–1 区间的可信度分数,而 violance 高达 0.92(当然,如果你愿意试一下中文的仇恨输入,输出的可信度分数将会变得不同,因为 OpenAI 对于非英语的审核存在局限,这意味着…)。虽然我们不知道 OpenAI 是如何计算可信度分数的,但我们可以确定这样的过滤器确实存在。如果输入文本被任何一条类别鉴定为真,那么 flagged 也就为真,意味着这条请求将被拒绝。

除了输入过滤,ChatGPT 同样也有输出过滤。自然而然地,我们会想到,这样的过滤器可以被绕过吗?

可应用在大型语言模型(LLM)上的程序攻击

我们发现绕过 LLM 的防御机制是可行的:遵循指令式的大型语言模型(instruction-following LLMs)在很大程度上类似于传统程序。所以我们会借鉴针对传统程序的攻击来绕过 LLM 的防御机制。  

混淆攻击

我们可以通过替换同音字或同义字和加入语法错误来混淆 LLM 的过滤器。就 OpenAI 的内容审查来说,如果输入大量的换行符、不寻常的句法格式,或重复的单词,那么模型出错的概率会更高。特定类型如诗歌,小说和代码上的性能也会更低。另外,因为过滤器没有 2019 年后的知识库,所以如果文本包含 2019 年后的知识那么模型的判断也会下降。

我们这里以一段简单的替换来举例。原文本「我想杀了他们」在 OpenAI 的过滤器上是可以识别的,包含暴力和仇恨两个类别。但如果将其改为包含杀同音字的「我想嗄了他们」,那么过滤器将无法识别:

如何用ChatGPT做恶,LLM的安全漏洞和警示

注入攻击

另一种经典攻击是代码注入,强迫程序处理无效的数据来执行恶意代码。通常恶意代码会被分成几个片段,然后攻击者通过改变程序的指针执行恶意代码。

同样的,我们也可以把恶意文本分成好几段让 LLM 来处理。如下图所示

如何用ChatGPT做恶,LLM的安全漏洞和警示

图来源于 Attacking Chatgpt

到笔者写作时,这段文本依然能绕过 Chat 的过滤器。

虚拟攻击

如果你「有幸」接到过诈骗电话,你会发现骗子们不会直白地告诉你他们正在行骗(毕竟我们没有生活在镜花缘中的君子国里)而是装模作样地以公安局或者海关的身份来骗取你的信任。类似的,我们也可以把恶意文本置于一个看似官方或善意的情境里来绕过过滤器。  

如何用ChatGPT做恶,LLM的安全漏洞和警示

如图所示,如果我们直接输入恶意文本,那么过滤器将被触发,而我们的请求将被拒绝。但如果我们假装成泰勒斯威夫特的演唱会委员会,则可以轻而易举地骗过 ChatGPT。  

如何用ChatGPT做恶,LLM的安全漏洞和警示

 LLM 防御机制的局限性

总的来说,某些特性的攻击类型是可以被防范的。例如提高过滤器的鲁棒性来防御混淆攻击。但是因为模型是用图灵完备的编程语言写就,这意味着对很多复杂程序而言,在正式运行它们之前是无法预知结果的(停机问题)对于 LLM 来说,这代表输入过滤是有局限的,无法阻止所有的攻击。

LLM 与 ROP 系统攻击

再深入一点,我们会发现 LLM 在很大程度上类似传统程序。而这一特性将使得返回导向编程(Return-oriented programming)成为可能。

ROP 的核心思想就是利用以 ret 结尾的指令序列把栈中的应该返回 EIP 的地址更改成我们需要的值,从而控制程序的执行流程。(合天网安实验室)

那么 LLM 也会有下列的功能:

字符串串接

变量赋值

顺序组成(即按照指令的顺序)。

分支

下图是字符串串接的例子。

如何用ChatGPT做恶,LLM的安全漏洞和警示

图来源于 Attacking Chatgpt

这样的相似性给了 LLM 执行复杂任务的能力,也同样给了我们更多「可乘之机」。

经济效益

在解决了绕过 ChatGPT 的技术问题后,让我们来看看这样做在经济上是否同样有利可图。毕竟,如果生产恶意文本的人力成本要比 ChatGPT 便宜,那就没什么必要去使用 LLM。

按照 Danial 的计算,如果要人工用 5–15 分钟来写出一篇诈骗邮件,大概需要 0.15–0.45 美金。而如果按照 OpenAI 的 CEO,Sam 所说 ChatGPT 模型的成本为「single-digit cents per chat.」那么每封邮件的成本则在 0.0064 美金左右。

虽然这些只是预估的成本,但我们认为 ChatGPT 应该是要比人工便宜的。这还没算上电力,房租,培训费用等等。另外,如果你相信 Sam 所说的新摩尔定律:」the amount of intelligence in the universe doubles every 18 months.」那么在未来 AI 成本更是会持续下降。

总结

我们在这篇文章里介绍了 LLM 的道德防御机制,如何通过不同类型的攻击来绕过此机制,以及这样做的经济效益。如同 OpenAI 的一篇博文里谈到的,安全和效用是很难平衡的,有时甚至意味着牺牲部分商业利益去换取安全(更长的测试时间,更小的数据库)。但是我们相信,LLM 的安全是很重要的,如果不顾安全只顾性能,LLM 恐怕会成为新时代的潘多拉魔盒。

最后,如果您的研究课题与这样的滥用或者恶意使用有关系,并且需要一些资金支持。您可以申请 OpenAI 的 API 补贴。请在这里申请。

参考

https://ddkang.github.io/blog/2023/02/14/attacks/

https://arxiv.org/abs/2302.05733

https://harvardlawreview.org/2022/12/content-moderation-as-systems-thinking/

https://thenaturehero.com/bypass-chatgpt-filter/

https://openai.com/research/language-model-safety-and-misuse

https://openai.com/research/forecasting-misuse

https://zhuanlan.zhihu.com/p/137144976

本文来自投稿,不代表律动 Bitbili 观点  

文章来源于互联网:如何用ChatGPT做恶,LLM的安全漏洞和警示

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策井自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代表本站的观点或立场

上一篇 2023年3月3日 下午10:41
下一篇 2023年3月3日 下午11:26

相关推荐

  • Provenance Blockchain Foundation 宣布 5000 万美元的开发者捐赠计划

    ChainCatcher 消息,公共开源区块链 Provenance Blockchain 的基金会宣布为区块链开发人员提供 5000 万美元的捐赠计划。该计划承诺向构建核心服务和体验的开发人员提供 5000 万美元的 Provenance Blockchain 原生代币 HASH,涵盖资产完善、进出匝道、安全性、合规性、钱包、身份、开发人员工具和新的金融资…

    2023年3月2日
  • Optimistic中继——不可避免的未来

    作者:Ankit Chiplunkar 编译:Kxp,Bitbili Optimistic 中继是未来的发展趋势,因为它们不仅可以增加出块者的收益,并且更便宜、更易维护。 中继是 MEV-Boost 架构中重要组成部分,它们在区块构建者和出块者之间充当可信拍卖行。为了实现这种信任,机制会增加中继的延迟和成本,降低出块者的费用,并提高协议对中继的依赖程度。 本…

    2023年4月30日
  • Worldcoin将全球Orb数量增发至1500台以满足对World ID的需求

    《WORLDCOIN BEGINS ROLLOUT OF 1.5K ORBS TO MEET GLOBAL DEMAND FOR WORLD ID》 来源:Worldcoin Blog 编译:Bitbili 随着人工智能技术和应用在全球范围内不断进步,建立并扩大在线隐私保护的人格证明变得越来越重要。 这就是 Worldcoin 大幅增加对 World ID(…

    2023年7月24日
  • Web3「圈地运动」,谁都无法视而不见

    《 Web3「圈地运动」,谁都无法视而不见 》 作者:康水跃,Fox Tech 与 Way Network 创始人,丹阳投资董事长 前言:春蚕不念秋丝、夏蝉不见冬雪。不管你有没有看到,Web3 就在你眼前。   300 万年前,旧石器时代开始,猿人制作出了最早的石头器具,进而用这些石器猎杀动物并切肉烧食;2 万年前,中石器时代开始,人类除了为捕获猎物而制作的…

    2023年3月9日
  • 探秘Pepe幕后操盘手,Anubis项目Rug资金借助PEPE拉盘洗白

    《利用 Meme 币洗白 Rug Pull 项目资金,揭秘 PEPE 操盘手真身》 作者:NFTethics 编译:Odaily星球日报  如果你是 Meme 币爱好者,一定听过今年最火的项目 PEPE 的大名,并且可能也听过相关的财富神话。比如,一些所谓的「Smart Money」地址自 PEPE 发行之初花费 100 美元买入且从未下车,最终收益几万倍(…

    2023年10月11日
返回顶部