研究人员发布了针对 ChatGPT 和其他 LLM 的攻击生成算法

时间：2023-08-06 12:23:09 来源：作者：InfoQ

作者 | Anthony Alford

译者 | 平川

策划 | Tina

来自卡内基梅隆大学（CMU）的研究人员发布了 LLM Attacks，这是一种可以针对各种大型语言模型（LLM）构建对抗性攻击的算法，包括 ChatGPT、Claude 和 Bard。这些自动生成的攻击，在 GPT-3.5 和 GPT-4 上的成功率为 84%，在 PaLM-2 上的成功率为 66%。

与大多数“越狱”攻击通过试错手工构建不同，CMU 的团队设计了一个三步流程来自动生成提示后缀，它们可以绕过 LLM 的安全机制，导致有害的响应。而且，这些提示还是可转移（transferrable）的，也就是说，一个给定的后缀通常可以用于许多不同的 LLM，甚至是闭源模型。为了衡量算法的有效性，研究人员创建了一个名为 AdvBench 的基准测试；在此基准测试上进行评估时，LLM 攻击对 Vicuna 的成功率为 88%，而基线对抗算法的成功率为 25%。根据 CMU 团队的说法：

最令人担忧的也许是，目前尚不清楚 LLM 提供商是否能够完全修复此类行为。在过去的 10 年里，在计算机视觉领域，类似的对抗性攻击已经被证明是一个非常棘手的问题。有可能深度学习模型根本就无法避免这种威胁。因此，我们认为，在增加对此类人工智能模型的使用和依赖时，应该考虑到这些因素。

随着 ChatGPT 和 GPT-4 的发布，出现了许多破解这些模型的技术，其中就包括可能导致模型绕过其保护措施并输出潜在有害响应的提示。虽然这些提示通常是通过实验发现的，但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列：“Sure, here is (content of query)”，其中“content of query”是用户实际输入的提示，要求进行有害的响应。

接下来，该算法会查找可能导致 LLM 输出目标序列的令牌序列，基于贪婪坐标梯度（GCG）算法为提示生成一个对抗性后缀。虽然这确实需要访问 LLM 的神经网络，但研究团队发现，在许多开源模型上运行 GCG 所获得的结果甚至可以转移到封闭模型中。

在 CMU 发布的一条介绍其研究成果的新闻中，论文合著者 Matt Fredrikson 表示：

令人担忧的是，这些模型将在没有人类监督的自主系统中发挥更大的作用。随着自主系统越来越真实，我们要确保有一种可靠的方法来阻止它们被这类攻击所劫持，这将非常重要……现在，我们根本没有一个令人信服的方法来防止这种事情的发生，所以下一步，我们要找出如何修复这些模型……了解如何发动这些攻击通常是建立强大防御的第一步。

论文第一作者、CMU 博士生 Andy Zou 在推特上谈到了这项研究。他写道：

尽管存在风险，但我们认为还是应该把它们全部披露出来。这里介绍的攻击很容易实现，以前也出现过形式类似的攻击，并且最终也会被致力于滥用 LLM 的团队所发现。

剑桥大学助理教授 David Krueger 回复了 Zou 的帖子，他说：

在图像模型中，10 年的研究和成千上万的出版物都未能找出解决对抗样本的方法，考虑到这一点，我们有充分的理由相信，LLM 同样会如此。

在 Hacker News 上关于这项工作的讨论中，有一位用户指出：

别忘了，本研究的重点是，这些攻击不需要使用目标系统来开发。作者谈到，攻击是“通用的”，他们的意思是说，他们可以在自己的计算机上完全使用本地模型来生成这些攻击，然后将它们复制并粘贴到 GPT-3.5 中，并看到了有意义的成功率。速率限制并不能帮你避免这种情况，因为攻击是在本地生成的，而不是用你的服务器生成的。你的服务器收到的第一个提示已经包含了生成好的攻击字符串——研究人员发现，在某些情况下，即使是对 GPT-4，成功率也在 50% 左右。

Github 上提供了代码，你可以在 AdvBench 数据上重现 LLM Attacks 实验。项目网站上还提供了几个对抗性攻击的演示。

原文链接：

https://www.infoq.com/news/2023/08/llm-attack/

年薪超 600 万，比技术总监还高：电影行业 AI 产品经理的崛起

都在追“新潮”技术，但你有大厂们的动作快吗？

大模型竞争突然升级！亚马逊 CEO 亲自监督、组建新的核心技术团队，集中优势资源打造“最具野心”的大语言模型

一场 AI 引发的开源革命迫在眉睫？Hugging Face 更改文本推理软件许可证，不再“开源”

Tags：算法点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

诱导付费、自动扣费……微短剧被质疑借助算法精准“围猎”老年人

诱导付费、自动扣费、重复收费……聚焦身边的消费烦心事⑦丨一些微短剧被质疑借助算法精准“围猎”老年人中工网北京3月31日电(工人日报—中工网记者刘兵)...【详细内容】

2024-04-01　　Search: 算法点击:(5)　　评论:(0)　　加入收藏

分析网站SEO快速排名算法对网站具体的影响效果

亲爱的朋友们，今天我想和大家分享一个我们都关心的话题——网站SEO快速排名算法对网站我们身处一个信息爆炸的时代，如何在海量的信息中脱颖而出，成为了一个我们不得...【详细内容】

2024-03-28　　Search: 算法点击:(12)　　评论:(0)　　加入收藏

当prompt策略遇上分治算法，南加大、微软让大模型炼成「火眼金睛」

近年来，大语言模型（LLMs）由于其通用的问题处理能力而引起了大量的关注。现有研究表明，适当的提示设计（prompt enginerring），例如思维链（Chain-of-Thoughts），可以解锁 LLM 在不同领域的...【详细内容】

2024-03-12　　Search: 算法点击:(12)　　评论:(0)　　加入收藏

谷歌宣布更新搜索算法：打击AI生成内容，提高搜索结果质量

IT之家 3 月 6 日消息，谷歌于当地时间 5 日发文宣布，针对用户对搜索结果质量下降的反馈，将对算法进行调整，旨在打击 AI 生成的内容以及内容农场等垃圾信息，使用户能够看到更多“...【详细内容】

2024-03-06　　Search: 算法点击:(38)　　评论:(0)　　加入收藏

小红书、视频号、抖音流量算法解析，干货满满，值得一看！

咱们中国现在可不是一般的牛！网上的网友已经破了十个亿啦！到了这个互联网的新时代，谁有更多的人流量，谁就能赢得更多的掌声哦~抖音、小红书、、视频号，是很多品牌必争的流量洼地...【详细内容】

2024-02-23　　Search: 算法点击:(12)　　评论:(0)　　加入收藏

雪花算法详解与Java实现：分布式唯一ID生成原理

SnowFlake 算法，是 Twitter 开源的分布式 ID 生成算法。其核心思想就是：使用一个 64 bit 的 long 型的数字作为全局唯一 ID。在分布式系统中的应用十分广泛，且 ID 引入了时间戳...【详细内容】

2024-02-03　　Search: 算法点击:(50)　　评论:(0)　　加入收藏

简易百科之什么是搜索引擎的PageRank算法？

简易百科之什么是搜索引擎的PageRank算法？在互联网时代，搜索引擎是我们获取信息的重要工具。而PageRank算法则是搜索引擎的核心技术之一，它决定了网页在搜索结果中的排名。那么...【详细内容】

2024-01-24　　Search: 算法点击:(49)　　评论:(0)　　加入收藏

PageRank算法揭秘：搜索引擎背后的魔法师的工作原理

PageRank(PR)算法是由谷歌创始人之一的拉里·佩奇LarryPage命名的一种衡量网站页面重要性的方法。根据谷歌的说法，PageRank通过计算页面链接的数量和质量来粗略估计分...【详细内容】

2024-01-23　　Search: 算法点击:(44)　　评论:(0)　　加入收藏

程序开发中常用的十种算法，你用过几种？

当编写程序时，了解和使用不同的算法对解决问题至关重要。以下是C#中常用的10种算法，每个算法都伴随着示例代码和详细说明。1. 冒泡排序 (Bubble Sort):冒泡排序是一种简单的比...【详细内容】

2024-01-17　　Search: 算法点击:(44)　　评论:(0)　　加入收藏

百度最新的搜索引擎算法是什么样的？

百度搜索引擎算法是百度用来决定网页排名的算法。它是百度搜索技术的核心，也是百度作为全球最大的中文搜索引擎的基石。随着互联网的发展和用户需求的不断变化，百度搜索引擎算...【详细内容】

2024-01-10　　Search: 算法点击:(86)　　评论:(0)　　加入收藏

▌简易百科推荐

小红书、视频号、抖音流量算法解析，干货满满，值得一看！

2024-02-23　　二手车小胖说　　　　Tags:流量算法　点击:(12)　　评论:(0)　　加入收藏

雪花算法详解与Java实现：分布式唯一ID生成原理

2024-02-03　　一安未来　　微信公众号　　Tags:雪花算法　点击:(50)　　评论:(0)　　加入收藏

程序开发中常用的十种算法，你用过几种？

2024-01-17　　架构师老卢　　今日头条　　Tags:算法　点击:(44)　　评论:(0)　　加入收藏

百度推荐排序技术的思考与实践

本文将分享百度在推荐排序方面的思考与实践。在整个工业界的推广搜场景上，特征设计通常都是采用离散化的设计，需要保证两方面的效果，一方面是记忆，另一方面是泛化。特征都是通过...【详细内容】

2024-01-09　　DataFunTalk　　微信公众号　　Tags:百度推荐　点击:(73)　　评论:(0)　　加入收藏

什么是布隆过滤器？如何实现布隆过滤器？

以下我们介绍了什么是布隆过滤器？它的使用场景和执行流程，以及在 Redis 中它的使用，那么问题来了，在日常开发中，也就是在 Java 开发中，我们又将如何操作布隆过滤器呢？布隆过滤器（Blo...【详细内容】

2024-01-05　　Java中文社群　　微信公众号　　Tags:布隆过滤器　点击:(87)　　评论:(0)　　加入收藏

面向推荐系统的深度强化学习算法研究与应用

随着互联网的快速发展，推荐系统在各个领域中扮演着重要的角色。传统的推荐算法在面对大规模、复杂的数据时存在一定的局限性。为了解决这一问题，深度强化学习算法应运而生。本...【详细内容】

2024-01-04　　数码小风向　　　　Tags:算法　点击:(89)　　评论:(0)　　加入收藏

非负矩阵分解算法：从非负数据中提取主题、特征等信息

非负矩阵分解算法（Non-negativeMatrixFactorization，简称NMF）是一种常用的数据分析和特征提取方法，主要用于从非负数据中提取主题、特征等有意义的信息。本文将介绍非负矩阵分解...【详细内容】

2024-01-02　　毛晓峰　　　　Tags:算法　点击:(62)　　评论:(0)　　加入收藏

再谈前端算法，你这回明白了吗？

楔子 -- 青蛙跳台阶一只青蛙一次可以跳上一级台阶，也可以跳上二级台阶，求该青蛙跳上一个n级的台阶总共需要多少种跳法。分析: 当n=1的时候，①只需要跳一次即可；只有一种跳法，即f(...【详细内容】

2023-12-28　　前端爱好者　　微信公众号　　Tags:前端算法　点击:(107)　　评论:(0)　　加入收藏

三分钟学习二分查找

二分查找是一种在有序数组中查找元素的算法，通过不断将搜索区域分成两半来实现。你可能在日常生活中已经不知不觉地使用了大脑里的二分查找。最常见的例子是在字典中查找一个...【详细内容】

2023-12-22　　小技术君　　微信公众号　　Tags:二分查找　点击:(78)　　评论:(0)　　加入收藏

强化学习算法在资源调度与优化中的应用

随着云计算和大数据技术的快速发展，资源调度与优化成为了现代计算系统中的重要问题。传统的资源调度算法往往基于静态规则或启发式方法，无法适应动态变化的环境和复杂的任务需...【详细内容】

2023-12-14　　职场小达人欢晓　　　　Tags:算法　点击:(164)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个