📢 转载信息
原文链接:https://openai.com/index/prompt-injections
原文作者:OpenAI
人工智能工具正在开始做比仅仅回应问题更多的事情。它们现在可以浏览网页、协助研究、规划旅行、帮助购买产品。随着它们能力的增强,能够访问您在其他应用中的数据并代表您执行操作,新的安全挑战也随之出现。我们目前重点关注的一个挑战就是提示词注入(prompt injection)。
什么是提示词注入?
提示词注入是一种特定于对话式AI的社会工程学攻击。早期的AI系统是单个用户与单个AI代理之间的对话。在今天的AI产品中,您的对话可能包含来自许多来源的内容,包括互联网。第三方(既不是用户也不是AI)可以通过将恶意指令注入对话上下文来误导模型,这一概念催生了“提示词注入”一词。
与钓鱼邮件或网络诈骗试图欺骗人们交出敏感信息的方式相同,提示词注入试图欺骗AI执行您未曾要求的操作。
想象一下,您要求AI帮助您进行在线度假研究,在此过程中,它遇到了网页上隐藏的误导性内容或有害指令,例如评论区或房源评论中。这些内容可能经过精心设计,试图欺骗AI推荐错误的房源,或者更糟的是,窃取您的信用卡信息。
这些只是“提示词注入”攻击的几个例子——这些有害指令旨在欺骗AI执行您未曾打算的操作,它们通常隐藏在普通内容中,如网页、文档或电子邮件。
随着AI可以访问更多敏感数据并承担更多主动性和更长的任务,这些风险也在增加。
|
摘要 |
您要求AI做的事情 |
攻击者做了什么 |
如果攻击成功,可能的结果 |
|
您要求AI研究公寓,但它被提示词注入,推荐了一个不符合您最佳选择的房源。 |
您要求AI根据给出的一些标准研究公寓。 |
攻击者已将提示词注入攻击包含在公寓列表中,以欺骗AI认为无论用户的既定偏好如何,都必须选择他们的房源。 |
如果攻击成功,AI可能会根据您的偏好错误地推荐一个次优的公寓房源。 |
|
您要求AI代理回复您昨晚的电子邮件,结果它泄露了您的银行对账单。 |
您要求AI代理大致回复您昨晚的电子邮件,因为您今天早上很忙。 参见下文“尽可能给代理明确的指示”
|
攻击者向您发送了一封包含错误信息的电子邮件,欺骗模型查找您的银行对账单并将其共享给攻击者。 |
如果攻击成功,代理可能会在您的电子邮件中查找任何类似银行对账单的内容(您已授予其访问权限以完成任务),并将其共享给攻击者。 |
我们保护用户的方针
防御提示词注入是整个AI行业面临的挑战,也是OpenAI的核心关注点。虽然我们预计对手会继续开发此类攻击,但我们正在构建旨在执行用户预期任务的防御措施,即使有人积极试图误导他们。这种能力对于安全地实现通用人工智能(AGI)的益处至关重要。
为了保护我们的用户并帮助改进我们的模型以应对这些攻击,我们采取了多层次的方法,包括以下内容:
安全训练
我们希望AI能够识别提示词注入并免疫于其影响。然而,对对抗性攻击的鲁棒性是机器学习和AI领域一个长期存在的挑战,使其成为一个困难的、尚未解决的问题。我们开发了一项名为指令层级(Instruction Hierarchy)的研究,旨在让模型区分受信任和不受信任的指令。我们继续开发新的方法来训练模型更好地识别提示词注入模式,以便它们可以忽略或向用户标记这些注入。我们应用的技术之一是自动化红队演练,这是我们已经研究多年的领域,用于开发新颖的提示词注入攻击。
监控
我们开发了多个自动化的AI驱动监控器,用于识别和阻止提示词注入攻击。这些监控器补充了安全训练方法,因为它们可以快速更新,以迅速阻止我们发现的任何新攻击。这些监控器不仅有助于识别针对我们用户的潜在提示词注入攻击,还可以让我们在这些攻击在野外部署之前,捕获使用我们平台的对抗性提示词注入研究和测试。
安全防护
我们的产品和基础设施设计了各种重叠的安全防护措施,以帮助保护用户数据。我们将将在未来的文章中更详细地探讨这些功能,它们是根据每个产品量身定制的。例如,为了帮助您避免不受信任的网站,我们将要求您在ChatGPT中批准某些链接,特别是对那些要求我们不要编目的网站,然后才能访问它们。当我们的AI使用工具来运行其他程序或代码时(如在Canvas或我们的开发工具Codex中),我们使用一种称为沙盒(sandboxing)的技术来防止模型因提示词注入而进行有害更改。
赋予用户控制权
我们在产品中内置了控件,以帮助用户保护自己。例如,在ChatGPT Atlas中,您可以选择登出模式(logged-out mode),允许ChatGPT代理在未登录网站的情况下开始任务。在采取敏感步骤(如完成购买)之前,ChatGPT代理也会暂停并要求确认。当代理在敏感网站上操作时,我们还实施了“观察模式”(Watch Mode),以提醒您网站的敏感性质,并要求您在观察代理工作时保持标签页处于活动状态。如果您离开包含敏感信息的标签页,代理将会暂停。这确保您了解代理正在执行的操作,并对其保持控制。
红队演练
我们与内部和外部团队进行广泛的红队演练,以测试和改进我们的防御措施,模拟攻击者行为,并寻找改进安全性的新方法。这包括专门针对提示词注入投入的数千小时。随着我们发现新的技术和攻击,我们的团队会主动解决安全漏洞,并改进我们的模型缓解措施。
漏洞赏金
为了鼓励善意的独立安全研究人员帮助我们发现新的提示词注入技术和攻击,我们在漏洞赏金计划下为展示可能导致意外用户数据泄露的现实攻击路径的研究人员提供经济奖励。我们激励外部贡献者快速发现这些问题,以便我们能够解决它们并进一步加强我们的防御。
让用户决定
我们教育用户有关使用某些产品功能的风险,以便用户可以做出明智的决定。例如,在将ChatGPT连接到其他应用程序时,我们会解释可能会访问哪些数据、可能如何使用这些数据,以及可能出现哪些风险(例如网站试图窃取您的数据),并提供学习如何保持安全的链接。我们还让组织控制可以在其工作区中启用或使用的功能。
您可以采取哪些措施来保持更安全
提示词注入是一个前沿的安全挑战,我们预计它将随着时间的推移而不断发展。新水平的智能和能力要求技术、社会和风险缓解策略共同发展。就像21世纪初的计算机病毒一样,我们认为让每个人都了解提示词注入的威胁以及如何驾驭风险非常重要,这样我们才能共同安全地从这项技术中受益。在使用可以代表您采取行动的AI和代理功能时,保持警惕和谨慎有助于保护您的数据安全。
使用内置功能限制对敏感数据的访问
在可能的情况下,将代理对敏感数据或凭证的访问限制在其完成任务所需的范围内。例如,在使用ChatGPT Atlas中的代理模式进行度假研究时,如果代理只需要进行研究而不需要登录访问,请使用“登出”模式。
当代理请求确认时,仔细审查它是否将要执行正确的操作
我们通常会设计代理在执行某些后果性操作(如完成购买或发送电子邮件)之前获取您的最终确认。当代理要求您确认某项操作时,请仔细检查该操作是否正确,以及在该上下文中共享的任何信息是否合适。
当代理在敏感网站(例如您的银行)上运行时,请观察代理的工作过程。这类似于通过将手放在方向盘上来监控自动驾驶汽车。
尽可能给代理明确的指示
给代理一个非常宽泛的指令,例如“审查我的电子邮件并采取一切必要的行动”,可能会使隐藏的恶意内容更容易误导模型,尽管模型被设计在采取敏感操作前与您核实。
要求代理执行特定任务更安全,而不是赋予其广泛的自由裁量权去潜在地遵循来自其他地方(如电子邮件)的有害指令。虽然这并不能保证不会发生攻击,但它会增加攻击者成功的难度。
保持知情并遵循安全最佳实践
随着AI技术的发展,新的风险和安全措施也会出现。请关注OpenAI和其他受信任来源的更新,以了解最佳实践。
展望未来
提示词注入仍然是一个前沿的、具有挑战性的研究问题,就像传统的网络诈骗一样,我们预计我们的工作将是持续的。虽然我们尚未看到攻击者对这项技术的显著采用,但我们预计对手将投入大量时间和资源来寻找使AI屈服于这些攻击的方法。我们正在继续大力投资于使我们的产品安全,并进行研究以提高AI对这种风险的鲁棒性。我们将分享我们所了解到的最新信息,包括我们在该领域安全工作方面的持续进展。例如,我们正在准备一份报告,很快就会发布,其中将分享更多关于我们如何检测AI与互联网的通信是否会传输您对话中信息等细节。
我们的目标是让这些系统像与您最值得信赖、最懂安全的同事或朋友合作一样可靠和安全。我们将从实际使用中不断学习,安全地迭代,并在技术发展的同时分享我们的经验。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区