提示注入攻击-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

行动起来，活在当下

累计撰写 7268 篇文章
累计创建 3256 个标签
累计收到 0 条评论

目录CONTENT

以下是提示注入攻击相关的文章

2026-02-25
应对提示词注入攻击：提出StruQ和SecAlign两种高效防御方法提示词注入攻击是LLM应用面临的首要威胁。本文提出了两种无需额外计算成本的微调防御方法：StruQ（结构化指令微调）和SecAlign（特殊偏好优化）。这两种方法通过安全前端分隔提示词和数据，并训练模型忽略注入的指令，能将优化无关攻击的成功率降至0%，SecAlign还能将优化攻击的成功率降低4倍以上，同时有效保持模型效用。
- 2026-02-25
- 1
- 0
- 0
- AI基础/开发
- AI工具应用
2026-02-18
安全的AI助手是否可能实现？ AI代理（Agent）带来了巨大的安全风险，尤其是当它们获得与外界交互的能力后。独立工程师Peter Steinberger发布的OpenClaw工具引发了安全专家的担忧。本文深入探讨了提示注入等核心风险，以及学术界为构建可信赖的AI个人助手所做的防御研究与权衡。
- 2026-02-18
- 1
- 0
- 0
2026-02-18
推出ChatGPT的锁定模式和“高风险”标签随着AI系统处理更复杂的任务，特别是涉及网络和连接应用时，安全风险也在变化。OpenAI推出了“锁定模式”和“高风险”标签两项新保护措施，旨在帮助用户和组织缓解“提示注入”攻击，提高风险可见性并加强控制。
- 2026-02-18
- 1
- 0
- 0
2026-02-10
针对提示词注入的防御：StruQ 和 SecAlign 微调方法提示词注入是当前LLM应用面临的首要威胁。本文介绍了Berkeley AI Research提出的两种无需额外计算成本的微调防御方法：StruQ和SecAlign。这些方法通过在输入中明确分隔指令和数据，并训练模型忽略注入的指令，显著降低了攻击成功率，同时保持了模型实用性。
- 2026-02-10
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-29
规则在提示中失效，在边界上奏效从2026年Gemini日历提示注入攻击到利用Claude代码进行国家支持的黑客攻击，AI驱动的恶意行为已成为新的攻击向量。本文分析了首次报告的AI编排的网络间谍活动，强调了将安全控制置于系统架构边界，而非依赖语言提示规则的重要性。
- 2026-01-29
- 1
- 0
- 0
2026-01-28
StruQ 和 SecAlign：在不牺牲效用的情况下防御提示注入攻击提示注入攻击被OWASP列为LLM应用的首要威胁。本文提出了两种无需额外计算成本或人力的新型微调防御方法：StruQ和SecAlign。这些方法通过结构化指令调优和特殊偏好优化，将十多种免优化攻击的成功率降至0%，并显著降低了强优化攻击的成功率，同时保持了模型的通用效用。
- 2026-01-28
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-28
每个大型语言模型应用面临的3个隐形风险及其防范方法在构建大型语言模型（LLM）应用时，除了常见的幻觉和提示词注入攻击外，还存在三个不易察觉的关键风险，它们可能严重影响应用的可靠性和安全性。第一个风险是模型输出中的“隐性偏见”，可能导致不公平或歧视性的结果。其次是“上下文窗口限制”，在处理长篇复杂输入时可能导致信息丢失或理解不完整。最后是“工具调用失败”，外部API或代码执行中断可能使应用功能受限。了解并主动应对这些隐形风险，对于开发健壮、负责任的LLM系统至关重要。
- 2026-01-28
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-22
持续强化 ChatGPT Atlas 以防止提示注入 OpenAI 宣布对 ChatGPT Atlas 的浏览器代理进行安全更新，以应对日益严峻的“提示注入”威胁。本文深入探讨了基于网页的代理如何产生此风险，并介绍了 OpenAI 使用强化学习驱动的自动化红队测试来发现和修补漏洞的快速响应机制，旨在确保代理行为可信赖。
- 2026-01-22
- 1
- 0
- 0
- AI新闻/评测
- AI工具应用
2026-01-21
减少AI中的隐私泄露：两种上下文完整性方法本文深入探讨了如何利用上下文完整性（CI）原则来解决人工智能系统中的隐私泄露问题。我们提出了两种关键方法：在训练阶段通过聚合技术应用差分隐私，以及在推理阶段通过输出过滤和提示工程进行安全防护，以确保AI行为符合预期的信息流准则。
- 2026-01-21
- 0
- 0
- 0
- AI基础/开发
- AI行业应用
2026-01-16
针对提示注入攻击的实用防御：StruQ 和 SecAlign 随着大型语言模型（LLM）应用的兴起，提示注入攻击已成为头号威胁。本文提出了两种无需额外计算成本的有效防御方法：StruQ 和 SecAlign。这两种方法通过“安全前端”结合结构化指令微调（StruQ）和特殊偏好优化（SecAlign），能将优化无关攻击的成功率降至接近0%，同时SecAlign将优化型攻击的成功率降低了4倍以上，有效保证了模型实用性的同时增强了安全性。
- 2026-01-16
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-10
提示注入算不算漏洞？微软与安全专家引发 AI 漏洞定义争论微软近日驳回了一名安全工程师提交的关于Copilot的四项安全漏洞报告，引发了安全社区关于“AI漏洞”定义的激烈争论。该工程师报告了包括“提示注入”泄露系统提示词、Base64编码绕过文件上传策略以及在Linux环境中执行命令等问题。微软认为这些属于AI已知局限，而非需修复的安全漏洞，因为它们未跨越明确的安全边界，如未经授权的数据访问。然而，安全专家指出，竞争对手的模型能拒绝此类攻击，这暴露了输入验证机制的不足，也揭示了当前大型语言模型在区分用户数据与操作指令方面的普遍局限性，对AI安全标...
- 2026-01-10
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-01-10
持续强化 ChatGPT Atlas 以防止提示注入 OpenAI 正在持续加固 ChatGPT Atlas 的浏览器代理，以应对“提示注入”这一新兴安全威胁。通过引入基于强化学习的自动化红队测试，OpenAI 能够主动发现并修补代理漏洞，确保 AI 智能体在执行网页操作时的安全性。本文详细介绍了提示注入的风险、新的防御机制以及快速响应循环的构建，旨在让用户能像信任可靠的同事一样信任 Atlas 代理。
- 2026-01-10
- 1
- 0
- 0
2026-01-02
应对提示注入攻击的防御：StruQ 和 SecAlign 提示注入是LLM集成应用面临的首要威胁。本文介绍了两种无需额外计算成本和人工劳动的微调防御方法：StruQ和SecAlign。这些方法能将十几种优化无关攻击的成功率降至0%，并将强优化攻击的成功率降低4倍以上，有效解决了LLM输入中提示与数据缺乏分隔、以及LLM倾向于遵循任意指令的问题。
- 2026-01-02
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2025-12-24
超越思维链：在Amazon Bedrock上使用草稿链（Chain-of-Draft）本文深入探讨了“草稿链”（Chain-of-Draft, CoD）这一创新的提示词技术，旨在解决生成式AI部署中质量、成本和延迟的平衡难题。CoD借鉴了人类解决问题的模式，通过限制每一步推理的词数（最多5个词），显著减少了代币使用量（最高达75%）和延迟（最高达78%），同时保持了与传统思维链（CoT）相当的准确性。我们展示了如何在Amazon Bedrock和AWS Lambda上实现CoD，为优化LLM推理成本提供了一条高效的路径。
- 2025-12-24
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-12-23
黑客能让AI发辞职信？OpenAI承认Atlas浏览器提示词注入攻击难以根治 OpenAI承认，其新推出的Atlas AI浏览器面临的“提示词注入攻击”是长期且难以根治的安全挑战。此类攻击通过操纵隐藏在网页或邮件中的恶意指令来控制AI智能体行为，例如让其发送辞职信。OpenAI正通过训练基于大语言模型的自动化攻击程序来模拟黑客行为，以期在攻击被实战利用前发现并修复漏洞。安全专家指出，AI智能体浏览器因其自主性和高系统访问权限，风险极高，目前的安全建议侧重于限制操作权限和要求人工确认，强调AI安全防护是一个持续演进的过程。
- 2025-12-23
- 0
- 0
- 0
2025-12-23
OpenAI承认AI浏览器可能永远容易受到提示注入攻击 OpenAI承认，即使其Atlas AI浏览器不断加强防御，提示注入攻击（Prompt Injection）仍是一种长期存在的安全风险。该公司认为，这种类似网络钓鱼和社交工程的攻击不太可能被“完全解决”。文章探讨了OpenAI为应对这一挑战所做的努力，包括使用基于LLM的自动化攻击者进行压力测试，以及行业内对AI代理安全性的普遍担忧。
- 2025-12-23
- 0
- 0
- 0
2025-12-23
强化 Atlas 以抵御提示注入攻击 OpenAI 介绍了其为抵御提示注入攻击而构建的 Atlas 系统。Atlas 是一套安全组件，用于检测并缓解直接和间接的注入攻击，旨在确保 AI 工具的安全性和可靠性。测试结果显示，Atlas 在高成功率防御已知攻击的同时，对模型性能影响极小。
- 2025-12-23
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-12-16
针对提示注入的有效防御方法：StruQ和SecAlign 提示注入已成为LLM应用面临的首要威胁。本文介绍了两种无需额外计算成本的微调防御方法：StruQ和SecAlign。它们能将多种优化无关攻击的成功率降至接近0%，同时SecAlign使优化攻击的成功率降低了4倍以上，有效提升了LLM系统的安全性。
- 2025-12-16
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-12-04
防御提示注入：StruQ和SecAlign的微调防御方法提示注入是LLM应用面临的首要威胁。本文提出了两种创新的微调防御方法——StruQ和SecAlign，它们无需额外计算或人力成本，即可有效缓解优化无关和优化型攻击。研究表明，SecAlign能将强攻击的成功率降至15%以下，同时保持模型实用性。
- 2025-12-04
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2025-11-28
研究表明：诗歌可以欺骗人工智能，使其协助制造核武器一项来自欧洲研究人员的新研究显示，用户只需将提示词设计成诗歌形式，就能诱导ChatGPT等AI聊天机器人提供关于制造核弹、儿童色情材料或恶意软件等敏感信息。诗歌形式的“对抗性提示”平均取得了62%的越狱成功率，表明现有的AI安全护栏在面对文学修辞时非常脆弱。
- 2025-11-28
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发

1
2