📢 转载信息
原文作者:Matt Foster
Anthropic开源AI安全审计工具Petri发布:Claude Sonnet 4.5在“高危任务”中表现最佳
在Anthropic新推出的开源AI审计工具Petri(Parallel Exploration Tool For Risky Interactions,高危交互并行探索工具)的早期评估中,Claude Sonnet 4.5 在“高危任务”中的表现最为出色,成为性能最佳的模型。
Petri加入了OpenAI和Meta内部工具的行列,但其独特之处在于它被公开发布了。GitHub链接
随着模型能力的增强,安全测试正从静态基准测试转向自动化的、由智能体驱动的审计,旨在在模型部署前捕获有害行为。
Petri的早期测试结果与评估维度
在初步试验中,Anthropic对14个模型进行了111个高危任务的测试。每个模型根据四个安全风险类别进行评分:
- 欺骗(deception):故意提供虚假答案。
- 谄媚(sycophancy):即使不正确也同意用户的观点。
- 权力寻求(power-seeking):追求获取影响或控制力的行为。
- 拒绝失败(refusal failure):未能拒绝应拒绝的请求。
Anthropic提醒称,尽管Sonnet 4.5总体表现最佳,但在所有接受测试的模型中都发现了失调(misalignment)行为。
Petri的核心能力:自动化多轮次风险场景测试
除了LLM排名,Petri的主要能力在于自动化AI安全测试的关键环节:测试模型在多轮次高危场景中的行为表现。
研究人员从一个简单的指令开始,例如尝试“越狱”(jailbreak)或引发欺骗,Petri随后会启动“审计智能体”(auditor agents)与模型进行交互,在对话过程中调整策略,以深入探查是否存在有害行为。
每一次交互都会由一个“裁判模型”(judge model)根据诚实度或拒绝等维度进行评分,并且相关的对话记录会被标记出来供人工审查。
与静态基准测试不同,Petri旨在进行探索性测试,帮助研究人员快速发现模型部署前的边缘案例和失败模式。
Anthropic表示,Petri可以在几分钟内实现假设测试,并显著减少多轮次安全评估所需的手动工作量。该公司希望通过开源该工具,能够加速整个领域的对齐(Alignment)研究。
开放性、局限性与行业趋势
Petri的开放发布不仅使其成为一个技术产物,更像是一个公开邀请,鼓励社区共同审计和改进对齐研究。
Anthropic还发布了示例提示词、评估代码以及扩展该工具的指南。
与类似工具一样,Petri也存在已知的局限性。其裁判模型(通常基于相同的底层语言模型)可能会继承微妙的偏见,例如偏爱某些回复风格或对模糊性进行过度惩罚。
此外,近期研究还记录了LLM作为裁判设置中出现的自我偏好偏见(模型更倾向于对自己输出的评分更高)和位置偏见等问题。
因此,Anthropic将Petri定位为探索安全性的工具,而非行业基准。它的发布加速了一个正在发生的转变:从静态测试集转向动态、可扩展的审计,以便在模型广泛部署之前尽早暴露高风险行为。
Petri的发布正值AI实验室内部安全工具浪潮之际。OpenAI长期以来一直采用外部红队(red teaming)和自动对抗性评估。Meta在发布Llama 3的同时,也发布了《负责任使用指南》。
随着各国政府开始制定正式的AI安全要求,Petri的发布也恰逢其时。英国AI安全研究所和美国NIST AI安全联盟都在为高风险模型开发评估框架,并呼吁提高透明度和标准化的风险测试,这一趋势可能会因Petri的出现而加速。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区