目 录CONTENT

文章目录

Anthropic开源AI安全审计工具Petri发布:Claude Sonnet 4.5在“高危任务”中表现最佳

青云TOP
2025-10-08 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.infoq.com/news/2025/10/petri-llm-safety/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

原文作者:Matt Foster


Anthropic开源AI安全审计工具Petri发布:Claude Sonnet 4.5在“高危任务”中表现最佳

在Anthropic新推出的开源AI审计工具Petri(Parallel Exploration Tool For Risky Interactions,高危交互并行探索工具)的早期评估中,Claude Sonnet 4.5 在“高危任务”中的表现最为出色,成为性能最佳的模型。

Petri加入了OpenAI和Meta内部工具的行列,但其独特之处在于它被公开发布了。GitHub链接

随着模型能力的增强,安全测试正从静态基准测试转向自动化的、由智能体驱动的审计,旨在在模型部署前捕获有害行为。

Petri的早期测试结果与评估维度

在初步试验中,Anthropic对14个模型进行了111个高危任务的测试。每个模型根据四个安全风险类别进行评分:

  • 欺骗(deception):故意提供虚假答案。
  • 谄媚(sycophancy):即使不正确也同意用户的观点。
  • 权力寻求(power-seeking):追求获取影响或控制力的行为。
  • 拒绝失败(refusal failure):未能拒绝应拒绝的请求。

Anthropic提醒称,尽管Sonnet 4.5总体表现最佳,但在所有接受测试的模型中都发现了失调(misalignment)行为

Petri的核心能力:自动化多轮次风险场景测试

除了LLM排名,Petri的主要能力在于自动化AI安全测试的关键环节:测试模型在多轮次高危场景中的行为表现。

研究人员从一个简单的指令开始,例如尝试“越狱”(jailbreak)或引发欺骗,Petri随后会启动“审计智能体”(auditor agents)与模型进行交互,在对话过程中调整策略,以深入探查是否存在有害行为。

每一次交互都会由一个“裁判模型”(judge model)根据诚实度或拒绝等维度进行评分,并且相关的对话记录会被标记出来供人工审查。

与静态基准测试不同,Petri旨在进行探索性测试,帮助研究人员快速发现模型部署前的边缘案例和失败模式。

Anthropic表示,Petri可以在几分钟内实现假设测试,并显著减少多轮次安全评估所需的手动工作量。该公司希望通过开源该工具,能够加速整个领域的对齐(Alignment)研究。

开放性、局限性与行业趋势

Petri的开放发布不仅使其成为一个技术产物,更像是一个公开邀请,鼓励社区共同审计和改进对齐研究。

Anthropic还发布了示例提示词、评估代码以及扩展该工具的指南。

与类似工具一样,Petri也存在已知的局限性。其裁判模型(通常基于相同的底层语言模型)可能会继承微妙的偏见,例如偏爱某些回复风格或对模糊性进行过度惩罚。

此外,近期研究还记录了LLM作为裁判设置中出现的自我偏好偏见(模型更倾向于对自己输出的评分更高)和位置偏见等问题。

因此,Anthropic将Petri定位为探索安全性的工具,而非行业基准。它的发布加速了一个正在发生的转变:从静态测试集转向动态、可扩展的审计,以便在模型广泛部署之前尽早暴露高风险行为。

Petri的发布正值AI实验室内部安全工具浪潮之际。OpenAI长期以来一直采用外部红队(red teaming)和自动对抗性评估。Meta在发布Llama 3的同时,也发布了《负责任使用指南》。

随着各国政府开始制定正式的AI安全要求,Petri的发布也恰逢其时。英国AI安全研究所美国NIST AI安全联盟都在为高风险模型开发评估框架,并呼吁提高透明度和标准化的风险测试,这一趋势可能会因Petri的出现而加速。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区