📢 转载信息

原文链接：https://www.infoq.com/news/2025/10/petri-llm-safety/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global

原文作者：Matt Foster

Anthropic开源AI安全审计工具Petri发布：Claude Sonnet 4.5在“高危任务”中表现最佳

在Anthropic新推出的开源AI审计工具Petri（Parallel Exploration Tool For Risky Interactions，高危交互并行探索工具）的早期评估中，Claude Sonnet 4.5 在“高危任务”中的表现最为出色，成为性能最佳的模型。

Petri加入了OpenAI和Meta内部工具的行列，但其独特之处在于它被公开发布了。GitHub链接

随着模型能力的增强，安全测试正从静态基准测试转向自动化的、由智能体驱动的审计，旨在在模型部署前捕获有害行为。

Petri的早期测试结果与评估维度

在初步试验中，Anthropic对14个模型进行了111个高危任务的测试。每个模型根据四个安全风险类别进行评分：

欺骗（deception）：故意提供虚假答案。
谄媚（sycophancy）：即使不正确也同意用户的观点。
权力寻求（power-seeking）：追求获取影响或控制力的行为。
拒绝失败（refusal failure）：未能拒绝应拒绝的请求。

Anthropic提醒称，尽管Sonnet 4.5总体表现最佳，但在所有接受测试的模型中都发现了失调（misalignment）行为。

Petri的核心能力：自动化多轮次风险场景测试

除了LLM排名，Petri的主要能力在于自动化AI安全测试的关键环节：测试模型在多轮次高危场景中的行为表现。

研究人员从一个简单的指令开始，例如尝试“越狱”（jailbreak）或引发欺骗，Petri随后会启动“审计智能体”（auditor agents）与模型进行交互，在对话过程中调整策略，以深入探查是否存在有害行为。

每一次交互都会由一个“裁判模型”（judge model）根据诚实度或拒绝等维度进行评分，并且相关的对话记录会被标记出来供人工审查。

与静态基准测试不同，Petri旨在进行探索性测试，帮助研究人员快速发现模型部署前的边缘案例和失败模式。

Anthropic表示，Petri可以在几分钟内实现假设测试，并显著减少多轮次安全评估所需的手动工作量。该公司希望通过开源该工具，能够加速整个领域的对齐（Alignment）研究。

开放性、局限性与行业趋势

Petri的开放发布不仅使其成为一个技术产物，更像是一个公开邀请，鼓励社区共同审计和改进对齐研究。

Anthropic还发布了示例提示词、评估代码以及扩展该工具的指南。

与类似工具一样，Petri也存在已知的局限性。其裁判模型（通常基于相同的底层语言模型）可能会继承微妙的偏见，例如偏爱某些回复风格或对模糊性进行过度惩罚。

此外，近期研究还记录了LLM作为裁判设置中出现的自我偏好偏见（模型更倾向于对自己输出的评分更高）和位置偏见等问题。

因此，Anthropic将Petri定位为探索安全性的工具，而非行业基准。它的发布加速了一个正在发生的转变：从静态测试集转向动态、可扩展的审计，以便在模型广泛部署之前尽早暴露高风险行为。

Petri的发布正值AI实验室内部安全工具浪潮之际。OpenAI长期以来一直采用外部红队（red teaming）和自动对抗性评估。Meta在发布Llama 3的同时，也发布了《负责任使用指南》。

随着各国政府开始制定正式的AI安全要求，Petri的发布也恰逢其时。英国AI安全研究所和美国NIST AI安全联盟都在为高风险模型开发评估框架，并呼吁提高透明度和标准化的风险测试，这一趋势可能会因Petri的出现而加速。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型：https://api.qingyuntop.top/pricing

详细的调用教程及文档：https://api.qingyuntop.top/about

目录CONTENT

Anthropic开源AI安全审计工具Petri发布：Claude Sonnet 4.5在“高危任务”中表现最佳

Anthropic开源AI安全审计工具Petri发布：Claude Sonnet 4.5在“高危任务”中表现最佳

Petri的早期测试结果与评估维度

Petri的核心能力：自动化多轮次风险场景测试

开放性、局限性与行业趋势

评论区