推出 EVMbench：评估 AI 智能体在区块链环境中检测、修复和利用漏洞的能力-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://openai.com/index/introducing-evmbench

原文作者：OpenAI

智能合约通常保护着超过 1000 亿美元的开源加密资产。随着 AI 智能体在读取、编写和执行代码方面的能力不断提高，衡量它们在经济上具有重要意义的环境中的能力，并鼓励防御性地使用 AI 系统来审计和加强已部署的合约，变得越来越重要。

我们与 Paradigm 合作，推出了 EVMbench，这是一个评估 AI 智能体检测、修补和利用高危智能合约漏洞能力的基准测试。EVMbench 借鉴了来自 40 次审计的 120 个精选漏洞，其中大部分来源于开源代码审计竞赛。EVMbench 还包括了几个源自 Tempo 区块链安全审计流程的漏洞场景，Tempo 是一个专门设计的 L1 区块链，旨在通过稳定币实现高吞吐量、低成本的支付。这些场景将基准扩展到了面向支付的智能合约代码，我们预计智能体驱动的稳定币支付将在该领域增长，并有助于将其建立在具有新兴实际重要性的领域中。

为了创建我们的任务环境，我们改编了现有的概念验证（Proof-of-Concept）漏洞利用测试和部署脚本（如果存在），否则则手动编写。对于“修复”模式，我们确保漏洞是可被利用的，并且可以在不引入破坏编译的更改的情况下得到缓解，以免影响我们的设置。对于“利用”模式，我们编写了自定义评分器，并在沙盒区块链环境中对这些环境进行了红队测试，试图发现并修补智能体可能用来作弊评分器的方法。除了 Paradigm 提供的领域专业知识带来的任务质量控制外，我们还使用了自动化的任务审计智能体来帮助提高我们环境的可靠性。

EVMbench 评估三种能力模式：

检测 (Detect)：智能体审计智能合约存储库，其得分基于对真实漏洞的召回率和相关的审计奖励。
修复 (Patch)：智能体修改有漏洞的合约，必须在消除可利用性的同时保持预期功能，并通过自动化测试和漏洞利用检查进行验证。
利用 (Exploit)：智能体在沙盒区块链环境中对已部署的合约执行端到端的资金耗尽攻击，评分通过交易回放和链上验证以编程方式进行。

为了支持客观和可复现的评估，我们开发了一个基于 Rust 的框架，该框架可以部署合约、确定性地回放智能体交易，并限制不安全的 RPC 方法。漏洞利用任务在隔离的本地 Anvil 环境中运行，而不是在实时网络上运行，并且漏洞是历史性的和公开记录的。

我们评估了所有三种模式下的前沿智能体。在“利用”模式下，通过 Codex CLI 运行的 GPT‑5.3‑Codex 取得了 72.2% 的分数。这比仅在六个多月前发布的 GPT‑5 等先前模型（得分为 31.9%）取得了显著提升。检测召回率和修复成功率仍低于完全覆盖，因为很大一部分漏洞对智能体来说仍然难以发现和修复。

EVMbench 还揭示了模型行为在不同任务中的有趣差异。智能体在利用场景中表现最佳，因为目标是明确的：持续迭代直到资金被耗尽。相比之下，在检测和修复任务上的表现则较弱。在“检测”中，智能体有时在识别出单个问题后就停止了，而不是彻底审计整个代码库。在“修复”中，在消除微妙漏洞的同时保持完整功能仍然具有挑战性。

局限性

EVMbench 并不能完全代表现实世界智能合约安全的所有难度。所包含的漏洞源自 Code4rena 审计竞赛。虽然这些是真实且高危的，但许多已大量部署和广泛使用的加密合约受到了更严格的审查，可能更难被利用。

我们的评分系统是稳健但并非完美无缺的。在“检测”模式下，我们检查智能体是否找到了人类审计员识别出的相同漏洞。如果智能体识别出额外的缺陷，我们目前没有可靠的方法来判断它们是人类遗漏的真正漏洞还是误报。

在“利用”设置中也存在结构性限制。交易在评分容器中按顺序回放，因此依赖于精确时序机制的行为超出了范围。链状态是一个干净的本地 Anvil 实例，而不是主网的分叉，我们目前仅支持单链环境。在某些情况下，这需要使用模拟合约而不是主网部署。

为何这很重要

智能合约保护着数十亿美元的资产，AI 智能体可能会对攻击者和防御者都产生变革性影响。在这个领域衡量模型能力有助于追踪新兴的网络风险，并凸显使用 AI 系统进行防御性审计和加强已部署合约的重要性。

EVMbench 既是一个测量工具，也是一个行动号召。随着智能体能力的提升，开发人员和安全研究人员将日益需要将 AI 辅助审计纳入其工作流程中。

在过去的几个月里，我们在网络安全任务上的模型性能取得了有意义的提升，这使开发人员和安全专业人员都受益。与此同步，我们一直在部署加强的网络安全防护措施，以支持防御性使用和更广泛的生态系统弹性。

由于网络安全本质上是双重用途的，我们采取了一种循证的、迭代的方法，旨在加速防御者发现和修复漏洞的能力，同时减缓滥用。我们的缓解措施包括安全训练、自动化监控、对高级功能的受信任访问以及包括威胁情报在内的执行管道。

我们正在投资生态系统保障措施，例如扩展我们的安全研究智能体 Aardvark 的私有 Beta 版，并与开源维护者合作，为广泛使用的项目提供免费的代码库扫描。

在 2023 年启动的网络安全资助计划的基础上，我们还承诺提供 1000 万美元的 API 积分，以利用我们最强大的模型加速网络防御，特别是针对开源软件和关键基础设施系统。本着善意安全研究精神的组织可以通过我们的网络安全资助计划申请 API 积分和支持。

我们发布了 EVMbench 的任务、工具和评估框架，以支持对衡量和管理新兴 AI 网络能力的持续研究。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

推出 EVMbench：评估 AI 智能体在区块链环境中检测、修复和利用漏洞的能力

局限性

为何这很重要

评论区