📢 转载信息
原文链接:https://openai.com/index/pacific-northwest-national-laboratory
原文作者:OpenAI
2026年2月26日
太平洋西北国家实验室与OpenAI合作,加速联邦许可审批流程
新的基准测试显示出缩短基础设施许可时间线的潜力
实现联邦政府许可现代化,对于建设一个更快、更安全、更具竞争力的美国经济至关重要。从能源项目和先进制造到交通和水系统,许可审批决定了有前景的想法能多快转化为现实世界的投资。然而,如今环境和技术审查往往需要数年时间,这减缓了创新,增加了成本,并延迟了这些项目为社区带来的效益。
正因如此,OpenAI已与美国能源部下属的太平洋西北国家实验室 (PNNL) 及其 PermitAI™(opens in a new window) 团队合作,评估编码代理是否能有效帮助加速联邦许可工作。PermitAI是能源部政策办公室资助的一项倡议,它与19位关于《国家环境政策法》(NEPA) 审查流程的主题专家合作,设计了一个基准测试(称为DraftNEPABench),用于评估AI模型在起草环境影响报告等与NEPA工作流程相关的任务上的表现。
在跨越18个联邦机构NEPA文件各部分的代表性起草任务中,19位专家发现,通用编码代理有潜力将NEPA文件起草工作每小节节省1到5小时——起草时间减少约15%——这标志着AI支持复杂政府工作流程向前迈出了有意义的一步。
为现实世界的许可工作设计基准
联邦许可是一个复杂且文书工作繁多的政府流程。审查通常需要阅读数百页的技术报告,跨多个来源交叉核对信息,并起草必须满足监管要求的详细分析。
通过这次合作,OpenAI和PNNL共同探索了(opens in a new window)将通用编码代理(在本例中为Codex CLI)作为有效利用像GPT-5这样的推理模型来执行涉及文件系统的研究、技术分析和报告撰写任务的潜力。通过向模型提供命令行界面(通常用于编码任务)的访问权限,它们可以采用比手工设计的启发式方法更通用的策略来解决任务。这些代理被要求:
- 阅读并准确综合跨越数百页技术和监管内容的文档
- 跨多个环境、工程和监管来源核实事实
- 起草符合高度具体法律和技术标准的结构化报告
这项工作为何重要
为了使美国能够在这个 智能时代(opens in a new window) 继续发展其经济,它必须能够安全、负责任且快速地进行建设。随着AI系统对物理世界的影响日益增大,我们必须了解它们在土木工程、环境和监管分析等领域的潜力。随着时间的推移,先进的模型将需要准确理解法律和法规,以帮助发明更新、更安全的技术,保护自然资源,并满足人类需求。
五十多年来,这一流程要求联邦机构审查和记录桥梁、发电厂、输电线路和制造工厂等项目的环境影响。这个基准测试有助于确定当今的AI模型可以在何处负责任地协助人类加速这些工作流程。
按牵头机构分组,跨越102个任务的平均评估得分(1-5分制)。得分汇总了对结构、清晰度、准确性和引用的评估。得分为1表示存在重大缺陷,3表示部分正确的草稿,得分为5表示完全正确和完整的草稿。
除了降低自主性的风险外,这项工作还可以推动为专家和AI设计更好的界面。超越静态PDF,编码代理可以动态地从它们的工作中生成基于Web的报告和交互式可视化,使人工审查员更容易验证。
借助AI,各机构将能够更高效地审查、完善和批准提案,政府工作人员将受益于由AI代理组成的团队来处理他们工作中耗时的工作部分,从而可以专注于判断、监督和复杂的决策制定。这项工作符合OpenAI对公共服务和OpenAI for Government的广泛承诺,后者旨在为公务员配备工具,使其工作更有效率、更有支持。
局限性
此基准测试评估了模型在具有明确规定的起草任务上的能力,在这些任务中可以获得相关背景信息,而不是现实世界许可决策的全部模糊性和自由裁量权。它强调准确性和正确引用以明确模型可以协助人工审查员的地方。在审查失败案例时,我们发现一些“错误”实际上是由过时的引用和薄弱的评估标准驱动的,因此我们不得不相应地更新了评分标准。更普遍地说,如果源材料不完整、不一致或过时,模型可能无法在没有明确指示的情况下标记出这些差异。现实世界的部署更有可能涉及专家反馈和迭代,这预计会使性能超越这些独立基准测试任务所报告的结果。
后续步骤
OpenAI正在支持PNNL进一步开发和完善 PermitAI(opens in a new window) 的应用,旨在帮助联邦机构简化许可流程。随着时间的推移,我们预计联邦审查的基础设施项目的平均批准时间将从数月缩短到数周,从而加速项目开发,增强美国竞争力,并支持长期经济增长。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区