📢 转载信息
原文链接:https://openai.com/index/datadog
原文作者:OpenAI
2026年1月9日
Datadog(opens in a new window) 运营着全球使用最广泛的可观测性平台之一,帮助公司监控、排除故障和保护复杂的分布式系统。当出现问题时,客户依赖 Datadog 快速发现问题,这意味着可靠性必须在代码投入生产之前就融入其中。
对于 Datadog 的工程团队来说,代码审查是一个高风险的环节。它不仅关乎发现错误,更关乎理解变更如何在相互连接的系统中产生连锁反应——这是一个传统静态分析和基于规则的工具往往力不从心的领域。
为应对这一挑战,Datadog 的人工智能开发体验 (AI DevX) 团队转向了 OpenAI 的编码代理 Codex,它将系统级推理引入代码审查,并能发现人类在规模化操作中难以察觉的风险。
Datadog AI DevX 团队负责人 Brad Carter 表示:“节省时间是真实且重要的,但在我们目前的规模下,防止事故更具说服力。”
借助 Codex 将系统级上下文引入代码审查
Datadog 中有效的代码审查传统上非常依赖资深工程师——那些对代码库、其历史和架构权衡有足够了解,能够发现系统性风险的人。
但这种深层上下文很难规模化,而早期的 AI 代码审查工具并未解决这个问题;许多工具的行为更像是高级的 linter,只标记表面问题,却忽略了更广泛的系统细微差别。Datadog 的工程师经常觉得 Codex 的建议过于肤浅或过于嘈杂(无效信息多),因此不予理会。
Datadog 开始试用 OpenAI 的编码代理 Codex,将其集成到实时开发工作流程中。在公司最大、使用最频繁的代码库之一中,每一个拉取请求 (pull request) 都由 Codex 自动审查。工程师们通过点赞或点踩对 Codex 的评论做出反应,并在团队间分享非正式反馈。许多人指出,Codex 的反馈是值得一读的,这与之前产生嘈杂或肤浅建议的工具形成了鲜明对比。
针对真实事故验证 AI 审查
为了测试辅助式 AI 审查是否能做更多,而不仅仅是指出样式问题,Datadog 构建了一个事故回放工具。
团队没有使用假设场景,而是回顾了历史上的事故。他们重建了导致事故的拉取请求,像对待原始审查的一部分一样对每个请求运行 Codex,然后询问负责这些事故的工程师,Codex 提供的反馈是否会产生影响。
结果是:在 Datadog 审查的事故中,Codex 发现了超过 10 个案例,约占总数的 22%,工程师们确认 Codex 提供的反馈会有所帮助——这比评估过的任何其他工具都要多。
由于这些拉取请求已经通过了代码审查,回放测试表明 Codex 发现了当时审阅者没有看到的风险,它是在补充人类判断,而不是取代它。
提供一致的高信号反馈
Datadog 的分析显示,Codex 持续标记那些仅凭当前差异 (diff) 不明显且无法通过确定性规则捕获的问题。
工程师们将 Codex 的评论描述为不仅仅是“机器人噪音”:
- Codex 指出了差异中未触及的模块之间的交互
- 它识别了跨服务耦合区域中缺失的测试覆盖
- 它强调了带有下游风险的 API 合同变更
“对我来说,Codex 的评论感觉像是与我共事过的最聪明的工程师,他有无限的时间来查找错误。它能看到我的大脑无法同时处理的连接。”
—Brad Carter,Datadog 工程经理
将审查反馈与实际可靠性结果联系起来的能力是 Codex 在 Datadog 评估中脱颖而出的关键。与静态分析工具不同,Codex 将拉取请求的意图与提交的代码更改进行比较,对整个代码库和依赖项进行推理,以执行代码和测试来验证行为。
Carter 说:“它是第一个真正考虑了差异在程序整体上下文中的影响的工具。这既新颖又发人深省。”
对于许多工程师来说,这种转变改变了他们参与 AI 审查的方式。Datadog 高级软件工程师 Ted Wexler 说:“我开始将 Codex 的评论视为真正的代码审查反馈——不仅仅是略读或忽略的东西,而是值得关注的内容。”
将工程师的注意力从检测转移到设计
在评估之后,Datadog 将 Codex 更广泛地部署到其工程队伍中。如今,有超过 1,000 名工程师经常使用它。
反馈大多是通过非正式的内部工具指标体现的,工程师们会在 Slack 上分享有用的见解、建设性的评论,以及 Codex 帮助他们以不同方式思考问题的时刻。
尽管节省了大量时间,但团队一致认为,工作方式发生了更有意义的转变。
“Codex 改变了我对代码审查应有面貌的看法。它不是要复制我们最优秀的工程师。而是要发现人类在孤立审查变更时难以看到的关键缺陷和边缘情况。”
—Brad Carter,Datadog 工程经理
围绕风险而非速度重新定义代码审查
对 Datadog 而言,更广泛的影响在于代码审查本身的定义发生了变化。团队不再将审查视为一个检查错误或优化周期时间的关卡,而是将 Codex 视为一个合作伙伴核心可靠性系统:
- 发现超出个体审阅者所能保持的上下文范围的风险
- 突出跨模块和跨服务交互
- 提高大规模部署的信心
- 允许人类审阅者专注于架构和设计
这一转变与 Datadog 领导层对工程优先级的定位相一致,即可靠性和信任与速度同等重要,甚至更为重要。
Carter 说:“我们是当其他一切都出现故障时,公司所依赖的平台。防止事故能够加强客户对我们的信任。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区