Datadog 使用 Codex 进行系统级代码审查-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://openai.com/index/datadog

原文作者：OpenAI

2026年1月9日

Datadog⁠(opens in a new window) 运营着全球使用最广泛的可观测性平台之一，帮助公司监控、排除故障和保护复杂的分布式系统。当出现问题时，客户依赖 Datadog 快速发现问题，这意味着可靠性必须在代码投入生产之前就融入其中。

对于 Datadog 的工程团队来说，代码审查是一个高风险的环节。它不仅关乎发现错误，更关乎理解变更如何在相互连接的系统中产生连锁反应——这是一个传统静态分析和基于规则的工具往往力不从心的领域。

为应对这一挑战，Datadog 的人工智能开发体验 (AI DevX) 团队转向了 OpenAI 的编码代理 Codex，它将系统级推理引入代码审查，并能发现人类在规模化操作中难以察觉的风险。

Datadog AI DevX 团队负责人 Brad Carter 表示：“节省时间是真实且重要的，但在我们目前的规模下，防止事故更具说服力。”

借助 Codex 将系统级上下文引入代码审查

Datadog 中有效的代码审查传统上非常依赖资深工程师——那些对代码库、其历史和架构权衡有足够了解，能够发现系统性风险的人。

但这种深层上下文很难规模化，而早期的 AI 代码审查工具并未解决这个问题；许多工具的行为更像是高级的 linter，只标记表面问题，却忽略了更广泛的系统细微差别。Datadog 的工程师经常觉得 Codex 的建议过于肤浅或过于嘈杂（无效信息多），因此不予理会。

Datadog 开始试用 OpenAI 的编码代理 Codex，将其集成到实时开发工作流程中。在公司最大、使用最频繁的代码库之一中，每一个拉取请求 (pull request) 都由 Codex 自动审查。工程师们通过点赞或点踩对 Codex 的评论做出反应，并在团队间分享非正式反馈。许多人指出，Codex 的反馈是值得一读的，这与之前产生嘈杂或肤浅建议的工具形成了鲜明对比。

针对真实事故验证 AI 审查

为了测试辅助式 AI 审查是否能做更多，而不仅仅是指出样式问题，Datadog 构建了一个事故回放工具。

团队没有使用假设场景，而是回顾了历史上的事故。他们重建了导致事故的拉取请求，像对待原始审查的一部分一样对每个请求运行 Codex，然后询问负责这些事故的工程师，Codex 提供的反馈是否会产生影响。

结果是：在 Datadog 审查的事故中，Codex 发现了超过 10 个案例，约占总数的 22%，工程师们确认 Codex 提供的反馈会有所帮助——这比评估过的任何其他工具都要多。

由于这些拉取请求已经通过了代码审查，回放测试表明 Codex 发现了当时审阅者没有看到的风险，它是在补充人类判断，而不是取代它。

提供一致的高信号反馈

Datadog 的分析显示，Codex 持续标记那些仅凭当前差异 (diff) 不明显且无法通过确定性规则捕获的问题。

工程师们将 Codex 的评论描述为不仅仅是“机器人噪音”：

Codex 指出了差异中未触及的模块之间的交互
它识别了跨服务耦合区域中缺失的测试覆盖
它强调了带有下游风险的 API 合同变更

“对我来说，Codex 的评论感觉像是与我共事过的最聪明的工程师，他有无限的时间来查找错误。它能看到我的大脑无法同时处理的连接。”
—Brad Carter，Datadog 工程经理

将审查反馈与实际可靠性结果联系起来的能力是 Codex 在 Datadog 评估中脱颖而出的关键。与静态分析工具不同，Codex 将拉取请求的意图与提交的代码更改进行比较，对整个代码库和依赖项进行推理，以执行代码和测试来验证行为。

Carter 说：“它是第一个真正考虑了差异在程序整体上下文中的影响的工具。这既新颖又发人深省。”

对于许多工程师来说，这种转变改变了他们参与 AI 审查的方式。Datadog 高级软件工程师 Ted Wexler 说：“我开始将 Codex 的评论视为真正的代码审查反馈——不仅仅是略读或忽略的东西，而是值得关注的内容。”

将工程师的注意力从检测转移到设计

在评估之后，Datadog 将 Codex 更广泛地部署到其工程队伍中。如今，有超过 1,000 名工程师经常使用它。

反馈大多是通过非正式的内部工具指标体现的，工程师们会在 Slack 上分享有用的见解、建设性的评论，以及 Codex 帮助他们以不同方式思考问题的时刻。

尽管节省了大量时间，但团队一致认为，工作方式发生了更有意义的转变。

“Codex 改变了我对代码审查应有面貌的看法。它不是要复制我们最优秀的工程师。而是要发现人类在孤立审查变更时难以看到的关键缺陷和边缘情况。”
—Brad Carter，Datadog 工程经理

围绕风险而非速度重新定义代码审查

对 Datadog 而言，更广泛的影响在于代码审查本身的定义发生了变化。团队不再将审查视为一个检查错误或优化周期时间的关卡，而是将 Codex 视为一个合作伙伴核心可靠性系统：

发现超出个体审阅者所能保持的上下文范围的风险
突出跨模块和跨服务交互
提高大规模部署的信心
允许人类审阅者专注于架构和设计

这一转变与 Datadog 领导层对工程优先级的定位相一致，即可靠性和信任与速度同等重要，甚至更为重要。

Carter 说：“我们是当其他一切都出现故障时，公司所依赖的平台。防止事故能够加强客户对我们的信任。”

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

Datadog 使用 Codex 进行系统级代码审查

借助 Codex 将系统级上下文引入代码审查

针对真实事故验证 AI 审查

提供一致的高信号反馈

将工程师的注意力从检测转移到设计

围绕风险而非速度重新定义代码审查

评论区