将 PostgreSQL 扩展至支持 8 亿 ChatGPT 用户-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://openai.com/index/scaling-postgresql

原文作者：Bohan Zhang，技术团队成员

多年来，PostgreSQL 始终是支撑 ChatGPT 与 OpenAI API 等核心产品的关键底层数据系统。随着用户基数的迅猛增长，数据库面临的需求也呈指数级攀升。过去一年中，我们的 PostgreSQL 负载增长了逾 10 倍，且增势不减。

在不断升级生产基础设施以支持业务增长的过程中，我们有一项关键发现：PostgreSQL 支撑读密集型负载的潜力远超想象，其扩展能力比许多人预想的更为强大。这个最初由加州大学伯克利分校团队创建的系统，使我们能够凭借单个 Azure PostgreSQL 灵活服务器主实例⁠（在新窗口中打开），以及遍布全球多个区域的近 50 个只读副本，成功应对海量的全球流量。本文将讲述 OpenAI 技术团队如何通过严谨的优化和坚实的工程实践，将 PostgreSQL 扩展至每秒处理数百万次查询、服务 8 亿用户，并分享这一过程中积累的关键经验。

初始架构的隐忧

ChatGPT 发布后，流量以前所未有的速度激增。为此，我们在应用层与 PostgreSQL 数据库层快速实施了全面优化，既通过提升实例规格进行纵向扩展，也通过增加只读副本来横向扩展。这套架构在很长一段时间内都运行良好。持续的改进也为其未来的增长预留了充足空间。

单主架构竟能满足 OpenAI 的规模需求，或许令人意外，但其实际落地绝非易事。我们曾遭遇多次因 PostgreSQL 过载引发的严重事件（SEV），其模式往往相似：上游问题（如缓存层故障导致的大范围缓存穿透、消耗大量 CPU 的复杂多表连接查询激增，或新功能上线引发的“写入风暴”）导致数据库负载骤增。随着资源利用率攀升，查询延迟上升，请求开始超时。后续涌入的重试流量会进一步推高负载，这可能引发一个自我强化的恶性循环，最终导致 ChatGPT 与 API 服务性能严重劣化。

尽管 PostgreSQL 对我们的读密集型工作负载扩展性良好，但在高写入流量期间，我们仍面临挑战。这很大程度上源于 PostgreSQL 的多版本并发控制（MVCC）实现机制，使其在处理写入密集型负载时效率较低。例如，当一个查询更新一个元组甚至单个字段时，整行数据都会被复制以创建新版本。在高写入负载下，这会导致显著的写入放大。同时，由于查询必须扫描多个元组版本（死元组）以获取最新数据，这也增加了读取放大。MVCC 还带来了表与索引膨胀、索引维护开销增加以及自动清理调优复杂等额外挑战。（关于这些问题的深入探讨，可参考我与卡内基梅隆大学 Andy Pavlo 教授合著的博客《我们最讨厌的 PostgreSQL 部分》⁠（在新窗口中打开），该文已被 PostgreSQL 维基百科页面引用⁠（在新窗口中打开）が通販できます。）

将 PostgreSQL 扩展至每秒数百万次查询

为缓解上述限制、减轻写入压力，我们已经并将继续把可分片的写入密集型工作负载（即可水平分区的工作负载）迁移至 Azure Cosmos DB 等分片系统，并优化应用逻辑以尽可能减少不必要的写入。同时，我们也不再允许在当前的 PostgreSQL 部署中添加新表。新的工作负载默认使用分片系统。

即便基础设施持续演进，PostgreSQL 仍保持未分片状态，由单个主实例处理所有写入。主要考量在于，对现有应用工作负载进行分片将极其复杂且耗时，需修改数百个应用端点，可能耗费数月甚至数年。鉴于我们的工作负载以读为主，且已实施大量优化，当前架构仍有充足余量支持流量持续增长。虽然不排除未来对 PostgreSQL 进行分片的可能性，但考虑到当前及未来的增长空间充裕，这并非近期优先事项。

下文将深入探讨我们面临的挑战，以及为防止未来服务中断、将 PostgreSQL 推向极限并扩展至每秒数百万次查询（QPS）所实施的一系列深度优化。

速率限制

挑战：特定端点的突发流量、高开销查询激增或重试风暴，都可能迅速耗尽 CPU、I/O 和连接等关键资源，引发大面积服务降级。

解决方案：我们在应用层、连接池、代理和查询层实施了多层速率限制，以防止突发流量压垮数据库实例并引发级联故障。同样关键的是避免过短的重试间隔，以防触发重试风暴。我们还增强了 ORM 层，以支持速率限制，并在必要时完全阻断特定查询摘要。这种有针对性的负载卸载能力，使我们能从高开销查询的突然激增中快速恢复。

模式管理

挑战：即便是很小的模式变更（例如更改列类型），也可能触发全表重写⁠（在新窗口中打开）。因此，我们对模式变更格外谨慎，仅限执行轻量级操作，避免任何会导致全表重写的改动。

解决方案：仅允许进行轻量级的模式变更，例如添加或删除某些不会触发全表重写的列。我们严格执行 5 秒超时限制。允许并发创建和删除索引。模式变更仅限于现有表。若新功能需要新增表，则必须创建在 Azure Cosmos DB 等替代分片系统中，而非 PostgreSQL。在回填表字段时，我们会应用严格的速率限制，以防止写入峰值。尽管此过程有时可能超过一周，但它确保了稳定性，避免了任何生产影响。

成果与未来展望

本次实践表明，凭借恰当的设计与优化，Azure PostgreSQL 完全能够扩展以应对超大规模的生产负载。如今，PostgreSQL 每秒为读密集型工作负载处理数百万次查询，支撑着 ChatGPT 和 API 平台等 OpenAI 的核心产品。我们成功增添了近 50 个读副本，同时将复制延迟维持在趋近于零，保障了跨地理分布区域的低延迟读取，并构建了足以支撑未来增长的充足容量空间。

这一切扩展是在持续优化延迟与提升可靠性下实现的。我们在生产环境中持续交付低两位数毫秒的 P99 客户端延迟与 99.999%（五个九）的可用性。在过去 12 个月中，我们仅发生过一次 SEV-0 级别的 PostgreSQL 事件（发生在 ChatGPT ImageGen 病毒式发布⁠（在新窗口中打开）期间，一周内超过 1 亿新用户注册，导致写入流量骤增 10 倍以上）。

虽然我们对 PostgreSQL 已取得的成就感到满意，但我们仍在不断挑战其极限，以确保为未来增长留有足够空间。我们已经将可分片的写入密集型工作负载迁移至 Cosmos DB 等分片系统。剩余的写入密集型负载更难分片 — 我们也在积极迁移这些负载，以进一步减轻 PostgreSQL 主库的写入压力。我们也在与 Azure 合作启用级联复制，以便能够安全地扩展到更多的读副本。

展望未来，随着基础设施需求的持续增长，我们将继续探索包括 PostgreSQL 分片或替代性分布式系统在内的更多扩展途径。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

将 PostgreSQL 扩展至支持 8 亿 ChatGPT 用户

初始架构的隐忧

将 PostgreSQL 扩展至每秒数百万次查询

为主库负载减负

查询优化

缓解单点故障

工作负载隔离

连接池

缓存

扩展只读副本

速率限制

模式管理

成果与未来展望

评论区