我让ChatGPT、Claude和DeepSeek来构建俄罗斯方块-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.kdnuggets.com/i-asked-gpt-claude-and-deepseek-to-build-tetris

原文作者：Natassha Selvaraj

I Asked ChatGPT, Claude and DeepSeek to Build Tetris

图片来源：作者

引言

似乎每周都有一个新的模型声称自己是最先进的，在所有基准测试中都超越了现有的AI模型。

在我的全职工作中，我通常能在新模型发布后的几周内获得免费访问权限。我通常不太关注炒作，只是使用系统自动选择的模型。

然而，我认识一些开发者和朋友，他们希望利用AI构建可以投入生产的软件。由于这些项目是自筹资金的，他们的挑战在于找到能完成这项工作的最佳模型。他们希望在成本和可靠性之间取得平衡。

因此，在GPT-5.2发布后，我决定进行一次实际测试，以了解这个模型是否名副其实，以及它是否真的优于竞争对手。

具体来说，我选择了每个提供商的旗舰模型进行测试：Claude Opus 4.5（Anthropic能力最强的模型）、GPT-5.2 Pro（OpenAI最新的扩展推理模型）和DeepSeek V3.2（最新的开源替代方案之一）。

为了考验这些模型，我选择用单个提示词让它们构建一个可玩的俄罗斯方块游戏。

我使用以下指标来评估每个模型的成功程度：

标准	描述
首次尝试成功率	仅使用一个提示词，模型是否能交付可用的代码？多次调试迭代会导致长期成本增加，因此选择了此指标。
功能完整性	模型是否构建了提示中提及的所有功能，还是遗漏了某些内容？
可玩性	除了技术实现之外，游戏是否顺畅易玩？还是存在影响用户体验的摩擦点？
成本效益	获得可投入生产的代码花费了多少成本？

提示词

这是我输入到每个AI模型中的提示词：

构建一个完全功能的俄罗斯方块游戏，以单个HTML文件的形式呈现，我可以直接在浏览器中打开。

要求：

游戏机制：
- 所有7种俄罗斯方块类型
- 带有墙体碰撞检测的平滑落块旋转
- 方块应自动下落，随着用户得分的增加，速度应逐渐加快
- 带视觉动画的消除行功能
- “下一个方块”预览框
- 方块堆到顶部时游戏结束检测

控制：
- 方向键：左右移动，下键加速下落，上键旋转
- 移动设备触摸控制：向左/右滑动移动，向下滑动加速下落，点击旋转
- 空格键暂停/恢复
- Enter键在游戏结束后重新开始

视觉设计：
- 每种方块类型采用渐变色
- 方块移动和行消除时有平滑动画
- 带有圆角的干净UI
- 实时更新分数
- 等级指示器
- 带有最终分数和重新开始按钮的游戏结束屏幕

游戏体验和优化：
- 流畅的60fps游戏体验
- 行消除时有粒子效果（可选但令人印象深刻）
- 根据同时消除的行数增加分数
- 网格背景
- 响应式设计

使游戏在视觉上精致且玩起来令人满意。代码应清晰且组织良好。

结果

1. Claude Opus 4.5

Opus 4.5 模型构建了我所要求的一切。

UI干净整洁，屏幕上清晰地显示了说明。所有控制都响应灵敏，游戏也很有趣。

游戏过程如此顺畅，我实际上花了不少时间玩，以至于测试其他模型时分心了。

而且，Opus 4.5在不到2分钟内就为我提供了这个可玩的游戏，这让我在第一次尝试时就印象深刻。

Opus 4.5 构建的俄罗斯方块游戏

2. GPT-5.2 Pro

GPT-5.2 Pro是OpenAI最新推出的具有扩展推理能力的模型。作为参考，GPT-5.2有三个层级：Instant、Thinking和Pro。在撰写本文时，GPT-5.2 Pro是他们最智能的模型，提供扩展的思考和推理能力。

它的成本是Opus 4.5的4倍。

这款模型有很高的关注度，这让我的期望值很高。

不幸的是，该模型生成的游戏让我大失所望。

在第一次尝试时，GPT-5.2 Pro生成的俄罗斯方块游戏存在布局错误。游戏底部几行超出了视口范围，我看不到方块落下的位置。

这使得游戏无法玩，如下图所示：

GPT-5.2 构建的俄罗斯方块游戏

我对此感到特别惊讶，因为模型花了大约6分钟才生成这段代码。

我决定使用以下后续提示词再次尝试修复视口问题：

游戏可以运行，但有一个错误。俄罗斯方块棋盘的底部几行被截断在屏幕底部。我看不见方块落下，并且画布超出了可见视口。

请通过以下方式修复：
1. 确保整个游戏板适应视口
2. 添加适当的居中，使整个棋盘可见

游戏应该适应屏幕，所有行都可见。

在后续提示后，GPT-5.2 Pro生成了一个功能性游戏，如下面的截图所示：

GPT-5.2 的第二次尝试

然而，游戏体验不如Opus 4.5模型流畅。

当我按下“下”箭头让方块下落时，下一个方块有时会以很高的速度瞬间坠落，没有给我足够的时间来思考如何定位它。

最终，游戏只有在让每个方块自动下落时才能玩，这不是最佳体验。

（注意：我也尝试了GPT-5.2 Standard模型，它在第一次尝试时也生成了类似的错误代码。）

3. DeepSeek V3.2

DeepSeek第一次尝试构建此游戏时有两个问题：

方块在到达屏幕底部时开始消失。
用于加速方块下落的“下”箭头键滚动了整个网页，而不是只移动游戏方块。

DeepSeek V3.2 构建的俄罗斯方块游戏

我对模型进行了重新提示以修复此问题，游戏控制最终可以正常工作。

然而，有些方块在着陆前仍然消失了。这使得游戏即使在第二次迭代后也完全无法玩。

我确信这个问题可以通过2到3次额外的提示修复，考虑到DeepSeek的低廉价格，即使需要10多次调试轮次，您花费的费用仍将少于一次成功的Opus 4.5尝试。

总结：GPT-5.2 vs Opus 4.5 vs DeepSeek 3.2

成本细分

以下是三种模型之间的成本比较：

模型	输入（每100万Token）	输出（每100万Token）
DeepSeek V3.2	$0.27	$1.10
GPT-5.2	$1.75	$14.00
Claude Opus 4.5	$5.00	$25.00
GPT-5.2 Pro	$21.00	$84.00

DeepSeek V3.2是最便宜的替代方案，您也可以免费下载该模型的权重并在自己的基础设施上运行它。

GPT-5.2比DeepSeek V3.2贵近7倍，随后是Opus 4.5和GPT-5.2 Pro。

对于这项特定任务（构建俄罗斯方块游戏），我们消耗了大约1,000个输入Token和3,500个输出Token。

对于每次额外迭代，我们将估算每轮额外增加1,500个Token。以下是每种模型的总成本：

模型	总成本	结果
DeepSeek V3.2	约 $0.005	游戏不可玩
GPT-5.2	约 $0.07	可玩，但用户体验不佳
Claude Opus 4.5	约 $0.09	可玩且用户体验良好
GPT-5.2 Pro	约 $0.41	可玩，但用户体验不佳

收获

根据我构建这款游戏的经验，在日常的编码任务中，我更倾向于使用Opus 4.5模型。

尽管GPT-5.2比Opus 4.5便宜，但我个人不会用它来编程，因为要得到相同的结果所需的迭代次数很可能会花费相同的金钱。

然而，DeepSeek V3.2比列表中的其他模型便宜得多。

如果您是一位预算有限的开发者，并且有时间进行调试，即使需要超过10次尝试才能获得可用的代码，您最终仍然可以省钱。

我对GPT 5.2 Pro在第一次尝试时就无法生成工作游戏感到惊讶，因为它在得出有缺陷的代码之前思考了大约6分钟。毕竟，这是OpenAI的旗舰模型，而俄罗斯方块应该是一个相对简单的任务。

然而，GPT-5.2 Pro的优势在于数学和科学研究领域，它专门针对那些不依赖训练数据中的模式识别的问题。也许这个模型对于简单的日常编码任务来说有些“过度工程化”，而应该更多地用于构建复杂且需要新颖架构的东西。

这次实验的实际收获是：

Opus 4.5在日常编码任务中表现最佳。
DeepSeek V3.2是一个预算友好的替代方案，可以提供合理的结果，尽管需要一些调试工作才能达到您期望的结果。
GPT-5.2（Standard）的表现不如Opus 4.5，而GPT-5.2（Pro）可能更适合复杂的推理任务，而不是像这样的快速编码任务。

欢迎使用我分享的提示词来复制此测试，祝您编码愉快！

Natassha Selvaraj 是一位自学成才的数据科学家，对写作充满热情。Natassha撰写有关所有数据科学相关主题的内容，是所有数据主题的真正专家。您可以在 LinkedIn 上与她联系或查看她的 YouTube 频道。

目录CONTENT

我让ChatGPT、Claude和DeepSeek来构建俄罗斯方块

引言

提示词

结果

1. Claude Opus 4.5

2. GPT-5.2 Pro

3. DeepSeek V3.2

总结：GPT-5.2 vs Opus 4.5 vs DeepSeek 3.2

成本细分

收获

评论区