📢 转载信息
原文链接:https://www.kdnuggets.com/i-asked-gpt-claude-and-deepseek-to-build-tetris
原文作者:Natassha Selvaraj
图片来源:作者
引言
似乎每周都有一个新的模型声称自己是最先进的,在所有基准测试中都超越了现有的AI模型。
在我的全职工作中,我通常能在新模型发布后的几周内获得免费访问权限。我通常不太关注炒作,只是使用系统自动选择的模型。
然而,我认识一些开发者和朋友,他们希望利用AI构建可以投入生产的软件。由于这些项目是自筹资金的,他们的挑战在于找到能完成这项工作的最佳模型。他们希望在成本和可靠性之间取得平衡。
因此,在GPT-5.2发布后,我决定进行一次实际测试,以了解这个模型是否名副其实,以及它是否真的优于竞争对手。
具体来说,我选择了每个提供商的旗舰模型进行测试:Claude Opus 4.5(Anthropic能力最强的模型)、GPT-5.2 Pro(OpenAI最新的扩展推理模型)和DeepSeek V3.2(最新的开源替代方案之一)。
为了考验这些模型,我选择用单个提示词让它们构建一个可玩的俄罗斯方块游戏。
我使用以下指标来评估每个模型的成功程度:
| 标准 | 描述 |
|---|---|
| 首次尝试成功率 | 仅使用一个提示词,模型是否能交付可用的代码?多次调试迭代会导致长期成本增加,因此选择了此指标。 |
| 功能完整性 | 模型是否构建了提示中提及的所有功能,还是遗漏了某些内容? |
| 可玩性 | 除了技术实现之外,游戏是否顺畅易玩?还是存在影响用户体验的摩擦点? |
| 成本效益 | 获得可投入生产的代码花费了多少成本? |
提示词
这是我输入到每个AI模型中的提示词:
构建一个完全功能的俄罗斯方块游戏,以单个HTML文件的形式呈现,我可以直接在浏览器中打开。
要求:
游戏机制:
- 所有7种俄罗斯方块类型
- 带有墙体碰撞检测的平滑落块旋转
- 方块应自动下落,随着用户得分的增加,速度应逐渐加快
- 带视觉动画的消除行功能
- “下一个方块”预览框
- 方块堆到顶部时游戏结束检测控制:
- 方向键:左右移动,下键加速下落,上键旋转
- 移动设备触摸控制:向左/右滑动移动,向下滑动加速下落,点击旋转
- 空格键暂停/恢复
- Enter键在游戏结束后重新开始视觉设计:
- 每种方块类型采用渐变色
- 方块移动和行消除时有平滑动画
- 带有圆角的干净UI
- 实时更新分数
- 等级指示器
- 带有最终分数和重新开始按钮的游戏结束屏幕游戏体验和优化:
- 流畅的60fps游戏体验
- 行消除时有粒子效果(可选但令人印象深刻)
- 根据同时消除的行数增加分数
- 网格背景
- 响应式设计使游戏在视觉上精致且玩起来令人满意。代码应清晰且组织良好。
结果
1. Claude Opus 4.5
Opus 4.5 模型构建了我所要求的一切。
UI干净整洁,屏幕上清晰地显示了说明。所有控制都响应灵敏,游戏也很有趣。
游戏过程如此顺畅,我实际上花了不少时间玩,以至于测试其他模型时分心了。
而且,Opus 4.5在不到2分钟内就为我提供了这个可玩的游戏,这让我在第一次尝试时就印象深刻。
Opus 4.5 构建的俄罗斯方块游戏
2. GPT-5.2 Pro
GPT-5.2 Pro是OpenAI最新推出的具有扩展推理能力的模型。作为参考,GPT-5.2有三个层级:Instant、Thinking和Pro。在撰写本文时,GPT-5.2 Pro是他们最智能的模型,提供扩展的思考和推理能力。
它的成本是Opus 4.5的4倍。
这款模型有很高的关注度,这让我的期望值很高。
不幸的是,该模型生成的游戏让我大失所望。
在第一次尝试时,GPT-5.2 Pro生成的俄罗斯方块游戏存在布局错误。游戏底部几行超出了视口范围,我看不到方块落下的位置。
这使得游戏无法玩,如下图所示:
GPT-5.2 构建的俄罗斯方块游戏
我对此感到特别惊讶,因为模型花了大约6分钟才生成这段代码。
我决定使用以下后续提示词再次尝试修复视口问题:
游戏可以运行,但有一个错误。俄罗斯方块棋盘的底部几行被截断在屏幕底部。我看不见方块落下,并且画布超出了可见视口。
请通过以下方式修复:
1. 确保整个游戏板适应视口
2. 添加适当的居中,使整个棋盘可见游戏应该适应屏幕,所有行都可见。
在后续提示后,GPT-5.2 Pro生成了一个功能性游戏,如下面的截图所示:
GPT-5.2 的第二次尝试
然而,游戏体验不如Opus 4.5模型流畅。
当我按下“下”箭头让方块下落时,下一个方块有时会以很高的速度瞬间坠落,没有给我足够的时间来思考如何定位它。
最终,游戏只有在让每个方块自动下落时才能玩,这不是最佳体验。
(注意:我也尝试了GPT-5.2 Standard模型,它在第一次尝试时也生成了类似的错误代码。)
3. DeepSeek V3.2
DeepSeek第一次尝试构建此游戏时有两个问题:
- 方块在到达屏幕底部时开始消失。
- 用于加速方块下落的“下”箭头键滚动了整个网页,而不是只移动游戏方块。
DeepSeek V3.2 构建的俄罗斯方块游戏
我对模型进行了重新提示以修复此问题,游戏控制最终可以正常工作。
然而,有些方块在着陆前仍然消失了。这使得游戏即使在第二次迭代后也完全无法玩。
我确信这个问题可以通过2到3次额外的提示修复,考虑到DeepSeek的低廉价格,即使需要10多次调试轮次,您花费的费用仍将少于一次成功的Opus 4.5尝试。
总结:GPT-5.2 vs Opus 4.5 vs DeepSeek 3.2
成本细分
以下是三种模型之间的成本比较:
| 模型 | 输入(每100万Token) | 输出(每100万Token) |
|---|---|---|
| DeepSeek V3.2 | $0.27 | $1.10 |
| GPT-5.2 | $1.75 | $14.00 |
| Claude Opus 4.5 | $5.00 | $25.00 |
| GPT-5.2 Pro | $21.00 | $84.00 |
DeepSeek V3.2是最便宜的替代方案,您也可以免费下载该模型的权重并在自己的基础设施上运行它。
GPT-5.2比DeepSeek V3.2贵近7倍,随后是Opus 4.5和GPT-5.2 Pro。
对于这项特定任务(构建俄罗斯方块游戏),我们消耗了大约1,000个输入Token和3,500个输出Token。
对于每次额外迭代,我们将估算每轮额外增加1,500个Token。以下是每种模型的总成本:
| 模型 | 总成本 | 结果 |
|---|---|---|
| DeepSeek V3.2 | 约 $0.005 | 游戏不可玩 |
| GPT-5.2 | 约 $0.07 | 可玩,但用户体验不佳 |
| Claude Opus 4.5 | 约 $0.09 | 可玩且用户体验良好 |
| GPT-5.2 Pro | 约 $0.41 | 可玩,但用户体验不佳 |
收获
根据我构建这款游戏的经验,在日常的编码任务中,我更倾向于使用Opus 4.5模型。
尽管GPT-5.2比Opus 4.5便宜,但我个人不会用它来编程,因为要得到相同的结果所需的迭代次数很可能会花费相同的金钱。
然而,DeepSeek V3.2比列表中的其他模型便宜得多。
如果您是一位预算有限的开发者,并且有时间进行调试,即使需要超过10次尝试才能获得可用的代码,您最终仍然可以省钱。
我对GPT 5.2 Pro在第一次尝试时就无法生成工作游戏感到惊讶,因为它在得出有缺陷的代码之前思考了大约6分钟。毕竟,这是OpenAI的旗舰模型,而俄罗斯方块应该是一个相对简单的任务。
然而,GPT-5.2 Pro的优势在于数学和科学研究领域,它专门针对那些不依赖训练数据中的模式识别的问题。也许这个模型对于简单的日常编码任务来说有些“过度工程化”,而应该更多地用于构建复杂且需要新颖架构的东西。
这次实验的实际收获是:
- Opus 4.5在日常编码任务中表现最佳。
- DeepSeek V3.2是一个预算友好的替代方案,可以提供合理的结果,尽管需要一些调试工作才能达到您期望的结果。
- GPT-5.2(Standard)的表现不如Opus 4.5,而GPT-5.2(Pro)可能更适合复杂的推理任务,而不是像这样的快速编码任务。
欢迎使用我分享的提示词来复制此测试,祝您编码愉快!
Natassha Selvaraj 是一位自学成才的数据科学家,对写作充满热情。Natassha撰写有关所有数据科学相关主题的内容,是所有数据主题的真正专家。您可以在 LinkedIn 上与她联系或查看她的 YouTube 频道。
评论区