目 录CONTENT

文章目录

我让ChatGPT、Claude和DeepSeek来构建俄罗斯方块

Administrator
2026-01-06 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.kdnuggets.com/i-asked-gpt-claude-and-deepseek-to-build-tetris

原文作者:Natassha Selvaraj


I Asked ChatGPT, Claude and DeepSeek to Build Tetris
图片来源:作者

 

引言

 
似乎每周都有一个新的模型声称自己是最先进的,在所有基准测试中都超越了现有的AI模型。

在我的全职工作中,我通常能在新模型发布后的几周内获得免费访问权限。我通常不太关注炒作,只是使用系统自动选择的模型。

然而,我认识一些开发者和朋友,他们希望利用AI构建可以投入生产的软件。由于这些项目是自筹资金的,他们的挑战在于找到能完成这项工作的最佳模型。他们希望在成本和可靠性之间取得平衡。

因此,在GPT-5.2发布后,我决定进行一次实际测试,以了解这个模型是否名副其实,以及它是否真的优于竞争对手。

具体来说,我选择了每个提供商的旗舰模型进行测试:Claude Opus 4.5(Anthropic能力最强的模型)、GPT-5.2 Pro(OpenAI最新的扩展推理模型)和DeepSeek V3.2(最新的开源替代方案之一)。

为了考验这些模型,我选择用单个提示词让它们构建一个可玩的俄罗斯方块游戏。

我使用以下指标来评估每个模型的成功程度:

 

标准 描述
首次尝试成功率 仅使用一个提示词,模型是否能交付可用的代码?多次调试迭代会导致长期成本增加,因此选择了此指标。
功能完整性 模型是否构建了提示中提及的所有功能,还是遗漏了某些内容?
可玩性 除了技术实现之外,游戏是否顺畅易玩?还是存在影响用户体验的摩擦点?
成本效益 获得可投入生产的代码花费了多少成本?

提示词

 
这是我输入到每个AI模型中的提示词:

构建一个完全功能的俄罗斯方块游戏,以单个HTML文件的形式呈现,我可以直接在浏览器中打开。

要求:

游戏机制:
- 所有7种俄罗斯方块类型
- 带有墙体碰撞检测的平滑落块旋转
- 方块应自动下落,随着用户得分的增加,速度应逐渐加快
- 带视觉动画的消除行功能
- “下一个方块”预览框
- 方块堆到顶部时游戏结束检测

控制:
- 方向键:左右移动,下键加速下落,上键旋转
- 移动设备触摸控制:向左/右滑动移动,向下滑动加速下落,点击旋转
- 空格键暂停/恢复
- Enter键在游戏结束后重新开始

视觉设计:
- 每种方块类型采用渐变色
- 方块移动和行消除时有平滑动画
- 带有圆角的干净UI
- 实时更新分数
- 等级指示器
- 带有最终分数和重新开始按钮的游戏结束屏幕

游戏体验和优化:
- 流畅的60fps游戏体验
- 行消除时有粒子效果(可选但令人印象深刻)
- 根据同时消除的行数增加分数
- 网格背景
- 响应式设计

使游戏在视觉上精致且玩起来令人满意。代码应清晰且组织良好。



结果

 

1. Claude Opus 4.5

Opus 4.5 模型构建了我所要求的一切。

UI干净整洁,屏幕上清晰地显示了说明。所有控制都响应灵敏,游戏也很有趣。

游戏过程如此顺畅,我实际上花了不少时间玩,以至于测试其他模型时分心了。

而且,Opus 4.5在不到2分钟内就为我提供了这个可玩的游戏,这让我在第一次尝试时就印象深刻。

 

Tetris Gameplay Screen by Claude
Opus 4.5 构建的俄罗斯方块游戏

 

2. GPT-5.2 Pro

GPT-5.2 Pro是OpenAI最新推出的具有扩展推理能力的模型。作为参考,GPT-5.2有三个层级:Instant、Thinking和Pro。在撰写本文时,GPT-5.2 Pro是他们最智能的模型,提供扩展的思考和推理能力。

它的成本是Opus 4.5的4倍。

这款模型有很高的关注度,这让我的期望值很高。

不幸的是,该模型生成的游戏让我大失所望。

在第一次尝试时,GPT-5.2 Pro生成的俄罗斯方块游戏存在布局错误。游戏底部几行超出了视口范围,我看不到方块落下的位置。

这使得游戏无法玩,如下图所示:

 

Tetris game built by GPT-5.2
GPT-5.2 构建的俄罗斯方块游戏

 

我对此感到特别惊讶,因为模型花了大约6分钟才生成这段代码。

我决定使用以下后续提示词再次尝试修复视口问题:

游戏可以运行,但有一个错误。俄罗斯方块棋盘的底部几行被截断在屏幕底部。我看不见方块落下,并且画布超出了可见视口。

请通过以下方式修复:
1. 确保整个游戏板适应视口
2. 添加适当的居中,使整个棋盘可见

游戏应该适应屏幕,所有行都可见。

 

在后续提示后,GPT-5.2 Pro生成了一个功能性游戏,如下面的截图所示:

 

Tetris Second Try by GPT-5.2
GPT-5.2 的第二次尝试

 

然而,游戏体验不如Opus 4.5模型流畅。

当我按下“下”箭头让方块下落时,下一个方块有时会以很高的速度瞬间坠落,没有给我足够的时间来思考如何定位它。

最终,游戏只有在让每个方块自动下落时才能玩,这不是最佳体验。

(注意:我也尝试了GPT-5.2 Standard模型,它在第一次尝试时也生成了类似的错误代码。)

 

3. DeepSeek V3.2

DeepSeek第一次尝试构建此游戏时有两个问题:

  • 方块在到达屏幕底部时开始消失。
  • 用于加速方块下落的“下”箭头键滚动了整个网页,而不是只移动游戏方块。

 

Tetris game built by DeepSeek V3.2
DeepSeek V3.2 构建的俄罗斯方块游戏

 

我对模型进行了重新提示以修复此问题,游戏控制最终可以正常工作。

然而,有些方块在着陆前仍然消失了。这使得游戏即使在第二次迭代后也完全无法玩。

我确信这个问题可以通过2到3次额外的提示修复,考虑到DeepSeek的低廉价格,即使需要10多次调试轮次,您花费的费用仍将少于一次成功的Opus 4.5尝试。

 

总结:GPT-5.2 vs Opus 4.5 vs DeepSeek 3.2

 

成本细分

以下是三种模型之间的成本比较:
 

模型 输入(每100万Token) 输出(每100万Token)
DeepSeek V3.2 $0.27 $1.10
GPT-5.2 $1.75 $14.00
Claude Opus 4.5 $5.00 $25.00
GPT-5.2 Pro $21.00 $84.00

 

DeepSeek V3.2是最便宜的替代方案,您也可以免费下载该模型的权重并在自己的基础设施上运行它。

GPT-5.2比DeepSeek V3.2贵近7倍,随后是Opus 4.5和GPT-5.2 Pro。

对于这项特定任务(构建俄罗斯方块游戏),我们消耗了大约1,000个输入Token和3,500个输出Token。

对于每次额外迭代,我们将估算每轮额外增加1,500个Token。以下是每种模型的总成本:

 

模型 总成本 结果
DeepSeek V3.2 约 $0.005 游戏不可玩
GPT-5.2 约 $0.07 可玩,但用户体验不佳
Claude Opus 4.5 约 $0.09 可玩且用户体验良好
GPT-5.2 Pro 约 $0.41 可玩,但用户体验不佳

 

收获

 
根据我构建这款游戏的经验,在日常的编码任务中,我更倾向于使用Opus 4.5模型

尽管GPT-5.2比Opus 4.5便宜,但我个人不会用它来编程,因为要得到相同的结果所需的迭代次数很可能会花费相同的金钱。

然而,DeepSeek V3.2比列表中的其他模型便宜得多。

如果您是一位预算有限的开发者,并且有时间进行调试,即使需要超过10次尝试才能获得可用的代码,您最终仍然可以省钱。

我对GPT 5.2 Pro在第一次尝试时就无法生成工作游戏感到惊讶,因为它在得出有缺陷的代码之前思考了大约6分钟。毕竟,这是OpenAI的旗舰模型,而俄罗斯方块应该是一个相对简单的任务。

然而,GPT-5.2 Pro的优势在于数学和科学研究领域,它专门针对那些不依赖训练数据中的模式识别的问题。也许这个模型对于简单的日常编码任务来说有些“过度工程化”,而应该更多地用于构建复杂且需要新颖架构的东西。

这次实验的实际收获是:

  • Opus 4.5在日常编码任务中表现最佳。
  • DeepSeek V3.2是一个预算友好的替代方案,可以提供合理的结果,尽管需要一些调试工作才能达到您期望的结果。
  • GPT-5.2(Standard)的表现不如Opus 4.5,而GPT-5.2(Pro)可能更适合复杂的推理任务,而不是像这样的快速编码任务。

欢迎使用我分享的提示词来复制此测试,祝您编码愉快!
 
 

Natassha Selvaraj 是一位自学成才的数据科学家,对写作充满热情。Natassha撰写有关所有数据科学相关主题的内容,是所有数据主题的真正专家。您可以在 LinkedIn 上与她联系或查看她的 YouTube 频道

0

评论区