📢 转载信息
原文作者:Russell Brandom
不同的人工智能实验室有不同的优先事项。例如,OpenAI 传统上侧重于面向消费者用户,而其竞争对手 Anthropic 则倾向于面向企业。我们最近发现,埃隆·马斯克的 xAI 一直特别强调视频游戏攻略。
周五,Business Insider 的 Grace Kay 发表了一篇关于 xAI 的详细且影响深远的报道,这家 AI 初创公司最近被 SpaceX 收购,其中特别强调了马斯克是如何让员工的日子变得艰难。但这个轶事尤其引人注目:
据知情人士透露,去年有一次模型发布推迟了好几天,因为马斯克对聊天机器人如何回答关于电子游戏《博德之门》(Baldur's Gate)的详细问题感到不满意。他们说,高水平的工程师从其他项目中抽调出来,负责在发布前改进这些回答。
当然,你可以想象任何受人尊敬且经验丰富的工程师的心情:他们本以为自己会去解决知识和机器智能的根本问题,结果却不得不帮助一个 54 岁的人通关他的电子游戏。但这则轶事提出了一个更紧迫的问题:马斯克最终是否获得了他想要的游戏技巧?
为了回答这个问题,我们这里的角色扮演游戏(RPG)爱好者 Ram Iyer 准备了一套关于《博德之门》的五个通用问题,我们在 xAI 以及三大主要模型上进行了测试,这是一种我称之为“BaldurBench”的准基准测试。
本着新闻透明的原则,我将所有聊天记录公开,您可以在此处查看:Grok、ChatGPT、Claude 和 Gemini。
首先,好消息是:Grok 确实提供了相当不错的信息。它的回答在“玩家术语”方面有点密集——用“save-scumming”(指通过不断读档来获得最佳结果)代替“保存”和用“DPS”(每秒伤害)代替“伤害”——但只要你明白它在说什么,这些答案就既有用又见多识广。Grok 也非常喜欢表格和 理论计算(theorycraft),这大概是你可以预期的。
市面上有大量的《博德之门》攻略,这些模型通常都参考了相同的资料,所以最大的区别在于风格。ChatGPT 倾向于使用项目符号列表和不完整的句子,而 Gemini 则喜欢将重要词语加粗。
最大的惊喜是 Claude,它特别关注于不剧透我的游戏体验。当我询问好的队伍组成时,它在指导的最后加上了一句:“别太担心,玩你觉得有趣的角色组合就好。” 谢谢你,Claude!
需要记住的是,根据Business Insider 的报道,这是一个 xAI 明确专注于实现平齐(parity)的领域。因此,我们不应该过度解读这样一个事实:在所谓的“冲刺”之后,Grok 的建议与其他模型的结果差不多。不过,很高兴知道 xAI 如果努力,还是能把它做好。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区