📢 转载信息
原文作者:Russell Brandom
自 2024 年以来,Anthropic 的性能优化团队一直在向求职者提供一份居家测试,以确保他们真正了解技术内容。但是,随着 AI 编程工具的不断改进,该测试不得不进行大量修改,以防止出现 AI 辅助的作弊行为。
团队负责人 Tristan Hume 在周三的一篇博客文章中描述了这项挑战的历史。Hume 写道:”每一个新的 Claude 模型都迫使我们重新设计测试。”他继续说:”在相同的时间限制下,Claude Opus 4 的表现超过了大多数人类应聘者。这仍然使我们能够区分出最优秀的候选人——但随后,Claude Opus 4.5 追平了这些人。”
结果是出现了一个严峻的候选人评估问题。如果没有当面监考,就无法确保某人不会使用 AI 来作弊——如果他们作弊了,他们将很快脱颖而出。Hume 写道:”在居家测试的限制下,我们再也无法区分出我们顶尖候选人的输出和我们最强大的模型的输出。”
AI 作弊问题已经在世界各地的学校和大学中 掀起波澜,而 AI 实验室本身也面临这一问题,这真是具有讽刺意味。但 Anthropic 也具备处理此问题的独特优势。
最终,Hume 设计了一个与硬件优化关系较小的新测试,使其具有足够的 新颖性,足以让当前的 AI 工具感到困惑。但作为该文章的一部分,他分享了原始测试,看看是否有读者能想出更好的解决方案。
文章中写道:”如果你能胜过 Opus 4.5,”我们非常希望能听到你的想法。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区