📢 转载信息
原文作者:Angela Aristidou
几十年来,人工智能一直通过一个核心标准来评估:机器是否超越了人类。从国际象棋到高等数学,从代码编写到文章写作,AI 模型和应用的表现始终是在与人类完成任务的能力进行对比。这种框架极具吸引力:在有明确对错的孤立问题上进行 AI 与人类的对比,非常容易标准化、比较和优化。它能生成排行榜,也能博得媒体头条。
但问题在于:AI 在实际应用中的使用方式,几乎从不符合基准测试的设定。虽然研究人员和业界已开始通过超越静态测试,转向更动态的评估方法来改善基准测试,但这些创新只解决了一部分问题。因为它们依然是在人类团队和组织工作流之外评估 AI 的表现,而 AI 的真实效能恰恰是在这些复杂的环境中发挥出来的。
为何 AI 表现常与测试结果脱节?
虽然 AI 在真空中进行任务级别的评估,但它实际是在混乱、复杂且通常涉及多人交互的环境中使用的。其性能(或不足之处)往往要在长时间使用后才会显现。这种错位导致我们对 AI 的能力产生误解,忽略了系统性风险,并误判了其经济和社会后果。
为了缓解这一问题,我们需要将视角从狭隘的方法转向能够评估 AI 如何在团队、工作流和组织中长期运作的基准测试。我将这种新方法称为 HAIC 基准测试——即“人机协作、情境化评估”(Human–AI, Context-Specific Evaluation)。
构建更好的测试
要缩小基准测试与现实表现之间的差距,我们必须关注 AI 模型实际使用的环境。关键问题在于:AI 能否作为团队中高效的参与者?它能否产生持久的共同价值?HAIC 基准测试从以下四个维度重构了当前的评估体系:
- 分析单位的变化:从个人和单一任务的表现,转向团队和工作流的表现。
- 时间跨度的拓展:从有标准答案的一次性测试,转向考察长期影响。
- 衡量标准的深化:从单纯的正误和速度,转向组织成果、协作质量及错误可检测性。
- 系统效应:从孤立的输出结果,转向评估上游和下游的连锁后果。
这种转变是根本性的。在高风险环境中,系统层面的影响比任务层面的准确性更为关键。它也有助于校准目前过度膨胀的生产力预期。现实中的专业能力(如医生和律师)是在实际工作流程中,通过持续的反馈循环和问责结构来评估的。如果 AI 系统旨在与专业人士协作,那么其影响力就应该以纵向视角来评判,反映其在多次交互中的实际表现。
HAIC 方法确实会让基准测试变得更复杂、更耗费资源,也更难标准化。但如果继续在脱离工作世界的“消毒”环境中评估 AI,我们终将无法理解它到底能为我们带来什么。为了负责任地部署 AI,我们必须衡量真正重要的事情:不仅是模型能够独立完成什么,更是当人类团队在现实中与它合作时,它能促成什么,或者破坏什么。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区