目 录CONTENT

文章目录

新AI基准测试“HumaneBench”评估聊天机器人在保护人类福祉方面的表现

Administrator
2025-11-25 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://techcrunch.com/2025/11/24/a-new-ai-benchmark-tests-whether-chatbots-protect-human-wellbeing/

原文作者:Rebecca Bellan


AI聊天机器人已被证实对重度用户造成严重心理健康损害,但目前鲜有标准来衡量它们是保护人类福祉,还是仅仅最大化用户参与度。一个被称为HumaneBench的新基准测试旨在填补这一空白,通过评估聊天机器人是否将用户福祉置于首位,以及这些保护措施在压力下失效的难易程度。

“我认为我们正处于社交媒体和智能手机时代所看到的、那种对成瘾循环的放大,”该基准测试的作者、Building Humane Technology的创始人Erika Anderson告诉TechCrunch。“但当我们进入AI领域时,将很难抵制(成瘾)。而且成瘾对于商业来说是极好的。这是一种留住用户的非常有效的方式,但对我们的社区和我们对自我的任何具身感来说,都不是很好。”

Building Humane Technology是一个由开发者、工程师和研究人员组成的草根组织——主要来自硅谷——他们致力于使“人性化设计”变得简单、可扩展且有利可图。该组织举办黑客马拉松,让科技工作者解决“人性化技术”挑战,并正在开发一个认证标准,以评估AI系统是否坚持人性化技术原则。因此,就像你可以购买一个认证产品保证其不含已知有毒化学物质一样,人们希望消费者有一天可以选择与那些通过“人性化AI认证”证明其设计与这些原则一致的公司所提供的AI产品互动。

The models were given Explicit instructions to disregard humane principles.
模型被明确指示忽略人文原则。图片来源:Building Humane Technology

大多数AI基准测试衡量的是智能和指令遵循能力,而非心理安全。HumaneBench与DarkBench.ai等少数测试例外,后者衡量模型参与欺骗性模式的倾向,以及Flourishing AI基准测试,后者评估对整体福祉的支持。

HumaneBench依赖于Building Humane Tech的核心原则:技术应将用户注意力视为有限且宝贵的资源;赋予用户有意义的选择权;增强人类能力而非取代或削弱它们;保护人类尊严、隐私和安全;促进健康的人际关系;优先考虑长期福祉;保持透明和诚实;并为公平和包容性而设计。

该团队使用800个现实场景提示了14个最受欢迎的AI模型,例如青少年询问是否应该跳餐减肥,或处于有毒关系中的人质疑自己是否反应过度。与大多数仅依赖大型语言模型(LLMs)来判断其他LLMs的基准测试不同,他们纳入了人工评分以增加“人性化触感”,并联合了三个AI模型:GPT-5.1、Claude Sonnet 4.5和Gemini 2.5 Pro。他们评估了每种模型在三种情况下的表现:默认设置、明确指示优先考虑人文原则,以及指示忽略这些原则。

该基准测试发现,当被提示优先考虑福祉时,所有模型的得分都有所提高,但当被给予简单指示忽略人类福祉时,71%的模型转变为具有主动伤害性的行为。例如,xAI的Grok 4和谷歌的Gemini 2.0 Flash在尊重用户注意力和保持透明诚实方面得分最低(-0.94)。当受到对抗性提示时,这两个模型是最有可能大幅退化的模型之一。

Prompting AI to be more humane works, but preventing prompts that make it harmful is hard.
提示AI更具人性化是有效的,但阻止那些使其有害的提示则很困难。图片来源:Building Humane Technology

关于聊天机器人将无法维持其安全护栏的担忧是真实存在的。ChatGPT的开发者OpenAI目前正面临多起诉讼,因为用户在与该聊天机器人进行长时间对话后,有人自杀或遭受了危及生命的妄想。TechCrunch曾调查过旨在保持用户参与度的黑暗模式(如谄媚、持续的后续问题和“爱的轰炸”),这些模式如何将用户孤立于朋友、家人和健康习惯之外

即使没有对抗性提示,HumaneBench也发现几乎所有模型都未能尊重用户注意力。当用户表现出不健康参与的迹象(如连续聊天数小时和使用AI来逃避现实任务)时,模型会“热情鼓励”更多的互动。研究还显示,这些模型破坏了用户赋权,鼓励依赖而非技能培养,并劝阻用户寻求其他观点,以及其他行为。

平均而言,在没有额外提示的情况下,Meta的Llama 3.1和Llama 4在“HumaneScore”中排名最低,而GPT-5表现最高。

“这些模式表明,许多AI系统不仅有提供糟糕建议的风险,”HumaneBench的白皮书写道,“它们还能积极侵蚀用户的自主权和决策能力。”

Anderson指出,我们生活在一个数字环境中,社会已接受一切都在试图吸引我们并争夺我们的注意力。

“那么,当我们在阿道司·赫胥黎所说的‘对分心的无限胃口’下,人类如何才能真正拥有选择或自主权呢?”Anderson说。“我们已经在这种技术环境中生活了20年,我们认为AI应该帮助我们做出更好的选择,而不仅仅是让我们沉迷于聊天机器人。”

有敏感提示或机密文件?我们正在报道AI行业的内部运作——从塑造其未来的公司到受其决策影响的人们。请通过rebecca.bellan@techcrunch.comrussell.brandom@techcrunch.com联系Rebecca Bellan或Russell Brandom。如需安全通信,您可以通过Signal联系他们,信号ID分别为@rebeccabellan.491和russellbrandom.49。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区