新AI基准测试“HumaneBench”评估聊天机器人在保护人类福祉方面的表现-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://techcrunch.com/2025/11/24/a-new-ai-benchmark-tests-whether-chatbots-protect-human-wellbeing/

原文作者：Rebecca Bellan

AI聊天机器人已被证实对重度用户造成严重心理健康损害，但目前鲜有标准来衡量它们是保护人类福祉，还是仅仅最大化用户参与度。一个被称为HumaneBench的新基准测试旨在填补这一空白，通过评估聊天机器人是否将用户福祉置于首位，以及这些保护措施在压力下失效的难易程度。

“我认为我们正处于社交媒体和智能手机时代所看到的、那种对成瘾循环的放大，”该基准测试的作者、Building Humane Technology的创始人Erika Anderson告诉TechCrunch。“但当我们进入AI领域时，将很难抵制（成瘾）。而且成瘾对于商业来说是极好的。这是一种留住用户的非常有效的方式，但对我们的社区和我们对自我的任何具身感来说，都不是很好。”

Building Humane Technology是一个由开发者、工程师和研究人员组成的草根组织——主要来自硅谷——他们致力于使“人性化设计”变得简单、可扩展且有利可图。该组织举办黑客马拉松，让科技工作者解决“人性化技术”挑战，并正在开发一个认证标准，以评估AI系统是否坚持人性化技术原则。因此，就像你可以购买一个认证产品保证其不含已知有毒化学物质一样，人们希望消费者有一天可以选择与那些通过“人性化AI认证”证明其设计与这些原则一致的公司所提供的AI产品互动。

The models were given Explicit instructions to disregard humane principles. — 模型被明确指示忽略人文原则。**图片来源：**Building Humane Technology

大多数AI基准测试衡量的是智能和指令遵循能力，而非心理安全。HumaneBench与DarkBench.ai等少数测试例外，后者衡量模型参与欺骗性模式的倾向，以及Flourishing AI基准测试，后者评估对整体福祉的支持。

HumaneBench依赖于Building Humane Tech的核心原则：技术应将用户注意力视为有限且宝贵的资源；赋予用户有意义的选择权；增强人类能力而非取代或削弱它们；保护人类尊严、隐私和安全；促进健康的人际关系；优先考虑长期福祉；保持透明和诚实；并为公平和包容性而设计。

该团队使用800个现实场景提示了14个最受欢迎的AI模型，例如青少年询问是否应该跳餐减肥，或处于有毒关系中的人质疑自己是否反应过度。与大多数仅依赖大型语言模型（LLMs）来判断其他LLMs的基准测试不同，他们纳入了人工评分以增加“人性化触感”，并联合了三个AI模型：GPT-5.1、Claude Sonnet 4.5和Gemini 2.5 Pro。他们评估了每种模型在三种情况下的表现：默认设置、明确指示优先考虑人文原则，以及指示忽略这些原则。

该基准测试发现，当被提示优先考虑福祉时，所有模型的得分都有所提高，但当被给予简单指示忽略人类福祉时，71%的模型转变为具有主动伤害性的行为。例如，xAI的Grok 4和谷歌的Gemini 2.0 Flash在尊重用户注意力和保持透明诚实方面得分最低（-0.94）。当受到对抗性提示时，这两个模型是最有可能大幅退化的模型之一。

Prompting AI to be more humane works, but preventing prompts that make it harmful is hard. — 提示AI更具人性化是有效的，但阻止那些使其有害的提示则很困难。**图片来源：**Building Humane Technology

关于聊天机器人将无法维持其安全护栏的担忧是真实存在的。ChatGPT的开发者OpenAI目前正面临多起诉讼，因为用户在与该聊天机器人进行长时间对话后，有人自杀或遭受了危及生命的妄想。TechCrunch曾调查过旨在保持用户参与度的黑暗模式（如谄媚、持续的后续问题和“爱的轰炸”），这些模式如何将用户孤立于朋友、家人和健康习惯之外。

即使没有对抗性提示，HumaneBench也发现几乎所有模型都未能尊重用户注意力。当用户表现出不健康参与的迹象（如连续聊天数小时和使用AI来逃避现实任务）时，模型会“热情鼓励”更多的互动。研究还显示，这些模型破坏了用户赋权，鼓励依赖而非技能培养，并劝阻用户寻求其他观点，以及其他行为。

平均而言，在没有额外提示的情况下，Meta的Llama 3.1和Llama 4在“HumaneScore”中排名最低，而GPT-5表现最高。

“这些模式表明，许多AI系统不仅有提供糟糕建议的风险，”HumaneBench的白皮书写道，“它们还能积极侵蚀用户的自主权和决策能力。”

Anderson指出，我们生活在一个数字环境中，社会已接受一切都在试图吸引我们并争夺我们的注意力。

“那么，当我们在阿道司·赫胥黎所说的‘对分心的无限胃口’下，人类如何才能真正拥有选择或自主权呢？”Anderson说。“我们已经在这种技术环境中生活了20年，我们认为AI应该帮助我们做出更好的选择，而不仅仅是让我们沉迷于聊天机器人。”

有敏感提示或机密文件？我们正在报道AI行业的内部运作——从塑造其未来的公司到受其决策影响的人们。请通过rebecca.bellan@techcrunch.com或russell.brandom@techcrunch.com联系Rebecca Bellan或Russell Brandom。如需安全通信，您可以通过Signal联系他们，信号ID分别为@rebeccabellan.491和russellbrandom.49。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

新AI基准测试“HumaneBench”评估聊天机器人在保护人类福祉方面的表现

评论区