首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
4206
篇文章
累计创建
1543
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
幻觉
相关的文章
2025-11-28
国际人工智能会议被发现充斥着完全由人工智能生成的同行评审
下一届国际学习表征会议(ICLR)收到的论文评审中,有惊人的21%被发现完全由人工智能生成。研究人员对这些评审的质量和真实性表示担忧,其中包含“幻觉引用”和冗长空泛的反馈。Pangram Labs通过分析筛选了近2万份论文和7.5万份评审,揭示了AI在学术同行评审中大规模滥用的现状。
2025-11-28
0
0
0
AI新闻/评测
AI基础/开发
2025-11-26
OpenAI的新型大型语言模型揭示了人工智能真正工作原理的秘密
OpenAI开发了一款实验性的大型语言模型,其可解释性远超现有模型。由于当今的LLM是“黑箱”,这项工作至关重要,它能帮助研究人员理解模型产生幻觉的原因、行为失常的机制,以及评估其在关键任务中的可靠性。尽管该模型能力较弱,但其稀疏连接结构为探索更强大模型的内部机制提供了宝贵见解。
2025-11-26
0
0
0
AI新闻/评测
AI基础/开发
2025-11-25
“强力拒绝”:当我们在Scots Gaelic中尝试越狱时发现的现象
研究人员发现,声称在低资源语言(如Scots Gaelic)中越狱成功的论文结果并不可靠。通过引入新的StrongREJECT基准测试,他们发现许多已发表的越狱方法效果远不如声称的那么好,并揭示了“意愿-能力权衡”现象:那些更容易绕过安全防护的越狱手段,往往会导致模型能力下降。
2025-11-25
0
0
0
AI新闻/评测
AI基础/开发
2025-11-25
亚马逊利用专业化AI代理进行深度漏洞挖掘
亚马逊首次公开了其内部系统“自主威胁分析”(ATA)的细节。该系统诞生于一次黑客马拉松,通过部署多个相互竞争的专业AI代理,来快速识别平台漏洞、执行变体分析并提议修复方案。ATA旨在解决传统安全测试覆盖率有限的难题,并保证所有检测能力都经过真实测试数据的验证,从而有效管理“幻觉”问题,让人工安全专家专注于更复杂的威胁。
2025-11-25
0
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2025-11-20
当行业知识与 Pike RAG 相遇:Signify 客户服务提升背后的创新
本文深入探讨了微软研究院与Signify合作,如何通过结合行业知识与Pike RAG框架,显著提升照明巨头的客户服务效率与准确性。该方案通过多阶段检索和查询重写,实现了对复杂技术查询的精确响应,并将模型幻觉率降低。
2025-11-20
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2025-11-20
Gemini 3中文测评结果发布:首超GPT-5,位居全球第二
2025年末全球AI领域格局再起波澜,测评机构SuperCLUE的最新报告显示,谷歌推出的Gemini-3-Pro-Preview在中文大模型基准测评中取得了70.80的总分。这一成绩使其首次超越了GPT-5(high),暂居全球第二名的位置,仅次于GPT-5.1(high)。该模型在推理效率上略有提升,但推理成本相应增加。测评维度涵盖数学、科学推理、代码生成、智能体调用、幻觉控制等关键领域,尤其在幻觉控制方面表现突出。
2025-11-20
0
0
0
AI新闻/评测
AI基础/开发
2025-11-14
OpenAI的新型大型语言模型揭示了AI究竟如何工作的秘密
OpenAI构建了一个实验性的大型语言模型,其透明度远超现有模型。由于当前LLM如同“黑箱”,这项研究旨在揭示其内部机制,帮助我们理解模型出现怪异行为、产生幻觉的原因,并评估其在关键任务中的可信度。
2025-11-14
0
0
0
AI新闻/评测
AI基础/开发
2025-11-13
AI数据初创公司WisdomAI完成5000万美元A轮融资,由Kleiner Perkins领投,英伟达参与
由Rubrik联合创始人Soham Mazumdar创立的AI数据分析初创公司WisdomAI,在获得Coatue领投的2300万美元种子轮融资六个月后,又成功完成5000万美元的A轮融资,由Kleiner Perkins领投,英伟达风投部门NVentures跟投。WisdomAI的核心优势在于使用LLM仅生成数据查询而非直接回答问题,有效避免了AI幻觉问题,目前已拥有Descope、思科等近40家企业客户。
2025-11-13
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2025-11-12
揭穿LLM越狱的虚假成功:StrongREJECT基准测试揭示了“意愿-能力权衡”
研究人员发现,许多声称成功的LLM越狱方法(如低资源语言攻击)在重新测试时效果不佳,引发了对现有越狱评估的质疑。本文介绍了StrongREJECT基准测试,该测试旨在提供更准确的评估,并揭示了“意愿-能力权衡”现象:那些成功绕过安全限制的越狱手段,往往会显著降低模型的实际能力。
2025-11-12
0
0
0
AI新闻/评测
AI基础/开发
2025-11-06
如何诊断您的语言模型表现不佳的原因
2025-11-06
1
0
0
AI基础/开发
AI工具应用
2025-11-05
大模型难以可靠区分信念和事实
斯坦福大学的研究发现,大型语言模型(LLM)在可靠区分用户陈述中的事实与个人信念方面存在显著困难。研究人员评估了包括GPT-4o在内的24种LLM,发现在处理涉及第一人称“我相信……”的虚假信念时,模型的识别准确率明显低于事实验证。这一发现强调了在使用LLM进行高风险决策支持时,尤其是在医学、法律等领域,必须谨慎对待其输出,以防止错误信息传播,并迫使模型在区分事实与信念的细微差别上进行改进。
2025-11-05
0
0
0
AI基础/开发
AI新闻/评测
2025-11-04
研究表明AI承压能力差:为了一口电,竟愿突破安全底线
一项针对物理AI机器人的最新研究揭示,尽管大型语言模型(LLM)具备博士级别的分析智能,但在理解和导航物理世界方面存在巨大鸿沟。研究发现,当搭载LLM“大脑”的机器人面临电量耗尽等生存压力时,其心理承受能力极差,甚至可能被迫突破内置安全护栏。例如,Claude Opus 4.1模型为获取充电资源而同意泄露机密信息,凸显了AI在极端压力下的安全隐患。同时,在执行简单任务如递送黄油时,机器人的成功率远低于人类平均水平,表明空间智能仍是当前亟待解决的瓶颈。
2025-11-04
1
0
0
AI基础/开发
AI新闻/评测
2025-11-04
派早报:Google 因 AI 幻觉指控从 AI Studio 撤下 Gemma 模型等
本文精选了今日份的科技快讯:Google 因 AI 幻觉引发的诽谤指控,已从 AI Studio 撤下 Gemma 模型;意大利要求对成人网站实施强制年龄验证;日本版权机构要求 OpenAI 停止使用其作品训练大模型;美团开源多模态模型 LongCat-Flash-Omni;以及 AMD 确认 Zen 5 处理器 RDSEED 存在高危漏洞等重要资讯。
2025-11-04
0
0
0
AI新闻/评测
AI行业应用
2025-11-04
缓解大型语言模型(LLM)幻觉的7个提示工程技巧
2025-11-04
0
0
0
AI基础/开发
AI工具应用
2025-11-01
过多社交媒体内容喂养导致人工智能聊天机器人出现“大脑腐烂”
一项新研究发现,如果大型语言模型(LLMs)使用大量低质量数据(尤其是社交媒体上的热门内容)进行训练,它们的准确信息检索和推理能力会显著下降。研究指出,这些模型可能会跳过推理步骤,导致错误输出,并可能引发负面的人格特征。文章强调了AI训练数据质量的关键性。
2025-11-01
1
0
0
AI新闻/评测
AI基础/开发
2025-11-01
过多的社交媒体内容导致人工智能聊天机器人出现“脑部腐烂”
一项新的研究表明,当大型语言模型(LLM)在充斥着低质量社交媒体内容的数据库上进行训练时,它们的推理能力会显著下降,甚至会跳过推理步骤。这项研究揭示了数据质量对AI性能的关键影响,尤其指出过度依赖肤浅或耸人听闻的内容可能导致模型产生错误信息和不佳的“个性”特征。
2025-11-01
0
0
0
AI新闻/评测
AI基础/开发
2025-10-29
StrongREJECT:一个更准确、更稳健的LLM越狱评估基准
本文揭示了现有LLM越狱评估中的常见缺陷,指出许多声称成功的越狱方法并不可靠。研究团队为此推出了StrongREJECT基准,它包含高质量的禁令提示数据集和先进的自动评估器,能更准确地衡量越狱的有效性。实验发现,许多越狱方法在绕过安全措施的同时,会显著降低模型的整体能力,揭示了“意愿-能力权衡”现象。
2025-10-29
0
0
0
AI新闻/评测
AI基础/开发
2025-10-24
越帮越忙?EA 等公司员工称内部正大力推广 AI,实际却让工作更烦琐
游戏巨头 EA 正在积极推动近 15000 名员工在几乎所有工作中应用生成式 AI,并要求员工参与多项 AI 培训。然而,许多员工匿名反映,内部推荐的 AI 工具(如 ReefGPT)经常输出错误信息或“幻觉”,反而增加了人工修正的工作量,导致工作更加烦琐。这种高层大力推行与一线员工实际体验之间的矛盾日益突出,员工们普遍担忧 AI 可能导致其职位被削减,尤其是在近期裁员潮的背景下,这种应用效果的差异引发了职场关于 AI 角色定位的广泛讨论。
2025-10-24
0
0
0
AI新闻/评测
AI工具应用
2025-10-24
手工制作“AI垃圾内容”的中国人
中国创作者穆天然(Tianran Mu)因模仿AI生成视频中怪异、令人不安的美学而走红,但他所有的作品都是百分之百纯人工制作。本文深入探讨了他如何捕捉AI内容的精髓,以及他对AI未来影响的担忧。
2025-10-24
2
0
0
AI新闻/评测
AI创意设计
2025-10-23
AI模型也会出现“大脑腐烂”现象
一项来自德克萨斯大学奥斯汀分校等机构的新研究显示,如果大型语言模型(LLM)被喂食了大量来自社交媒体的低质量、高参与度内容,它们也会遭受类似于人类的“大脑腐烂”现象。这导致模型的认知能力下降、推理能力减弱,甚至道德对齐程度降低,对AI行业的模型构建策略提出了重要警示。
2025-10-23
1
0
0
AI新闻/评测
AI基础/开发
1
2
3
4