首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
6229
篇文章
累计创建
2579
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2026-01-29
语言模型的“英语偏见”:ChatGPT对非“标准”英语的歧视性反应
尽管全球有超过10亿人使用非“标准”英语,但ChatGPT等语言模型对不同英语变体的反应存在系统性偏见。本研究发现,模型对非标准英语(如印度英语、尼日利亚英语、非裔美国人英语等)的回复更具刻板印象、更低人一等,甚至理解能力更差。这可能加剧现实世界中的语言歧视和权力不平等。
2026-01-29
0
0
0
AI新闻/评测
AI基础/开发
2026-01-29
视觉干草堆(Visual Haystacks):评估大型多模态模型在处理长上下文视觉信息中的能力
传统的视觉问答(VQA)仅限于单张图像的推理,无法应对医疗影像集合、卫星图像分析等复杂的多图像场景。为解决此限制,伯克利AI研究团队推出了“视觉干草堆(Visual Haystacks, VHs)”基准测试,专注于“多图像问答”(MIQA)。本文揭示了当前LMM在视觉干扰、多图推理和位置敏感性方面的三大缺陷,并提出了基于RAG的解决方案MIRAGE,显著提升了处理大规模图像集问答的性能。
2026-01-29
0
0
0
AI新闻/评测
AI基础/开发
2026-01-29
初创公司Arcee AI从零开始构建了4000亿参数的开源LLM,旨在超越Meta的Llama
尽管业界普遍认为AI模型市场的赢家已定,但30人团队的Arcee AI挑战了这一观点。他们发布了参数高达4000亿的开源基础模型Trinity,并声称其性能可与Meta的Llama 4 Maverick相媲美。Arcee的优势在于采用永久开放的Apache许可证,旨在为开发者和学术界提供一个真正开放的前沿替代方案。
2026-01-29
1
0
0
AI新闻/评测
AI基础/开发
2026-01-29
重大安全警报:仅需约250份恶意文档,即可使GPT-4识别绕过安全措施
研究人员揭示了一个针对大型语言模型(LLM)的新型攻击载体,展示了绕过安全护栏的惊人效率。研究表明,攻击者只需大约250份特定的恶意文档,就能在GPT-4等先进模型中触发“越狱”行为,使其生成本应被拒绝的有害内容。这一发现突显了AI安全领域的紧迫挑战,特别是针对持续训练和安全对齐机制的潜在弱点。文章深入分析了这种新型数据投毒和越狱攻击的原理,强调了在部署前对模型进行更严格安全验证的必要性,以防止模型被恶意利用。
2026-01-29
2
0
0
AI基础/开发
AI新闻/评测
2026-01-28
谷歌发布 Agentic Vision:模仿人类处理图像,让 AI 学会“放大看”
谷歌DeepMind团队在Gemini 3 Flash模型中推出了“智能体视觉”(Agentic Vision)功能,彻底改变了AI处理图像的传统静态扫描模式。该功能通过结合视觉推理与代码执行,建立“思考-行动-观察”的闭环,模仿人类主动调查的交互方式。模型可以自主执行裁剪、旋转或分析等图像操作,以获取更清晰的视觉证据,有效提升了模型在复杂视觉任务上的准确性。例如,在建筑图纸验证中,准确率提升了5%,并解决了多步视觉算术中的“幻觉”问题。
2026-01-28
1
0
0
AI基础/开发
AI工具应用
2026-01-28
人工智能测试与评估:科学与行业的经验教训
本文探讨了人工智能测试与评估的最新进展,汇集了科学界和工业界的宝贵经验。了解如何构建更可靠、更安全的AI系统,以及未来AI评估面临的挑战与机遇。
2026-01-28
1
0
0
AI新闻/评测
AI基础/开发
2026-01-28
StruQ 和 SecAlign:在不牺牲效用的情况下防御提示注入攻击
提示注入攻击被OWASP列为LLM应用的首要威胁。本文提出了两种无需额外计算成本或人力的新型微调防御方法:StruQ和SecAlign。这些方法通过结构化指令调优和特殊偏好优化,将十多种免优化攻击的成功率降至0%,并显著降低了强优化攻击的成功率,同时保持了模型的通用效用。
2026-01-28
0
0
0
AI基础/开发
AI工具应用
2026-01-28
马云:AI时代不要再犹豫用不用AI,应关注怎么教孩子用好AI
马云在“腊八之约”活动中分享了其对人工智能时代的深刻见解。他强调,在AI时代,关键不再是犹豫是否采用AI技术,而是如何教育下一代更好地驾驭AI。马云指出,AI为乡村教育带来了挑战,但也提供了回归教育本质的机会。他认为,教育的重点应从计算和记忆转向培养孩子的好奇心、想象力、创造力、判断力和协同能力,因为这些才是AI时代真正的核心竞争力,而非技术的鸿沟。
2026-01-28
0
0
0
AI行业应用
AI基础/开发
2026-01-28
多模态人工智能指南:视觉、语音、文本及超越
2026-01-28
2
0
0
AI基础/开发
AI工具应用
AI行业应用
2026-01-27
ChatGPT 为什么会“胡说八道”?专家解释其背后的复杂原因
大型语言模型(LLMs)如ChatGPT常被指责产生虚假或不准确的信息,这种现象被称为“幻觉”(hallucination)。专家指出,这并非模型故意欺骗,而是其生成机制的内在特性。模型本质上是根据训练数据中的概率模式生成文本,而非理解真实世界的逻辑。理解幻觉的来源,如训练数据偏差、提示词不当或模型结构限制,对于开发更可靠、更值得信赖的人工智能至关重要。
2026-01-27
1
0
0
AI基础/开发
AI新闻/评测
2026-01-27
阿里发布旗舰推理模型Qwen3-Max-Thinking:性能媲美GPT-5.2、Claude Opus 4.5
阿里巴巴正式发布了其旗舰推理模型Qwen3-Max-Thinking,该模型参数量超万亿(1T),预训练数据量高达36T Tokens。目前,AI助手千问已在PC端和网页端接入此“AI大脑”,用户可通过一键切换体验更强的推理能力。性能方面,Qwen3-Max-Thinking在多项权威基准测试中表现出色,整体性能已可媲美GPT-5.2-Thinking-xhigh、Claude Opus 4.5和Gemini 3 Pro。该模型带来了更强的世界知识记忆、专家级的复杂推理能力以及更契合人类价...
2026-01-27
0
0
0
AI基础/开发
AI新闻/评测
AI工具应用
2026-01-27
美国AI初创公司Anthropic推出Claude 3.5 Sonnet模型,性能超越GPT-4o
AI初创公司Anthropic发布了Claude 3.5 Sonnet模型,该模型在多个行业基准测试中表现出色,超越了OpenAI的GPT-4o。新模型在推理、编码和理解复杂任务方面展现出显著提升,被誉为迄今为止最快的模型。Anthropic强调其在安全性与表现力之间取得了更好的平衡,特别是在视觉处理和多模态交互方面有所加强,为企业级应用提供了更强大的智能助手和分析工具。
2026-01-27
0
0
0
AI新闻/评测
AI基础/开发
2026-01-27
机器学习中的不确定性:概率、噪声与模型校准
2026-01-27
2
0
0
AI基础/开发
AI工具应用
2026-01-26
NAS 部署 TrendRadar 手把手教程:AI 加持打造私有情报局
本文详细介绍了如何在威联通NAS上部署GitHub上大火的TrendRadar项目,该工具能聚合多平台热点和RSS订阅,并通过AI大模型进行分析和预测。教程涵盖了从下载文件、使用Docker Compose部署,到配置关键词过滤、调整热点权重以及集成邮件推送和AI分析等关键步骤,帮助用户摆脱信息茧房,构建自己的私有情报系统。
2026-01-26
2
0
0
AI工具应用
AI基础/开发
2026-01-26
新测试显示 AI 实际办公准确率不足 25%,但进展比想象更快
一项最新的研究报告指出,当前主流人工智能模型在处理律师、顾问和银行家等知识工作者的实际办公室任务时表现欠佳,最高准确率未能超过 25%。该测试采用 APEX-Agents 基准,侧重于多步骤、跨信息源的综合任务处理,而非传统的诗歌或数学题。尽管准确率不高,但领先模型的表现已从一年前的 5%-10% 提升至约 24%,表明 AI 学习速度远超预期,但距离替代复杂知识工作者仍需在上下文处理能力上取得突破。
2026-01-26
1
0
0
AI新闻/评测
AI工具应用
2026-01-26
ChatGPT开始引用埃隆·马斯克的Grokipedia的内容
研究显示,OpenAI的ChatGPT(特别是GPT-5.2模型)在回答部分问题时,开始引用埃隆·马斯克xAI公司开发的、带有保守倾向的AI生成百科全书Grokipedia的内容。尽管Grokipedia存在争议性信息,但其内容似乎正在渗透到主流AI模型中,尤其是在涉及其自身有争议话题以外的领域。
2026-01-26
2
0
0
AI新闻/评测
AI工具应用
2026-01-26
研究人员对AI与10万人类在创造力方面的表现进行测试
蒙特利尔大学的一项大规模新研究首次将当前最先进的生成式AI系统与超过10万人的创造力进行直接比较。研究发现,像GPT-4这样的AI在某些创造力测试中已超越普通人类水平,尤其是在发散性思维方面。然而,最富想象力的顶尖人类创作者依然遥遥领先于任何AI模型。
2026-01-26
0
0
0
AI新闻/评测
AI基础/开发
2026-01-24
AI 智能体的数学逻辑算不通
一篇研究论文从数学上论证了AI智能体注定会失败,声称它们无法处理复杂任务。然而,AI行业对此持不同意见,认为通过构建外围防护栏或使用数学验证方法可以克服幻觉问题。本文探讨了智能体AI的数学局限性与行业前景之间的紧张关系。
2026-01-24
0
0
0
AI新闻/评测
AI基础/开发
2026-01-24
与外星生物相似:研究人员正将大型语言模型视为外星生物进行研究
我们现在与极其庞大、复杂的机器共存,但包括开发者在内,几乎没人完全理解它们的工作原理。研究人员正在采用类比生物学和神经科学的方法,将大型语言模型(LLM)视为“外星生物”进行研究,以揭示其内部机制、能力和局限性,这对于AI安全和对齐至关重要。
2026-01-24
0
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2026-01-23
AI代理准备好进入职场了吗?新的基准测试引发质疑
尽管AI取得了巨大进步,但知识工作领域受到的影响却很小。Mercor的新研究提出了APEX-Agents基准测试,该测试模拟了咨询、投行和法律等领域的真实专业任务。结果显示,目前最先进的模型在处理多领域信息追踪等复杂任务时表现不佳,准确率仅略高于四分之一,表明AI代理在实际进入高价值白领工作岗位方面仍面临严峻挑战。
2026-01-23
0
0
0
AI新闻/评测
AI行业应用
AI基础/开发
1
...
4
5
6
...
18