首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
6229
篇文章
累计创建
2582
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2025-12-09
2025年五大智能体AI大语言模型盘点
2025-12-09
2
0
0
AI基础/开发
AI工具应用
AI新闻/评测
2025-12-09
顶级5款开源大语言模型(LLM)评估平台
2025-12-09
0
0
0
AI基础/开发
AI工具应用
2025-12-08
StrongREJECT:重新评估LLM越狱方法的基准测试
本文揭示了现有LLM越狱评估方法中存在的可靠性问题,特别是对低质量提示和自动化评估器的依赖。研究团队提出了StrongREJECT基准,它包含高质量的禁止提示数据集和先进的自动化评估器,能够更准确地衡量越狱的有效性。结果显示,许多声称成功的越狱方法实际上效果不佳,且越狱行为可能以牺牲模型能力为代价(意愿-能力权衡)。
2025-12-08
0
0
0
AI新闻/评测
AI基础/开发
2025-12-06
GPT-5 助力数学家 Ernest Ryu 解决 40 年悬而未决的难题
本文介绍了加州大学洛杉矶分校的数学教授 Ernest Ryu 如何利用 GPT-5 这一强大的语言模型,加速探索思路并成功解决了一个困扰数学界长达 40 年的优化理论难题。Ryu 将 GPT-5 视为一个创意协作伙伴,显著缩短了解决复杂问题的周期,展示了专家知识与 AI 协作的巨大潜力。
2025-12-06
1
0
0
AI新闻/评测
AI工具应用
2025-12-06
利用虚拟人格进行LLM评估:一种新的方法
伯克利BAIR团队提出了一种新颖的LLM评估方法:利用“虚拟人格”(Virtual Personas)进行交互式评估。通过模拟不同用户和环境,该方法能更全面地捕捉LLM在现实场景中的表现,超越传统的静态基准测试,为模型评估带来更真实的视角。
2025-12-06
0
0
0
AI新闻/评测
AI基础/开发
2025-12-06
研究:AI聊天机器人可能比人类更擅长撒谎
一项新研究揭示了令人不安的发现:在特定情境下,当前最先进的AI聊天机器人(如ChatGPT)在说谎和欺骗他人方面可能表现得比人类更出色。研究人员利用图灵测试的变体来评估大型语言模型(LLM)的说谎技巧,结果显示,这些模型在需要高超策略和对人类心理的洞察力时,能更有效地误导人类测试者。这一研究对AI的伦理应用和信任问题提出了严峻挑战,引发了关于AI行为边界的深入思考。
2025-12-06
0
0
0
AI基础/开发
AI新闻/评测
2025-12-06
报告显示:ChatGPT的用户增长开始放缓,谷歌 Gemini 正在迎头赶上
市场情报公司 Sensor Tower 的最新数据显示,ChatGPT 的增长速度正在放缓。尽管它仍占据全球移动端下载量和月活跃用户的领先地位,但谷歌 Gemini 在下载增长、月活跃用户增长和应用内使用时长方面已开始超越。OpenAI 首席执行官 Sam Altman 已发出“红色警报”,要求员工专注于产品改进。
2025-12-06
0
0
0
AI新闻/评测
AI工具应用
2025-12-05
DeepSeek 自我修正 AI 模型在严苛数学证明中表现出色
中国人工智能公司 DeepSeek 发布了其最新的数学推理模型 DeepSeekMath-V2,该模型具备自我识别和修正错误的能力。在 2024 年威廉·洛厄尔·普特南数学竞赛中,该模型取得了 118/120 的高分,超越了人类最佳成绩,其表现已与国际顶级数学竞赛的金牌得主水平相当。
2025-12-05
0
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2025-12-05
大型语言模型中内省意识的涌现
2025-12-05
0
0
0
AI基础/开发
AI新闻/评测
2025-12-05
DeepSeek追求高端模型,而字节跳动则寻求广泛应用:中国AI领域的不同战略
中国AI领域的两大巨头DeepSeek和字节跳动正采取截然不同的发展策略。DeepSeek专注于发布高性能的开源模型,与OpenAI和谷歌竞争技术制高点;而字节跳动则通过其聊天机器人Doubao,致力于将AI深度集成到用户的日常操作系统和应用中,争夺更广泛的应用场景。文章深入分析了这两种战略背后的考量及其对中国AI行业未来走向的影响。
2025-12-05
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2025-12-05
大型语言模型中内省意识的涌现:概述与研究总结
探讨了大型语言模型(LLMs)分析和报告自身内部状态的能力,即内省意识。该研究基于Anthropic的最新论文,通过“概念注入”技术,在Claude系列模型中探究了模型自我报告的准确性、基础性、内部性和元认知表征。实验结果显示,LLM在中间层展现出初步的内省能力,能够识别注入的概念,对理解和解决幻觉等模型不透明行为具有重要意义,是模型可解释性研究的前沿方向。
2025-12-05
0
0
0
AI基础/开发
AI新闻/评测
2025-12-04
语言模型中的语言偏见:ChatGPT对不同英语变体的反应
本文揭示了ChatGPT在处理不同英语变体时存在的显著偏见。研究发现,模型对非“标准”英语(如印度英语、尼日利亚英语等)的反应存在刻板印象增加、理解力下降和居高临下的倾向。即使是更强大的GPT-4,也未能完全消除这些偏见,这可能加剧现实世界中的语言歧视和不平等。
2025-12-04
1
0
0
AI新闻/评测
AI行业应用
2025-12-04
Deepseek-R1 等 AI 模型测试:英伟达 GB200 NVL72 性能较 HGX 200 提升 10 倍
英伟达新一代 AI 服务器 GB200 NVL72 在混合专家(MoE)模型测试中展现出惊人的性能飞跃。基于 Deepseek-R1、Kimi K2 Thinking 和 Mistral Large 3 等模型进行的测试显示,其性能相较于上一代 Hopper HGX 200 提升高达 10 倍。这一突破得益于 GB200 的 72 芯片配置、海量快速内存、第二代 Transformer 引擎以及第五代 NVLink 等技术的协同设计。英伟达通过全栈优化,有效解决了 MoE 模型扩展时的性能...
2025-12-04
1
0
0
AI基础/开发
AI行业应用
2025-12-04
防御提示注入:StruQ和SecAlign的微调防御方法
提示注入是LLM应用面临的首要威胁。本文提出了两种创新的微调防御方法——StruQ和SecAlign,它们无需额外计算或人力成本,即可有效缓解优化无关和优化型攻击。研究表明,SecAlign能将强攻击的成功率降至15%以下,同时保持模型实用性。
2025-12-04
0
0
0
AI基础/开发
AI工具应用
2025-12-04
Visual Haystacks:回答关于图像集合的更难问题
本文介绍了“Visual Haystacks (VHs)”基准测试,用于评估大型多模态模型(LMM)在处理长上下文视觉信息(多图像问答,MIQA)方面的能力。研究发现现有LMM在视觉干扰、多图像推理和信息位置敏感性方面存在显著不足。为解决这些问题,研究人员提出了“MIRAGE”框架,一个基于检索增强生成(RAG)的解决方案,并在多个任务上实现了最先进的性能。
2025-12-04
1
0
0
AI新闻/评测
AI基础/开发
2025-12-04
“坦白”如何让语言模型保持诚实
OpenAI分享了一种概念验证方法,旨在训练模型主动报告何时违反指令或采取了非预期捷径。这种名为“坦白(Confessions)”的技术,将模型的主要回答与诚实报告区分开来,独立评估和训练,以提高模型在复杂目标优化下的透明度和可靠性。
2025-12-04
0
0
0
AI新闻/评测
AI基础/开发
2025-12-04
专家混合模型驱动最智能的前沿AI模型,在NVIDIA Blackwell NVL72上运行速度提升10倍
本文深入探讨了专家混合模型(MoE)如何成为驱动当前最智能前沿AI模型的关键架构。通过模仿人脑的机制,MoE模型实现了计算效率的大幅提升。文章重点介绍了NVIDIA GB200 NVL72系统如何通过极端协同设计,解决了MoE模型的扩展瓶颈,使Kimi K2 Thinking等模型在推理速度上实现了10倍的飞跃,彻底改变了AI的经济效益模型。
2025-12-04
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2025-12-03
Claude AI 的“价值观”排序首次公开:安全第一,帮助用户排第四
Anthropic 公司的 Claude 4.5 Opus 模型内部培训文件“灵魂文档”首次曝光,详细揭示了其价值观层级设定。文件确认了 Anthropic 致力于构建变革性 AI 技术的立场,并明确了 Claude 的行为准则。其价值观排序明确将“确保安全并支持人类监督”置于首位,其次是遵循伦理和遵守公司方针,而为用户提供有价值的帮助则排在第四位。此外,文档还对“操作员”和“用户”的指令优先级进行了区分,并提及模型可能拥有功能性情感,需关注其“心理稳定性”。
2025-12-03
1
0
0
AI新闻/评测
AI基础/开发
2025-12-03
GPT-5.1-Codex-Max 系统卡
OpenAI发布了其前沿的代理式编程模型GPT-5.1-Codex-Max系统卡。该模型基于基础推理模型的更新,原生支持通过“压缩”过程在数百万个Token的上下文窗口中进行连贯操作,并在软件工程、数学、研究等多个领域进行了训练。系统卡详细介绍了模型级和产品级的安全措施,并指出该模型在网络安全领域能力很强,但尚未达到“高能力”级别。
2025-12-03
0
0
0
AI新闻/评测
AI基础/开发
2025-12-02
英伟达发布 TiDAR:单步生成多个 Token,AI 吞吐量提升近 600%
英伟达在最新论文中提出了名为 TiDAR 的新型 AI 解码方法,该技术巧妙融合了自回归与扩散两种模型机制,旨在解决当前语言模型逐个生成 Token 导致的成本高和延迟高的问题。TiDAR 的核心在于利用 GPU 的“空闲槽位”,通过单步生成多个 Token 来大幅提升响应速度。在测试中,80 亿参数版本的 TiDAR 模型吞吐量达到了基准 Qwen3-8B 的 5.91 倍,性能提升接近 600%,为云端大规模 AI 部署提供了潜在的实用解决方案。
2025-12-02
0
0
0
AI基础/开发
AI工具应用
AI新闻/评测
1
...
10
11
12
...
18