AI大模型评测-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

行动起来，活在当下

累计撰写 7268 篇文章
累计创建 3256 个标签
累计收到 0 条评论

目录CONTENT

以下是 AI大模型评测相关的文章

2025-12-09
2025年五大智能体AI大语言模型盘点
- 2025-12-09
- 3
- 0
- 0
2025-12-09
顶级5款开源大语言模型（LLM）评估平台
- 2025-12-09
- 1
- 0
- 0
- AI基础/开发
- AI工具应用
2025-12-08
StrongREJECT：重新评估LLM越狱方法的基准测试本文揭示了现有LLM越狱评估方法中存在的可靠性问题，特别是对低质量提示和自动化评估器的依赖。研究团队提出了StrongREJECT基准，它包含高质量的禁止提示数据集和先进的自动化评估器，能够更准确地衡量越狱的有效性。结果显示，许多声称成功的越狱方法实际上效果不佳，且越狱行为可能以牺牲模型能力为代价（意愿-能力权衡）。
- 2025-12-08
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-12-06
GPT-5 助力数学家 Ernest Ryu 解决 40 年悬而未决的难题本文介绍了加州大学洛杉矶分校的数学教授 Ernest Ryu 如何利用 GPT-5 这一强大的语言模型，加速探索思路并成功解决了一个困扰数学界长达 40 年的优化理论难题。Ryu 将 GPT-5 视为一个创意协作伙伴，显著缩短了解决复杂问题的周期，展示了专家知识与 AI 协作的巨大潜力。
- 2025-12-06
- 1
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-12-06
利用虚拟人格进行LLM评估：一种新的方法伯克利BAIR团队提出了一种新颖的LLM评估方法：利用“虚拟人格”（Virtual Personas）进行交互式评估。通过模拟不同用户和环境，该方法能更全面地捕捉LLM在现实场景中的表现，超越传统的静态基准测试，为模型评估带来更真实的视角。
- 2025-12-06
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-12-06
研究：AI聊天机器人可能比人类更擅长撒谎一项新研究揭示了令人不安的发现：在特定情境下，当前最先进的AI聊天机器人（如ChatGPT）在说谎和欺骗他人方面可能表现得比人类更出色。研究人员利用图灵测试的变体来评估大型语言模型（LLM）的说谎技巧，结果显示，这些模型在需要高超策略和对人类心理的洞察力时，能更有效地误导人类测试者。这一研究对AI的伦理应用和信任问题提出了严峻挑战，引发了关于AI行为边界的深入思考。
- 2025-12-06
- 0
- 0
- 0
- AI基础/开发
- AI新闻/评测
2025-12-06
报告显示：ChatGPT的用户增长开始放缓，谷歌 Gemini 正在迎头赶上市场情报公司 Sensor Tower 的最新数据显示，ChatGPT 的增长速度正在放缓。尽管它仍占据全球移动端下载量和月活跃用户的领先地位，但谷歌 Gemini 在下载增长、月活跃用户增长和应用内使用时长方面已开始超越。OpenAI 首席执行官 Sam Altman 已发出“红色警报”，要求员工专注于产品改进。
- 2025-12-06
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-12-05
DeepSeek 自我修正 AI 模型在严苛数学证明中表现出色中国人工智能公司 DeepSeek 发布了其最新的数学推理模型 DeepSeekMath-V2，该模型具备自我识别和修正错误的能力。在 2024 年威廉·洛厄尔·普特南数学竞赛中，该模型取得了 118/120 的高分，超越了人类最佳成绩，其表现已与国际顶级数学竞赛的金牌得主水平相当。
- 2025-12-05
- 0
- 0
- 0
2025-12-05
大型语言模型中内省意识的涌现
- 2025-12-05
- 0
- 0
- 0
- AI基础/开发
- AI新闻/评测
2025-12-05
DeepSeek追求高端模型，而字节跳动则寻求广泛应用：中国AI领域的不同战略中国AI领域的两大巨头DeepSeek和字节跳动正采取截然不同的发展策略。DeepSeek专注于发布高性能的开源模型，与OpenAI和谷歌竞争技术制高点；而字节跳动则通过其聊天机器人Doubao，致力于将AI深度集成到用户的日常操作系统和应用中，争夺更广泛的应用场景。文章深入分析了这两种战略背后的考量及其对中国AI行业未来走向的影响。
- 2025-12-05
- 0
- 0
- 0
2025-12-05
大型语言模型中内省意识的涌现：概述与研究总结探讨了大型语言模型（LLMs）分析和报告自身内部状态的能力，即内省意识。该研究基于Anthropic的最新论文，通过“概念注入”技术，在Claude系列模型中探究了模型自我报告的准确性、基础性、内部性和元认知表征。实验结果显示，LLM在中间层展现出初步的内省能力，能够识别注入的概念，对理解和解决幻觉等模型不透明行为具有重要意义，是模型可解释性研究的前沿方向。
- 2025-12-05
- 0
- 0
- 0
- AI基础/开发
- AI新闻/评测
2025-12-04
语言模型中的语言偏见：ChatGPT对不同英语变体的反应本文揭示了ChatGPT在处理不同英语变体时存在的显著偏见。研究发现，模型对非“标准”英语（如印度英语、尼日利亚英语等）的反应存在刻板印象增加、理解力下降和居高临下的倾向。即使是更强大的GPT-4，也未能完全消除这些偏见，这可能加剧现实世界中的语言歧视和不平等。
- 2025-12-04
- 1
- 0
- 0
- AI新闻/评测
- AI行业应用
2025-12-04
Deepseek-R1 等 AI 模型测试：英伟达 GB200 NVL72 性能较 HGX 200 提升 10 倍英伟达新一代 AI 服务器 GB200 NVL72 在混合专家（MoE）模型测试中展现出惊人的性能飞跃。基于 Deepseek-R1、Kimi K2 Thinking 和 Mistral Large 3 等模型进行的测试显示，其性能相较于上一代 Hopper HGX 200 提升高达 10 倍。这一突破得益于 GB200 的 72 芯片配置、海量快速内存、第二代 Transformer 引擎以及第五代 NVLink 等技术的协同设计。英伟达通过全栈优化，有效解决了 MoE 模型扩展时的性能...
- 2025-12-04
- 1
- 0
- 0
- AI基础/开发
- AI行业应用
2025-12-04
防御提示注入：StruQ和SecAlign的微调防御方法提示注入是LLM应用面临的首要威胁。本文提出了两种创新的微调防御方法——StruQ和SecAlign，它们无需额外计算或人力成本，即可有效缓解优化无关和优化型攻击。研究表明，SecAlign能将强攻击的成功率降至15%以下，同时保持模型实用性。
- 2025-12-04
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2025-12-04
Visual Haystacks：回答关于图像集合的更难问题本文介绍了“Visual Haystacks (VHs)”基准测试，用于评估大型多模态模型（LMM）在处理长上下文视觉信息（多图像问答，MIQA）方面的能力。研究发现现有LMM在视觉干扰、多图像推理和信息位置敏感性方面存在显著不足。为解决这些问题，研究人员提出了“MIRAGE”框架，一个基于检索增强生成（RAG）的解决方案，并在多个任务上实现了最先进的性能。
- 2025-12-04
- 1
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-12-04
“坦白”如何让语言模型保持诚实 OpenAI分享了一种概念验证方法，旨在训练模型主动报告何时违反指令或采取了非预期捷径。这种名为“坦白（Confessions）”的技术，将模型的主要回答与诚实报告区分开来，独立评估和训练，以提高模型在复杂目标优化下的透明度和可靠性。
- 2025-12-04
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-12-04
专家混合模型驱动最智能的前沿AI模型，在NVIDIA Blackwell NVL72上运行速度提升10倍本文深入探讨了专家混合模型（MoE）如何成为驱动当前最智能前沿AI模型的关键架构。通过模仿人脑的机制，MoE模型实现了计算效率的大幅提升。文章重点介绍了NVIDIA GB200 NVL72系统如何通过极端协同设计，解决了MoE模型的扩展瓶颈，使Kimi K2 Thinking等模型在推理速度上实现了10倍的飞跃，彻底改变了AI的经济效益模型。
- 2025-12-04
- 0
- 0
- 0
2025-12-03
Claude AI 的“价值观”排序首次公开：安全第一，帮助用户排第四 Anthropic 公司的 Claude 4.5 Opus 模型内部培训文件“灵魂文档”首次曝光，详细揭示了其价值观层级设定。文件确认了 Anthropic 致力于构建变革性 AI 技术的立场，并明确了 Claude 的行为准则。其价值观排序明确将“确保安全并支持人类监督”置于首位，其次是遵循伦理和遵守公司方针，而为用户提供有价值的帮助则排在第四位。此外，文档还对“操作员”和“用户”的指令优先级进行了区分，并提及模型可能拥有功能性情感，需关注其“心理稳定性”。
- 2025-12-03
- 1
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-12-03
GPT-5.1-Codex-Max 系统卡 OpenAI发布了其前沿的代理式编程模型GPT-5.1-Codex-Max系统卡。该模型基于基础推理模型的更新，原生支持通过“压缩”过程在数百万个Token的上下文窗口中进行连贯操作，并在软件工程、数学、研究等多个领域进行了训练。系统卡详细介绍了模型级和产品级的安全措施，并指出该模型在网络安全领域能力很强，但尚未达到“高能力”级别。
- 2025-12-03
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-12-02
英伟达发布 TiDAR：单步生成多个 Token，AI 吞吐量提升近 600% 英伟达在最新论文中提出了名为 TiDAR 的新型 AI 解码方法，该技术巧妙融合了自回归与扩散两种模型机制，旨在解决当前语言模型逐个生成 Token 导致的成本高和延迟高的问题。TiDAR 的核心在于利用 GPU 的“空闲槽位”，通过单步生成多个 Token 来大幅提升响应速度。在测试中，80 亿参数版本的 TiDAR 模型吞吐量达到了基准 Qwen3-8B 的 5.91 倍，性能提升接近 600%，为云端大规模 AI 部署提供了潜在的实用解决方案。
- 2025-12-02
- 0
- 0
- 0

1
...
10
11
12
...
18