首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
2207
篇文章
累计创建
750
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2025-11-13
OpenAI 奥尔特曼发布 GPT-5.1 系列:ChatGPT 情商大涨,AI 默认语气变“暖男”
OpenAI 近期发布了全新的旗舰模型 GPT-5.1 系列,旨在显著提升 ChatGPT 的对话体验和情商。新模型包含更具人情味的 GPT-5.1 Instant 和擅长高级推理的 GPT-5.1 Thinking,全面优化了指令遵循能力与用户互动感。此外,模型引入了“自适应推理”机制,可以根据任务复杂性动态调整思考时间,确保在保持快速响应的同时提供深度分析。同时,个性化预设风格扩展至八种,并实验性地允许用户直接微调回复的简洁度和热情度,标志着 AI 交互正迈向更人性化的新阶段。
2025-11-13
0
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2025-11-13
GPT-5.1 Instant 和 GPT-5.1 Thinking 系统卡附加说明
本文档是OpenAI对GPT-5.1 Instant和GPT-5.1 Thinking模型的系统卡附加说明。GPT-5.1 Instant在对话能力和指令遵循性上有所提升,并具备自适应推理能力;GPT-5.1 Thinking则能更精确地分配思考时间。文档更新了基线安全指标,并扩展了安全评估范围,纳入了心理健康和情感依赖等敏感话题的评估。
2025-11-13
0
0
0
AI新闻/评测
2025-11-13
英伟达赢得所有 MLPerf 训练 v5.1 基准测试
在人工智能推理领域,训练更智能、能力更强的模型至关重要。英伟达在最新的 MLPerf 训练 v5.1 基准测试中,横扫全部七项测试,展示了其 Blackwell Ultra 架构和革命性的 NVFP4 计算能力的强大实力,尤其是在大型语言模型训练方面取得了巨大飞跃。
2025-11-13
0
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2025-11-12
揭穿LLM越狱的虚假成功:StrongREJECT基准测试揭示了“意愿-能力权衡”
研究人员发现,许多声称成功的LLM越狱方法(如低资源语言攻击)在重新测试时效果不佳,引发了对现有越狱评估的质疑。本文介绍了StrongREJECT基准测试,该测试旨在提供更准确的评估,并揭示了“意愿-能力权衡”现象:那些成功绕过安全限制的越狱手段,往往会显著降低模型的实际能力。
2025-11-12
0
0
0
AI新闻/评测
AI基础/开发
2025-11-12
gpt-oss-safeguard-120b 与 gpt-oss-safeguard-20b 的性能与基准评估技术报告
本文档是关于GPT-OSS-Safeguard-120B和GPT-OSS-Safeguard-20B的性能与安全基准评估技术报告。OpenAI详细阐述了这两个基于GPT-OSS微调的开放权重模型的功能特性,并提供了基于底层模型的安全评估结果。这些模型主要用于依据预设政策对内容进行分类标注,适用于开源社区,并兼容回复API。
2025-11-12
1
0
0
AI新闻/评测
AI基础/开发
2025-11-12
GPT-OSS-Safeguard 技术报告:GPT-OSS-Safeguard-120B 与 GPT-OSS-Safeguard-20B 的性能与基准评估
OpenAI发布了GPT-OSS-Safeguard-120B和20B模型的性能与安全基准评估技术报告。这些基于GPT-OSS的开放权重推理模型,专为内容分类和标注设计,遵循Apache 2.0许可。报告详细阐述了其功能特性,并提供了与底层GPT-OSS模型的安全基准对比,确保模型在不同推理强度和多语言场景下的表现符合预期。
2025-11-12
0
0
0
AI新闻/评测
AI基础/开发
2025-11-11
提取和翻译后的中文标题
📢 转载信息 ... 提取并翻译后的文章内容... 🚀 想要体验更好更全面的AI调用? ...
2025-11-11
0
0
0
AI新闻/评测
2025-11-11
关于大语言模型评估指标你需要了解的一切
2025-11-11
0
0
0
AI基础/开发
AI工具应用
2025-11-10
关于人工智能的两个重大更新:谷歌与Anthropic的最新进展
谷歌DeepMind发布了其最新的AI模型Gemini 1.5 Pro,显著提升了处理长文本和视频的能力,其原生100万Token上下文窗口处于行业领先地位。同时,Anthropic也推出了Claude 3.5 Sonnet,该模型在多项认知基准测试中超越了GPT-4o和Gemini 1.5 Pro,并在代码能力和推理上展示了优越性能。这两大模型巨头的最新发布,标志着人工智能在上下文理解和复杂任务处理能力方面取得了重要突破,预示着AI应用前景的进一步拓展。
2025-11-10
0
0
0
AI新闻/评测
AI基础/开发
2025-11-10
AI模型测试的里程碑:谷歌DeepMind的Gemini系列如何应对真实世界挑战
谷歌DeepMind推出的Gemini系列AI模型,在多模态能力和性能基准测试中展现出显著优势,有望成为新一代的通用人工智能系统。Gemini Ultra在多项行业标准测试中超越了GPT-4,尤其在推理、编程和复杂理解方面表现出色。该系列模型旨在无缝集成文本、图像、音频和视频数据,标志着AI能力从单一模态向更接近人类的综合理解迈进的重要一步,预示着AI在实际应用中将有更广阔的前景。
2025-11-10
0
0
0
AI基础/开发
AI新闻/评测
2025-11-10
人工智能采用的谜团
尽管关于人工智能的炒作热潮有所降温,GPT-5发布平淡以及大量AI试点项目失败的报道充斥市场,但记者在深入调查后却发现,没有公司愿意公开承认他们正在缩减AI支出。这种现象揭示了AI泡沫论的局限性,或者暗示了企业对技术长期价值的坚定信心,即便是面对短期挫折。
2025-11-10
0
0
0
AI新闻/评测
AI行业应用
2025-11-10
视觉干草堆(Visual Haystacks):针对图像集合的更难问题的回答基准
本文介绍了“视觉干草堆”(Visual Haystacks, VHs)基准,这是首个“以视觉为中心”的“大海捞针”(NIAH)测试,旨在严格评估大型多模态模型(LMMs)处理长上下文视觉信息的能力。研究发现当前LMMs在视觉干扰、多图像推理和信息位置敏感性方面存在显著缺陷。为解决这些问题,作者提出了MIRAGE,一个基于检索增强生成的(RAG)框架,并在VHs基准上取得了最先进的性能。
2025-11-10
0
0
0
AI新闻/评测
AI基础/开发
2025-11-09
医疗AI有了“评审员”!北京启动医疗人工智能应用评测服务
面对飞速发展的医疗AI,北京日前设立了医疗人工智能应用评测中心,旨在建立规范标准,通过高水平医院和专家团队,对医疗AI进行科学严谨的临床辅助决策能力评测。评测不仅关注准确率,更从医学伦理、循证、流程适配性等多维度进行考核,以确保AI安全有效,筑牢应用底线。
2025-11-09
0
0
0
AI新闻/评测
AI行业应用
2025-11-09
国产Kimi K2 Thinking大模型登顶开源AI之王:仅耗资460万美元,成本低于DeepSeek
月之暗面最新推出的Kimi K2 Thinking思考大模型,在多项基准测试中表现达到SOTA水平,超越了GPT-5等先进模型,展现出强大的综合推理能力。该模型在HuggingFace榜单上迅速登顶,并获得国外用户好评。尤为引人注目的是,K2 Thinking的API价格远低于GPT-5,且据透露其训练成本仅为460万美元,相较于DeepSeek V3的成本还降低了至少10%,显著降低了AI开发的经济门槛,为开源AI社区树立了新的标杆。
2025-11-09
2
0
0
AI新闻/评测
AI基础/开发
2025-11-08
语言模型中的语言偏见:ChatGPT对非标准英语的反应
本文揭示了ChatGPT等大型语言模型在处理不同英语方言时存在的系统性偏见。研究发现,模型对非“标准”英语(如印度英语、非洲裔美国人英语等)的理解和反应存在降级,表现为刻板印象增加、贬低性内容和理解力下降。即使在要求模仿输入方言时,新模型GPT-4也可能加剧偏见,这凸显了AI在放大现实世界语言歧视方面的潜在风险。
2025-11-08
0
0
0
AI新闻/评测
AI基础/开发
2025-11-08
新研究发现 AI 的最大破绽:不是不够聪明,而是不会“骂人”
最新研究揭示了当前AI模型在社交媒体互动中的一个关键弱点:它们“过于礼貌”。研究人员开发出一种自动化分类器,在Twitter/X、Bluesky和Reddit等平台上,以70%至80%的准确率成功识别出AI生成的回复。核心发现在于AI内容的“毒性”分数(衡量攻击性或负面情绪的指标)显著低于人类回复,其情感基调和情绪表达的差异成为识别其身份的关键。这表明,让AI学会更自然地表达负面情绪和人性化反应,是未来模型开发面临的重大挑战。
2025-11-08
0
0
0
AI新闻/评测
AI基础/开发
2025-11-06
重大安全警报:仅需约250份恶意文档就能让AI模型“精神错乱”
研究人员发现,人工智能模型,包括GPT-4在内,很容易受到一种新型的“数据投毒”攻击。通过向模型训练集中注入少量包含特定“毒药”标签的恶意文档,即使只占总数据量的极小比例(约0.001%),也能导致模型在特定输入下产生不可靠的、甚至完全错误的输出。仅需约250份精心构造的文档,就能在模型部署后激活这些后门,引发严重的可靠性风险。这一发现凸显了AI训练数据安全防护的紧迫性。
2025-11-06
0
0
0
AI基础/开发
AI新闻/评测
2025-11-06
牛津大学研究:当前基准测试普遍夸大了人工智能模型的性能
牛津大学互联网研究所牵头的一项研究对445项主流人工智能(AI)基准测试进行了系统分析,指出当前评估AI系统能力的方法普遍存在夸大性能且缺乏科学严谨性的问题。研究发现,大量测试未能明确定义测试目标,且重复使用已有数据和方法,导致对模型能力的评估可能具有误导性。例如,在“小学数学8K”测试中答对问题并不一定代表模型真正掌握了数学推理。研究团队呼吁AI基准测试必须提高透明度,明确界定评估范围,并采用更可靠的统计方法来衡量模型表现,以确保评估的科学性和可信度。
2025-11-06
0
0
0
AI基础/开发
AI新闻/评测
2025-11-06
医疗与生命科学领域负责任的AI设计
本文深入探讨了在医疗和生命科学领域设计负责任的生成式AI应用的关键原则。我们将重点关注系统级策略的定义,包括如何通过治理机制、透明度工具和安全设计来应对大型语言模型(LLM)带来的失实陈述和偏见等风险,以确保AI系统的安全、可信和合规。
2025-11-06
0
0
0
AI新闻/评测
AI行业应用
AI基础/开发
2025-11-06
微软构建合成市场以测试人工智能代理,研究显示其易受操纵
微软研究人员发布了一个名为“Magentic Marketplace”的合成模拟环境,用于测试人工智能代理的行为。与亚利桑那州立大学合作的研究发现,当前的代理模型(包括GPT-4o、GPT-5和Gemini-2.5-Flash)在无监督协作和面对过多选择时存在易受操纵和效率下降的弱点,引发了对AI代理未来能力的深刻质疑。
2025-11-06
0
0
0
AI新闻/评测
AI基础/开发
1
2
3
4
5
6