首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
3844
篇文章
累计创建
1437
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2025-12-27
再见,GPT-5。你好,Qwen(通义千问)
在人工智能的快速迭代浪潮中,聊天机器人和GPT模型更新换代极快。2025年或许是GPT-5的舞台,但2026年将是属于中国开源大模型Qwen(通义千问)的时代。本文探讨了Qwen凭借其开放性、实用性和日益增长的社区支持,正超越一些美国主流闭源模型的现象。
2025-12-27
0
0
0
AI新闻/评测
AI基础/开发
2025-12-27
我国首部 AI 大模型系列国家标准实施,明确性能、安全与服务能力要求
我国人工智能大模型系列国家标准已正式实施,标志着大模型产业进入规范化发展阶段。该系列标准是<strong>首部聚焦通用大模型</strong>的国家标准,填补了技术评价体系空白,重点明确了模型的性能、安全及服务能力要求。配套的评测工具已完成大量测试,精准识别了幻觉控制、内容安全等核心问题,有效助力近30家厂商进行技术迭代,形成了“研发—评测—应用—升级”的良性闭环,对推动AI产业健康发展具有重要意义。
2025-12-27
0
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2025-12-27
我国首部大模型国家标准实施
我国人工智能大模型系列国家标准已正式实施,标志着大模型产业进入规范化发展新阶段。该标准作为首部聚焦通用大模型的国家标准,填补了技术评价体系的空白,明确了性能、安全与服务能力要求,其配套评测能力已获CNAS认可。
2025-12-27
0
0
0
AI新闻/评测
AI行业应用
2025-12-25
约书亚·本吉奥:AI聊天机器人“撒谎”,需要新的范式来解决其不可靠性
图灵奖得主约书亚·本吉奥(Yoshua Bengio)对当前大型语言模型(LLM)的不可靠性表示担忧,他指出,AI聊天机器人存在“撒谎”现象,即生成看似合理但事实错误的答案。本吉奥强调,目前的AI范式,特别是基于人类反馈的强化学习(RLHF),不足以解决这一根本性问题。他呼吁科研界探索新的理论框架,以构建更安全、更可信赖的AI系统。这些系统不仅需要提高事实准确性,还需要具备内在的推理能力和透明度,以应对日益增长的AI应用风险。
2025-12-25
0
0
0
AI基础/开发
AI新闻/评测
2025-12-25
借助 GPT-5.2 推动科学和数学发展
OpenAI发布了迄今为止在数学和科学方面表现最佳的模型GPT-5.2。本文详细介绍了GPT-5.2 Pro和GPT-5.2 Thinking在GPQA Diamond和FrontierMath等高精度基准测试中的卓越表现,并展示了其如何帮助解决统计学习理论中的开放性研究问题,展示了AI加速科研的潜力。
2025-12-25
0
0
0
AI新闻/评测
AI基础/开发
2025-12-25
GPT-5 系统卡更新:GPT-5.2
OpenAI发布了GPT-5系列中的最新模型家族GPT-5.2系统卡更新。此更新文档详细说明了GPT-5.2采用的全面安全缓解机制,其安全框架与此前的GPT-5和GPT-5.1系统卡基本一致。本文旨在提供关于GPT-5.2(包括gpt-5.2-instant和gpt-5.2-thinking)的官方技术说明和安全概述。
2025-12-25
0
0
0
AI新闻/评测
2025-12-25
借助 GPT-5.2 推动科学和数学发展
OpenAI 发布了更强大的 GPT-5.2 模型,特别是在科学和数学推理方面取得了显著突破。本文详细介绍了 GPT-5.2 Pro 和 GPT-5.2 Thinking 在 GPQA Diamond 和 FrontierMath 等基准测试中的卓越表现,并展示了其在解决未解决的统计学习理论难题中的实际应用案例,强调了 AI 在加速科研进展中的潜力与局限性。
2025-12-25
0
0
0
AI新闻/评测
AI基础/开发
2025-12-25
隆重推出 GPT-5.2
OpenAI 正式发布了迄今最强大的模型系列 GPT-5.2,专为提升专业知识型工作效率而设计。GPT-5.2 Thinking 成为首个在 GDPval 评测中达到专家级表现的模型,在电子表格、代码编写、多步骤任务处理和长文本理解方面都有显著提升。新模型将逐步向付费用户和 API 开发者开放,旨在为企业带来更高的经济价值和更可靠的性能。
2025-12-25
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2025-12-25
评估语言模型的困惑度
2025-12-25
0
0
0
AI基础/开发
AI工具应用
2025-12-24
超越思维链:在Amazon Bedrock上使用草稿链(Chain-of-Draft)
本文深入探讨了“草稿链”(Chain-of-Draft, CoD)这一创新的提示词技术,旨在解决生成式AI部署中质量、成本和延迟的平衡难题。CoD借鉴了人类解决问题的模式,通过限制每一步推理的词数(最多5个词),显著减少了代币使用量(最高达75%)和延迟(最高达78%),同时保持了与传统思维链(CoT)相当的准确性。我们展示了如何在Amazon Bedrock和AWS Lambda上实现CoD,为优化LLM推理成本提供了一条高效的路径。
2025-12-24
0
0
0
AI新闻/评测
AI工具应用
2025-12-24
约翰·卡雷鲁等作家就AI训练数据侵权问题对六家主要AI公司提起新诉讼
包括《血石》作者兼西拉诺(Theranos)举报人约翰·卡雷鲁在内的一批作家,对Anthropic、谷歌、OpenAI、Meta、xAI和Perplexity提起新诉讼,指控这些公司使用盗版书籍训练其大模型。此次诉讼源于部分作家对Anthropic此前15亿美元和解方案的不满,认为该方案未能追究AI公司使用盗版内容训练模型并获取巨额收入的责任。
2025-12-24
0
0
0
AI新闻/评测
AI行业应用
2025-12-23
社交媒体如何助长最糟糕的AI吹捧之风
本文探讨了社交媒体如何加剧人工智能领域的过度炒作(AI boosterism)现象。通过OpenAI科学家关于GPT-5解决数学难题的乌龙事件,揭示了过度宣传和“先炒作、后思考”的文化。文章指出,尽管AI在文献检索方面展现了潜力,但社交媒体的即时性和竞争性鼓励了夸大其词的声明,掩盖了对模型能力更深入、更审慎的评估。这种文化正在阻碍对AI实际能力的客观认知。
2025-12-23
1
0
0
AI新闻/评测
AI行业应用
2025-12-22
揭穿“低资源语言越狱”:StrongREJECT基准测试揭示越狱成功率的真相
研究人员发现声称能通过将恶意提示翻译成苏格兰盖尔语来“越狱”GPT-4的论文存在严重缺陷。本文介绍了StrongREJECT基准测试,它通过高质量的禁止提示集和先进的自动评估器,揭示了现有越狱方法的实际效果远低于报告水平,并提出了“意愿-能力权衡”这一关键发现。
2025-12-22
0
0
0
AI新闻/评测
AI基础/开发
2025-12-22
Claude AI 任务模式开启测试:支持提问、计划与执行,全程可视化
2025-12-22
0
0
0
AI工具应用
AI基础/开发
AI新闻/评测
2025-12-21
消息称:Meta 牵头研发全新图像、视频与文本 AI 模型,预计明年推出
据最新报道,Meta 公司正全力投入由 Scale AI 联合创始人亚历山大・王领导的超级智能实验室,以开发新一代人工智能模型。研发方向聚焦于代号为“芒果(Mango)”的图像与视频模型,以及内部代号“牛油果(Avocado)”的全新文本模型,目标是显著提升代码生成和多模态推理能力。Meta 计划在 2026 年上半年推出这些模型,旨在追赶 OpenAI、Anthropic 等竞争对手,以巩固其在人工智能领域的战略地位。这些新模型的成功与否,将决定 Meta 在下一代 AI 竞争中的表现。
2025-12-21
0
0
0
AI新闻/评测
AI基础/开发
2025-12-21
ChatGPT的文风原来源自肯尼亚:AI模仿了当地受严苛教育体系影响下的写作风格
大量用户反馈ChatGPT的文风“过于完美”或“缺乏人情味”,现在一位肯尼亚作家揭示了背后的原因:这可能是他们长期接受的规范化教育风格被AI学习的结果。该作家指出,他的文章因逻辑严谨、结构对称而被误判为AI生成。由于AI训练(RLHF)工作常外包至非洲地区,导致模型吸收了当地严格的商务和学术写作习惯,如频繁使用特定词汇“delve”。这种现象引发了关于AI生成内容判断标准的讨论,同时也反映了全球化教育模式对AI语料库的深远影响。
2025-12-21
0
0
0
AI新闻/评测
AI工具应用
2025-12-19
通过详尽的背景故事集为语言模型构建虚拟人格:Anthology 方法介绍
本文介绍了Anthology方法,该方法通过生成和利用包含个人价值观和经历细节的自然生活背景故事,来引导大型语言模型(LLMs)生成具有代表性、一致性和多样性的虚拟人格。Anthology旨在通过模拟特定人类样本,提高用户研究和民意调查的保真度,并提供了比传统人口水平近似更精确的个体模拟能力。
2025-12-19
0
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2025-12-19
马斯克:AI助手Grok 2.0比GPT-4更强,今年将超越OpenAI
埃隆·马斯克表示,他的人工智能公司xAI开发的下一代大语言模型Grok 2.0,其性能将超越OpenAI的GPT-4,甚至可能在今年年底前超越最先进的模型。Grok 2.0旨在提供更强大的实时信息处理能力和幽默的交互风格。马斯克同时透露,Grok 2.0将具备更强的推理能力,并计划在X平台上向更多用户开放,进一步推动AI领域的竞争格局。
2025-12-19
0
0
0
AI新闻/评测
AI基础/开发
2025-12-19
通过背景故事集为语言模型创建虚拟角色:Anthology 方法介绍
伯克利BAIR团队推出Anthology方法,通过生成和利用包含丰富个人价值观和经历的自然叙事背景故事,来指导大型语言模型(LLM)生成具有代表性、一致性和多样性的虚拟角色。该方法旨在提升LLM模拟个体人类受试者的保真度,特别是在用户研究和社会科学领域,提供了一种更具成本效益和可扩展性的替代方案。
2025-12-19
0
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2025-12-19
通过背景故事集为语言模型构建虚拟角色:Anthology方法介绍
本文介绍了Anthology方法,该方法通过生成和利用包含个人价值观和经历的自然主义背景故事,来引导大型语言模型(LLM)形成具有代表性、一致性和多样性的虚拟角色。Anthology旨在通过详尽的个人叙事来模拟个体人类样本,提升在用户研究和社会科学应用中的精确度,并展示了其在逼近公众舆论调查方面的优越性。
2025-12-19
0
0
0
AI新闻/评测
AI基础/开发
AI行业应用
1
2
3
4
5
...
11