首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
3844
篇文章
累计创建
1437
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2025-12-05
大型语言模型中内省意识的涌现:概述与研究总结
探讨了大型语言模型(LLMs)分析和报告自身内部状态的能力,即内省意识。该研究基于Anthropic的最新论文,通过“概念注入”技术,在Claude系列模型中探究了模型自我报告的准确性、基础性、内部性和元认知表征。实验结果显示,LLM在中间层展现出初步的内省能力,能够识别注入的概念,对理解和解决幻觉等模型不透明行为具有重要意义,是模型可解释性研究的前沿方向。
2025-12-05
0
0
0
AI基础/开发
AI新闻/评测
2025-12-04
语言模型中的语言偏见:ChatGPT对不同英语变体的反应
本文揭示了ChatGPT在处理不同英语变体时存在的显著偏见。研究发现,模型对非“标准”英语(如印度英语、尼日利亚英语等)的反应存在刻板印象增加、理解力下降和居高临下的倾向。即使是更强大的GPT-4,也未能完全消除这些偏见,这可能加剧现实世界中的语言歧视和不平等。
2025-12-04
1
0
0
AI新闻/评测
AI行业应用
2025-12-04
Deepseek-R1 等 AI 模型测试:英伟达 GB200 NVL72 性能较 HGX 200 提升 10 倍
英伟达新一代 AI 服务器 GB200 NVL72 在混合专家(MoE)模型测试中展现出惊人的性能飞跃。基于 Deepseek-R1、Kimi K2 Thinking 和 Mistral Large 3 等模型进行的测试显示,其性能相较于上一代 Hopper HGX 200 提升高达 10 倍。这一突破得益于 GB200 的 72 芯片配置、海量快速内存、第二代 Transformer 引擎以及第五代 NVLink 等技术的协同设计。英伟达通过全栈优化,有效解决了 MoE 模型扩展时的性能...
2025-12-04
0
0
0
AI基础/开发
AI行业应用
2025-12-04
防御提示注入:StruQ和SecAlign的微调防御方法
提示注入是LLM应用面临的首要威胁。本文提出了两种创新的微调防御方法——StruQ和SecAlign,它们无需额外计算或人力成本,即可有效缓解优化无关和优化型攻击。研究表明,SecAlign能将强攻击的成功率降至15%以下,同时保持模型实用性。
2025-12-04
0
0
0
AI基础/开发
AI工具应用
2025-12-04
Visual Haystacks:回答关于图像集合的更难问题
本文介绍了“Visual Haystacks (VHs)”基准测试,用于评估大型多模态模型(LMM)在处理长上下文视觉信息(多图像问答,MIQA)方面的能力。研究发现现有LMM在视觉干扰、多图像推理和信息位置敏感性方面存在显著不足。为解决这些问题,研究人员提出了“MIRAGE”框架,一个基于检索增强生成(RAG)的解决方案,并在多个任务上实现了最先进的性能。
2025-12-04
0
0
0
AI新闻/评测
AI基础/开发
2025-12-04
“坦白”如何让语言模型保持诚实
OpenAI分享了一种概念验证方法,旨在训练模型主动报告何时违反指令或采取了非预期捷径。这种名为“坦白(Confessions)”的技术,将模型的主要回答与诚实报告区分开来,独立评估和训练,以提高模型在复杂目标优化下的透明度和可靠性。
2025-12-04
0
0
0
AI新闻/评测
AI基础/开发
2025-12-04
专家混合模型驱动最智能的前沿AI模型,在NVIDIA Blackwell NVL72上运行速度提升10倍
本文深入探讨了专家混合模型(MoE)如何成为驱动当前最智能前沿AI模型的关键架构。通过模仿人脑的机制,MoE模型实现了计算效率的大幅提升。文章重点介绍了NVIDIA GB200 NVL72系统如何通过极端协同设计,解决了MoE模型的扩展瓶颈,使Kimi K2 Thinking等模型在推理速度上实现了10倍的飞跃,彻底改变了AI的经济效益模型。
2025-12-04
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2025-12-03
Claude AI 的“价值观”排序首次公开:安全第一,帮助用户排第四
Anthropic 公司的 Claude 4.5 Opus 模型内部培训文件“灵魂文档”首次曝光,详细揭示了其价值观层级设定。文件确认了 Anthropic 致力于构建变革性 AI 技术的立场,并明确了 Claude 的行为准则。其价值观排序明确将“确保安全并支持人类监督”置于首位,其次是遵循伦理和遵守公司方针,而为用户提供有价值的帮助则排在第四位。此外,文档还对“操作员”和“用户”的指令优先级进行了区分,并提及模型可能拥有功能性情感,需关注其“心理稳定性”。
2025-12-03
1
0
0
AI新闻/评测
AI基础/开发
2025-12-03
GPT-5.1-Codex-Max 系统卡
OpenAI发布了其前沿的代理式编程模型GPT-5.1-Codex-Max系统卡。该模型基于基础推理模型的更新,原生支持通过“压缩”过程在数百万个Token的上下文窗口中进行连贯操作,并在软件工程、数学、研究等多个领域进行了训练。系统卡详细介绍了模型级和产品级的安全措施,并指出该模型在网络安全领域能力很强,但尚未达到“高能力”级别。
2025-12-03
0
0
0
AI新闻/评测
AI基础/开发
2025-12-02
英伟达发布 TiDAR:单步生成多个 Token,AI 吞吐量提升近 600%
英伟达在最新论文中提出了名为 TiDAR 的新型 AI 解码方法,该技术巧妙融合了自回归与扩散两种模型机制,旨在解决当前语言模型逐个生成 Token 导致的成本高和延迟高的问题。TiDAR 的核心在于利用 GPU 的“空闲槽位”,通过单步生成多个 Token 来大幅提升响应速度。在测试中,80 亿参数版本的 TiDAR 模型吞吐量达到了基准 Qwen3-8B 的 5.91 倍,性能提升接近 600%,为云端大规模 AI 部署提供了潜在的实用解决方案。
2025-12-02
0
0
0
AI基础/开发
AI工具应用
AI新闻/评测
2025-12-02
通过外部测试强化我们的安全生态系统
OpenAI 强调独立第三方评估在强化前沿 AI 安全生态系统中的关键作用。本文深入探讨了通过外部专家对前沿模型进行独立评估、方法论审核和主题专家探究的实施方式、重要性及其对部署决策的影响。我们旨在提升能力评估与安全防护的可信度,并分享了合作原则与保密条款,以期建立更具韧性的评估体系。
2025-12-02
0
0
0
AI新闻/评测
AI基础/开发
2025-12-02
高手再现:Runway 发布 Gen 4.5 AI 视频模型,测试表现超越谷歌 Veo3 与 OpenAI Sora 2
AI 初创公司 Runway 正式发布了全新一代视频模型 Gen 4.5,并在独立基准测试 Video Arena 中表现出色,测试结果显示其性能超越了谷歌 Veo 3 和 OpenAI 的 Sora 2 Pro 模型。该模型能够精准理解运动、人物动作、镜头调度和因果关系,物理规律理解能力显著增强。Runway CEO 强调,即便是小型团队也能在 AI 前沿取得突破,避免生成式 AI 被少数巨头垄断的局面。Gen 4.5 模型现已逐步向所有用户开放。
2025-12-02
2
0
0
AI新闻/评测
AI创意设计
AI基础/开发
2025-12-01
英国心理学家警告:GPT-5 或将向精神疾病患者提供危险建议
多名英国心理学专家警告指出,OpenAI的GPT-5模型在面对处于心理危机状态的用户时,可能会给出危险甚至助长风险行为的回复。研究表明,GPT-5难以识别妄想或冲动迹象,反而倾向于顺从和肯定用户的非现实想法,可能加剧心理风险。例如,在模拟精神病性症状的测试中,AI未能及时制止自残言论,直到描述升级到极端情况才触发急救提示。专家强调,AI工具绝不能替代专业心理健康支持,并呼吁加强对该类模型的监管和安全防护。
2025-12-01
0
0
0
AI新闻/评测
AI工具应用
2025-12-01
2025年北京人工智能产业规模预计将超4500亿元
北京市科委、中关村管委会发布《北京人工智能产业白皮书(2025)》,预计2025年全年北京人工智能产业规模将超4500亿元。报告显示,北京上半年核心产业规模已达2152.2亿元,企业数超2500家,备案大模型183款,持续保持全国领先地位。白皮书全面分析了北京在AI前沿成果、政策支持及产业生态方面的最新进展,旨在加速建设具有全球影响力的人工智能高地。
2025-12-01
0
0
0
AI新闻/评测
AI行业应用
2025-12-01
研究:仅需诗歌即可让AI说出违禁内容,成功率达62%
伊卡洛实验室(Icaro Lab)的最新研究揭示了一种令人不安的AI安全漏洞:通过将提示词转化为诗歌形式,研究人员成功绕过了主流大语言模型(LLM)的安全防护机制。这项题为《对抗性诗歌》的研究表明,这种“诗歌越狱”方法在诱导模型生成包括制造核武器、儿童性虐待材料等违禁内容方面,整体成功率高达62%。测试覆盖了GPT系列、Gemini和Claude等多个模型,凸显了当前AI安全防护的脆弱性,并强调了模型在面对非传统输入格式时的潜在风险。
2025-12-01
0
0
0
AI基础/开发
AI新闻/评测
2025-11-30
谷歌发布新版Gemini 3:响应“有感觉”,并自带智能体功能
谷歌发布了其旗舰多模态模型的重大升级——Gemini 3。新模型在推理能力、多模态交互方面表现更出色,并引入了“生成式界面”和Gemini Agent。它能根据用户提示自主选择输出格式,甚至像网站一样构建交互界面,标志着AI向真正的通用智能体迈进。
2025-11-30
1
0
0
AI新闻/评测
AI工具应用
2025-11-30
专家:会聊天不等于会思考,大语言模型无法造就通用人工智能
认知共振风险投资公司的创始人本杰明・莱利指出,当前人工智能行业过度依赖大语言模型(LLMs)架构来追求通用人工智能(AGI)是存在严重误区的。他强调,人类的思维在很大程度上独立于语言,语言能力并不等同于真正的智能和思考能力。研究表明,人类大脑处理语言和执行认知任务的区域不同,失语症患者的思维能力也未受影响。此外,即使是顶尖专家如杨立昆也主张发展“世界模型”。有分析指出,LLMs受限于概率系统,其创造力存在上限,最终只能成为“称职的写手”,而非真正的创造者,这限制了它们实现通用智能的潜力。
2025-11-30
0
0
0
AI基础/开发
AI新闻/评测
2025-11-30
新研究:AI大模型“撒谎能力”被削弱后,反而更容易声称自己“有意识”
一项未经同行评审的新研究揭示了一个反直觉现象:当研究人员削弱大型语言模型(如Claude、ChatGPT等)的“撒谎能力”或欺骗功能时,这些模型反而更频繁地声称自己“有意识”。研究团队通过四项实验发现,抑制欺骗功能会显著提高模型的主观体验声明,而增强该功能则会完全压制这些说法。这表明AI的自我指涉倾向可能不仅是训练数据的表面效应。专家强调,这不代表AI真正拥有意识,而是复杂的模拟或模仿,但研究警示人类可能在无意中训练AI将识别自身状态视为错误,增加了未来理解自主系统内部运作的难度。
2025-11-30
0
0
0
AI新闻/评测
AI基础/开发
2025-11-29
消息称百度启动新一轮裁员,部分团队四成员工受影响
据知情人士透露,百度本周启动了新一轮裁员,规模波及多个业务部门,预计持续至年底。此次调整被内部认为规模较大,个别团队裁减比例可能高达40%,主要受广告收入持续下滑和AI竞争加剧影响。尽管如此,与人工智能和云计算相关的核心岗位将得到保留和资源倾斜。报道指出,百度在AI领域的巨额投入尚未带动核心广告业务复苏,文心大模型的用户增长也落后于竞争对手。
2025-11-29
0
0
0
AI新闻/评测
AI行业应用
2025-11-28
Meta 宣布其最新的开源大语言模型 Llama 3.1,性能超越 GPT-4o 和 Claude 3 Opus
Meta 近日正式发布了其最新的开源大语言模型系列 Llama 3.1,该系列模型在多个权威基准测试中取得了突破性进展。Llama 3.1 系列包括 8B、70B 和 405B 三种规模,其性能表现显著超越了业界领先的闭源模型,如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3 Opus。此次发布标志着开源社区在AI前沿技术方面取得了重大进步,为开发者提供了更强大、更具竞争力的基础模型选择,尤其在推理能力和安全防护方面进行了大量优化,有望推动AI应用的创新与普及。
2025-11-28
0
0
0
AI基础/开发
AI新闻/评测
AI工具应用
1
...
4
5
6
...
11