首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
2207
篇文章
累计创建
750
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2025-10-22
AI模型的“幻觉”:是时候结束了吗?
2025-10-22
1
0
0
AI基础/开发
AI新闻/评测
2025-10-21
NTT 推出日语优化 AI 模型 tsuzumi2:30B 参数,40GB 单卡可运行
日本电信巨头 NTT 宣布推出专为日语环境深度优化的轻量级 AI 模型 tsuzumi2。该模型拥有 30B 参数,最引人注目的是其推理运行时仅需约 30GB 内存,单张 A100 40GB 显卡即可部署,极大地提高了在本地或私有云环境部署的可能性,保障了数据安全。NTT 表示,tsuzumi2 在日语性能方面处于同等参数规模模型的顶尖水平,结合 RAG 和微调技术,其在金融、医疗等领域的表现甚至优于 GPT-5,彰显了其在垂直领域的强大竞争力。
2025-10-21
0
0
0
AI基础/开发
AI新闻/评测
2025-10-21
StrongREJECT:一种更准确、更可靠的LLM越狱评估基准
研究人员发现许多已发表的LLM越狱成功案例并不可靠,现有评估方法存在严重缺陷。本文介绍了StrongREJECT基准,它提供了一套高质量的禁用提示数据集和先进的自动评估器,能更准确地衡量越狱方法的有效性,并揭示了“意愿-能力权衡”现象,即成功的越狱往往以牺牲模型能力为代价。
2025-10-21
1
0
0
AI新闻/评测
AI基础/开发
2025-10-21
视觉草垛(Visual Haystacks):评估大型多模态模型处理长上下文视觉信息的新基准
人类擅长处理大量视觉信息,这对实现通用人工智能至关重要。本文介绍了“视觉草垛”(Visual Haystacks, VHs)基准,这是一个“视觉中心”的“大海捞针”(NIAH)基准,旨在严格评估大型多模态模型(LMM)处理长上下文视觉信息的能力。VHs揭示了当前模型在视觉干扰、跨多图推理和位置敏感性方面的三大主要缺陷,并提出了基于RAG的解决方案MIRAGE。
2025-10-21
1
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2025-10-21
马斯克:Grok 5 实现通用人工智能的概率为 10%,且还在上升
埃隆・马斯克近日在 X 平台透露,他预测 xAI 公司即将推出的 Grok 5 大型语言模型,有 10% 的可能性实现通用人工智能(AGI),并且这一概率仍在持续上升。马斯克此前曾表示 Grok 5 将达到 AGI 水平或与其无法区分。AGI 目标是创建在思维和认知任务上超越人类智能水平的 AI 系统,一旦实现将对机器人技术和制造业等领域带来革命性变革。这一预测显著提升了外界对 Grok 5 的期待。
2025-10-21
3
0
0
AI新闻/评测
AI基础/开发
2025-10-21
语言模型的语言偏见:ChatGPT对不同英语方言的处理方式及其影响
尽管ChatGPT被全球用户广泛使用,但它对英语方言的偏见令人担忧。本研究深入分析了GPT-3.5和GPT-4在处理标准美式英语(SAE)与非标准英语(如印度、非洲裔美国人英语等)时的差异。结果显示,模型对非标准方言存在系统性偏见,包括增加刻板印象和贬低性内容,甚至新模型可能加剧问题,这对全球少数族裔语言社区的平等使用构成了障碍。
2025-10-21
0
0
0
AI新闻/评测
AI工具应用
2025-10-20
定义和评估大型语言模型中的政治偏见
OpenAI 详细阐述了如何定义、测量和评估大型语言模型(LLM)中的政治偏见。通过一个包含 500 个提示的评估框架,研究发现模型在处理中性或轻微倾斜的提示时保持客观,但在应对情绪化和带有煽动性的提示时会表现出中度偏见。最新的 GPT-5 模型已将偏见水平降低了 30%。
2025-10-20
1
0
0
AI新闻/评测
AI基础/开发
2025-10-20
OpenAI在印度市场庞大,但其模型中充斥着种姓偏见
尽管印度已成为OpenAI的第二大市场,但其最新的GPT-5和Sora模型却被发现在处理印度种姓问题时存在严重偏见。本文通过实验发现,AI模型系统性地再现了对贱民(Dalits)的刻板印象和歧视,尤其是在职业和形象生成方面,这可能加剧印度的社会不平等。
2025-10-20
0
0
0
AI新闻/评测
AI行业应用
2025-10-20
OpenAI令人尴尬的数学“突破”
OpenAI研究人员因声称GPT-5解决了10个未解决的Erdős数学问题而广受赞誉,但很快被指出这是一种“戏剧性的误传”。Meta首席AI科学家Yann LeCun和Google DeepMind CEO Demis Hassabis对此表示“尴尬”。事件揭示了GPT-5实际上只是找到了研究人员尚未注意到的现有文献中的解决方案,而非真正的原创突破。
2025-10-20
3
0
0
AI新闻/评测
AI行业应用
2025-10-19
Gemini在谷歌家庭设备上持续将我的狗误认为猫
谷歌将Gemini大模型能力引入Google Home生态后,带来了更智能的摄像头告警功能,能准确识别快递员。然而,作者在测试中发现,尽管他明确告知Gemini自己没有猫,系统却屡次将他家里的狗识别为猫。这凸显了即使是最新的AI技术,在区分日常细节方面仍存在局限性。
2025-10-19
1
0
0
AI新闻/评测
AI工具应用
2025-10-18
为什么AI写的文章总有一股“AI味”?
2025-10-18
0
0
0
AI新闻/评测
AI工具应用
2025-10-17
火山引擎重磅发布:豆包大模型1.6升级,并推出语音合成/复刻2.0,支持情感理解与公式精准朗读
火山引擎在武汉站活动上发布了豆包大模型1.6的重大升级,该版本首次原生支持四种可调节的思考长度,显著优化了企业应用中的效果、时延与成本平衡。更引人注目的是,全新发布的豆包语音合成模型2.0和声音复刻模型2.0,实现了对人类情感的深度理解和精准表达,其核心亮点在于能够准确朗读复杂数学公式,复杂公式朗读准确率高达90%,极大地提升了AI在专业内容播报中的应用能力。
2025-10-17
1
0
0
AI基础/开发
AI新闻/评测
AI工具应用
2025-10-17
Anthropic重磅发布Claude Haiku 4.5:性能追平五个月前的旗舰模型,成本仅为其三分之一
Anthropic最新推出的Claude Haiku 4.5小型语言模型展现出惊人潜力,其性能已与五个月前旗舰模型Claude Sonnet 4相当,但成本仅为其三分之一,速度提升超过两倍。该模型在SWE-bench编程测试中得分73.3%,与Sonnet 4不相上下,这标志着AI模型在效率和能力之间取得了重大平衡。对于需要实时、低延迟任务(如聊天助手和代码辅助)的用户而言,Haiku 4.5的性价比极高,同时Anthropic也强调其在多模型工作流中与更强大的Sonnet 4.5协同工作...
2025-10-17
2
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2025-10-17
告别“要效果还是要成本”的纠结:火山引擎豆包大模型1.6重磅升级,实现成本效益双赢
面对AI应用中普遍存在的深度思考延迟高、Token消耗剧增的成本痛点,火山引擎在最新发布会上推出重磅升级方案。豆包大模型1.6原生支持四档思考长度调节,允许用户根据任务复杂度灵活切换,例如低档模式能将Token消耗骤降77.5%,同时保持效果不变。此外,新推出的豆包1.6 lite模型在成本腰斩的同时,性能超越前代旗舰。更具突破性的是,智能模型路由功能的引入,可自动为不同任务匹配最优模型,实现成本与效果的智能平衡,标志着AI应用正迈向更高效、更经济的“千瓦时”时代。
2025-10-17
0
0
0
AI基础/开发
AI工具应用
AI新闻/评测
2025-10-17
深度学习模型:我们离真正理解世界还有多远?
人工智能领域正在经历飞速发展,尤其是深度学习模型,它们在特定任务上展现出惊人能力。然而,一个核心争议仍然存在:这些模型是否真正理解了它们处理的信息,还是仅仅在进行复杂的模式匹配?研究人员强调,当前的大模型虽然能生成流畅文本和精确预测,但在常识推理、因果关系理解和灵活泛化能力上仍存在显著局限性。要实现通用人工智能(AGI),我们必须超越表层统计关联,构建出具备深层世界模型的系统,这将是未来AI研究的关键挑战。
2025-10-17
0
0
0
AI基础/开发
AI新闻/评测
2025-10-17
Anthropic 发布 Claude Haiku 4.5:性能媲美 GPT-5,速度翻倍,价格更香!
Anthropic 正式推出了 Claude Haiku 4.5,这款轻量级模型在性能、速度和成本方面实现了惊人平衡。Haiku 4.5 在 SWE-bench 测试中取得了 73% 的高分,性能直逼 Claude Sonnet 4 甚至 OpenAI 的 GPT-5。其核心亮点在于速度是前代的两倍多,但价格更低,为实时交互和低延迟任务提供了极具竞争力的解决方案。尽管在复杂数学运算上仍有不足,但它已成为 Anthropic 系列中最安全的模型,预示着 AI 开发者将在成本效益和性能之间获得...
2025-10-17
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2025-10-17
重磅!AI“黑客”首次成功入侵并控制了大型语言模型
研究人员首次实现了对大型语言模型(LLM)的直接“越狱”式攻击,成功绕过了模型的安全防护措施。这次被称为“多跳攻击”的突破,意味着黑客可以诱导AI执行本应拒绝的敏感或有害操作,例如生成恶意代码或欺诈信息。该研究证明了即使是最先进的AI系统也存在未知的安全漏洞,对全球AI安全治理构成了严峻挑战。未来需要开发更强大的防御机制,以应对这种新型、高度隐蔽的AI攻击。
2025-10-17
1
0
0
AI基础/开发
AI新闻/评测
2025-10-17
重磅升级!豆包发布四款创新大模型:支持情感理解、音调风格调节,还能精准朗读复杂公式
火山引擎在武汉站活动中推出了豆包大模型1.6升级版及全新发布的1.6 lite、语音合成2.0、声音复刻2.0模型。其中,豆包1.6原生支持四档思考长度,优化了效率与成本。轻量级的1.6 lite模型在多项测试中超越了1.5 Pro,综合成本降低超53%。更引人注目的是,新的语音模型具备深度语义理解能力,能精准控制语速、情绪和音调风格,尤其在小学至高中公式朗读准确率高达90%,标志着AI语音技术在情感表达和专业内容处理上迈出重要一步。
2025-10-17
1
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2025-10-17
Anthropic 发布 Claude Haiku 4.5:速度翻倍、价格更低,性能直追 GPT-5 和 Sonnet 4
Anthropic 重磅推出 Claude Haiku 4.5,这款“小杯”模型在性能上实现了巨大飞跃。Haiku 4.5 在 SWE-bench 编码测试中达到了 73% 的惊人成绩,与 Claude Sonnet 4 及 OpenAI 的 GPT-5 处于同一水平。该模型不仅速度比前代提升两倍多,价格也更具竞争力,成为 Anthropic 目前最安全的模型。对于追求高性价比的开发者和企业而言,Haiku 4.5 提供了接近顶配的智能与更低的运营成本,标志着轻量级AI模型的性能新标杆。
2025-10-17
1
0
0
AI基础/开发
AI新闻/评测
AI工具应用
2025-10-17
告别“选A还是选B”的困境:火山引擎豆包大模型升级,实现效果与成本的终极平衡
面对AI深度思考带来的高延迟和Token成本飙升难题,火山引擎在FORCE LINK AI创新巡展上发布了豆包大模型1.6系列重磅升级,旨在打破效果与成本的二元对立。核心亮点包括首个原生支持四档思考长度调节的模型,允许用户在不同场景下灵活平衡性能与开销,低档模式下可大幅削减成本。此外,全新推出的智能模型路由方案,能根据任务自动选择最优模型,实现成本最高下降超70%,标志着AI应用进入了更精细化、高性价比的Token管理时代。
2025-10-17
0
0
0
AI基础/开发
AI工具应用
AI新闻/评测
1
2
3
4
5
6