首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
3844
篇文章
累计创建
1437
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2025-10-16
Anthropic发布全新轻量级模型Haiku 4.5:性能比肩Sonnet 4,成本降低三分之二,速度提升两倍以上
📢 转载信息 原文链接:https://techcrunch.com/2025/10/15/anthropic-launches-new-version-of-scaled-down-haiku-model/ 原文作者:Russell Brandom Anthropic重磅推出Claude Hai
2025-10-16
3
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2025-10-15
谷歌Gemini 3.0 Pro惊艳亮相:仅凭文本描述,成功复刻可交互的macOS/Windows/Linux桌面环境
谷歌新发布的Gemini 3.0 Pro在代码生成和UI构建方面展现了惊人能力。通过简单的文本提示词,该模型能一次性生成一个功能完备、可交互的网页版macOS操作系统,并在浏览器中流畅运行,甚至包含彩蛋特效。与Claude 4.5 Sonnet在同类任务上的表现形成鲜明对比,凸显了Gemini在编程和复杂界面生成方面的领先优势。尽管专家指出这仍是“仿真”而非底层实现,但其自动化构建复杂应用界面的能力,预示着AI在前端开发和操作系统设计领域可能引发颠覆性变革。
2025-10-15
4
0
0
AI基础/开发
AI工具应用
AI新闻/评测
2025-10-15
惊人发现!仅需约250份恶意文档,即可攻破任何体量的人工智能模型
Anthropic、英国AI安全研究院与艾伦·图灵研究所的最新联合研究揭示了AI模型训练数据安全领域的一个重大安全漏洞。研究团队发现,与传统认知相反,AI模型规模的增大并不能有效稀释数据投毒带来的风险。仅需大约250份精心构造的恶意文档,攻击者就能够在参数量从6亿到130亿不等的所有测试模型中成功植入难以察觉的“后门”。这一发现对当前AI安全策略提出了严峻挑战,强调了防御机制建设的紧迫性。
2025-10-15
3
0
0
AI基础/开发
AI新闻/评测
2025-10-15
麻省理工学院团队推出创新方法,精准测试AI文本分类器的可靠性
📢 转载信息 原文链接:https://news.mit.edu/2025/new-way-test-how-well-ai-systems-classify-text-0813 原文作者:David Chandler | MIT Laboratory for Information and De
2025-10-15
2
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2025-10-15
大语言模型能否真正理解真实世界?研究发现:目前看来,它们还差得远
📢 转载信息 原文链接:https://news.mit.edu/2025/can-large-language-models-figure-out-real-world-0825 原文作者:David Chandler | Laboratory for Information and Decis
2025-10-15
0
0
0
AI基础/开发
AI新闻/评测
2025-10-15
如何构建AI缩放定律,以实现高效LLM训练和预算最大化
📢 转载信息 原文链接:https://news.mit.edu/2025/how-build-ai-scaling-laws-efficient-llm-training-budget-maximization-0916 原文作者:Lauren Hinkel | MIT-IBM Watson A
2025-10-15
1
0
0
AI基础/开发
AI工具应用
AI行业应用
2025-10-15
AI偏见降低30%:OpenAI宣布GPT-5成为迄今最中立模型
OpenAI近日发布重磅研究报告,揭示了其最新模型GPT-5在处理政治敏感内容时的显著进步。研究数据显示,GPT-5 Instant和GPT-5 Thinking版本的政治偏见相较于GPT-4o等前代模型降低了30%,特别是在应对争议性话题时表现出更强的中立性。这一成果得益于内部“模型行为”团队建立的科学评估框架,通过500个独特的提示词压力测试,确保AI在推理和语调上更加平衡,为构建更可靠、公正的人工智能系统奠定了重要基础。
2025-10-15
1
0
0
AI基础/开发
AI新闻/评测
2025-10-15
安全警报:研究发现谷歌Gemini易受隐蔽指令操控,谷歌方定性为“社会工程学”或将拒绝修复
安全研究揭示了一个针对谷歌Gemini模型的新型攻击方式——“ASCII走私攻击”,即通过在文本中嵌入难以察觉的恶意指令来操控AI行为。测试结果显示,Gemini、DeepSeek和Grok模型容易受此攻击影响,而Claude、ChatGPT等则有防护机制。更令人担忧的是,谷歌将此定性为“社会工程学手段”而非安全漏洞,暗示可能不会主动修复。鉴于Gemini已深度集成Google Workspace,这种漏洞可能导致敏感信息泄露等严重安全风险,引发业界对AI安全责任归属的讨论。
2025-10-15
0
0
0
AI基础/开发
AI新闻/评测
2025-10-15
AI“以小博大”新标杆:三星开源700万参数TRM模型,特定任务性能媲美万倍大模型
三星高级AI研究院(SAIT)发布了革命性的开源AI模型TRM(微型递归模型),仅有700万参数,却在数独、迷宫等结构化推理任务上展现出惊人性能,可媲美甚至超越参数量高达7000万(万倍)的顶尖大模型,如Gemini 2.5 Pro。该模型采用“递归推理”机制,通过迭代修正模拟复杂计算深度,成功实现“以递归替代规模”,极大地降低了计算和内存成本。此举为AI领域“小模型”的潜力提供了强有力的新证据,并已在GitHub上完全开源。
2025-10-15
1
0
0
AI基础/开发
AI工具应用
2025-10-15
ChatGPT-5能否完成高深数学证明?探究AI的数学推理极限
随着大型语言模型(LLM)的飞速发展,人们不禁要问,未来的GPT-5是否能超越人类数学家的能力,完成复杂的数学证明?本文深入分析了当前AI在理解和生成数学证明方面的挑战,包括符号操作的准确性、逻辑推理的严谨性以及处理高阶抽象概念的局限性。探讨了AI实现高级数学推理所需克服的关键障碍,并对当前GPT系列模型在解决数学难题上的表现进行了客观评估,为理解AI在科学发现中的潜力与局限提供了深刻见解。
2025-10-15
1
0
0
AI基础/开发
AI工具应用
2025-10-15
“吃硬不吃软”:宾夕法尼亚州立大学研究发现,对ChatGPT粗鲁一点反而能获得更准确的答案
一项来自宾夕法尼亚州立大学的最新研究揭示了与AI模型交互的新视角:提问的“语气”可能直接影响回答的准确性。研究发现,相较于礼貌的询问,使用略带“粗鲁”或直接的措辞,竟然能让ChatGPT(基于GPT-4o推理模型)在多项选择测试中的准确率从80.8%提升至84.8%。尽管研究结论具有一定的局限性,但它引发了关于如何设计更有效的提示词(Prompt Engineering)以及大语言模型内部处理机制的深入思考。了解这种反直觉的现象,对于优化AI工具的使用效率至关重要。
2025-10-15
1
0
0
AI基础/开发
AI工具应用
2025-10-15
震惊!研究发现对AI语气越粗鲁,其回答的准确率反而越高
📢 转载信息 原文链接:https://www.qbitai.com/2025/10/341586.html 原文作者:量子位 告别客套:研究揭示对AI“越粗鲁”回答越准确的惊人发现 真不用对AI太客气了!宾夕法尼亚州立大学的一项新研究《Mind Your Tone》表明,当你对大型语言模型(LL
2025-10-15
0
0
0
AI工具应用
AI基础/开发
2025-10-14
GPT-5竟找出了人类遗忘的数学难题解法,精准定位2003年论文
📢 转载信息 原文链接:https://www.qbitai.com/2025/10/341103.html 原文作者:量子位(西风) GPT-5 Pro惊现“神操作”:仅凭图片就解开了尘封多年的数学难题 人类遗忘的难题解法,竟然被GPT-5 Pro重新找出来了! 这件令人称奇的事情,聚焦于著名的
2025-10-14
1
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2025-10-13
如何评估大语言模型的“越狱”方法?StrongREJECT 基准测试案例研究
📢 转载信息 原文链接:http://bair.berkeley.edu/blog/2024/08/28/strong-reject/ 原文作者:Dillon Bowen, Scott Emmons, Alexandra Souly, Qingyuan Lu, Tu Trinh, Elvis Hs
2025-10-13
1
0
0
AI新闻/评测
2025-10-13
OpenAI研究揭示LLM“幻觉”成因及潜在解决方案:是模型设计缺陷还是评估体系的“恶性循环”?
📢 转载信息 原文链接:https://www.infoq.com/news/2025/10/openai-llm-hallucinations/?utm_campaign=infoq_content&utm_source=infoq&utm_medium=feed&utm_term=global
2025-10-13
2
0
0
AI新闻/评测
AI基础/开发
2025-10-13
ChatGPT的语言偏见:大语言模型加剧对手型英语方言的歧视
📢 转载信息 原文链接:http://bair.berkeley.edu/blog/2024/09/20/linguistic-bias/ 原文作者:Eve Fleisig, Genevieve Smith, Madeline Bossi, Ishita Rustagi, Xavier Yin,
2025-10-13
0
0
0
AI新闻/评测
2025-10-13
OpenAI发布GDPval评估标准:衡量模型在真实世界经济活动中的表现
📢 转载信息 原文链接:https://openai.com/index/gdpval 原文作者:OpenAI OpenAI 推出 GDPval 评估标准:量化模型在真实世界经济任务中的表现 OpenAI 推出了一项名为 GDPval 的新评估标准,旨在透明地衡量其模型及其他模型在具有经济价值的现
2025-10-13
1
0
0
AI新闻/评测
2025-10-13
关于Sora的三个重大未解之谜:OpenAI的视频应用是怎样一场超现实实验?
📢 转载信息 原文链接:https://www.technologyreview.com/2025/10/07/1124998/the-three-big-unanswered-questions-about-sora/ 原文作者:James O'Donnell 上周,OpenAI发布了Sora,
2025-10-13
0
0
0
AI新闻/评测
1
...
7
8
9
10
11