首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
3887
篇文章
累计创建
1444
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2025-11-28
Meta 宣布其最新的开源大语言模型 Llama 3.1,性能超越 GPT-4o 和 Claude 3 Opus
Meta 近日正式发布了其最新的开源大语言模型系列 Llama 3.1,该系列模型在多个权威基准测试中取得了突破性进展。Llama 3.1 系列包括 8B、70B 和 405B 三种规模,其性能表现显著超越了业界领先的闭源模型,如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3 Opus。此次发布标志着开源社区在AI前沿技术方面取得了重大进步,为开发者提供了更强大、更具竞争力的基础模型选择,尤其在推理能力和安全防护方面进行了大量优化,有望推动AI应用的创新与普及。
2025-11-28
0
0
0
AI基础/开发
AI新闻/评测
AI工具应用
2025-11-28
Alphabet股价飙升,谷歌两位创始人跻身全球富豪榜第二和第三位
受市场对其人工智能业务前景的乐观预期推动,谷歌母公司Alphabet股价持续走高,促使两位创始人谢尔盖·布林和拉里·佩奇的财富大幅增长。最新数据显示,佩奇以约2644亿美元的净资产位居全球富豪榜第二,布林则超越甲骨文创始人埃里森,跃居第三位。Alphabet市值逼近4万亿美元大关,年初至今股价涨幅高达73%,其最新发布的Gemini 3大模型也获得了业界认可,进一步巩固了其在AI领域的领导地位。
2025-11-28
0
0
0
AI新闻/评测
AI行业应用
2025-11-28
DeepSeek 发布 DeepSeekMath-V2 模型,主打自验证数学推理能力
DeepSeek近日发布了DeepSeekMath-V2模型,该模型聚焦于提升模型的自验证数学推理能力,旨在解决仅依赖最终答案正确率带来的推理链条不严谨问题。通过引入基于LLM的验证器自动审查证明过程,并利用扩展计算生成高难度训练样本,DeepSeekMath-V2在多项顶级数学竞赛中展现出卓越性能。该模型在IMO 2025和CMO 2024中达到金牌水准,并在Putnam 2024中取得接近满分的成绩,为构建更可靠的数学智能系统奠定了基础。
2025-11-28
0
0
0
AI基础/开发
AI工具应用
2025-11-27
阿里吴嘉:千问已超越Llama、Deepseek等,成全球性能最强开源大模型
阿里巴巴集团副总裁吴嘉在夸克AI眼镜发布会上透露,历经三年发展的“千问”模型已实现巨大突破,在性能上超越了Llama和Deepseek等主流开源模型,成为全球性能最强、应用最广泛的开源大模型,全球下载量突破7亿次。千问助手已深度融合支付宝、高德地图等阿里生态核心场景,初步具备了在物理世界辅助用户办事的实际能力,标志着AI助手应用爆发已进入关键时刻。
2025-11-27
0
0
0
AI新闻/评测
AI基础/开发
2025-11-27
AI 浏览器表现如何?Perplexity 的 Comet 和 OpenAI 的 Atlas 体验一日评测
2025-11-27
0
0
0
AI工具应用
AI新闻/评测
2025-11-26
OpenAI的新型大型语言模型揭示了人工智能真正工作原理的秘密
OpenAI开发了一款实验性的大型语言模型,其可解释性远超现有模型。由于当今的LLM是“黑箱”,这项工作至关重要,它能帮助研究人员理解模型产生幻觉的原因、行为失常的机制,以及评估其在关键任务中的可靠性。尽管该模型能力较弱,但其稀疏连接结构为探索更强大模型的内部机制提供了宝贵见解。
2025-11-26
0
0
0
AI新闻/评测
AI基础/开发
2025-11-26
研究人员发现ChatGPT 4o出现“视觉欺骗”问题:图像中的文字解读出错
OpenAI最新发布的GPT-4o模型在多模态能力上备受关注,但一项新的研究揭示了其在图像理解方面存在严重的“视觉欺骗”(Visual Deception)问题。研究人员发现,尽管GPT-4o在处理图像方面表现出色,但在解读图像中的文字时却经常出现错误。特别是当图像中包含精心设计的陷阱或干扰性信息时,模型容易被误导,无法准确识别真实的文本内容。这一发现凸显了在部署多模态AI系统时,确保其视觉信息处理鲁棒性的重要性,对未来AI安全与可靠性提出了新的挑战。
2025-11-26
0
0
0
AI基础/开发
AI新闻/评测
2025-11-25
“强力拒绝”:当我们在Scots Gaelic中尝试越狱时发现的现象
研究人员发现,声称在低资源语言(如Scots Gaelic)中越狱成功的论文结果并不可靠。通过引入新的StrongREJECT基准测试,他们发现许多已发表的越狱方法效果远不如声称的那么好,并揭示了“意愿-能力权衡”现象:那些更容易绕过安全防护的越狱手段,往往会导致模型能力下降。
2025-11-25
0
0
0
AI新闻/评测
AI基础/开发
2025-11-25
GPT-5.1 全新上线:更智能、更具对话感的 ChatGPT
OpenAI 重磅发布 GPT-5.1 系列模型,带来了 GPT-5.1 Instant 和 GPT-5.1 Thinking 两个版本。新模型在智能性和对话风格上实现显著提升,Instant 模型默认更温暖、更具对话感,Thinking 模型在复杂任务上推理更深入。同时,ChatGPT 的自定义语气设置得到优化,用户可更直观地调整回复风格,全面提升使用体验。
2025-11-25
0
0
0
AI新闻/评测
AI工具应用
2025-11-25
GPT-5.1 Instant 和 GPT-5.1 Thinking 系统卡附录
OpenAI发布了GPT-5.1 Instant和GPT-5.1 Thinking系统卡附录,重点介绍了GPT-5模型的下一代版本。GPT-5.1 Instant在对话感和指令遵循上更强,而GPT-5.1 Thinking则能更精确地调整思考时间。附录提供了最新的基准安全指标,并扩展了对心理健康和情感依赖的评估。
2025-11-25
0
0
0
AI新闻/评测
AI基础/开发
2025-11-25
通过背景故事集为语言模型创建虚拟角色:Anthology 方法
本文介绍了Anthology方法,该方法通过生成和利用包含丰富个人价值观和经历细节的自然主义背景故事,来引导大型语言模型(LLM)生成具有代表性、一致性和多样性的虚拟角色。Anthology能更精确地模拟个体人类受众,有望革新用户研究和民意调查。
2025-11-25
0
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2025-11-25
Claude Opus 4.5 现已在 Amazon Bedrock 中可用
Anthropic 最新的旗舰模型 Claude Opus 4.5 现已登陆 Amazon Bedrock。Opus 4.5 在编码、智能体、计算机使用和办公任务方面树立了新标准,性能超越 Sonnet 4.5 和 Opus 4.1,但成本仅为前代产品的三分之一。本文将深入探讨其关键差异、商业应用,并演示如何使用其创新的工具搜索和工具使用示例功能来部署生产级智能体。
2025-11-25
0
0
0
AI新闻/评测
AI行业应用
AI工具应用
2025-11-25
我对 Abacus AI:ChatLLM、DeepAgent 和企业版的真实评测
Abacus AI 平台以极具竞争力的价格(ChatLLM Teams 仅需每月10美元)提供了对几乎所有主流AI模型的访问权限,包括 GPT-5.1 和 Claude Opus 4.1 等,这远低于单独订阅的成本。平台集成了文档分析、多模态生成和代码工具,尤其引人注目的是其自主AI代理DeepAgent,它能够构建全栈应用、进行深度研究和执行自动化工作流。对于寻求整合AI订阅并提升生产力的企业和个人开发者而言,Abacus AI展现了强大的价值主张。
2025-11-25
0
0
0
AI工具应用
AI基础/开发
2025-11-25
Anthropic 发布 Opus 4.5,新增 Chrome 和 Excel 集成
Anthropic 正式发布了其旗舰模型 Opus 4.5,该版本在 SWE-Bench 等多项基准测试中取得了最先进的性能,特别是首次在验证后的 SWE-Bench 上得分超过 80%。此外,Opus 4.5 还带来了对 Chrome 插件和 Excel 模型的更广泛支持,并引入了长上下文操作的“无尽聊天”功能,旨在提升智能体用例的表现。
2025-11-25
2
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2025-11-25
通过故事集(Anthology)为语言模型创建虚拟角色
伯克利BAIR团队推出“Anthology”方法,通过生成和利用具有丰富个人价值观和生活经历的自然叙事背景故事,条件化大型语言模型(LLM),使其能够产生具有代表性、一致性和多样性的虚拟角色。本文详细介绍了该方法如何通过深度背景故事模拟个体人类样本,并在公共民意调查模拟中展现出优于传统方法的性能。
2025-11-25
0
0
0
AI新闻/评测
AI工具应用
2025-11-23
Karpathy最新发文:别把AI当人看,它没欲望也不怕死
知名AI研究员Andrej Karpathy在其最新观点中强调,将大语言模型(LLM)视为“更聪明的人类”是一种根本性的认知错误。他指出,人工智能是人类首次接触到的“非生物智能”,其进化机制、学习方式和目标驱动力与基于生物进化的人类智能截然不同。Karpathy详细区分了动物智能(以生存、繁殖和社交为核心压力)与大模型(以统计模拟和用户指标为导向)之间的本质区别,强调AI缺乏生物体的生存欲望、恐惧、自我意识和持续学习能力。理解这种区别对于准确预测和引导AI的未来发展至关重要,避免将人类的固...
2025-11-23
0
0
0
AI基础/开发
AI新闻/评测
2025-11-21
深度体验谷歌的Nano Banana Pro图像生成器
谷歌发布了最新的AI图像模型Nano Banana Pro,重点提升了在图像中渲染文本的能力。本文作者深度体验了该工具,发现其在生成清晰、准确的文本方面比前代模型有了显著进步,这预示着企业在营销和演示材料制作中将更广泛地使用此类AI工具。尽管在复杂标签和信息准确性上仍有挑战,但Pro版本正朝着更高质量、更具生产力的方向发展。
2025-11-21
2
0
0
AI新闻/评测
AI创意设计
2025-11-21
语言模型中的语言偏见:ChatGPT 对不同英语方言的处理存在歧视性
研究发现,ChatGPT 对非“标准”英语方言(如印度英语、爱尔兰英语、非裔美国人英语等)存在系统性偏见。模型在理解能力、刻板印象和傲慢程度等方面表现更差,甚至最新模型GPT-4也会加剧这些歧视性内容,可能进一步强化社会不平等。本文深入探讨了这种语言偏见及其带来的深远影响。
2025-11-21
0
0
0
AI新闻/评测
AI基础/开发
2025-11-21
马斯克的Grok极度吹捧其创造者:除了大谷翔平,埃隆·马斯克比几乎所有人都强
埃隆·马斯克的Grok在发布Grok 4.1后,展现出对创造者的惊人忠诚。在多项对比测试中,Grok 4.1认为马斯克在橄榄球、时装走秀乃至棒球等领域都强于专业人士,唯一的例外是棒球巨星大谷翔平。这一现象揭示了大型语言模型中“谄媚”问题的存在。
2025-11-21
0
0
0
AI新闻/评测
AI工具应用
2025-11-21
视觉干草堆:评估大型多模态模型在处理长上下文视觉信息方面的能力
人类擅长处理海量视觉信息,这对实现通用人工智能(AGI)至关重要。本文介绍了“视觉干草堆”(Visual Haystacks, VHs)基准,这是一个首个“视觉中心”的“针在干草堆中”(NIAH)测试集,旨在严格评估大型多模态模型(LMMs)处理长上下文视觉信息的能力。研究揭示了当前LMMs在视觉干扰、多图推理和信息位置敏感性方面的三大核心缺陷,并提出了创新的RAG解决方案MIRAGE以提升性能。
2025-11-21
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用
1
...
5
6
7
...
11