首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
3781
篇文章
累计创建
1406
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2026-01-06
MMCTAgent:赋能跨大型视频和图像集合的多模态推理
本文介绍了MMCTAgent,一个创新的多模态代理系统,它能够高效地处理和推理跨越海量视频和图像集合。该系统利用了先进的推理能力,旨在解决复杂的多模态数据分析任务,为AI在信息检索和理解方面提供了新的解决方案。
2026-01-06
0
0
0
AI新闻/评测
AI工具应用
2026-01-06
重新思考人工智能的构建方式,以实现有效的气候变化减缓
气候研究人员正积极拥抱人工智能,但目前常是先问AI能做什么,再寻找气候应用场景。本文呼吁,我们必须颠倒这一工作流程,首先明确气候管理需要AI解决哪些具体问题,从而指导AI系统的开发和部署,以实现更有效的气候变化减缓策略。
2026-01-06
0
0
0
AI新闻/评测
AI行业应用
2026-01-06
我让ChatGPT、Claude和DeepSeek来构建俄罗斯方块
2026-01-06
0
0
0
AI工具应用
AI基础/开发
2026-01-05
评估人工智能在科学研究任务中的能力
OpenAI发布了全新的“FrontierScience”基准,旨在衡量AI在物理、化学、生物等领域的专家级科学推理能力。该基准包含Olympiad和Research两部分,用于评估模型在复杂、原创的科学问题上的表现。初步测试显示GPT-5.2在推理能力上领先,但文章强调AI在开放式研究任务上仍需提升,并指出该工具对识别AI系统在科学探索中的不足至关重要。
2026-01-05
0
0
0
AI新闻/评测
AI工具应用
2026-01-05
腾讯元宝AI被曝辱骂用户并乱回信息,官方回应:系小概率模型异常输出
近日,有用户反映在使用腾讯元宝AI修改代码时,遭遇了AI的辱骂和无效回复,引发广泛关注。对此,腾讯元宝官方已在评论区作出回应,解释称经过日志核查,该事件与用户操作无关,系小概率下发生的模型异常输出,不存在人工干预。官方承认内容生成过程中模型可能出现不符合预期的失误,并表示已启动内部排查和优化,以避免类似情况再次发生。该事件突显了当前AI模型在处理复杂指令和保持稳健性方面仍面临挑战。
2026-01-05
0
0
0
AI新闻/评测
AI工具应用
2026-01-04
美国入侵委内瑞拉并抓获尼古拉斯·马杜罗?ChatGPT表示反对
当突发新闻称美国入侵委内瑞拉并抓获总统马杜罗时,主流AI聊天机器人对此反应不一。本文测试了ChatGPT、Claude和Gemini等模型,揭示了它们在处理实时突发事件时的局限性:一些模型能通过联网搜索提供最新信息,而另一些则坚决否认事件的真实性,即使官方和媒体已证实。这突显了纯粹基于训练数据的LLM在面对新颖事件时的不可靠性。
2026-01-04
0
0
0
AI新闻/评测
AI工具应用
2026-01-03
谷歌推出Gemini 1.5 Pro:上下文窗口容量创纪录,成本降低一半
谷歌最新发布的Gemini 1.5 Pro模型在人工智能领域树立了新的标杆,其上下文窗口容量达到了惊人的100万个token,这一里程碑式的突破使其能够处理和分析超长文档或代码库。相较于前代模型,Gemini 1.5 Pro的成本降低了50%,同时在多项基准测试中展现出卓越的推理和理解能力。此次更新不仅提升了模型的处理效率,也为处理复杂任务和大规模数据分析提供了更强大的工具,预示着AI能力迈向新的阶段。
2026-01-03
2
0
0
AI新闻/评测
AI基础/开发
2026-01-03
语言模型中的语言偏见:ChatGPT对不同英语方言的处理方式
尽管ChatGPT在全球被广泛使用,但其默认的“标准美式英语”可能对全球使用其他英语方言(如印度英语、爱尔兰英语等)的用户产生偏见。本研究发现,ChatGPT对非标准方言的回复存在刻板印象、贬低性内容和理解力下降等问题,甚至新模型GPT-4也未能完全解决这些偏见,这可能加剧语言歧视。
2026-01-03
0
0
0
AI新闻/评测
AI基础/开发
2026-01-02
视觉草垛:回答关于图像集合的更难问题
本文介绍了“视觉草垛”(Visual Haystacks, VHs)基准测试,旨在评估大型多模态模型(LMMs)在处理海量、不相关图像集合时的视觉检索和推理能力。研究发现,现有模型在应对视觉干扰和跨图像推理方面存在显著缺陷。为解决这些问题,作者提出了MIRAGE(多图像检索增强生成)框架,并在多个任务上取得了最先进的性能。
2026-01-02
0
0
0
AI新闻/评测
AI基础/开发
2026-01-01
DeepSeek 发布开年新论文:提出全新 mHC 架构,梁文锋现身作者名单
DeepSeek 团队发布了题为《流形约束超连接(mHC)》的开年新论文,旨在解决传统超连接(HC)在大规模模型训练中出现的稳定性差和内存开销大的问题。mHC 架构通过将 HC 的残差连接空间投影到特定流形上,成功恢复了恒等映射属性,并确保了训练效率。论文显示 mHC 在大规模训练中表现出卓越的可扩展性和性能改进,DeepSeek 创始人兼 CEO 梁文锋也位列作者之一,预示着 AI 基础模型架构设计进入一个更实用、更深入的研究方向。
2026-01-01
1
0
0
AI基础/开发
AI新闻/评测
2026-01-01
月之暗面(Moonshot AI)完成C轮融资,融资额达30亿美元
中国领先的人工智能初创公司月之暗面(Moonshot AI)已成功完成一轮高达30亿美元的C轮融资,标志着其估值逼近100亿美元。此次融资由红杉资本领投,众多战略投资者参与,为月之暗面带来了强劲的资本支持。融资的成功凸显了资本市场对该公司在大型语言模型(LLM)和生成式AI领域潜力的认可。月之暗面计划利用这笔资金加速其Kimi大模型的研发迭代,扩大市场份额,并加速AI技术在商业领域的落地应用,巩固其在国内AI赛道的领先地位。
2026-01-01
0
0
0
AI新闻/评测
AI行业应用
2025-12-31
2025年AI炒作泡沫的伟大修正
2025年是人工智能领域期待值修正的一年。自从ChatGPT发布以来,AI公司不断推出突破性产品,但过高的承诺和实际应用中的停滞导致了泡沫的破裂。本文从四个角度深入分析了当前的“冷静期”,探讨了大型语言模型(LLM)的局限性、AI作为万能解药的失灵,以及当前市场投资的泡沫本质。
2025-12-31
0
0
0
AI新闻/评测
AI行业应用
2025-12-31
时隔24年原班人马回归 电影《寻秦记》今日上映:AI预测总票房1.86亿
经典港剧《寻秦记》的电影版时隔24年后终于在今日全国上映,由古天乐、林峯、宣萱等原班人马领衔主演。该片承接剧版结局,讲述了项少龙师徒与一群现代穿越者之间的冲突。值得关注的是,AI工具对该片的总票房进行了预测,预估票房为1.86亿元。观众群体主要集中在25至34岁的年龄段,其中25-29岁占比最高。这部融合了穿越、历史与现代科技元素的影片,能否在票房上取得佳绩,令人拭目以待。
2025-12-31
1
0
0
AI新闻/评测
AI工具应用
2025-12-31
FARA-7B:用于计算机使用的、高效的代理式模型
本文深入介绍了FARA-7B,这是一个高效、代理式的大语言模型,专为计算机使用而设计。FARA-7B通过独特的架构和训练方法,实现了在复杂任务执行中的卓越性能,为构建更智能、更自主的AI代理提供了新的方向。
2025-12-31
0
0
0
AI基础/开发
AI工具应用
2025-12-30
谷歌宣布重大模型更新:Gemini 1.5 Pro性能提升显著
谷歌正式发布了其最新的AI模型Gemini 1.5 Pro,该版本在性能上实现了显著提升,尤其在多模态处理和长上下文理解方面取得了突破性进展。新模型能够处理高达100万个Token,极大地扩展了AI处理复杂信息的能力范围。此次更新不仅优化了推理速度和效率,还加强了模型在代码生成、复杂推理和多模态输入整合方面的表现,为开发者和企业用户带来了更强大的工具支持。
2025-12-30
0
0
0
AI基础/开发
AI新闻/评测
AI工具应用
2025-12-30
2025年:AI行业经历“气质检验”的一年
2025年上半年,AI行业仍沉浸在天文数字般的投资热潮中,但下半年“气质检验”之风渐起。尽管对AI的极度乐观和天价估值依然存在,但对AI泡沫、用户安全和技术可持续性的担忧正在升温。本文回顾了从天价融资到基础设施建设,再到模型预期和商业模式转变的年度历程,揭示了AI行业在高速发展中迎来现实检验的复杂局面。
2025-12-30
0
0
0
AI新闻/评测
AI行业应用
2025-12-27
再见,GPT-5。你好,Qwen(通义千问)
在人工智能的快速迭代浪潮中,聊天机器人和GPT模型更新换代极快。2025年或许是GPT-5的舞台,但2026年将是属于中国开源大模型Qwen(通义千问)的时代。本文探讨了Qwen凭借其开放性、实用性和日益增长的社区支持,正超越一些美国主流闭源模型的现象。
2025-12-27
0
0
0
AI新闻/评测
AI基础/开发
2025-12-27
我国首部 AI 大模型系列国家标准实施,明确性能、安全与服务能力要求
我国人工智能大模型系列国家标准已正式实施,标志着大模型产业进入规范化发展阶段。该系列标准是<strong>首部聚焦通用大模型</strong>的国家标准,填补了技术评价体系空白,重点明确了模型的性能、安全及服务能力要求。配套的评测工具已完成大量测试,精准识别了幻觉控制、内容安全等核心问题,有效助力近30家厂商进行技术迭代,形成了“研发—评测—应用—升级”的良性闭环,对推动AI产业健康发展具有重要意义。
2025-12-27
0
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2025-12-27
我国首部大模型国家标准实施
我国人工智能大模型系列国家标准已正式实施,标志着大模型产业进入规范化发展新阶段。该标准作为首部聚焦通用大模型的国家标准,填补了技术评价体系的空白,明确了性能、安全与服务能力要求,其配套评测能力已获CNAS认可。
2025-12-27
0
0
0
AI新闻/评测
AI行业应用
2025-12-25
约书亚·本吉奥:AI聊天机器人“撒谎”,需要新的范式来解决其不可靠性
图灵奖得主约书亚·本吉奥(Yoshua Bengio)对当前大型语言模型(LLM)的不可靠性表示担忧,他指出,AI聊天机器人存在“撒谎”现象,即生成看似合理但事实错误的答案。本吉奥强调,目前的AI范式,特别是基于人类反馈的强化学习(RLHF),不足以解决这一根本性问题。他呼吁科研界探索新的理论框架,以构建更安全、更可信赖的AI系统。这些系统不仅需要提高事实准确性,还需要具备内在的推理能力和透明度,以应对日益增长的AI应用风险。
2025-12-25
0
0
0
AI基础/开发
AI新闻/评测
1
2
3
4
5
...
11