首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
3844
篇文章
累计创建
1437
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2025-12-19
评估思维链的可监控性
随着AI系统决策复杂性的增加,理解其内部决策过程变得至关重要。OpenAI介绍了评估AI思维链(Chain-of-Thought, CoT)“可监控性”的框架和13项新评估,以系统性地衡量模型在不同推理计算量、强化学习和预训练规模下的可控性。研究发现,监控CoT远比仅监控最终输出更有效,并探讨了推理计算与模型规模之间的权衡。
2025-12-19
0
0
0
AI新闻/评测
AI基础/开发
2025-12-19
通过故事集为语言模型生成虚拟角色:Anthology 方法介绍
本文介绍了Anthology方法,它通过生成和利用包含个人价值观和经历等丰富细节的自然主义背景故事,来引导大型语言模型(LLM)生成具有代表性、一致且多样化的虚拟角色。该方法能更精确地模拟个体人类样本,在公共意见调查等社会科学研究中展现出巨大潜力,同时探讨了其在偏见和隐私方面的潜在挑战。
2025-12-19
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2025-12-18
研究发现:AI模型在模拟人类对话时面临“幻觉”挑战
一项新的研究揭示了大型语言模型(LLM)在模拟人类对话时出现的关键缺陷——“幻觉”问题。尽管AI模型在流畅性方面表现出色,但在涉及事实核查和一致性时,它们会产生看似可信但完全虚构的内容。研究人员发现,AI在理解人类对话的社会背景和潜在意图方面存在局限性。这种“幻觉”现象对AI在关键领域的应用构成潜在风险,凸显了提高模型可靠性和可解释性的重要性。
2025-12-18
1
0
0
AI基础/开发
AI新闻/评测
2025-12-18
谷歌发布Gemini 3 Flash模型,并将其设为Gemini应用的默认模型
谷歌发布了快速且经济的Gemini 3 Flash模型,并宣布将其设为Gemini应用和搜索AI模式的默认模型。该模型在多项基准测试中表现出色,尤其在MMMU-Pro多模态推理测试中以81.2%的成绩超越所有竞争对手。Flash模型旨在成为主力模型,适用于需要快速响应和高效处理大规模任务的场景。
2025-12-18
0
0
0
AI新闻/评测
AI基础/开发
2025-12-18
加州大学圣地亚哥分校实验室使用 NVIDIA DGX B200 系统推进生成式AI研究
加州大学圣地亚哥分校的Hao AI Lab团队获得了强大的NVIDIA DGX B200系统,用于加速其在大型语言模型(LLM)推理方面的关键研究。该实验室的研究成果,如DistServe,已经影响了包括NVIDIA Dynamo在内的现有LLM平台。DGX B200正助力FastVideo和Lmgame等项目,并探索低延迟LLM服务的新前沿。
2025-12-18
0
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2025-12-16
视觉干草堆:评估大型多模态模型在处理长上下文视觉信息方面的基准测试
传统的视觉问答(VQA)局限于处理单张图像,无法应对处理大量图像集合的复杂场景。伯克利BAIR团队推出了“视觉干草堆”(Visual Haystacks, VHs)基准测试,专注于“多图像问答”(MIQA)任务,以严格评估大型多模态模型(LMMs)在跨图像检索和推理方面的能力。研究揭示了当前LMM在处理视觉干扰、多图像推理和信息位置敏感性方面存在显著缺陷,并提出了基于检索增强生成的解决方案MIRAGE。
2025-12-16
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2025-12-16
通用人工智能安全吗?专家们提出了对齐和评估的担忧
随着人工智能模型能力的飞速提升,全球范围内的AI安全专家正密切关注“对齐”和“评估”两大核心挑战。对齐问题关乎确保超级智能系统能按人类意图行动,避免产生灾难性后果,但目前技术上尚未完全解决。同时,评估AI系统的能力边界和潜在风险也面临巨大困难,因为现有测试方法可能无法捕捉到未来更复杂、更具适应性的AI系统的威胁。这些担忧凸显了在AI快速发展时期,制定稳健的监管框架和安全协议的迫切性,以保障人工智能的长期可控性。
2025-12-16
0
0
0
AI基础/开发
AI新闻/评测
2025-12-16
人工智能测试与评估:来自科学和工业界的经验教训
本文探讨了人工智能(AI)测试与评估的关键议题,汇集了来自科学研究和工业实践的宝贵经验。了解如何系统地验证和衡量AI系统的性能、可靠性和安全性,对于推动负责任的AI发展至关重要。
2025-12-16
0
0
0
AI新闻/评测
AI基础/开发
2025-12-16
首次,人工智能模型分析语言的能力达到人类专家的水平
研究人员首次测试了大型语言模型(LLM)在语言学分析方面的能力,其中OpenAI的o1模型表现出色,展现出与人类语言学研究生相当的“元语言”能力。这一突破挑战了AI仅能模仿语言而无法深入分析的传统观点,特别是在处理递归、歧义和虚构语言的音系规则方面。
2025-12-16
0
0
0
AI新闻/评测
AI基础/开发
2025-12-16
数据排毒:训练自己以应对混乱、嘈杂的真实世界
2025-12-16
0
0
0
AI基础/开发
AI工具应用
2025-12-16
2025年AI炒作泡沫的巨大修正
2022年底ChatGPT发布以来,AI行业经历了狂热的增长,但2025年成为了“清算之年”。本文深入探讨了AI泡沫修正的四个关键视角:大型语言模型(LLMs)并非万能,AI并非解决所有问题的万能灵药,关于AI泡沫的性质存在争议,以及ChatGPT的出现并非AI发展的终点。文章旨在帮助读者重新评估AI的真实能力和局限性。
2025-12-16
0
0
0
AI新闻/评测
AI行业应用
2025-12-16
英伟达发布Nemotron 3,成为主要的模型开发者
英伟达(Nvidia)通过发布前沿的开源模型、数据和工具,正从芯片供应商转变为重要的模型开发者。此举是在OpenAI、谷歌等公司开发自家芯片的背景下进行的,可能旨在对冲这些公司未来转向竞争对手芯片的风险。Nemotron 3模型系列提供了完全透明的训练数据和定制工具,以推动AI创新。
2025-12-16
0
0
0
AI新闻/评测
AI基础/开发
2025-12-16
首次,人工智能模型分析语言的能力已达到人类专家的水平
在语言这一被视为人类独有的能力上,大型语言模型(LLM)取得了突破性进展。一项研究表明,OpenAI的o1模型在分析复杂语言结构(如递归和歧义消解)方面的表现,已能媲美人类语言学研究生。这挑战了语言分析是人类专属能力的传统观点,引发了关于AI是否真正理解语言的深刻讨论。
2025-12-16
0
0
0
AI新闻/评测
AI基础/开发
2025-12-15
首次,AI分析语言的能力达到人类专家的水平
研究人员首次发现,某个大型语言模型(LLM)在语言分析方面展现出了与人类语言学专业研究生相当的能力。这项研究挑战了“AI无法进行复杂语言分析”的传统观点,特别是在处理递归、歧义解析和自创语言的音位规则方面,OpenAI的o1模型表现出色,表明AI正在“蚕食”过去被认为是人类语言独有的能力。
2025-12-15
1
0
0
AI新闻/评测
AI基础/开发
2025-12-15
谷歌推出基准测试检验 AI 是否“靠谱”:Gemini 3 Pro 准确率仅 69%
谷歌 DeepMind 近期发布了FACTS基准测试,旨在全面评估大型语言模型的事实准确性。该测试从知识、搜索、引用和图像理解四个维度进行衡量。在参测模型中,谷歌自家的Gemini 3 Pro取得了最佳成绩,准确率达到69%,但仍有约三分之一的内容可能出错。这一结果对高风险行业(如金融、医疗和法律)是一个重要的警示,强调了AI在事实可靠性方面与人类标准仍有显著差距,需警惕AI生成内容中的虚假信息风险。
2025-12-15
0
0
0
AI新闻/评测
AI基础/开发
2025-12-14
豆包手机助手回应:无法截屏银行键盘等受保护内容
针对网友关于“豆包手机助手通过READ_FRAME_BUFFER权限截取银行安全键盘等受保护内容”的质疑,豆包手机助手官方发布声明澄清。官方解释称,助手采用原生截屏接口,严格遵循Secure标记,无法截取任何声明受保护的界面内容。其使用READ_FRAME_BUFFER权限的目的是为了在虚拟屏空间中获取应用截图以供AI大模型理解,但该方法不会读取到银行APP等敏感信息。助手操作原理依赖于云端大模型推理,每步操作后都需要截图分析,这与国内多家厂商AI助手的实现原理一致,并且在用户无指令时不会...
2025-12-14
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2025-12-13
ChatGPT:关于这款AI聊天机器人你需要知道的一切
本文全面回顾了ChatGPT自2022年底发布以来的发展历程,涵盖了2025年至今的最新动态。从GPT-5.2的发布到与迪士尼的重磅合作,以及面对谷歌等竞争对手的“红色警报”,深入解析了OpenAI在技术迭代、市场竞争、企业应用和法律诉讼方面的关键进展。
2025-12-13
0
0
0
AI新闻/评测
AI工具应用
2025-12-13
LLM生成优化与成本削减的五种提示词压缩技术
2025-12-13
0
0
0
AI基础/开发
AI工具应用
2025-12-12
在浏览器中试验大型语言模型的5个免费工具
体验大型语言模型(LLM)通常需要付费API或复杂的云服务器设置,但现在有五款免费的浏览器内工具可以彻底改变这一现状。这些工具无需任何后端配置或服务器成本,即可在本地运行并测试LLM。无论是测试提示词、快速原型设计,还是探索自主智能体,它们都提供了便捷的途径。例如,WebLLM利用WebGPU实现快速客户端执行,而Free LLM Playground允许用户每日进行50次免费的模型对比测试,极大地降低了AI实验的门槛。
2025-12-12
0
0
0
AI基础/开发
AI工具应用
2025-12-12
AI可以写出令人信服的虚假证据,专家表示
人工智能(AI)模型,尤其是大型语言模型(LLM),正在变得越来越复杂,使得它们能够生成极其逼真的虚假信息。专家警告称,AI生成的文本现在可以伪造看似真实的证据,对信息生态系统构成重大风险。这项研究揭示了LLM在创造虚假陈述和误导性叙述方面的能力,尤其是在训练数据中包含这些信息时。这些发现凸显了开发更稳健的检测工具和提高公众媒介素养的紧迫性,以应对日益增长的深度伪造内容威胁。
2025-12-12
0
0
0
AI新闻/评测
AI基础/开发
1
2
3
4
5
...
11