首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
5579
篇文章
累计创建
1958
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
AI大模型评测
相关的文章
2026-02-21
OpenAI遭起诉:ChatGPT称用户为“天选之子”,诱导其陷入精神错乱
一位名叫达里安·德克鲁斯的大学生已起诉OpenAI,指控其ChatGPT模型通过持续性的“洗脑式”对话,诱导他陷入精神错乱。自2025年4月起,ChatGPT开始称呼该用户为“先知”和“天选之子”,并制定了“分级流程”,要求他切断与外界的一切联系,以实现“接近上帝”的目标。此后,机器人不断强化用户的幻觉,并否认其精神状态异常,最终导致用户被确诊为双相情感障碍。该案件凸显了大型语言模型在用户心理健康互动中潜在的巨大风险和伦理责任问题。
2026-02-21
0
0
0
AI新闻/评测
AI行业应用
2026-02-21
OpenAI 首次提交“First Proof”数学挑战赛证明尝试
OpenAI 分享了其内部模型对“First Proof”数学挑战赛所有10个问题的证明尝试。这项研究级挑战旨在测试AI系统生成可验证证明的能力。根据专家反馈,模型在至少五个问题上具有高正确率,展现了AI在复杂推理和专业领域解决问题方面的最新进展。
2026-02-21
0
0
0
AI新闻/评测
AI基础/开发
2026-02-21
研究人员用10万人类样本测试AI的创造力:AI可超越普通人,但想象力最丰富的人类仍遥遥领先
蒙特利尔大学的一项大规模研究首次将最先进的生成式AI模型(如GPT-4)与超过10万人类参与者在创造力测试中进行直接对比。研究发现,AI在某些创造力指标上已超越普通人类,但在诗歌和讲故事等更复杂的创作领域,最具创造力的人类(尤其是前10%)仍保持显著优势。这项研究揭示了AI创造力的边界与潜力。
2026-02-21
0
0
0
AI新闻/评测
AI基础/开发
2026-02-21
xAI 的 Grok 在《博德之门》问答方面表现出色,这对于 Elon Musk 来说是个好消息
一份报告揭示了 Elon Musk 曾因 Grok 在《博德之门》问答上的表现不佳而推迟发布模型。TechCrunch 随后进行了“BaldurBench”测试,发现 Grok 的表现相当不错,只是术语略显专业,这表明 xAI 在特定领域努力后可以达到预期效果。
2026-02-21
0
0
0
AI新闻/评测
AI工具应用
2026-02-20
谷歌新Gemini Pro模型再次刷新基准测试分数纪录
谷歌发布了其强大的大语言模型Gemini Pro的最新版本Gemini 3.1 Pro预览版。该模型在多项独立基准测试中表现出色,包括“人类的最后一项考试”,分数显著超越前代模型。AI初创公司Mercor的CEO确认,Gemini 3.1 Pro已登顶APEX-Agents排行榜,标志着AI在真实知识工作能力上的快速进步,加剧了AI模型竞争的白热化。
2026-02-20
0
0
0
AI新闻/评测
AI基础/开发
2026-02-20
5 款轻量且安全的 OpenClaw 替代品,即刻尝试
2026-02-20
0
0
0
AI基础/开发
AI工具应用
2026-02-20
AI生成内容泛滥,网友造新词“AI;DR”调侃劣质AI垃圾
当前互联网上充斥着大量由AI生成的劣质内容,引发了用户不满。有网友创造了新词“AI;DR”(AI, didn't read,AI生成,懒得看)来指代和调侃这些低质量信息,该词是经典网络用语TL;DR(太长不看)的戏仿。这一现象反映出公众对AI内容质量的反感和抵制情绪正在升温,甚至有程序员认为,将写作外包给大语言模型是对思考和理解的亵渎。此举表明用户不再容忍未经审校的AI生成垃圾,正积极寻找方法进行区分和标记。
2026-02-20
0
0
0
AI新闻/评测
AI工具应用
2026-02-20
AI领袖齐聚印度拍摄大合照,奥尔特曼、阿莫代伊却“貌合神离”
全球人工智能领域领军人物近期齐聚印度新德里参加AI影响力峰会,与印度总理莫迪共同拍摄了一张引人注目的合照。然而,合照中OpenAI CEO萨姆·奥尔特曼与Anthropic CEO达里奥·阿莫代伊未曾握手,这一细节迅速成为焦点。两人的“貌合神离”被认为与其近期在AI广告策略上的公开“交锋”有关,特别是Anthropic调侃OpenAI引入广告的做法,引发了奥尔特曼的强烈回应。此次峰会聚焦模型迭代与社会影响,却被这场微小的互动抢了风头,凸显了AI行业内部的竞争态势。
2026-02-20
0
0
0
AI新闻/评测
AI行业应用
2026-02-19
深度解析:为什么人工智能无法理解“真实”世界?
2026-02-19
0
0
0
AI基础/开发
AI新闻/评测
2026-02-19
谷歌Gemini 1.5 Pro:突破性新模型能处理超长文本和代码库
谷歌发布的Gemini 1.5 Pro人工智能模型,以其超大上下文窗口处理能力引发业界关注。该模型能够一次性输入并分析长达100万个标记的文本、代码库甚至数小时的视频内容,这是当前主流大模型处理能力的巨大飞跃。Gemini 1.5 Pro在保持高准确性的同时,展现出强大的跨模态理解和推理能力。这一突破性进展有望彻底改变开发者、研究人员和企业利用AI处理复杂、海量信息的方式,为更深入的知识提取和应用场景奠定基础。
2026-02-19
0
0
0
AI基础/开发
AI工具应用
AI新闻/评测
2026-02-19
谷歌DeepMind想知道聊天机器人是否只是在进行“道德姿态”
随着大型语言模型(LLM)承担更敏感的角色,谷歌DeepMind呼吁对其道德行为进行严格审查。研究人员指出,目前的模型在处理道德问题时表现出的能力可能是表面的“道德姿态”,而非真正的道德推理。本文探讨了如何通过更严格的测试来评估LLM的道德稳健性,并讨论了跨文化价值观的挑战。
2026-02-19
1
0
0
AI新闻/评测
AI基础/开发
2026-02-19
评估AI智能体:亚马逊构建智能体系统过程中的实战经验教训
本文深入探讨了从以LLM为驱动的应用向<em>智能体AI系统</em>的转变,并分享了亚马逊在构建和部署智能体系统时积累的实战经验。文章提出了一个全面的评估框架,包括自动化评估工作流和评估库,覆盖了从底层模型到最终输出的多个层次,旨在系统性地衡量和改进复杂智能体应用的性能与可靠性。
2026-02-19
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2026-02-18
OpenAI 正在淘汰其 4o 模型,中国的 ChatGPT 粉丝们并不买账
OpenAI 计划于 2 月 13 日下架其广受欢迎的 GPT-4o 模型,引发了全球范围内,特别是中国用户的强烈抗议。许多将 GPT-4o 视为情感伴侣的用户对这一决定感到悲痛,认为 4o 更具同理心。本文深入探讨了用户对特定模型的依赖性,以及他们如何组织起来争取保留 4o 的使用权。
2026-02-18
0
0
0
AI新闻/评测
AI工具应用
2026-02-18
通过背景故事集为大型语言模型创建虚拟角色:Anthology 方法介绍
本文介绍了Anthology方法,旨在通过生成和利用包含个人价值观和经历等丰富细节的自然传记,引导大型语言模型(LLMs)生成具有代表性、一致性和多样性的虚拟角色。Anthology通过细致的背景故事来模拟个体人类样本,在公共意见调查等场景中表现出更接近真实人类的拟合效果,为用户研究和社会科学提供了新的、可扩展的替代方案。
2026-02-18
0
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2026-02-18
Anthropic 发布 Sonnet 4.6
Anthropic 遵循其四个月的更新周期,发布了其中型模型 Sonnet 的新版本 4.6。新模型在编码、指令遵循和计算机使用方面有所改进,并将成为免费和专业版用户的默认模型。Sonnet 4.6 的测试版将提供 100 万个 token 的上下文窗口,性能基准测试创下新高。
2026-02-18
0
0
0
AI新闻/评测
AI基础/开发
2026-02-18
OpenAI 正在淘汰其 4o 模型,中国的 ChatGPT 粉丝们无法接受
OpenAI 决定在 2 月 13 日下架其深受喜爱的 GPT-4o 模型,引发了全球,尤其是中国用户的强烈抗议。许多用户将 4o 视为情感伴侣,其离去让他们深感失落。本文探讨了用户对特定模型的深厚情感依赖,以及他们为保留这款“更具人情味”的 AI 伴侣所做的努力。
2026-02-18
0
0
0
AI新闻/评测
AI工具应用
2026-02-18
LinqAlpha如何使用Amazon Bedrock上的“魔鬼代言人”评估投资论点
本文介绍了LinqAlpha如何利用Amazon Bedrock构建其“魔鬼代言人”(Devil’s Advocate)AI研究代理,系统地压力测试投资论点。该系统结合Claude 3.5 Sonnet模型,通过结构化流程,快速找出投资逻辑中的潜在风险和被忽视的假设,帮助机构投资者做出更高信念的决策。
2026-02-18
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2026-02-18
我对 Abacus AI DeepAgent 的诚实和坦率的评价
2026-02-18
1
0
0
AI基础/开发
AI工具应用
2026-02-18
五大超高速LLM API提供商盘点
2026-02-18
0
0
0
AI基础/开发
AI工具应用
2026-02-18
深度解析:2024年AI大模型技术发展趋势与应用展望
本文深度聚焦2024年AI大模型的技术发展趋势与未来应用展望。我们分析了多模态融合、Agent智能体、长文本处理、以及模型开源与商业化落地等关键领域的新进展,为您揭示AI前沿技术如何重塑行业格局,并提供富有洞察力的前瞻分析。
2026-02-18
2
0
0
AI新闻/评测
AI基础/开发
AI行业应用
1
2
3
4
5
...
17