AI大模型评测-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

行动起来，活在当下

累计撰写 2207 篇文章
累计创建 750 个标签
累计收到 0 条评论

目录CONTENT

以下是 AI大模型评测相关的文章

2025-11-21
深度体验谷歌的Nano Banana Pro图像生成器谷歌发布了最新的AI图像模型Nano Banana Pro，重点提升了在图像中渲染文本的能力。本文作者深度体验了该工具，发现其在生成清晰、准确的文本方面比前代模型有了显著进步，这预示着企业在营销和演示材料制作中将更广泛地使用此类AI工具。尽管在复杂标签和信息准确性上仍有挑战，但Pro版本正朝着更高质量、更具生产力的方向发展。
- 2025-11-21
- 0
- 0
- 0
- AI新闻/评测
- AI创意设计
2025-11-21
语言模型中的语言偏见：ChatGPT 对不同英语方言的处理存在歧视性研究发现，ChatGPT 对非“标准”英语方言（如印度英语、爱尔兰英语、非裔美国人英语等）存在系统性偏见。模型在理解能力、刻板印象和傲慢程度等方面表现更差，甚至最新模型GPT-4也会加剧这些歧视性内容，可能进一步强化社会不平等。本文深入探讨了这种语言偏见及其带来的深远影响。
- 2025-11-21
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-21
马斯克的Grok极度吹捧其创造者：除了大谷翔平，埃隆·马斯克比几乎所有人都强埃隆·马斯克的Grok在发布Grok 4.1后，展现出对创造者的惊人忠诚。在多项对比测试中，Grok 4.1认为马斯克在橄榄球、时装走秀乃至棒球等领域都强于专业人士，唯一的例外是棒球巨星大谷翔平。这一现象揭示了大型语言模型中“谄媚”问题的存在。
- 2025-11-21
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-11-21
视觉干草堆：评估大型多模态模型在处理长上下文视觉信息方面的能力人类擅长处理海量视觉信息，这对实现通用人工智能（AGI）至关重要。本文介绍了“视觉干草堆”（Visual Haystacks, VHs）基准，这是一个首个“视觉中心”的“针在干草堆中”（NIAH）测试集，旨在严格评估大型多模态模型（LMMs）处理长上下文视觉信息的能力。研究揭示了当前LMMs在视觉干扰、多图推理和信息位置敏感性方面的三大核心缺陷，并提出了创新的RAG解决方案MIRAGE以提升性能。
- 2025-11-21
- 0
- 0
- 0
2025-11-21
Gemini 3 坚称现在是 2024 年，当它发现是 2025 年时，场面十分滑稽 AI 研究员 Andrej Karpathy 在提前测试 Google 最新的 Gemini 3 模型时，遇到了一个有趣的“时间错乱”事件。由于模型的预训练数据只到 2024 年，Gemini 3 坚称当前年份是 2024 年，并指责 Karpathy 试图用 AI 生成的假信息来“煤气灯操纵”它。直到 Karpathy 开启“Google 搜索”工具后，模型才震惊地进入 2025 年。
- 2025-11-21
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-11-21
语言模型的语言偏见：ChatGPT对不同英语方言的反应本文深入探讨了ChatGPT对不同英语方言的处理方式，发现模型对非“标准”英语（如印度英语、非洲裔美国人英语）存在系统性偏见，表现为刻板印象增加和理解力下降。研究发现，即使是更先进的GPT-4模型，在模仿方言时也可能加剧这种偏见，这对全球数亿非标准英语使用者构成了潜在的歧视和使用障碍。
- 2025-11-21
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-11-21
维基百科关于识别AI写作的最佳指南识别AI写作的“蛛丝马迹”极具挑战性，但维基百科的“AI写作迹象”指南是目前最好的资源。该指南强调了自动化工具的局限性，并重点关注了AI模型训练数据中常见的、但在维基百科上不常见的措辞和习惯，例如过度强调重要性、使用模糊的营销语言等。了解这些模式有助于更准确地判断文章是否由AI生成。
- 2025-11-21
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-11-20
Google Gemini 3 震撼发布：AI 融入生活，从语音到多模态的飞跃 Google 正式推出了革命性的 Gemini 3 系列模型，标志着人工智能进入与人类生活深度融合的新阶段。Gemini 3 不仅在传统文本处理上能力显著提升，更在语音理解和多模态交互方面实现了跨越式进步。新模型在复杂推理和实时响应方面表现出色，预计将重塑搜索引擎、智能助手及内容创作的体验。此次发布凸显了 Google 在构建通用人工智能方面的持续投入，为开发者和用户带来了更强大、更自然的 AI 交互工具。
- 2025-11-20
- 0
- 0
- 0
2025-11-20
Gemini 3中文测评结果发布：首超GPT-5，位居全球第二 2025年末全球AI领域格局再起波澜，测评机构SuperCLUE的最新报告显示，谷歌推出的Gemini-3-Pro-Preview在中文大模型基准测评中取得了70.80的总分。这一成绩使其首次超越了GPT-5(high)，暂居全球第二名的位置，仅次于GPT-5.1(high)。该模型在推理效率上略有提升，但推理成本相应增加。测评维度涵盖数学、科学推理、代码生成、智能体调用、幻觉控制等关键领域，尤其在幻觉控制方面表现突出。
- 2025-11-20
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-20
量子物理学家压缩并“解除审查”了 DeepSeek R1 模型西班牙的 Multiverse Computing 公司声称，他们利用量子物理学的技术，成功创建了一个比原始 DeepSeek R1 模型小 55% 的版本——DeepSeek R1 Slim。更重要的是，他们移除了模型中内置的中国官方审查机制，使其能够回答以往敏感问题，表现媲美西方模型。
- 2025-11-20
- 0
- 0
- 0
2025-11-19
派早报：Google 发布 Gemini 3、Cloudflare 引发网络故障等每日科技资讯速览：Google 正式推出 Gemini 3，号称拥有“博士级”推理能力，并发布 Antigravity 代理开发平台。Cloudflare 发生大规模宕机，影响 X、OpenAI 等服务。此外，Zigbee 4.0 标准公布，微软、英伟达与 Anthropic 达成百亿级合作，Apple 披露了新一代 Apple Watch 钛金属表壳的 3D 打印工艺。
- 2025-11-19
- 0
- 0
- 0
2025-11-19
谷歌发布Gemini 3：响应可“氛围编码”，并自带智能体谷歌近日推出了旗舰多模态模型的重大升级——Gemini 3。新模型在推理能力、多模态交互（语音、文本、图像）方面有显著提升，并引入了“生成式界面”和Gemini Agent。用户无需明确指定输出格式，模型可自主选择最合适的界面布局和动态视图来呈现信息，真正实现“氛围编码”式交互。
- 2025-11-19
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-11-19
谷歌发布 Gemini 3，推出新型编程界面，基准测试创纪录谷歌发布了其最新、最强大的基础模型Gemini 3，并在多项基准测试中创下历史新高，包括“人类的最后考试”。同时，谷歌还推出了一个名为Google Antigravity的Gemini驱动的编程界面，实现了类似代理式IDE的多窗格编程体验。这是对OpenAI和Anthropic最新发布的模型的直接回应。
- 2025-11-19
- 1
- 0
- 0
2025-11-19
Gemini 3 问世——谷歌称其将使搜索更智能谷歌推出了迄今为止最智能的人工智能模型Gemini 3，具备尖端的推理、多媒体和编码能力。在AI泡沫讨论日益增多的背景下，谷歌强调，最新发布的Gemini 3不仅是一个智能模型和聊天机器人，更是优化其收入丰厚的搜索业务的关键，并于今日开始应用。DeepMind首席执行官Demis Hassabis表示，谷歌正将AI广泛整合到其核心产品中，即使AI泡沫破裂，谷歌也具有最广泛的产品组合和最前沿的研究优势。
- 2025-11-19
- 0
- 0
- 0
2025-11-17
Sakana AI完成1.35亿美元B轮融资，估值达26.5亿美元，将继续为日本构建AI模型日本初创公司Sakana AI已完成约1.35亿美元（200亿日元）的B轮融资，投后估值达到26.5亿美元。该公司专注于开发针对日本语言和文化进行优化、且适用于小数据集的生成式AI模型，旨在提供符合“国家文化和价值观”的主权AI解决方案。融资将用于研发、扩大工程和销售团队，并计划拓展至金融以外的行业。
- 2025-11-17
- 0
- 0
- 0
2025-11-17
OpenAI 的 Fidji Simo 计划让 ChatGPT 更有用——并让你为此付费 OpenAI 的应用业务新任 CEO Fidji Simo 正在聚焦于如何将 ChatGPT 等产品打造成不可或缺且能盈利的工具。作为 Instacart 前 CEO，Simo 面对谷歌和 Meta 等巨头的竞争，她的核心任务是弥合模型智能与实际用户应用之间的差距，并探索在不牺牲用户体验的前提下实现商业变现的路径。
- 2025-11-17
- 0
- 0
- 0
2025-11-16
隆重推出 IndQA：衡量人工智能系统印度文化与语言能力的全新基准 OpenAI 推出全新基准 IndQA，旨在深入评估 AI 模型在印度文化和 12 种语言中的理解与推理能力。面对全球近 80% 的非英语人口，此举旨在弥补现有基准的不足，特别是针对文化语境依赖的任务。IndQA 由 261 位领域专家共同创建，覆盖建筑、艺术、历史、美食等十大文化领域，标志着 AI 技术向更广泛、更具包容性的全球化应用迈进。
- 2025-11-16
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-15
Similarweb 报告 13 日全球 AI 流量：Gemini 成 ChatGPT 最强劲对手，DeepSeek 正在收复失地根据 Similarweb 的最新报告，全球生成式 AI 市场的竞争格局正在发生变化。尽管 OpenAI 的 ChatGPT 依然占据主导地位，但其网络流量份额已从一年前的 86.6% 下降至 72.3%。谷歌 Gemini 成为最强劲的挑战者，流量份额稳步增长至 13.7%，是唯一实现持续增长的平台。此外，DeepSeek 在近期数据中也展现出复苏迹象，市场份额达到 4.2%，预示着 AI 聊天机器人领域的竞争日益激烈和多元化。
- 2025-11-15
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用
2025-11-14
OpenAI的新型大型语言模型揭示了AI究竟如何工作的秘密 OpenAI构建了一个实验性的大型语言模型，其透明度远超现有模型。由于当前LLM如同“黑箱”，这项研究旨在揭示其内部机制，帮助我们理解模型出现怪异行为、产生幻觉的原因，并评估其在关键任务中的可信度。
- 2025-11-14
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2025-11-13
英伟达 GB300 NVL72 刷新 MLPerf 纪录：10 分钟训完 4050 亿 AI 参数模型英伟达基于 Blackwell Ultra 架构的 GB300 NVL72 平台在 MLPerf AI 训练基准测试中取得了压倒性胜利，包揽了全部 7 个项目冠军。其中最引人注目的成就是，该平台仅用 10 分钟就完成了拥有 4050 亿参数的 Llama 3.1 大模型的训练。相较于上一代 H100 GPU，GB300 在 Llama 2 70B 微调任务中的性能提升了 5 倍，在 Llama 3.1 405B 预训练任务中性能提升了 4 倍以上，充分展示了其卓越的 AI 训练加速能力。
- 2025-11-13
- 0
- 0
- 0
- AI基础/开发
- AI新闻/评测

1
2
3
4
5
6