📢 转载信息
原文作者:Julie Bort
谷歌周四发布了基于其广受赞誉的最先进基础模型 Gemini 3 Pro 的“重新构想”版研究代理 Gemini Deep Research。
这个新代理不仅旨在生成研究报告——尽管它仍然可以做到这一点。它现在允许开发者将谷歌的 SATA-model 研究能力嵌入到他们自己的应用程序中。这一能力是通过谷歌新的 Interactions API 实现的,该 API 旨在让开发者在即将到来的代理式人工智能时代拥有更多的控制权。
新的 Gemini Deep Research 工具是一个代理,它有能力综合海量信息并在提示中处理大量的上下文信息。谷歌表示,客户使用它来完成从尽职调查到药物毒性安全研究等各种任务。
谷歌还表示,它将很快把这个新的深度研究代理集成到包括 Google Search、Google Finance、其 Gemini App 以及其流行的 NotebookLM 在内的服务中。这是向一个人类不再需要“谷歌”任何东西,而是由他们的人工智能代理来完成的未来迈出的又一步。
这家科技巨头表示,Deep Research 受益于 Gemini 3 Pro“最真实(most factual)”模型的地位,该模型经过训练,可在复杂任务中最大程度地减少幻觉。
人工智能幻觉——即大型语言模型(LLM)凭空捏造信息——对于长时间运行的、深入推理的代理式任务尤其是一个关键问题,在这些任务中,许多自主决策会在几分钟、几小时或更长时间内做出。LLM 需要做出的选择越多,即使是一个幻觉选择也可能使整个输出无效的几率就越大。
为了证明其进展声明,谷歌还创建了又一个基准测试(就好像人工智能世界还需要另一个基准测试一样)。这个新基准测试被乏味地命名为 DeepSearchQA,旨在测试代理在复杂、多步骤的信息检索任务上的表现。谷歌已经开源了这个基准测试。
加入 Disrupt 2026 等候名单
将自己添加到 Disrupt 2026 的等候名单上,以便在早鸟票发布时第一时间抢到。过去的 Disrupt 活动曾邀请到 Google Cloud、Netflix、Microsoft、Box、Phia、a16z、ElevenLabs、Wayve、Hugging Face、Elad Gil 以及 Vinod Khosla 等行业领袖登上舞台——他们是推动 200 多场旨在助您发展和提升竞争力的会议的 250 多位行业领导者的一部分。此外,还会见到在各个领域进行创新的数百家初创企业。
它还测试了 Deep Research 在 Humanity’s Last Exam(一个更具趣味性的独立通用知识基准测试,其中充满了极其小众的任务)和 BrowserComp(一个用于基于浏览器的代理任务的基准测试)上的表现。
如你所料,谷歌的新代理在其自己的基准测试和 Humanity’s 基准测试上都超越了竞争对手。然而,OpenAI 的 ChatGPT 5 Pro 在所有测试中都出人意料地紧随其后,并在 BrowserComp 上稍微领先于谷歌。
但这些基准测试的比较几乎在谷歌发布它们的那一刻就过时了。因为在同一天,OpenAI 发布了其备受期待的 GPT 5.2——代号为 Garlic。OpenAI 表示,其最新模型在一系列典型基准测试(包括 OpenAI 自家的基准测试)中超越了竞争对手——尤其是谷歌。
或许这次公告中最有趣的部分之一就是其时机。谷歌深知全世界都在等待 Garlic 的发布,于是也发布了自己的 AI 新闻。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区