目 录CONTENT

文章目录

谷歌发布Gemini 3:响应可“氛围编码”,并自带智能体

Administrator
2025-11-19 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.technologyreview.com/2025/11/18/1128065/googles-gemini-3/

原文作者:Caiwei Chen


谷歌今日发布了其旗舰多模态模型的重大升级——Gemini 3。该公司表示,新模型在推理能力上更强,拥有更流畅的多模态能力(在语音、文本或图像之间工作的能力),并且将像一个智能体一样运行。

上一代模型 Gemini 2.5 支持多模态输入。用户可以输入图像、手写内容或语音。但它通常需要用户明确指示想要的返回格式,并且默认返回纯文本。

然而,Gemini 3 引入了谷歌所称的“生成式界面”(generative interfaces),允许模型自主选择最适合提示词的输出类型,自行组装视觉布局和动态视图,而不是仅仅返回一大段文本。

当你要求它提供旅行建议时,它可能会在应用内弹出一个类似网站的界面,其中包含模块、图像和后续提示,例如“您计划旅行多少天?”或“您喜欢哪些类型的活动?”。它还会根据你可能想进行的下一步操作提供可点击的选项。

当被要求解释一个概念时,如果模型认为视觉效果更有效,Gemini 3 可能会自主绘制一个图表或生成一个简单的动画。

Gemini 3 logo

谷歌实验室(Google Labs)、Gemini 和 AI Studio 副总裁 Josh Woodward 表示:“视觉布局会生成一种沉浸式的杂志风格视图,其中包含照片和模块。”他补充说:“这些元素不仅看起来不错,还能邀请你的输入来进一步定制结果。”

借助 Gemini 3,谷歌还推出了 Gemini Agent,这是一个实验性功能,旨在直接在应用内处理多步骤任务。该智能体可以连接到 Google 日历、Gmail 和提醒事项等服务。一旦获得授权,它可以执行整理收件箱或管理日程等任务。

与其它智能体类似,它将任务分解为离散的步骤,实时显示其进度,并在继续之前暂停等待用户的批准。谷歌将此功能描述为迈向“一个真正的通才智能体”的一步。该功能将从 11 月 18 日起在美国的 Google AI Ultra 订阅用户中率先在网络上提供。

这种整体方法看起来很像“氛围编码”(vibe coding),即用户用自然语言描述一个最终目标,然后让模型自行组装达到该目标的所需界面或代码。

此次更新还将 Gemini 与谷歌现有的产品更紧密地整合。在搜索(Search)中,一小部分 Google AI Pro 和 Ultra 订阅用户现在可以切换到 Gemini 3 Pro,即新模型的推理变体,以接收更深入、更全面的 AI 生成摘要,这些摘要依赖于模型的推理能力,而非现有的 AI 模式。

对于购物场景,Gemini 现在将从谷歌的购物图谱(Shopping Graph)中提取信息——该公司称该图谱包含超过 500 亿个产品列表——来生成自己的推荐指南。用户只需提出一个与购物相关的问题或搜索一个购物相关的短语,模型就会组装出一篇交互式的、类似于 Wirecutter 风格的产品推荐文章,其中包含价格和产品详情,而无需重定向到外部网站。

对于开发者而言,谷歌也在进一步推动“单提示软件生成”(single-prompt software generation)。该公司推出了 Google Antigravity,这是一个开发平台,充当一个一体化的空间,代码、工具和工作流程都可以从一个提示词中创建和管理。

Agentic AI 应用公司 Flowith 的首席执行官 Derek Nee 告诉《麻省理工科技评论》(MIT Technology Review),Gemini 3 Pro 弥补了早期模型中的一些不足。改进之处包括更强的视觉理解能力、更好的代码生成能力以及在长任务上的性能提升——他认为这些功能对于 AI 应用和智能体开发者至关重要。

他表示:“考虑到它的速度和成本优势,我们正在将新模型集成到我们的产品中。”他补充说,“我们对它的潜力感到乐观,但我们需要进行更深入的测试来了解它能走多远。”




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区