目 录CONTENT

文章目录

谷歌发布 Gemini 1.5 Pro:原生多模态、200 万 Token 上下文,可直接处理完整代码库和长篇书籍

Administrator
2025-11-19 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://cn.technode.com/post/2025-11-19/google-gemini3-launch/

原文作者:Lucia


谷歌宣布推出 Gemini 1.5 Pro,这是一款新的中等大小的多模态模型,但在其上下文窗口能力上实现了显著飞跃。该模型具备原生多模态能力,并且将其上下文窗口扩展到了惊人的 200 万 Token,是目前主流模型(如 GPT-4 Turbo 和 Claude 3 Opus)的 10 倍以上。

谷歌表示,Gemini 1.5 Pro 的性能与初代 Gemini 1.0 Pro 相当,但推理能力得到提升,尤其是在处理长文本和复杂数据方面的能力更强。




前所未有的超长上下文窗口

Gemini 1.5 Pro 最引人注目的是其 200 万 Token 的标准上下文窗口。作为对比,Gemini 1.0 Pro 的上下文窗口为 32K Token,而其他大模型通常在 128K 范围内徘徊。

这个巨大的上下文窗口意味着模型可以直接处理大量的输入信息,例如:

  • 完整代码库: 一次性输入超过 3 万行代码进行分析和修改。
  • 长篇小说: 处理数小时的视频或一整本长篇书籍,并进行精准问答。
  • 海量数据: 摄取大量财务报告、法律文件等。

谷歌表示,在测试中,Gemini 1.5 Pro 展示了 99% 的召回率(Recall Rate),即使在输入超过 100 万 Token 的文档中进行信息检索,也能准确找到所需信息。

原生多模态能力

与许多在不同模态间进行连接或混合的模型不同,Gemini 1.5 Pro 是“原生”多模态的。这意味着模型从训练之初就接触了文本、图像、音频和视频等多种数据类型,而不是将它们拼接起来。

这意味着该模型可以实现更深层次的跨模态理解,例如,它可以从一个小时的视频中准确找到某个特定瞬间,或者理解音频中的细微差别。



💡 技术原理:新一代 MoE 架构

Gemini 1.5 Pro 的高效得益于其采用了下一代 Mixture-of-Experts (MoE) 架构。MoE 架构允许模型在处理特定任务时只激活必要的“专家”网络,这大大提高了训练和推理的效率,同时也降低了计算成本。

谷歌强调,尽管上下文窗口巨大,但 Gemini 1.5 Pro 的计算效率得到了显著优化,使其在同等性能下,比使用更大型模型的成本要低得多。



应用和部署

谷歌已经向开发者和企业用户开放了 Gemini 1.5 Pro 的预览版,主要通过 Google AI Studio 和 Vertex AI 平台提供。

目前的开发者预览版上下文窗口限制在 128K Token,但谷歌承诺将逐步向更多用户开放 100 万甚至 200 万 Token 的窗口。此外,测试用户还可以使用 100 万 Token 的窗口来处理自己的数据。

谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示,Gemini 1.5 Pro 的发布标志着 AI 模型向更高效、更具扩展性的方向发展,特别是在企业级应用中,长上下文理解能力将是巨大的竞争优势。



未来展望

虽然 Gemini 1.5 Pro 尚未完全达到 Gemini 1.0 Ultra 的峰值性能,但其在效率和上下文处理上的突破,使得它在许多实际应用场景中可能更具实用价值。谷歌正在积极探索如何将这一技术集成到其核心产品中,如 Google Workspace 和 Google Cloud。

业界普遍认为,长上下文窗口是 AI 发展的重要趋势之一,Gemini 1.5 Pro 的发布无疑为这场竞争设定了新的基准。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区