谷歌Gemini 1.5 Pro：突破性新模型能处理超长文本和代码库-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.bbc.com/news/articles/czd831elpz5o?at_medium=RSS&at_campaign=rss

原文作者：BBC News

谷歌Gemini 1.5 Pro：一场大型语言模型的革命？

谷歌宣布推出其下一代大型语言模型（LLM）Gemini 1.5 Pro，这款模型的一项关键特性是其上下文窗口的巨大提升。

上下文窗口决定了一个AI模型在一次交互中可以同时处理和“记住”多少信息。

谷歌表示，Gemini 1.5 Pro的标准上下文窗口为100万个标记（tokens），最高可扩展至200万个标记。

对于比较基准，上个月发布的GPT-4 Turbo的上下文窗口上限为128,000个标记，而早期的Gemini 1.0 Pro模型仅为32,000个标记。

这个巨大的提升意味着，Gemini 1.5 Pro可以一次性消化和分析极长的文本、数百页的文档、庞大的代码库，甚至长达一小时的视频内容或11小时的音频内容。

谷歌强调，即使处理如此庞大的信息量，模型在信息检索和推理方面的表现仍然非常出色。

在测试中，谷歌向模型输入了480,000个单词（约等于一整本《白鲸记》）的文本，并在文本深处藏了一个特定的句子。Gemini 1.5 Pro几乎完美地定位了该句子。

在处理视频时，模型能够在一小时的视频中找到特定的、几乎难以察觉的瞬间，例如“在一部电影中，当主角在25分钟40秒时穿过一个特定的房间”。

处理如此大规模的输入通常是一个巨大的技术挑战，因为模型需要更多的计算资源来保持注意力（Attention）的焦点。

然而，谷歌表示，Gemini 1.5 Pro的性能与上下文窗口大小不成比例地增加，这意味着它不仅能阅读这些内容，还能理解并从中提取复杂的关系和模式。

“这是在模型能力和效率之间取得平衡的巨大突破。”

Gemini 1.5 Pro基于谷歌的混合专家（Mixture-of-Experts, MoE）架构，这使得它在推理速度上比上一代模型快2倍，同时成本更低。

谷歌目前仅向选定的开发者开放该模型的早期预览版，主要用于测试其在处理大型代码库、总结长篇研究报告和理解复杂视频内容等方面的潜力。

分析人士认为，超长上下文窗口是AI领域一个关键的竞争前沿，它可以解锁需要深入上下文理解的专业应用，例如法律分析、大规模软件工程和复杂科学数据处理。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。