目 录CONTENT

文章目录

谷歌DeepMind新模型Gemini 1.5 Pro的重大突破:上下文窗口达100万Token

Administrator
2026-01-29 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.bbc.com/news/articles/cn8jkyk78gno?at_medium=RSS&at_campaign=rss

原文作者:BBC News


谷歌的AI部门DeepMind发布了一款新的大型语言模型(LLM),称其拥有目前市场上最长的“上下文窗口”——即模型一次可以处理的信息量。

Gemini 1.5 Pro模型拥有100万个Token的上下文窗口,比其前身或许多竞争对手大得多。

Token是模型用来处理文本的基本单位,可以是一个单词、一个词的一部分,或一个标点符号。

谷歌表示,100万个Token相当于大约1500页的文本、1小时的视频或11小时的音频。

Gemini 1.5 Pro的上下文窗口示意图

DeepMind的首席执行官德米斯·哈萨比斯(Demis Hassabis)在周四的一次发布会上表示,这项技术使得AI能够一次性处理海量信息,这在过去是“绝对不可能”的。

“它可以在一次提示中吸收一整本书,或者长达一小时的视频,”哈萨比斯先生说。

谷歌表示,这项技术意味着Gemini 1.5 Pro可以更好地理解和总结长篇文档或视频。

新的应用可能性

DeepMind表示,模型的这一能力开启了新的应用可能性。

例如,研究人员可以给模型提供一部长篇电影的剧本,然后要求它找到特定的场景,或者要求模型根据一整段代码库找到一个特定的错误。

谷歌表示,该模型在处理长篇材料时,信息检索的准确率也保持得非常高。

在一项测试中,研究人员将一个包含1500页文本的文档随机隐藏了100个句子,并要求Gemini 1.5 Pro找回这些句子。结果显示,该模型成功找回了99%的句子。

Gemini 1.5 Pro模型的能力展示

谷歌的另一位高管称,这是公司在Transformer架构上取得的“最重大的进步”。Transformer是现代大型语言模型的基础技术。

新的模型运行在谷歌新的Mixture-of-Experts(MoE)架构上,该架构旨在提高效率,这意味着模型可以在处理任务时,只激活处理该任务所需的特定部分,从而减少计算需求。

哈萨比斯先生说,尽管Gemini 1.5 Pro的能力更强,但它的运行成本却“显著降低”了,并且速度比其前身快了两倍。

哪些人可以使用?

目前,Gemini 1.5 Pro仅对有限数量的开发者和企业客户开放,但谷歌计划在未来几周内将其提供给更多用户。

该公司也正在开发一个“测试版”版本的Gemini Advanced订阅服务,让用户也可以使用这个新的模型。

对于Gemini Advanced用户,谷歌表示他们将获得200万个Token的上下文窗口,这比DeepMind的初步发布模型还要大。

OpenAI等竞争对手也正在开发具有大上下文窗口的模型。

Anthropic上个月发布了Claude 3系列模型,其中最强大的版本Claude 3 Opus的上下文窗口也达到了20万个Token

不过,许多主流模型的上下文窗口仍然停留在32,000到128,000个Token的范围内。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区