📢 转载信息
原文链接:https://www.bbc.com/news/articles/cn8jkyk78gno?at_medium=RSS&at_campaign=rss
原文作者:BBC News
谷歌的AI部门DeepMind发布了一款新的大型语言模型(LLM),称其拥有目前市场上最长的“上下文窗口”——即模型一次可以处理的信息量。
Gemini 1.5 Pro模型拥有100万个Token的上下文窗口,比其前身或许多竞争对手大得多。
Token是模型用来处理文本的基本单位,可以是一个单词、一个词的一部分,或一个标点符号。
谷歌表示,100万个Token相当于大约1500页的文本、1小时的视频或11小时的音频。
DeepMind的首席执行官德米斯·哈萨比斯(Demis Hassabis)在周四的一次发布会上表示,这项技术使得AI能够一次性处理海量信息,这在过去是“绝对不可能”的。
“它可以在一次提示中吸收一整本书,或者长达一小时的视频,”哈萨比斯先生说。
谷歌表示,这项技术意味着Gemini 1.5 Pro可以更好地理解和总结长篇文档或视频。
新的应用可能性
DeepMind表示,模型的这一能力开启了新的应用可能性。
例如,研究人员可以给模型提供一部长篇电影的剧本,然后要求它找到特定的场景,或者要求模型根据一整段代码库找到一个特定的错误。
谷歌表示,该模型在处理长篇材料时,信息检索的准确率也保持得非常高。
在一项测试中,研究人员将一个包含1500页文本的文档随机隐藏了100个句子,并要求Gemini 1.5 Pro找回这些句子。结果显示,该模型成功找回了99%的句子。
谷歌的另一位高管称,这是公司在Transformer架构上取得的“最重大的进步”。Transformer是现代大型语言模型的基础技术。
新的模型运行在谷歌新的Mixture-of-Experts(MoE)架构上,该架构旨在提高效率,这意味着模型可以在处理任务时,只激活处理该任务所需的特定部分,从而减少计算需求。
哈萨比斯先生说,尽管Gemini 1.5 Pro的能力更强,但它的运行成本却“显著降低”了,并且速度比其前身快了两倍。
哪些人可以使用?
目前,Gemini 1.5 Pro仅对有限数量的开发者和企业客户开放,但谷歌计划在未来几周内将其提供给更多用户。
该公司也正在开发一个“测试版”版本的Gemini Advanced订阅服务,让用户也可以使用这个新的模型。
对于Gemini Advanced用户,谷歌表示他们将获得200万个Token的上下文窗口,这比DeepMind的初步发布模型还要大。
OpenAI等竞争对手也正在开发具有大上下文窗口的模型。
Anthropic上个月发布了Claude 3系列模型,其中最强大的版本Claude 3 Opus的上下文窗口也达到了20万个Token。
不过,许多主流模型的上下文窗口仍然停留在32,000到128,000个Token的范围内。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区