📢 转载信息
原文链接:https://www.bbc.com/news/articles/czd831elpz5o?at_medium=RSS&at_campaign=rss
原文作者:BBC News
谷歌Gemini 1.5 Pro:一场大型语言模型的革命?
谷歌宣布推出其下一代大型语言模型(LLM)Gemini 1.5 Pro,这款模型的一项关键特性是其上下文窗口的巨大提升。
上下文窗口决定了一个AI模型在一次交互中可以同时处理和“记住”多少信息。
100万个标记:一个巨大的飞跃
谷歌表示,Gemini 1.5 Pro的标准上下文窗口为100万个标记(tokens),最高可扩展至200万个标记。
对于比较基准,上个月发布的GPT-4 Turbo的上下文窗口上限为128,000个标记,而早期的Gemini 1.0 Pro模型仅为32,000个标记。
这个巨大的提升意味着,Gemini 1.5 Pro可以一次性消化和分析极长的文本、数百页的文档、庞大的代码库,甚至长达一小时的视频内容或11小时的音频内容。
超长文本的“大海捞针”测试
谷歌强调,即使处理如此庞大的信息量,模型在信息检索和推理方面的表现仍然非常出色。
在测试中,谷歌向模型输入了480,000个单词(约等于一整本《白鲸记》)的文本,并在文本深处藏了一个特定的句子。Gemini 1.5 Pro几乎完美地定位了该句子。
在处理视频时,模型能够在一小时的视频中找到特定的、几乎难以察觉的瞬间,例如“在一部电影中,当主角在25分钟40秒时穿过一个特定的房间”。
技术挑战与推理能力
处理如此大规模的输入通常是一个巨大的技术挑战,因为模型需要更多的计算资源来保持注意力(Attention)的焦点。
然而,谷歌表示,Gemini 1.5 Pro的性能与上下文窗口大小不成比例地增加,这意味着它不仅能阅读这些内容,还能理解并从中提取复杂的关系和模式。
“这是在模型能力和效率之间取得平衡的巨大突破。”
模型结构和部署
Gemini 1.5 Pro基于谷歌的混合专家(Mixture-of-Experts, MoE)架构,这使得它在推理速度上比上一代模型快2倍,同时成本更低。
谷歌目前仅向选定的开发者开放该模型的早期预览版,主要用于测试其在处理大型代码库、总结长篇研究报告和理解复杂视频内容等方面的潜力。
分析人士认为,超长上下文窗口是AI领域一个关键的竞争前沿,它可以解锁需要深入上下文理解的专业应用,例如法律分析、大规模软件工程和复杂科学数据处理。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区