目 录CONTENT

文章目录

谷歌新AI模型Gemini 1.5 Pro的突破性进展与挑战

Administrator
2026-01-13 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.bbc.com/news/articles/clyg63e3mq4o?at_medium=RSS&at_campaign=rss

原文作者:BBC News


谷歌的最新人工智能模型Gemini 1.5 Pro在处理能力上取得了“巨大的飞跃”,能一次性消化长达一小时的视频或数百页的文档。

该模型原生支持多达100万个Token的上下文窗口,并在特定测试中扩展到了200万个Token,这比市场上任何其他AI模型都要大得多。

“Token”是AI用来理解文本和数据的基本单位,数量越多,模型在一次性处理信息时就越强大。

谷歌表示,这项技术使Gemini 1.5 Pro能够以前所未有的细节水平理解复杂的长篇内容,并从海量信息中精确地提取所需数据。

这项突破的核心在于谷歌新的“混合专家”(Mixture-of-Experts, MoE)架构。

MoE架构的优势

传统的大型语言模型(LLM)在每次处理请求时都需要激活模型的全部参数,这非常耗费计算资源。

MoE架构则不同,它将模型分解成多个较小的、专门化的“专家”网络。当接收到请求时,模型只会激活与当前任务最相关的“专家”网络,从而显著提高了效率。

“这使得模型在处理复杂、长篇输入时,能够以更低的计算成本运行,同时保持甚至超越以往模型的性能。”

对于用户而言,这意味着Gemini 1.5 Pro可以更快地处理更多数据。

实际应用展示

谷歌在发布会上展示了该模型令人印象深刻的能力:

  • 长篇代码库分析: 模型被要求在一个包含110,000行代码的代码库中查找特定漏洞,并成功定位。
  • 视频理解: 模型输入了一部近一小时的默片《诺斯费拉图》(Nosferatu),并能准确回答关于特定场景和道具的复杂查询。
  • 文档摘要与问答: 模型处理了长达1500页的文档,并能立即给出精准的摘要和细节回答。

谷歌DeepMind首席执行官德米斯·哈萨比斯(Demis Hassabis)表示,这项改进是“一个巨大的飞跃”。

“我们正在从‘短时记忆’转向‘长时记忆’,”他提到。

该模型目前正向开发者开放测试,预计将为构建需要深度上下文理解的应用(如复杂的企业知识库、长篇法律文件分析或大规模代码辅助编程)带来革命性的改变。

挑战与展望

尽管技术令人兴奋,但将如此大规模的模型部署到全球用户仍面临挑战。

首先是基础设施压力。即便是高效的MoE架构,处理100万Token的输入也需要强大的计算能力。

其次是成本效益。如何确保在提供巨大上下文能力的同时,保持合理的API调用价格,是谷歌需要解决的关键商业问题。

此外,处理超长输入也可能引入新的“迷失在中间”问题——即模型可能更擅长关注输入开头和结尾的信息,而忽略中间部分的关键细节。

谷歌表示,他们正在努力解决这些问题,并计划在未来几个月内逐步向更广泛的用户和企业推出Gemini 1.5 Pro。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区