目 录CONTENT

文章目录

重磅发布:谷歌DeepMind推出Gemini模型,彻底改变人机交互与计算体验

青云TOP
2025-10-08 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://blog.google/technology/google-deepmind/gemini-computer-use-model/

原文作者:Google DeepMind


Gemini:构建未来计算核心的全新模型,实现真正的多模态智能

今天,我们非常激动地宣布,Google DeepMind 正在推出 Gemini——一个全新的、具有开创性意义的、原生多模态的 AI 模型系列。Gemini 不仅仅是现有模型的迭代升级,它是从零开始设计的,旨在成为未来计算的核心。它的能力超越了传统的文本处理,能够理解、操作和整合各种信息类型,包括文本、代码、图像、音频和视频。

Gemini 的核心优势:原生多模态与卓越性能

Gemini 的设计目标是成为最强大的基础模型。我们构建了三个不同规模的模型版本来满足不同的应用需求:

  • Ultra:最大、性能最强的模型,用于高度复杂的任务。
  • Pro:适用于广泛任务的领先模型,将很快在我们的产品中投入使用。
  • Nano:最高效的模型,专为在移动设备上运行而设计。

在早期的基准测试中,Gemini Ultra 在 30 多个行业标准测试中超越了现有的最先进模型(SOTA),包括 MMLU(大规模多任务语言理解)测试,使其成为第一个在 MMLU 上超越人类专家水平的模型。

Gemini 模型架构示意图

跨越边界的理解能力

Gemini 最引人注目的特性是它的原生多模态能力。这意味着它不是将不同的模式(如图像和文本)分别输入到不同的模型中再进行拼接,而是从训练之初就将所有信息类型整合在一起。这带来了更深层次的理解和推理能力。

代码理解与生成

Gemini 在编码方面表现出色,能够高效地理解、解释和生成高质量的代码。我们对 Gemini 的代码能力进行了严格测试,它在 HumanEval(代码生成)和 Natural2Code 等基准测试中表现优异。

复杂推理与规划

得益于其多模态输入和统一架构,Gemini 能够处理复杂的逻辑问题和多步骤的推理任务。例如,它可以分析一段复杂的物理学演示视频,并根据视频中的图表和解说,回答深层次的科学问题。

Gemini 即将融入 Google 生态系统

Gemini 的发布不仅仅是一个研究成果,它将很快集成到 Google 的核心产品中,为数十亿用户带来全新的智能体验:

  • Bard:很快,Bard 将由 Gemini Pro 驱动,使其能够处理更复杂的指令和更广泛的查询。
  • Google Pixel:Gemini Nano 将首先在最新的 Pixel 8 Pro 手机上启用,用于实现设备端的功能,如更智能的录音机摘要和更强大的即时回复功能。
  • Google Cloud 和 Vertex AI:开发者和企业客户将能够通过 Google Cloud 的 Vertex AI 平台访问 Gemini,构建下一代 AI 驱动的应用。

展望未来:负责任的 AI 发展

我们致力于以负责任的方式开发 Gemini。在整个开发过程中,我们对模型进行了广泛的安全和对齐测试,确保其性能和安全性达到最高标准。我们相信,Gemini 强大的新能力将加速科学发现、激发创造力,并最终帮助我们构建一个对所有人都更有益的 AI 未来。

负责任的AI发展示意图

想要了解更多技术细节,请查阅我们的技术报告。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区