📢 转载信息

原文链接：https://blog.google/technology/google-deepmind/gemini-computer-use-model/

原文作者：Google DeepMind

Gemini：构建未来计算核心的全新模型，实现真正的多模态智能

今天，我们非常激动地宣布，Google DeepMind 正在推出 Gemini——一个全新的、具有开创性意义的、原生多模态的 AI 模型系列。Gemini 不仅仅是现有模型的迭代升级，它是从零开始设计的，旨在成为未来计算的核心。它的能力超越了传统的文本处理，能够理解、操作和整合各种信息类型，包括文本、代码、图像、音频和视频。

Gemini 的核心优势：原生多模态与卓越性能

Gemini 的设计目标是成为最强大的基础模型。我们构建了三个不同规模的模型版本来满足不同的应用需求：

Ultra：最大、性能最强的模型，用于高度复杂的任务。
Pro：适用于广泛任务的领先模型，将很快在我们的产品中投入使用。
Nano：最高效的模型，专为在移动设备上运行而设计。

在早期的基准测试中，Gemini Ultra 在 30 多个行业标准测试中超越了现有的最先进模型（SOTA），包括 MMLU（大规模多任务语言理解）测试，使其成为第一个在 MMLU 上超越人类专家水平的模型。

跨越边界的理解能力

Gemini 最引人注目的特性是它的原生多模态能力。这意味着它不是将不同的模式（如图像和文本）分别输入到不同的模型中再进行拼接，而是从训练之初就将所有信息类型整合在一起。这带来了更深层次的理解和推理能力。

代码理解与生成

Gemini 在编码方面表现出色，能够高效地理解、解释和生成高质量的代码。我们对 Gemini 的代码能力进行了严格测试，它在 HumanEval（代码生成）和 Natural2Code 等基准测试中表现优异。

复杂推理与规划

得益于其多模态输入和统一架构，Gemini 能够处理复杂的逻辑问题和多步骤的推理任务。例如，它可以分析一段复杂的物理学演示视频，并根据视频中的图表和解说，回答深层次的科学问题。

Gemini 即将融入 Google 生态系统

Gemini 的发布不仅仅是一个研究成果，它将很快集成到 Google 的核心产品中，为数十亿用户带来全新的智能体验：

Bard：很快，Bard 将由 Gemini Pro 驱动，使其能够处理更复杂的指令和更广泛的查询。
Google Pixel：Gemini Nano 将首先在最新的 Pixel 8 Pro 手机上启用，用于实现设备端的功能，如更智能的录音机摘要和更强大的即时回复功能。
Google Cloud 和 Vertex AI：开发者和企业客户将能够通过 Google Cloud 的 Vertex AI 平台访问 Gemini，构建下一代 AI 驱动的应用。

展望未来：负责任的 AI 发展

我们致力于以负责任的方式开发 Gemini。在整个开发过程中，我们对模型进行了广泛的安全和对齐测试，确保其性能和安全性达到最高标准。我们相信，Gemini 强大的新能力将加速科学发现、激发创造力，并最终帮助我们构建一个对所有人都更有益的 AI 未来。

想要了解更多技术细节，请查阅我们的技术报告。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型：https://api.qingyuntop.top/pricing

详细的调用教程及文档：https://api.qingyuntop.top/about

目录CONTENT

重磅发布：谷歌DeepMind推出Gemini模型，彻底改变人机交互与计算体验