阿里云通义千问重磅开源！Qwen3-VL-30B-A3B 模型：智能体任务等领域媲美 GPT-5-Mini-青云TOP|AI综合资源站|AI学习交流导航平台|AICG创作应用资源中心

阿里云通义千问重磅开源！Qwen3-VL-30B-A3B 模型：智能体任务等领域媲美 GPT-5-Mini

青云TOP

2025-10-10 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

10/10

📢 转载信息

原文链接：https://www.ithome.com/0/887/463.htm

原文作者：IT之家

# 阿里云通义千问重磅开源：Qwen3-VL-30B-A3B 模型性能逼近 GPT-5-Mini IT之家 10 月 4 日消息，阿里云通义千问团队今日宣布重磅消息：正式开源 **Qwen3-VL-30B-A3B-Instruct** 与 **Thinking** 模型，并且同步推出了它们的 **FP8 版本**。更令人振奋的是，他们还发布了超大规模模型 **Qwen3-VL-235B-A22B** 的 FP8 版本。官方强调，本次开源的 Qwen3-VL-30B-A3B-Instruct 与 Thinking 模型体积更小，但性能依然强劲，集成了 Qwen3-VL 系列的全部核心能力。 ## 惊人性能：30 亿激活参数媲美顶尖模型值得关注的是，Qwen3-VL-30B-A3B 系列仅需 **30 亿激活参数**，就能在以下关键领域与 GPT-5-Mini 和 Claude4-Sonnet 展开竞争，甚至在某些方面表现更优： * **STEM（科学、技术、工程、数学）** * **视觉问答（VQA）** * **光学字符识别（OCR）** * **视频理解** * **智能体（Agent）任务**

目前，这些模型已在魔搭社区和 Hugging Face 平台免费开放下载，并已同步集成至 Qwen Chat。 ## Qwen3-VL 核心能力全面升级官方详细介绍了 Qwen3-VL-30B-A3B-Instruct 的主要特性，展现了其作为通义千问系列迄今为止最强大的视觉语言模型（VLM）的实力： ### 1. 强大的视觉代理能力模型现在可以实现**视觉代理（Visual Agent）**功能，能够操作 PC 或移动端的图形用户界面（GUI）——识别界面元素、理解功能、调用工具，并高效完成复杂任务。 ### 2. 增强的视觉编码与空间感知 * **视觉编码增强：** 能够根据图像/视频生成 Draw.io 图、HTML、CSS 或 JS 代码。 * **高级空间感知：** 精确判断对象的位置、视角和遮挡情况，为 3D 基础和具身智能（Embodied AI）打下更坚实的基础。 ### 3. 深度多模态推理与长上下文处理 * **长上下文与视频理解：** 原生支持 256K 上下文长度，可扩展至 1M。能够处理整本书籍或数小时长的视频，具备完整回忆和秒级索引能力。 * **增强的多模态推理：** 在 STEM 和数学等领域表现出色，能够进行因果分析，并提供基于逻辑和证据的答案。 ### 4. 全面升级的识别与 OCR 能力 * **“识别万物”：** 通过更高质量、更广泛的预训练，模型能够识别名人、动漫、产品、地标、动植物等几乎所有可见实体。 * **OCR 扩展：** OCR 功能支持的语言数量从 19 种提升至 **32 种**；在低光、模糊和倾斜等复杂情况下表现更稳定；能更好地处理罕见/古文字和专业术语；长文档结构解析能力得到改进。 ### 5. 文本理解能力与模型架构 * **无缝融合：** 实现文本与视觉的无损、统一理解，文本处理能力已达到纯 LLM 的水平。 * **灵活架构：** 提供从边缘到云端可扩展的密集和 MoE 架构，并提供用于灵活部署的 Instruct 和推理增强型 Thinking 版本。 **获取链接：** * 魔搭社区：Qwen3-VL * Hugging Face：Qwen3-VL

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型：https://api.qingyuntop.top/pricing

详细的调用教程及文档：https://api.qingyuntop.top/about

目录CONTENT

阿里云通义千问重磅开源！Qwen3-VL-30B-A3B 模型：智能体任务等领域媲美 GPT-5-Mini

评论区