目 录CONTENT

文章目录

阿里云通义千问重磅开源!Qwen3-VL-30B-A3B 模型:智能体任务等领域媲美 GPT-5-Mini

青云TOP
2025-10-10 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.ithome.com/0/887/463.htm

原文作者:IT之家


# 阿里云通义千问重磅开源:Qwen3-VL-30B-A3B 模型性能逼近 GPT-5-Mini IT之家 10 月 4 日消息,阿里云通义千问团队今日宣布重磅消息:正式开源 **Qwen3-VL-30B-A3B-Instruct** 与 **Thinking** 模型,并且同步推出了它们的 **FP8 版本**。更令人振奋的是,他们还发布了超大规模模型 **Qwen3-VL-235B-A22B** 的 FP8 版本。 官方强调,本次开源的 Qwen3-VL-30B-A3B-Instruct 与 Thinking 模型体积更小,但性能依然强劲,集成了 Qwen3-VL 系列的全部核心能力。 ## 惊人性能:30 亿激活参数媲美顶尖模型 值得关注的是,Qwen3-VL-30B-A3B 系列仅需 **30 亿激活参数**,就能在以下关键领域与 GPT-5-Mini 和 Claude4-Sonnet 展开竞争,甚至在某些方面表现更优: * **STEM(科学、技术、工程、数学)** * **视觉问答(VQA)** * **光学字符识别(OCR)** * **视频理解** * **智能体(Agent)任务** 目前,这些模型已在魔搭社区和 Hugging Face 平台免费开放下载,并已同步集成至 Qwen Chat。 ## Qwen3-VL 核心能力全面升级 官方详细介绍了 Qwen3-VL-30B-A3B-Instruct 的主要特性,展现了其作为通义千问系列迄今为止最强大的视觉语言模型(VLM)的实力: ### 1. 强大的视觉代理能力 模型现在可以实现**视觉代理(Visual Agent)**功能,能够操作 PC 或移动端的图形用户界面(GUI)——识别界面元素、理解功能、调用工具,并高效完成复杂任务。 ### 2. 增强的视觉编码与空间感知 * **视觉编码增强:** 能够根据图像/视频生成 Draw.io 图、HTML、CSS 或 JS 代码。 * **高级空间感知:** 精确判断对象的位置、视角和遮挡情况,为 3D 基础和具身智能(Embodied AI)打下更坚实的基础。 ### 3. 深度多模态推理与长上下文处理 * **长上下文与视频理解:** 原生支持 256K 上下文长度,可扩展至 1M。能够处理整本书籍或数小时长的视频,具备完整回忆和秒级索引能力。 * **增强的多模态推理:** 在 STEM 和数学等领域表现出色,能够进行因果分析,并提供基于逻辑和证据的答案。 ### 4. 全面升级的识别与 OCR 能力 * **“识别万物”:** 通过更高质量、更广泛的预训练,模型能够识别名人、动漫、产品、地标、动植物等几乎所有可见实体。 * **OCR 扩展:** OCR 功能支持的语言数量从 19 种提升至 **32 种**;在低光、模糊和倾斜等复杂情况下表现更稳定;能更好地处理罕见/古文字和专业术语;长文档结构解析能力得到改进。 ### 5. 文本理解能力与模型架构 * **无缝融合:** 实现文本与视觉的无损、统一理解,文本处理能力已达到纯 LLM 的水平。 * **灵活架构:** 提供从边缘到云端可扩展的密集和 MoE 架构,并提供用于灵活部署的 Instruct 和推理增强型 Thinking 版本。 **获取链接:** * 魔搭社区:Qwen3-VL * Hugging Face:Qwen3-VL


🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区