目 录CONTENT

文章目录

中国开源AI的下一步发展

Administrator
2026-02-18 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.technologyreview.com/2026/02/12/1132811/whats-next-for-chinese-open-source-ai/

原文作者:Caiwei Chen


MIT Technology Review 的 “未来前瞻”(What’s Next)系列旨在纵览各个行业、趋势和技术,为您呈现未来的初步景象。您可以在这里阅读其余文章。

过去一年是中国人工智能领域的一个转折点。自DeepSeek于2025年1月发布R1推理模型以来,中国公司不断推出性能与领先的西方模型相媲美,但成本却低得多的AI模型。


就在上周,中国公司月之暗面(Moonshot AI)发布了其最新的开源权重模型Kimi K2.5,在一些早期基准测试中,其性能非常接近Anthropic的Claude Opus等顶级专有系统。不同之处在于:K2.5的成本大约只有Opus的七分之一。

在Hugging Face平台上,阿里巴巴的Qwen系列——在2025年和2026年连续成为下载量最高的模型系列后——在累计下载量上已经超过了Meta的Llama模型。最近的一项麻省理工学院(MIT)研究发现,中国开源模型的总下载量已超过美国模型。对于全球的开发者和构建者来说,获取接近前沿的AI能力从未如此广泛且经济实惠。

但这些模型与ChatGPT或Claude等大多数需要付费访问且无法检查的美国模型有一个关键区别。中国公司会公开发布其模型的权重——即模型训练时设定的数值——因此任何人都可以下载、运行、研究和修改它们。

如果这些开源AI模型持续改进,它们将不仅为需要前沿AI能力的人提供最便宜的选择;它们还将改变创新的发生地和标准的制定者。

以下是下一步的发展方向。

中国对开源的承诺将持续下去

当DeepSeek发布R1时,最初的震惊很大程度上源于其起源。突然间,一个中国团队发布了一个可以与美国顶尖实验室的最佳系统相媲美的推理模型。但DeepSeek影响的深远之处,与其国籍关系不大,而在于其发布方式。R1以开源权重模型的形式发布,遵循宽松的MIT许可协议,允许任何人下载、检查和部署它。此外,DeepSeek还发表了一篇论文,详细介绍了其训练过程和技术。对于通过API访问模型的开发者来说,DeepSeek在价格上也击败了竞争对手,其访问成本仅为当时领先的专有推理模型OpenAI o1的一小部分。

发布后的几天内,DeepSeek取代ChatGPT成为美国App Store上下载量最高的免费应用。这一时刻超越了开发者圈子,波及了金融市场,引发了美国科技股的抛售,一度抹去了约1万亿美元的市场价值。几乎一夜之间,DeepSeek从一个鲜为人知、由量化对冲基金支持的衍生团队,一跃成为中国推动开源AI的最重要象征。

中国选择拥抱开源并不令人意外。中国拥有世界第二大AI人才集中地(仅次于美国),以及一个庞大且资源充足的科技产业。在ChatGPT进入主流之后,中国的AI行业经历了一次反思——并决心迎头赶上。推行开源战略被认为是动员开发者、扩大采用并设定标准的、最快的方式。

DeepSeek的成功给一个长期习惯于遵循全球标准而非制定标准的行业注入了信心。AI代理公司Atoms的首席执行官兼创始人Alex Chenglin Wu(Atoms是中国开源生态系统的主要贡献者之一)表示:“三十年前,没有中国人会相信他们能站在全球创新的中心。DeepSeek表明,凭借扎实的技术人才、支持性的环境和正确的组织文化,就有可能做出真正世界一流的工作。”

DeepSeek的突破时刻并非中国在开源领域的首次成功。阿里巴巴的Qwen实验室多年来一直在发布开源权重模型。到2024年9月,在DeepSeek发布V3之前很久,阿里巴巴就表示全球下载量已超过6亿次。在Hugging Face上,Qwen占2024年所有模型下载量的30%以上。北京人工智能研究院(BAAI)和AI公司百川(Baichuan)等其他机构也早在2023年就开始发布开源模型。

但自DeepSeek成功以来,该领域迅速扩大。像智谱AI(Z.ai,前身为Zhipu)、MiniMax、腾讯以及越来越多的较小实验室等公司都发布了在推理、编码和代理式任务方面具有竞争力的模型。模型数量的增加加速了技术进步。过去需要数月才能进入开源世界的能力,现在只需数周甚至数天就能出现。

清华大学计算机科学教授、AI初创公司ModelBest的首席科学家刘知远表示:“中国AI公司从开源策略中获得了切实的收益。通过发布优秀的研究成果,它们建立了声誉并获得了免费的宣传。”

刘教授指出,除了商业激励之外,开源还具有文化和战略意义。“在中国程序员社区中,开源已成为政治正确”,他将其视为对美国在专有AI系统方面的主导地位的回应。

这种转变也反映在机构层面。包括清华大学在内的大学开始鼓励AI开发和开源贡献,而政策制定者也开始正规化这些激励措施。去年8月,中国国务院发布了一项鼓励大学奖励开源工作的草案政策,提议学生在GitHub或Gitee等平台上做出的贡献可以最终计入大学学分。

Hugging Face负责全球AI工作的Tiezhen Wang表示,尽管势头日益增强并形成了良性循环,中国对开源模型的推动在短期内可能会持续下去,但其长期可持续性仍然取决于财务业绩。今年1月,Z.ai和MiniMax模型实验室在香港上市。Wang说:“目前,重点是做大蛋糕。接下来的挑战是弄清楚每家公司如何确保自己的份额。”

下一波模型将更具针对性——且更强大

中国的开源模型不仅在下载量上领先,在多样性上也处于领先地位。阿里巴巴的Qwen已成为流通中最多元化的开源模型家族之一,提供了一系列针对不同用途优化的变体。其产品线涵盖了可以运行在单个笔记本电脑上的轻量级模型,以及专为数据中心部署设计的大型、数百亿参数的系统。Qwen拥有社区创建的许多针对特定任务的变体:“指令”(instruct)模型擅长遵循命令,“代码”(code)变体则专注于编程。


尽管这种策略并非中国实验室独有,但Qwen是第一个推出如此多高质量选项的开源模型家族,让人感觉它像一个完整的产品线——而且是免费使用的。

这些发布的开源权重特性也使得其他人可以很容易地通过微调(fine-tuning)和蒸馏(distillation,即训练一个较小的模型来模仿一个较大的模型)等技术对其进行改造。根据AI研究员Nathan Lambert的ATOM(American Truly Open Models)项目数据,截至2025年8月4日,源自Qwen的模型变体占Hugging Face上新语言模型衍生品的“40%以上”,而Llama的比例已降至约15%。这意味着Qwen已成为所有“混音”(remixes)的默认基础模型。

这种模式凸显了更小、更专业化模型的价值。刘教授说:“计算能力和能源是任何部署的真实限制。”他告诉MIT Technology Review,小型模型的兴起是为了让AI的运行成本更低,并让更多人更容易使用。他的公司ModelBest专注于设计用于在手机、汽车和其他消费硬件等设备上本地运行的小型语言模型。

虽然普通用户可能只通过网络或应用程序与AI进行简单对话,但具有一定技术背景的AI模型“高级用户”正在试验赋予AI更大的自主权来解决大规模问题。OpenClaw是一个最近在AI黑客圈子中走红的开源AI代理,它允许AI接管你的计算机——它可以24/7运行,在没有监督的情况下处理你的电子邮件和工作任务。

OpenClaw,以及许多其他开源工具一样,允许用户通过应用程序编程接口(API)连接到不同的AI模型。在OpenClaw发布后的几天内,该团队透露Kimi的K2.5已经超越Claude Opus,成为使用率最高的AI模型——按Token数计算,这意味着它处理的用户提示和模型响应文本总量最多。

成本是中国模型获得关注的一个主要原因,但将它们视为西方前沿系统的“复制品”则是错误的,Wang建议道。像任何产品一样,一个模型只需要对当前任务足够好即可。

中国的开源模型格局也变得越来越专业化。上海人工智能实验室等研究机构发布了专注于科学和技术任务的模型;腾讯的几个项目则专门针对音乐生成。像DeepSeek的母公司高飞(High-Flyer)这样的量化金融公司Ubiquant,发布了一个旨在进行医学推理的开源模型。

与此同时,中国实验室的创新架构理念正被更广泛地采纳。DeepSeek发表了关于模型效率和内存的研究工作;压缩模型注意力“缓存”的技术,在基本保持性能的同时降低了内存和推理成本,引起了研究界极大的关注。

Wang说:“这些研究突破的影响因其开源和能被该领域快速采纳而被放大。”

中国开源模型将成为全球AI构建者的基础设施

硅谷对中国模型的采用也在增加。Andreessen Horowitz的普通合伙人Martin Casado给出了一个数字:根据他在X上发布的一篇文章,在采用开源技术栈的初创公司中,约有80%的可能性正在运行中国开源模型。使用数据也讲述了类似的故事。OpenRouter是一个追踪用户通过其API使用不同AI模型的中间件,数据显示,中国开源模型的的使用率已从2024年底的几乎为零,上升到最近几周的近30%。

全球需求也在上升。智谱AI因需求激增而限制了其GLM编码计划(基于其旗舰GLM模型的编码工具)的新订阅,理由是计算资源受限。值得注意的是需求来源:CNBC报道称,该系统的用户群主要集中在美国和中国,其次是印度、日本、巴西和英国。

Hugging Face的Wang说:“中国和美国的开源生态系统紧密相连。”许多中国开源模型在训练和部署时仍然依赖英伟达和美国的云平台,这使得商业联系依然紧密。人才流动性也很高:研究人员跨越国界和公司流动,许多人仍然作为一个全球社区运作,在公开场合分享代码和想法。

正是这种相互依赖性让中国开发者对当前时刻感到乐观:工作成果得以传播、被重新混合,并最终体现在产品中。但开放性也可能加速竞争。Anthropic的首席执行官Dario Amodei在DeepSeek 2025年发布后表达了类似观点:他写道,出口管制“无法避免美国和中国之间的竞争”,如果美国AI公司想要获胜,“就必须拥有更好的模型。”

在过去十年中,中国科技在西方的故事一直是宏大期望最终遭遇审查、限制和政治抵制。这一次,出口的不再仅仅是一个应用程序或消费平台。它成为了其他人构建的底层模型层。这是否会产生不同的结果,仍是一个悬而未决的问题。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区