目 录CONTENT

文章目录

让世界震惊的DeepSeek AI模型的中国金融才俊

Administrator
2025-12-09 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.nature.com/articles/d41586-025-03845-4

原文作者:Elizabeth Gibney


今年一月,一家中国公司的一则声明震惊了人工智能界。DeepSeek公司出人意料地发布了其强大而廉价的R1模型,瞬间表明美国在人工智能领域的领先程度远没有许多专家想象的那么遥远。

这场爆炸性公告背后的推手是梁文峰,这位40岁的金融分析师出身的创业者。他被认为通过将AI算法应用于股票市场赚取了数百万美元,并于2023年利用这笔资金在杭州创立了DeepSeek公司。梁文峰十分低调,只接受了少数中国媒体的采访(他拒绝了《自然》杂志的采访请求)。

Liang Wenfeng speaking at a podium

梁文峰的模型与他本人的低调形成了鲜明对比。R1是一款“推理型”大型语言模型(LLM),它擅长通过分解步骤来解决复杂任务,例如数学和编码。它是第一个以开放权重形式发布的模型,这意味着该模型可以被免费下载和在此基础上构建,因此对于希望根据自身领域调整算法的研究人员来说是一大福音。DeepSeek的成功似乎促使中国美国的其他公司纷纷效仿,发布了自己的开放模型。

人工智能专家表示,尽管R1在许多能力上与包括ChatGPT在内的美国最佳模型不相上下,但其训练成本却远低于竞争对手公司。例如,Meta的Llama 3 405B模型的训练成本是其十倍以上。DeepSeek对透明度的追求还体现在,当该模型在九月成为第一个接受同行评审的主要LLM时,他们公布了构建和训练R1的细节D. Guo et al. Nature 645, 633–638; 2025)。通过公布其“配方”,DeepSeek向其他AI研究人员展示了如何训练一个推理模型。

“在许多方面,DeepSeek的影响力巨大,”总部位于纽约的社区AI平台Hugging Face的研究员Adina Yakefu说。

AI领域的巅峰成就与梁文峰的成长背景——他是在广东省一个村庄由两位小学教师抚养长大的——形成了鲜明对比。他的高等教育把他带到了杭州著名的浙江大学,并于2010年获得工程硕士学位;他的硕士论文涉及制作算法来跟踪视频中的物体。他很快将对人工智能的热爱应用于金融市场,并于2015年共同创立了对冲基金高飞(High-Flyer),于2023年分拆出DeepSeek。

当时,中国在开发LLM方面面临一个障碍。美国出口管制禁止中国公司购买某些由美国芯片制造商英伟达(NVIDIA)生产的、适合训练LLM的强大图形处理器(GPU)。但梁文峰早已储备充足。在过去十年里,他购买了10,000块英伟达GPU,这源于他对这些芯片能进行何种研究的好奇心。在2023年接受中国媒体36Kr的一次采访中,他将购买这些GPU比作一个人购买钢琴:“你可以负担得起,而且有一群人渴望弹奏音乐。”

与许多西方AI企业家一样,梁文峰的目标是实现通用人工智能——即在认知任务上与人类一样熟练的AI系统——并且他围绕这一目标塑造了他的公司,前DeepSeek研究员Benjamin Liu说。公司在招聘时优先考虑一个人的潜力而非经验水平(DeepSeek R1论文的一位作者仍在读中学),并且公司层级结构很少,研究人员可以自己决定工作内容。据称,梁文峰深度参与研究,刘说:“即使像我这样的实习生,也被当作拥有有意义责任的全职员工来对待。”




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区