📢 转载信息
原文链接:https://www.qbitai.com/2025/10/339082.html
原文作者:量子位
# 告别“0产品0收入”:Thinking Machines Lab 发布首款重磅产品 Thinker
由AI领域明星人物 Andrej Karpathy (卡帕西)、陈丹琦、翁荔等人联合创立的 **Thinking Machines Lab** 终于发布了他们的首个产品:
Thinker。这款产品旨在大幅降低大模型微调(Fine-tuning)的门槛,让整个过程变得像修改Python代码一样简单直观。
这一发布也让这家公司摘掉了此前“0产品0收入,估值840亿”的略带尴尬的帽子。
联合创始人翁荔表示,GPU价格昂贵和复杂的基础设施设置,使得研究人员难以使用前沿模型进行具有挑战性的研究。Thinker正是为了提供高质量的研究工具、提升研究生产力的第一步。
大神卡帕西对Thinker给予了高度评价,称其“很酷”。
与传统的“上传数据,我们帮你训练”的模式不同,Thinker将控制权还给了研究者,让他们保留了约90%的控制权,主要集中在数据、损失函数和算法本身。而那些繁琐的基础设施、LLM的前向/后向传播、分布式训练等硬骨头,则由Thinker自动处理。
## 追求开放与自由:重塑AI研究环境
与此同时,有消息称 Thinking Machines Lab 正试图**“重建一个更开放的 OpenAI”**——一个回归到早期版本、更少官僚主义、公开分享研究成果、给予研究人员更多自由度的组织。
# Thinker 深度解析:灵活的微调API
Thinker本质上是一个**灵活的语言模型微调API**,其核心目标是让研究人员能在实验中完全控制算法和数据,而无需为基础设施管理而烦恼,这完美契合了Thinking Machines Lab让更多人定制前沿模型的使命。
Thinker首批支持 Qwen3 和 Llama3 系列模型。用户只需在Python代码中修改一个字符串,就能在不同大小的模型间切换。
Thinker的API提供了 `forward_backward` 和 `sample` 等底层训练步骤,同时自动处理调度、扩展和错误恢复。
此外,它还利用 LoRA 技术,使得多个训练任务可以共享同一个 GPU,有效降低成本并支持更多实验并行运行。
除了云托管服务,官方还开源了一个 **Tinker Cookbook 库**,其中包含了各种现成的后训练方法实现。
一位微软研究员对Tinker的代码库进行了深入分析,指出其在梯度更新策略上并未采用DeepSeek提出的GRPO方法,而是使用了更经典的 **REINFORCE 算法**,配合优势函数,没有使用梯度裁剪。其梯度更新策略简述如下:
**新参数 = 原参数 + 学习率 × 优势值 × 对数概率的梯度**
Tinker受到了业界的广泛关注。AI基础设施公司Anyscale的CEO Robert Nishihara等早期测试者认为,尽管市面上有许多微调工具,但Tinker在**“抽象化和可调性之间取得了卓越的平衡”**。
普林斯顿、斯坦福、伯克利和Redwood Research的研究团队已经基于Tinker取得了初步成果。
卡帕西也指出,社区正在探索微调相比直接Prompt大模型的优势:微调不只是改变风格,更多是**缩小任务范围**。当训练样本量足够大时,微调一个专门处理特定任务的小模型,远胜于为大模型构建复杂的Few-shot Prompt。
随着AI应用日益复杂,许多环节更适合使用微调而不是提示工程。Tinker的出现,正让研究者能更便捷地在流程的任意环节中实验出最佳的解决方案。
# 附录:OpenAI 的“社交化”转型
Thinking Machines Lab 致力于重塑开放的研究环境,而 OpenAI 似乎正在加速向“社交巨头”Meta 靠拢。
除了传闻中的 Sora 2 驱动的“AI 抖音”之外,ChatGPT 的 APP 代码中还被扒出了**“社交模式”**的痕迹。推送通知功能中出现了 ChatGPT 和**“其他用户”**发送的消息,这暗示着群聊模式的可能性。
与社交功能配套的设置头像和昵称功能也已出现。
着实让人没想到,ChatGPT 中的 “Chat” 也可以包含人类之间的互动聊天了。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
评论区