估值840亿的明星公司发布首款产品：大模型微调门槛骤降，代码般简单！-青云TOP|AI综合资源站|AI学习交流导航平台|AICG创作应用资源中心

📢 转载信息

原文链接：https://www.qbitai.com/2025/10/339082.html

原文作者：量子位

# 告别“0产品0收入”：Thinking Machines Lab 发布首款重磅产品 Thinker 由AI领域明星人物 Andrej Karpathy (卡帕西)、陈丹琦、翁荔等人联合创立的 **Thinking Machines Lab** 终于发布了他们的首个产品：Thinker。这款产品旨在大幅降低大模型微调（Fine-tuning）的门槛，让整个过程变得像修改Python代码一样简单直观。这一发布也让这家公司摘掉了此前“0产品0收入，估值840亿”的略带尴尬的帽子。

联合创始人翁荔表示，GPU价格昂贵和复杂的基础设施设置，使得研究人员难以使用前沿模型进行具有挑战性的研究。Thinker正是为了提供高质量的研究工具、提升研究生产力的第一步。

大神卡帕西对Thinker给予了高度评价，称其“很酷”。与传统的“上传数据，我们帮你训练”的模式不同，Thinker将控制权还给了研究者，让他们保留了约90%的控制权，主要集中在数据、损失函数和算法本身。而那些繁琐的基础设施、LLM的前向/后向传播、分布式训练等硬骨头，则由Thinker自动处理。

## 追求开放与自由：重塑AI研究环境与此同时，有消息称 Thinking Machines Lab 正试图**“重建一个更开放的 OpenAI”**——一个回归到早期版本、更少官僚主义、公开分享研究成果、给予研究人员更多自由度的组织。

# Thinker 深度解析：灵活的微调API Thinker本质上是一个**灵活的语言模型微调API**，其核心目标是让研究人员能在实验中完全控制算法和数据，而无需为基础设施管理而烦恼，这完美契合了Thinking Machines Lab让更多人定制前沿模型的使命。 Thinker首批支持 Qwen3 和 Llama3 系列模型。用户只需在Python代码中修改一个字符串，就能在不同大小的模型间切换。

Thinker的API提供了 `forward_backward` 和 `sample` 等底层训练步骤，同时自动处理调度、扩展和错误恢复。

此外，它还利用 LoRA 技术，使得多个训练任务可以共享同一个 GPU，有效降低成本并支持更多实验并行运行。

除了云托管服务，官方还开源了一个 **Tinker Cookbook 库**，其中包含了各种现成的后训练方法实现。

一位微软研究员对Tinker的代码库进行了深入分析，指出其在梯度更新策略上并未采用DeepSeek提出的GRPO方法，而是使用了更经典的 **REINFORCE 算法**，配合优势函数，没有使用梯度裁剪。其梯度更新策略简述如下： **新参数 = 原参数 + 学习率 × 优势值 × 对数概率的梯度**

Tinker受到了业界的广泛关注。AI基础设施公司Anyscale的CEO Robert Nishihara等早期测试者认为，尽管市面上有许多微调工具，但Tinker在**“抽象化和可调性之间取得了卓越的平衡”**。普林斯顿、斯坦福、伯克利和Redwood Research的研究团队已经基于Tinker取得了初步成果。

卡帕西也指出，社区正在探索微调相比直接Prompt大模型的优势：微调不只是改变风格，更多是**缩小任务范围**。当训练样本量足够大时，微调一个专门处理特定任务的小模型，远胜于为大模型构建复杂的Few-shot Prompt。随着AI应用日益复杂，许多环节更适合使用微调而不是提示工程。Tinker的出现，正让研究者能更便捷地在流程的任意环节中实验出最佳的解决方案。

# 附录：OpenAI 的“社交化”转型 Thinking Machines Lab 致力于重塑开放的研究环境，而 OpenAI 似乎正在加速向“社交巨头”Meta 靠拢。除了传闻中的 Sora 2 驱动的“AI 抖音”之外，ChatGPT 的 APP 代码中还被扒出了**“社交模式”**的痕迹。推送通知功能中出现了 ChatGPT 和**“其他用户”**发送的消息，这暗示着群聊模式的可能性。

与社交功能配套的设置头像和昵称功能也已出现。

着实让人没想到，ChatGPT 中的 “Chat” 也可以包含人类之间的互动聊天了。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，小白也可以简单操作。

目录CONTENT

估值840亿的明星公司发布首款产品：大模型微调门槛骤降，代码般简单！

评论区