📢 转载信息
原文链接:https://www.qbitai.com/2025/10/339082.html
原文作者:量子位
终于摘掉了“0产品0收入估值840亿”的帽子!
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
Thinking Machines Lab发布了他们的首个产品:Tinker,旨在让大模型的微调过程变得像修改Python代码一样简单直观。
联合创始人翁荔表示:“GPU价格昂贵,基础设施的搭建极其复杂,这些都给研究人员和从业者使用前沿模型带来了巨大挑战。Tinker是我们提供高质量研究工具、提高研究生产力的第一步。”


知名AI专家卡帕西(Andrej Karpathy)对该产品评价极高,称其“很酷”。他指出,与传统的“上传数据,我们帮你训练”的模式不同,Tinker允许研究人员保留对数据、损失函数和算法本身约90%的控制权,同时自动处理了基础设施、LLM的前向/后向传播以及分布式训练等繁琐的底层工作。

与此同时,有消息称Thinking Machines Lab正致力于“重新发明一个OpenAI”——构建一个像OpenAI早期那样专注于公开分享研究成果、给予研究人员更多自由度的组织。

Tinker:灵活且强大的微调API
Tinker本质上是一个用于微调语言模型的灵活API,其核心使命是降低前沿模型研究和定制化的门槛,让研究人员能够专注于算法和数据,而无需管理底层基础设施。
目前,Tinker首批支持Qwen3和Llama3系列模型,实现模型切换仅需在Python代码中修改一个字符串即可。

Tinker的API提供了forward_backward
和sample
等底层训练步骤,同时自动化了调度、扩展和错误恢复等工作。

此外,Tinker还利用LoRA技术,使多个训练任务能够共享相同的GPU资源,从而降低成本并支持更多实验并行运行。

除了云托管服务,Tinker还开源了Cookbook库,其中包含各种现成的后训练方法实现。

有微软研究员对Tinker的代码库进行了分析,发现其采用更经典的REINFORCE算法(配合优势函数),而非DeepSeek提出的GRPO方法,且没有使用梯度裁剪。其梯度更新策略概括为:
新参数 = 原参数 + 学习率 × 优势值 × 对数概率的梯度

Tinker受到了业界的广泛关注。AI基础设施公司Anyscale的CEO Robert Nishihara等Beta测试者认为,Tinker在“抽象化和可调性之间取得了卓越的平衡”。普林斯顿、斯坦福、伯克利和Redwood Research的研究团队也已使用Tinker取得了显著成果。

卡帕西指出,社区仍在探索微调相比直接提示(Prompting)大模型的优势。目前看来,微调不仅仅是改变输出风格,更多是缩小任务范围。当训练样本充足时,微调一个专门处理特定任务的小模型,比为大模型构建复杂的Few-shot Prompt更有效率。
随着AI应用越来越依赖大规模的流水线系统,其中多个大模型协作完成任务,Tinker的出现使得在流程的任意环节中实验和部署最佳微调方案成为可能。

附录:OpenAI的社交化尝试
与Thinking Machines Lab试图重塑AI研究的理想主义不同,OpenAI似乎正朝着更像Meta的方向发展。
除了Sora 2驱动的“AI抖音”之外,ChatGPT的App代码中也泄露了“社交模式”的迹象。具体来说,推送通知功能中包含了来自“ChatGPT”和“其他用户”的消息,暗示着群聊模式的出现。

配套的设置头像和昵称功能也已出现,让人意想不到的是,ChatGPT中的“Chat”未来或许也包括了人与人之间的聊天。

参考链接:
[1]https://thinkingmachines.ai/blog/announcing-tinker/
[2]https://x.com/lilianweng/status/1973455232341516731
[3]https://x.com/theinformation/status/1973043939667058817
[4]https://x.com/karpathy/status/1973468610917179630
[5]https://x.com/DimitrisPapail/status/1973470706135605534
[6]https://x.com/btibor91/status/1973512279141622185
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
评论区