📢 转载信息
原文链接:https://techcrunch.com/2025/10/16/why-ai-startups-are-taking-data-into-their-own-hands/
原文作者:Russell Brandom
AI浪潮下的新趋势:初创公司为何要亲手收集和掌控训练数据?
今年夏天的一个星期里,一位名叫Taylor的数据自由职业者和她的室友在额头上绑着GoPro摄像机,记录下她们绘画、雕塑和做家务的全过程。她们正在训练一个AI视觉模型,小心翼翼地同步拍摄素材,以便系统能从多个角度观察同一行为。这项工作在很多方面都非常困难,但她们得到了丰厚的报酬——这让Taylor能将大部分时间用于艺术创作。
“我们醒来,做完日常活动,然后把摄像机绑在头上,同步时间记录,”她告诉我。“然后我们做早餐、洗碗。接着,我们就会分开做各自的艺术创作。”
她们受雇每天提供五小时的同步视频素材,但Taylor很快发现,为了留出足够的休息和身体恢复时间,她需要每天投入七个小时进行这项工作。
“这会让你头疼,”她说。“当你摘下摄像机时,额头上会留下一个红色的方块。”
Taylor(为保护隐私未透露全名)是AI公司Turing Labs的数据自由职业者,该公司将她引荐给了TechCrunch。Turing的目标不是教AI如何制作油画,而是获取关于序列问题解决和视觉推理等更抽象的技能。与大型语言模型不同,Turing的视觉模型将完全依赖视频进行训练——而这些视频大部分将由Turing直接收集。
与Taylor这样的艺术家一起,Turing还在与厨师、建筑工人和电工签约——任何需要用手工作的人。Turing的首席AGI官Sudarshan Sivaraman告诉TechCrunch,手工收集数据是获得足够多样化数据集的唯一途径。
“我们为许多不同类型的蓝领工作这样做,就是为了在预训练阶段拥有数据多样性,”Sivaraman告诉TechCrunch。“收集完所有这些信息后,模型将能够理解特定任务是如何完成的。”
💡 广告插播:TechCrunch Disrupt 大会闪购
DISRUPT 闪购优惠:截至10月17日,立省高达$624!Netflix、微软、Box、Phia、a16z、ElevenLabs、Wayve、Hugging Face、Elad Gil、Vinod Khosla——超过250位行业巨头将带来200多场旨在为初创企业增长提供洞察、磨砺竞争优势的会议。在10月17日前抢票,立省高达$624。
📍 旧金山 | 2025年10月27日至29日
Turing在视觉模型上的工作,反映了AI公司处理数据方式的日益转变。过去,训练数据集可以自由地从网络上抓取,或由低薪标注员收集;而现在,公司愿意为精心策划的数据支付高昂的费用。
随着AI的原始算力已成定局,公司正将专有训练数据视为竞争优势。而且,他们不再将任务外包给承包商,而是倾向于自己承担这项工作。
电子邮件公司Fyxer(使用AI模型对电子邮件进行分类和起草回复)就是一个例子。
创始人Richard Hollingsworth在进行了一些早期实验后发现,最好的方法是使用一系列具有高度专注训练数据的小型模型。与Turing不同,Fyxer是在别人的基础模型上构建的——但底层洞察是相同的。
“我们意识到,真正决定性能的是数据的质量,而不是数量,”Hollingsworth告诉我。
在实际操作中,这意味着一些非传统的员工选择。Hollingsworth说,在早期,Fyxer的工程师和管理者有时会被四倍数量的行政助理所超越,这些助理负责训练模型。
“我们雇佣了许多经验丰富的行政助理,因为我们需要就一封邮件是否应该回复等基本问题进行训练,”他告诉TechCrunch。“这是一个非常以人为本的问题。找到优秀的人才非常困难。”
数据收集的步伐从未放缓,但随着时间的推移,Hollingsworth对数据集变得更加珍视,在后期训练时,他更倾向于选择较小、经过更严格策划的数据集。正如他所说,“真正决定性能的是数据的质量,而不是数量。”
这一点在合成数据被使用时尤为突出,合成数据会放大可能出现的训练场景范围,以及原始数据集中任何缺陷的影响。在视觉方面,Turing估计其75%到80%的数据是合成的,从原始GoPro视频中推算而来。但这使得保持原始数据集的高质量变得更加重要。
“如果预训练数据本身的质量不高,那么无论你对合成数据做什么,其质量也不会高,”Sivaraman说。
除了质量问题,将数据收集保留在内部还存在强大的竞争逻辑。对于Fyxer来说,艰苦的数据收集工作是公司对抗竞争的最佳护城河之一。在Hollingsworth看来,任何人都可以将开源模型集成到他们的产品中——但并非每个人都能找到专家标注员来将其训练成一个可行的产品。
“我们相信最好的方法是通过数据,”他告诉TechCrunch,“通过构建定制模型,通过高质量的人工引导数据训练来实现。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区