📢 转载信息
原文链接:https://cn.technode.com/post/2025-10-23/reddit-scraping-lawsuit/
原文作者:Jonas
Reddit 针对使用其海量用户生成内容训练人工智能模型的公司提起的诉讼,在初步阶段取得了一次重要胜利。一名联邦法官在本周裁定,Reddit 的服务条款确实明确禁止未经授权的数据抓取行为,并驳回了 OpenAI 和谷歌等公司提出的初步动议。
然而,法官也明确表示,这些抓取行为是否违反了《计算机欺诈和滥用法案》(CFAA)在法律上仍有待商榷。这一裁决为科技公司在利用公共网络数据进行人工智能模型训练方面设定了关键的法律先例,但显然,法律战役远未结束。
Reddit 于 2023 年 2 月首次对几家大型科技公司提起诉讼,指控它们未经许可抓取了该平台的大量数据,并将其用于训练 LLM(大型语言模型)。当时,Reddit 指出,它曾明确告知潜在的抓取者,其数据不应被用于训练 AI 模型,特别是对于那些不付费的用户而言。
关键法律裁决
法官在周三的裁决中,驳回了被告提出的“不请自来”(contributory infringement)的辩护,即被告辩称,Reddit 试图利用其用户数据的价值来牟利,因此不应在诉讼中获得救济。
法官写道:“Reddit 明确要求用户同意其服务条款,其中包含明确禁止抓取的条款。被告人并未声称他们被允许抓取 Reddit 的数据。因此,原告(Reddit)提出了一个可行的违反合同的索赔。”
然而,法官也做出了对 AI 公司有利的裁决,即 **CFAA 诉讼理由不成立**。CFAA 是一项旨在禁止未经授权访问计算机系统的联邦法律。
法官解释说:“CFAA 的核心在于未经授权访问受保护的计算机系统。Reddit 的数据是公开可访问的,它没有明确地、技术性地禁止抓取。”
这一关键点可能会使 Reddit 在后续的审理中处于不利地位,因为被告公司声称他们的行为符合 CFAA 的界定,不构成非法访问计算机系统。
AI 抓取之争仍在继续
OpenAI 和谷歌(以及其他被告)的辩护核心是,通过公共网站抓取信息,即使是出于训练 AI 模型的目的,也并未违反 CFAA,因为这些信息可以被任何拥有网络浏览器的用户访问。
这一论点在以往的几次案件中得到了支持,比如针对 LinkedIn 的案件,最高法院在 2022 年裁定,抓取公开网站并不一定构成违反 CFAA 的行为。
Reddit 律师团队则认为,AI 模型训练所需的抓取是如此大规模和高频,以至于它超出了普通用户访问的范畴,构成了“未经授权的访问”。法官认为,这个论点在技术上是站得住脚的,但其法律效力仍在审理中。
“本法院现在裁定,Reddit 没有充分说明被告的行为构成了超出授权范围的访问,”法官写道,“因为 Reddit 并没有提出关于被告访问其服务器的任何技术性限制措施。”
这意味着,如果 Reddit 想要在后续的诉讼中获胜,它需要证明它曾采取了技术手段来阻止或限制这些大规模的抓取行为。
对 AI 行业的潜在影响
此案的结果对依赖公共数据流来训练和改进 AI 模型的公司来说至关重要。
- 合同法胜利:Reddit 在合同法方面的胜利,强调了服务条款在限制数据使用方面的法律效力。对于其他平台来说,明确的服务条款将成为未来诉讼中的有力武器。
- CFAA 的灰色地带:CFAA 诉讼的保留,表明法院仍在努力将传统网络安全法应用于新的 AI 训练场景。如果 Reddit 最终在 CFAA 方面败诉,可能会为 AI 公司使用公共网络数据铺平道路。
- 未来的防御策略:此案的后续发展将迫使网站运营商(如 Reddit)考虑部署更严格的技术限制,以限制自动化抓取,从而增强其在数据抓取诉讼中的法律地位。
目前,双方都已成功地将案件推进到下一阶段。Reddit 首席法务官表示,他们对法官在合同方面支持他们的决定感到“鼓舞”,并期待在下一阶段继续捍卫其内容和用户社区的权益。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区