目 录CONTENT

文章目录

英伟达被指控联系“影子图书馆”获取 500TB 盗版数据以训练 AI 模型

Administrator
2026-01-20 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.ithome.com/0/914/860.htm

原文作者:远洋


IT之家 1 月 20 日消息,据 Torrentfreak 报道,英伟达高管曾批准使用“安娜档案馆”的数百万本盗版书籍,为其人工智能模型训练提供数据支持。在一项援引英伟达内部文件的集体诉讼案中,数位图书作者指控这家公司曾直接联系“安娜档案馆”,寻求该影子图书馆数据的高速访问权限。

据IT之家了解,芯片巨头英伟达一直是人工智能热潮中的主要财务受益者之一。得益于市场对其人工智能训练芯片及数据中心服务的旺盛需求,该公司营收大幅增长,且这一增长势头尚无见顶迹象。

除了销售市场炙手可热的硬件产品外,英伟达也在自主研发人工智能模型,包括 NeMo、Retro-48B、InstructRetro 以及 Megatron。与其他科技巨头的做法类似,这些模型均依托英伟达自研硬件,并借助海量文本库开展训练。

与其他科技公司一样,英伟达的模型训练方法也遭到版权方的强烈法律抵制,其中就包括图书作者。在多起诉讼中,作者们指控科技公司使用盗版书籍训练人工智能模型。

例如,2024 年初,数位作者就曾以涉嫌侵犯版权为由将英伟达告上法庭。在这起集体诉讼中,原告方主张,英伟达的人工智能模型是基于 Books3 数据集训练的,而该数据集包含了从盗版网站 Bibliotik 获取的受版权保护作品。由于上述行为未经版权方许可,作者们要求英伟达作出赔偿。

对此,英伟达辩称其行为属于“合理使用”,声称书籍对其人工智能模型而言不过是一组统计关联数据。然而,相关指控并未就此平息。相反,原告方在证据开示阶段发现了更多佐证。

上周五,原告方提交了经修订的起诉状,大幅扩大了诉讼范围。除新增更多涉案书籍、作者及人工智能模型外,诉状还纳入了更广泛的“影子图书馆”相关指控。

包括阿布迪 · 纳泽米安在内的原告作者,如今援引了英伟达的多份内部邮件及文件,指出该公司曾蓄意下载数百万本受版权保护的图书。这份新诉状指出,“市场竞争压力驱使英伟达走上盗版之路”,其中就包括与颇具争议的“安娜档案馆”图书馆展开合作。

诉状称,英伟达数据战略团队的一名成员曾主动联系“安娜档案馆”,旨在了解这家盗版图书馆能为这家企业提供哪些资源。诉状中提到:“因急需海量图书数据,英伟达主动接洽了现存规模最大、也最为肆无忌惮的影子图书馆 ——‘安娜档案馆’,洽谈获取其数百万份盗版资料,并探讨将‘安娜档案馆’纳入其大语言模型预训练数据的可行性。由于‘安娜档案馆’对其盗版资源的‘高速访问权限’收取数万美元费用…… 英伟达试图了解获取该数据高速访问权限的具体方案。”

诉状显示,“安娜档案馆”随后向英伟达警示,其图书馆内的藏书均为非法获取和留存。鉴于该网站此前曾与其他人工智能公司合作并耗费大量时间,这家盗版图书馆要求英伟达高管确认,其是否已获得内部授权推进相关合作。

据称,英伟达方面在一周内就批准了这项合作,随后“安娜档案馆”便向这家芯片巨头开放了盗版书籍的访问权限。诉状称:“在联系‘安娜档案馆’一周后,且在被告知其藏书存在非法性的数天后,英伟达管理层仍‘开绿灯’批准推进这项盗版合作。‘安娜档案馆’向英伟达提供了数百万本受版权保护的盗版书籍。”

诉状指出,“安娜档案馆”承诺向英伟达开放约 500TB 的数据访问权限,其中包含数百万本图书,这些图书通常仅能通过“互联网档案馆”的数字借阅系统获取,而该档案馆本身也已身陷相关诉讼。

诉状并未明确提及英伟达最终是否向“安娜档案馆”支付了数据访问费用。

此外,值得注意的是,英伟达还被指控使用了其他盗版数据源。除此前涉案的 Books3 数据库外,新诉状还指出,该公司曾从“图书馆基因”(LibGen)、“科学枢纽”(Sci-Hub)以及“Z 图书馆”(Z-Library)等平台下载图书。

原告方称,英伟达除了自身下载并使用盗版书籍训练人工智能模型外,还向企业客户分发脚本和工具,使其能够自动下载包含盗版 Books3 数据集的“The Pile”数据库。

这些指控衍生出两项新的诉讼主张 —— 辅助侵权与共同侵权,原告方认为英伟达通过为客户获取盗版数据集提供便利,从中牟利。

基于上述及其他相关指控,作者们要求英伟达就其所遭受的损失作出赔偿。该诉求不仅适用于本案具名原告,也涵盖未来可能加入这起集体诉讼的其他数百位作者。

据目前掌握的信息,这是美国大型科技公司与“安娜档案馆”的往来函件首次被公开披露。而就在不久前,“安娜档案馆”刚丢失了多个域名,此次事件无疑将进一步提升这家盗版图书馆的公众关注度。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区