📢 转载信息
原文作者:Sarah Perez
在今年早些时候宣布了开放AI生态系统框架之后,非营利组织Creative Commons(CC)现已表示支持“付费抓取”(pay-to-crawl)技术——这是一种在机器(如AI网络爬虫)访问网站内容时自动补偿网站内容的系统。
CC最著名的是推动了许可运动,该运动允许创作者在保留版权的同时共享其作品。今年7月,该组织宣布了一项计划,为控制数据的公司与希望在其上进行训练的AI提供商之间的数据集共享提供法律和技术框架。
现在,该非营利组织初步支持付费抓取系统,称其“谨慎支持”。
CC在一篇博客文章中表示:“负责任地实施付费抓取,可能代表了一种让网站维持其内容创作和分享,并管理替代性使用的方式,使内容在可能不会被分享或会消失在更严格的付费墙后面的情况下仍能保持公开可访问。”
付费抓取的理念由Cloudflare等公司率先提出,其核心思想是向AI机器人每次抓取网站以收集内容用于模型训练和更新时收费。
过去,网站通常允许网络爬虫免费索引其内容以便收录到谷歌等搜索引擎中。它们通过网站在搜索结果中被列出而受益,这带来了访客和点击量。然而,随着AI技术的发展,这种动态发生了变化。消费者通过AI聊天机器人获得答案后,不太可能点击进入源网站。
这种转变已经对发布商造成了毁灭性的打击,导致搜索流量锐减,并且这种趋势似乎没有停止的迹象。
另一方面,付费抓取系统可以帮助发布商从AI对其底线造成的打击中恢复过来。此外,对于那些没有影响力与AI提供商进行一次性内容交易的小型网站发布商来说,这种系统可能更有效。像OpenAI与Condé Nast、Axel Springer等公司之间,以及Perplexity与Gannett、亚马逊与《纽约时报》以及Meta与多家媒体发布商之间达成了重大的交易,还有其他许多交易,包括微软。
CC对其支持付费抓取提出了一些注意事项,指出此类系统可能会集中网络权力。它还可能
CC建议了一系列负责任的付费抓取原则,包括不将付费抓取设置为所有网站的默认设置,并避免制定笼统的网络规则。此外,它表示付费抓取系统应允许限速(throttling),而不仅仅是阻止,并且应维护公共利益访问。它们还应该是开放的、可互操作的,并使用标准化组件构建。
Cloudflare不是唯一投资于付费抓取领域的公司。
微软也在为发布商构建一个AI市场,像ProRata.ai和TollBit这样的初创公司也开始这样做。另一个名为RSL Collective的组织宣布了其关于新标准Really Simple Licensing (RSL)的规范,该标准将规定爬虫可以访问网站的哪些部分,但不会实际阻止爬虫。Cloudflare、Akamai和Fastly此后采用了RSL,该标准得到了雅虎、Ziff Davis、O'Reilly Media等公司的支持。
CC也与其他机构一样,宣布了对RSL的支持,与其更广泛的AI时代技术和工具开发项目CC Signals相一致。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区